vimGPT - 采用 GPT-4V 视觉模型,配合 Vimium 互联网浏览

大家好,又见面了,我是 GitHub 精选君!

背景介绍

在我们浏览网络的过程中,时常需要不断地切换鼠标和键盘进行操作,使得网络交互过程变得复杂。同时,对于视障人士来说,网络浏览更加困难。那么能否有一种方式,让我们只需使用键盘就能流畅地浏览网络,并且充分利用剪贴板和各类模型进行多模态交互呢?

今天要给大家推荐一个 GitHub 开源项目 ishan0102/vimGPT,该项目在 GitHub 有差不多 1000 Star,用一句话介绍该项目就是:“Browse the web with GPT-4V and Vimium”,只需使用键盘即可与轻松浏览互联网。

视频地址:~/Downloads/vimgpt.mov

项目介绍

开源项目 vimGPT 采用 GPT-4V 视觉模型,配合 Vimium(一款允许你仅用键盘即可浏览网络的 Chrome 扩展)来进行网络交互。VimGPT 为多模态模型提供了一个接口。利用它,你可以在不访问浏览器 DOM 的情况下,确定模型想要点击的内容。目前,项目还在摸索使用大语言模型(LLMs) 进行网络浏览的可能性,且有一定的阶段性成果。

如何使用

首先,确保你已经安装了 Python ,然后执行以下命令,安装 Python 必要的依赖:

pip install -r requirements.txt

然后,执行以下命令,下载 Vimium 到本地(使用 Playwright 时需要手动加载扩展):

./setup.sh

以上就是 vimGPT 的基础安装使用,你可以通过这个基础进行各种创新改造。

项目推介

vimGPT 是一个前沿的项目,虽然还在早期阶段,但已经展示了巨大的潜力,项目作者 Ishan 希望通过 vimGPT 探索多模态交互的前景。此外,项目 README 中详尽列出了他对项目未来发展的设想,包括使用更高清的图像、优化浏览体验、引入语音交互等。而且,vimGPT 为开发者提供了在混合现实环境中创建和测试新一代人工智能应用的可能性。让人工智能真正实现与人无缝打交道,让生活因此变得更加美好。

以下是该项目 Star 趋势图(代表项目的活跃程度):

更多项目详情请查看如下链接。

开源项目地址:https://github.com/ishan0102/vimGPT

开源项目作者:ishan0102

以下是参与项目建设的所有成员:

关注我们,一起探索有意思的开源项目。


更多精彩请扫码关注如下公众号。

Written on November 10, 2023