1 配置omniparserserver
1.1 配置conda环境、下载依赖和权重
我建议按照OmniParser v2本地部署(1)部署OmniParser_v2模型先设置一次,其中所创造的conda环境,和这一步相似
1.2 启动omniparserserver
进入OmniParser/omnitool/omniparserserver
,激活conda环境后,python -m omniparserserver
启动服务器,显示下面的信息表示启动成功
2 配置omnibox
2.1 安装docker
2.2 下载windows11镜像
我这里直接下载的推荐的Windows 11 Enterprise Evaluation (90-day trial, English, United States),下面的信息随便填就行
然后下载指定镜像,把下载好的镜像改名为custom.iso
,放到OmniParser/omnitool/omnibox/vm/win11iso
2.3 启动VM管理脚本
进入OmniParser/omnitool/omnibox/scripts
,输入命令
./manage_vm.sh create
然后等待,它会一直提示waiting for a response from computer .....
,是正常的,多等一等,直到显示VM + server is up and running!
表示启动成功
3 配置gradio
进入OmniParser/omnitool/gradio,里面有个app.py
我建议把里面的最后一行的内容,修改成下面的情况,不然有可能因为使用了飞机而无法启动
运行该程序
进入它给的url即可进入ui界面
4 使用omnitool
我这里选择的使用通义模型,然后填入申请的API
我这里输入命令:关闭浏览器
左边是各种截图命令等等,右边是镜像演示,左边进行任务分析,然后在右边进行操作,试了几个简单的指令,发现并不是很智能,而且花费巨大,“打开浏览”这个操作需要0.182美元