browser-use Web-UI
一、browser-use是什么
Browser Use 是一款开源Python库,专为大语言模型设计的智能浏览器工具,目的是让 AI 能够像人类一样自然地浏览和操作网页。它支持多标签页管理、视觉识别、内容提取,并能记录和重复执行特定动作。Browser Use 还支持开发者自定义动作,如保存数据到数据库,文件等。支持多种主流的大型语言模型,如 DeepSeek,GPT-4 和 Claude等,并支持同时运行多个任务,具备自我修正功能,从而提高任务执行的准确性和效率。
官网:https://browser-use.com/
项目网址 :https://github.com/browser-use/browser-use
Browser-use采用的技术栈为:
- 1、Observation:页面解析层,采用DOM解析+截图辅助的非视觉+视觉方案。
- DOM解析(HTML + XPath):Browser-use通过底层框架(如Playwright)获取当前页面的完整HTML结构,并提取文本、元素属性等关键信息。
- 截图辅助:在某些情况下(如验证码识别、动态图形验证),纯HTML解析可能无法直接获取信息,此时系统会自动或按需生成页面截图,并将截图作为辅助输入传递给视觉模型
- 2、Thought:核心决策层,分析Observation提供的页面信息并生成操作指令。
- 3、Action:指令执行层,微软开发的Playwright作为浏览器控制框架直接与浏览器交互完成自动化任务。Playwright作为新一代高性能UI自动化测试框架,提供低延迟、高稳定性的浏览器控制能力,支持快速页面加载和元素操作。
二、browser-use webui 主要功能
提供了全新的网页界面,简单好用,方便操作。
支持更多大语言模型,比如 Gemini、OpenAI、Azure 等,哦,还有最近爆火的国产大模型 DeepSeek,未来还会加更多。
支持用自己的浏览器,不用再反复登录,还能录屏。
定制了更智能的 Agent,通过优化后的提示让浏览器使用更高效。
使用场景
- 自动化任务:适合重复高频的浏览器操作任务,如表单填写,信息检索,文件下载
- 数据收集:适合爬取网络上的数据,如爬虫自动化测试:适合WEB UI
- 自动化测试,结合pytest轻松实现web自动化
简介:Browser Use 是一款开源Python库,专为大语言模型设计的智能浏览器工具。
目的:让 AI 能够像人类一样自然地浏览和操作网页。它支持多标签页管理、视觉识别、内容提取,并能记录和重复执行特定动作。
支持:支持多种主流的大型语言模型,如 DeepSeek,GPT-4 和 Claude等,并支持同时运行多个任务,具备自我修正功能,从而提高任务执行的准确性和效率。
应用场景:该项目可以部署在本地,也可以部署在线上。可以整理固定的文案,run agent 之后,可用于员工培训,可用于新员工入职,展示业务主要功能。
(一)下载与安装
一、下载项目克隆仓库
git clone https://github.com/browser-use/web-ui.git
二、进入项目
cd web-ui
三、设置python虚拟环境
1、安装 uv(高性能虚拟环境工具)
pip install uv
2、创建虚拟环境
uv venv --python 3.11 # 确保 Python 3.11+ 已安装
3、激活虚拟环境
source .venv/Scripts/activate
四、安装依赖
uv pip install -r requirements.txt
五、安装chrom浏览器的依赖
playwright install --with-deps chromium
或者所有浏览器的依赖
playwright install
六、配置环境变量
cp .env.example .env
(图里发错图了,少了个v ,说明:将env.example复制一份命名为env,然后到第八步,配置env文件)
七、查看Chrome详情
谷歌浏览器地址输入,即可查看:
chrome://version/
八、配置env文件
(记事本打开就可以)
备注:deepseek的api获取:
https://platform.deepseek.com/api_keys
需要充钱才可以用
九、运行web-ui
python webui.py --ip 127.0.0.1 --port 7788
十、运行方式,可通过git或者pycharm
1、开启虚拟环境:source .venv/Scripts/activate
2、输入启动命令:python webui.py --ip 127.0.0.1 --port 7788
(二)使用
一、登录平台
输入地址:127.0.0.1:7788
127.0.0.1:7788
二、关于浏览器的一些设置
三、运行,界面Demo 演示
输入要执行的任务就可以点击 Run Agent 了