开源大型语言模型(LLMs)的兴起使得创建 AI 驱动的工具比以往任何时候都更容易,这些工具可以与 OpenAI 的 ChatGPT Operator 等专有解决方案相媲美。在这些开源模型中,DeepSeek R1 以其强大的推理能力、自由的可访问性和适应性而脱颖而出。通过将 DeepSeek R1 与 Browser Use 等工具相结合,您可以构建一个强大的、完全开源的 ChatGPT Operator 替代品,而无需花费数百美元进行高级订阅。
本文将指导您完成设置 DeepSeek R1 和浏览器使用的过程,以创建能够执行复杂任务的 AI 代理,包括 Web 自动化、推理和自然语言交互。
无论您是初学者还是经验丰富的开发人员,本分步指南都将帮助您入门。
什么是 ChatGPT Operator,为什么需要开源替代品?
ChatGPT Operator 是 OpenAI 提供的一项高级功能,允许用户创建能够执行复杂任务的高级 AI 代理,例如推理、Web 自动化和多步骤问题解决。
ChatGPT Operator 每月收费 200 美元,这使得个人、小型企业或预算有限的组织更难获得。
为什么需要开源替代方案?
虽然 ChatGPT Operator 功能强大,但它有几个限制,使开源替代方案具有吸引力:
-
成本: 每月 200 美元的订阅费对于许多用户来说可能令人望而却步。
-
数据隐私:使用专有 API 需要将数据发送到外部服务器,这可能不符合隐私政策或法规要求。
-
有限的定制:专有解决方案通常会限制微调或特定于任务的优化,从而限制它们对专业用例的适应性。
通过选择 DeepSeek R1 和 Browser Use 等开源工具,您可以克服这些挑战并解锁以下几个好处:
-
节省成本:DeepSeek R1 和 Browser Use 都是完全免费和开源的,无需订阅费用。
-
完全控制:在本地或您自己的服务器上托管工具可确保完全的数据隐私和安全
-
可定制性:您可以针对特定任务微调模型,将其与其他工具集成,并修改系统以满足您的独特要求。
开源方法不仅可以减少对专有平台的依赖,还可以让您能够构建针对您的需求量身定制的解决方案,同时保持对成本和数据的控制。
关键组件:DeepSeek R1 和浏览器使用
DeepSeek R1
DeepSeek R1 是一个针对推理任务优化的开源LLM软件。它在思维链问题解决、编码辅助和自然语言理解方面表现出色。它有多种尺寸(例如 1.5B、7B 参数)可供选择,使其能够适应不同的硬件功能。
浏览器使用
Browser Use 是一种开源工具,它使 AI 代理能够执行基于浏览器的任务,例如 Web 抓取、表单填写和自动导航。它提供了一个用户友好的界面,可以与 DeepSeek R1 LLMs 等集成以增强功能。
第 1 步:设置您的环境
硬件要求
-
对于较小版本的 DeepSeek R1(例如,1.5B 参数),CPU 或中端 GPU (8GB VRAM) 就足够了。
-
较大的版本需要高端 GPU(例如 NVIDIA A100 或 RTX 4090)。
操作系统
建议使用 Linux 或 macOS 以便于设置。Windows 用户可以使用 WSL (Windows Subsystem for Linux)。
Python 环境
创建 Python 虚拟环境以隔离依赖项:
暂时无法在飞书文档外展示此内容
安装所需的库:
暂时无法在飞书文档外展示此内容
第 2 步:使用 API 运行 DeepSeek 或使用 Ollama 在本地运行
DeepSeek API 使用
要与 DeepSeek API 交互,请按照以下更新的步骤作:
获取 API 密钥:
在 DeepSeek 平台上注册并从 “API Keys” 部分生成 API 密钥。请妥善保存此密钥,因为它不会再次显示。
进行第一次 API 调用:
DeepSeek API 与 OpenAI 的 API 格式兼容,因此很容易与现有的 OpenAI SDK 或软件集成。下面是一个 Python 实现的示例:
暂时无法在飞书文档外展示此内容
示例: 如果您更喜欢使用 cURL,请按以下步骤发出请求:
暂时无法在飞书文档外展示此内容
型号选择:
-
为 DeepSeek-R1 指定
model=“deepseek-reasoner”。
-
将
model=“deepseek-chat”
用于通用聊天任务。
对于与 OpenAI 兼容的配置,也可以将 base_url
设置为 https://api.deepseek.com/v1
,但 /v1
路径与模型版本无关。
使用 Ollama 在本地运行 DeepSeek
Ollama 简化了在本地计算机上运行 DeepSeek-R1 等大型语言模型的过程。以下是正确设置和使用它的方法:
-
安装 Ollama:
从其官方网站下载并安装 Ollama。
-
拉取所需的模型:
使用以下命令下载 DeepSeek-R1 的特定版本:
暂时无法在飞书文档外展示此内容
-
在本地运行模型:
下载后,使用以下命令运行模型:
暂时无法在飞书文档外展示此内容
这将启动一个交互式会话,您可以在其中直接与模型交互。
型号变体:
DeepSeek 提供了几个基于 Qwen 和 Llama 架构的提炼版本,针对不同的用例进行了优化:
DeepSeek-R1-Distill-Qwen-7B:
暂时无法在飞书文档外展示此内容
DeepSeek-R1-Distill-Llama-70B:
暂时无法在飞书文档外展示此内容
硬件注意事项:
-
1.5B 或 7B 等较小的型号可以在消费级 GPU 甚至 CPU 上运行。
-
较大的型号(例如 70B)需要具有大量 VRAM 的高端 GPU(例如 NVIDIA A100 或 RTX 4090)。
-
通过 API 进行交互式聊天:
Ollama 提供了一个 API,用于将本地运行的模型集成到您的应用程序中:
暂时无法在飞书文档外展示此内容
第 3 步:安装 Browser Use
Browser Use 使您的 AI 代理能够与 Web 浏览器交互。请执行以下步骤:
-
安装
从 GitHub 克隆 Browser Use 存储库:
暂时无法在飞书文档外展示此内容
-
配置
设置浏览器使用 WebUI:
暂时无法在飞书文档外展示此内容
在浏览器中打开 WebUI 以配置代理设置。您可以指定:
-
LLM模型(例如 DeepSeek R1)
-
浏览器设置(例如,窗口大小)
第 4 步:结合使用 DeepSeek R1 和浏览器
要创建集成这两种工具的功能性 AI 代理,请执行以下作:
代理配置
修改 Browser Use 中的代理设置,使其与 DeepSeek R1 连接:
暂时无法在飞书文档外展示此内容
运行代理
启动 DeepSeek R1 和浏览器使用:
暂时无法在飞书文档外展示此内容
一旦这两项服务都运行起来,代理就可以自主执行填写表单、抓取数据或导航网站等任务。
第 5 步:及时工程以获得更好的结果
要优化 AI 代理的性能,请使用提示工程技术。例如:
通用提示模板
暂时无法在飞书文档外展示此内容
此结构可确保清晰度并提高任务执行准确性。以下是一些您可以通过运行来尝试的演示:
暂时无法在飞书文档外展示此内容
示例 1
提示:在 Google Docs 中写一封信给我爸爸,感谢他所做的一切,并将文档保存为 PDF。
示例 2
提示:查找往 北京 的 kayak.com 航班,时间从 2024.12.25 到 02.02.2025。
示例 3
提示:阅读我的简历并找到ML工作,将它们保存到一个文件中,然后在新的标签页中开始申请它们,如果你需要帮助,就问我。
结论
通过将 DeepSeek R1 与浏览器使用相结合,您可以构建一个功能齐全的 ChatGPT Operator 替代方案,该替代方案免费、开源且高度可定制。这种设置不仅可以节省成本,还可以让您完全控制数据隐私和系统行为。
无论您是自动化 Web 任务、构建对话代理,还是尝试使用 Retrieval-Augmented Generation 等高级 AI 功能,本指南都提供了您入门所需的一切。立即拥抱开源的力量,创建您自己的智能助手!
Deepseek API 直接调用教程
如果 API Key 有了之后,我们就可以调用它了,通过 Apifox 集成 Deepseek API,可快速完成 API 调试。
第一步:填写 API Key
获得 API 密钥后,你可以在 API 文档中开始使用它,无需编写代码:
-
访问由 Apifox 创建的 DeepSeek 在线 API 文档。
-
打开 Apifox 桌面:点击页面上的「Run in Apifox」,在弹出的窗口中点击「在桌面上打开」,引导你进入 Apifox 的桌面版本(如果你尚未下载该应用程序,则需要先下载)。
下载最新版 Apifox
-
输入你的 API 密钥:打开文档后,在 Apifox 中选择一个接口,点击「Auth」,选择「Bearer Token」。然后复制之前创建的令牌,将其粘贴「Token」上密钥保存在本地,因此不存在泄露风险。
还有一种方法设置 API Key,在项目右上角的 “环境管理” 中,点击“正式环境”,这个环境变量的值就是上面创建的 Deepseek API 的 API Key,添加完成后保存即可。
第二步:调用 API
-
点击“发送”即可调用 API。如果调用成功,API 响应将显示在下面的页面中。
-
修改 Body 中的 messages 里的信息,你就可以实现不同的对话。
-
如果要实现流式输出,可以将 stream 的值改为
true
。
💡
通过指定
model='deepseek-chat'
即可调用 DeepSeek-V3。 通过指定model='deepseek-reasoner'
,即可调用 DeepSeek-R1。