GitHub:https://github.com/cyberagiinc/DevDocs
更多AI开源软件:发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI
DevDocs 是一个完全免费的开源工具,由 CyberAGI 团队开发,托管在 GitHub 上。它专为程序员和软件开发者设计,能从技术文档的网址开始,自动爬取相关页面并整理成简洁的 Markdown 或 JSON 文件。它内置 MCP 服务器,支持与 Claude 等大模型集成,让用户可以用自然语言查询文档内容。DevDocs 的目标是把几周的文档研究时间缩短到几小时,帮助开发者快速上手新技术。它适合个人开发者、团队和企业用户,目前无需付费,任何人都可以下载使用。
主要功能:
🧠 智能爬行
- 智能深度控制:从 1-5 个级别中选择爬行深度
- 自动链接发现:查找并分类所有相关内容
- 选择性抓取:准确选择要提取的内容
- 子 URL 检测:自动发现和映射网站结构
⚡ 性能与速度
- 并行处理:同时抓取多个页面
- 智能缓存:永远不要在重复内容上浪费时间
- 延迟加载支持:轻松处理现代 Web 应用程序
- 速率限制:不会使服务器过载的尊重爬网
🎯 内容处理
- 干净提取:获取没有绒毛的内容
- 多种格式:导出为 MD 或 JSON 以进行 LLM 微调
- 结构化输出:逻辑组织的内容
- MCP 服务器集成:为 AI 处理做好准备
🛡️ 企业功能
- 错误恢复:失败时自动重试
- 完整日志记录:跟踪每个作
- API 访问:与您的工具集成
- 团队管理:多个席位和角色
安装和使用
DevDocs 使用 Docker 运行,安装简单。以下是详细步骤:
-
准备环境
-
需要安装 Git 和 Docker:
- Git:从 git-scm.com 下载并安装。
- Docker:从 docker.com 下载 Docker Desktop 并安装。
-
检查 Docker 是否正常运行,终端输入 docker --version,看到版本号即成功。
-
-
克隆代码
-
打开终端(Windows 用 CMD 或 PowerShell,Mac/Linux 用 Terminal)。
-
输入命令下载 DevDocs:
git clone https://github.com/cyberagiinc/DevDocs.git
-
进入项目目录:
cd DevDocs
-
-
启动服务
-
根据操作系统运行启动脚本:
-
Mac/Linux:
./docker-start.sh
-
Windows:
docker-start.bat
-
-
Windows 用户若遇到权限问题,可手动设置文件夹权限:
icacls logs /grant Everyone:F /T icacls storage /grant Everyone:F /T icacls crawl_results /grant Everyone:F /T
-
启动后,等待几秒,终端显示服务运行成功。
-
-
访问工具
-
打开浏览器,输入 http://localhost:3001,进入 DevDocs 前端界面。
-
其他服务地址:
- 后端 API:http://localhost:24125
- Crawl4AI 服务:http://localhost:11235
-
实战演习
场景1. 爬取技术文档
-
步骤:
- 在界面输入框粘贴目标网址,如 https://docs.example.com。
- 选择爬取深度(1-5 层,默认 5)。
- 点击“开始爬取”。
- 等待完成,界面会显示抓取的页面列表。
-
注意:
- 爬取速度快,每分钟可处理 1000 页。
- 结果保存在 <项目目录>/crawl_results 文件夹。
-
高级选项:
- 可选择性爬取,勾选需要的内容。
场景2. 整理文档内容
-
操作:
- 爬取完成后,内容自动整理为 Markdown 或 JSON 文件。
- 在 <项目目录>/crawl_results 查看,默认是 Markdown 格式。
-
切换格式:
- 在界面设置中选择“导出为 JSON”,适合大模型微调。
场景3. 使用 MCP 服务器和大模型
-
准备:
- 下载并安装 Claude Desktop App(anthropic.com)。
- DevDocs 的 MCP 服务器默认运行在本地,无需额外配置。
-
步骤:
- 打开 Claude App。
- 输入问题,如“这个文档讲了什么”。
- Claude 会从 MCP 服务器读取数据并回答。
-
扩展用法:
- 将本地文档放入 <项目目录>/storage,Claude 可直接访问。
- 支持复杂问题,如“这个技术怎么实现”。
场景4. 日志与监控
-
查看日志:
-
日志文件在 <项目目录>/logs,包括:
- frontend.log:前端日志。
- backend.log:后端日志。
- mcp.log:MCP 服务器日志。
-
用 Docker 查看实时日志:
docker logs -f devdocs-backend
-
-
停止服务:
- 在终端按 Ctrl+C,关闭所有服务。
场景5. 实用脚本
-
项目提供多种脚本,位于 <项目目录>/scripts:
- check_mcp_health.sh:检查 MCP 服务器状态。
- debug_crawl4ai.sh:调试爬取服务。
- view_result.sh:查看爬取结果。
-
运行方式:
- 在终端进入脚本目录,输入 ./脚本名 执行。