RAG 进阶:零成本 chat_with_readthedocs

news2024/9/21 10:39:50

Readthedocs 是知名的文档托管平台,通常用于免费存放 GitHub 和 GitLab 的项目文档。当项目文档较多时,简单的搜索难以满足读者需求,此外在 AI 2.0 时代,“主动寻找答案”这类用户体验已经逐渐落后。

本文将介绍如何基于 HuixiangDou 在 readthedocs 中做源码检索,同时不需要自备 GPU 服务器和域名。

HuixiangDou ——开源的适合群聊场景的 LLM 知识助手 GitHub 链接:(欢迎 star) https://github.com/internlm/huixiangdou

最终效果见下图,HuixiangDou 会先检索项目文档和 python 源码,然后流式作答。点击右下角 “Chat with AI” 即可体验,可尝试问它这些问题:

  • 如何安装 HuixiangDou?

  • llm_client.py 是干啥用的?

1. 服务部署方法

chat_with_readthedocs 的零成本部署结构如下图所示:

添加图片注释,不超过 140 字(可选)

其中,

  • readthedocs 用于托管中英文文档

  • OpenXLab 提供 https 入口,这是因为 readthedocs 作为 https 服务,无法内嵌 http 网页

  • SiliconCloud 提供 text2vec、reranker 和 LLM 模型的远程 API。考虑到 siliconcloud bce 行为和 GitHub 并未完全对齐,若自备 GPU 机器运行模型,精度会更高

以下是具体操作步骤。

1.1 准备代码和文档

假设我们用 mmpose 所有文档做知识库,把知识库放入 repodir。这里可替换自己的专业知识文档。

cd HuixiangDou
mkdir repodir
git clone https://github.com/open-mmlab/mmpose --depth=1
# 移除知识库的 .git 方便提交
rm -rf .git

调整 gradio_ui.py 的默认配置,使用 config-cpu.ini。

# huixiangdou/gradio_ui.py
    parser.add_argument(
        '--config_path',
        default='config-cpu.ini',
        type=str,
..

连同自己的知识库和 Huixiangou 源码,一起提交到 GitHub,例如 huixiangdou-readthedocs 的 for-openxlab-readthedocs 分支。

1.2 创建 OpenXLab 应用

打开 OpenXLab,创建 Gradio 类型应用。

  1. 填入上一步的 GitHub 地址和分支名称

  2. 服务器选择 CPU

确认后,修改应用设置:

  • 自定义启动文件 改为 huixiangdou/gradio_ui.py

  • 由于代码已开源,需配置环境变量。HuixiangDou 会优先使用 config 配置中的 token,找不到时会尝试检查 SILICONCLOUD_TOKEN 和 LLM_API_TOKEN,如图:

添加图片注释,不超过 140 字(可选)

同步代码、启动应用。首次运行需要 10min 左右建立稠密和稀疏特征库,结束后应该能看到一个 gradio 应用。例如:

https://openxlab.org.cn/apps/detail/tpoisonooo/HuixiangDou-readthedocs

在浏览器中按 F12,检查源码,可获得服务对应的 https 地址:

https://openxlab.org.cn/apps/detail/tpoisonooo/HuixiangDou-readthedocs

只要不在 OpenXLab 中点击 “删除应用数据”,这个地址就是固定的。

1.3 使用 readthedocs 自定义主题

假设你已经熟悉 readthedocs 基本用法,可以直接拷贝 HuixiangDou docs 目录

  • zh 或 en 目录皆可

  • 在 requirements/doc.txt 设置自定义主题

https://github.com/tpoisonooo/pytorch_sphinx_theme 是我们的自定义主题实现,主要是:

  1. 在 layout.html 创建了一个 chatButton 和空白 container

  2. 为 chatButton 绑定事件。按钮点击时,空白 container 将加载 https 地址,也就是前面的:

bash https://g-app-center-000704-0786-wrbqzpv.openxlab.space 在 theme.css 中,您可修改自己喜欢的样式。

最后,在 readthedocs.io 配置自己的项目,Build Version 即可。

2. 代码检索方案

本文使用稀疏方法实现代码检索。

添加图片注释,不超过 140 字(可选)

具体来说:

  1. 魔改了一个 bm25 实现,完整源码 189 行

  2. 在特征库建立期间。对项目中的 python 代码,用文件名、ast 抽取的类名、函数名和注释,作为 chunk

  3. 把 chunk 分词后,建立稀疏特征

检索期间:

  1. query 分词后,参与稀疏查询

  2. 稀疏和稠密结果共同参与 rerank 这么设计的理由如下:

  • readthedocs 中的响应要尽量快,因此稀疏、稠密、网络搜索必须并行执行,共同参与 rerank、减少 LLM 调用,才能缩短 pipeline 延迟

  • bm25 的输入应避免噪音,因此仅用函数名、类名、文件名等具有签名意义数据做输入

3. 总结

本文介绍了如何基于 HuixiangDou、OpenXLab 和 SiliconCloud,零成本在 readthedocs 搭建代码/文档问答助手,同时介绍了 HuixiangDou 中实现代码检索的稀疏方法。

需要额外注意的是,为降低成本,本文并未开启图文混合检索;同时由于远程 bce 接口行为和 GitHub 不一致,会轻微影响服务精度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2102018.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4款AI智能改写工具,轻松快速改出优质文章

在当今数字化内容创作的时代,高质量的文章对于个人和企业来说都具有至关重要的意义。然而,有时候我们可能会面临需要对已有文章进行改写的情况,以避免重复、优化语言表达或者适应不同的受众。这时,AI智能改写工具就成为了我们的得…

解决AutoDL远程服务器训练大模型的常见问题:CPU内存不足与 SSH 断开

在使用远程服务器(如 AutoDL)进行深度学习训练时,通常会遇到一些常见问题,比如由于数据加载导致的内存消耗过高,以及 SSH 连接中断后训练任务被迫停止。这篇文章将介绍我在这些问题上遇到的挑战,并分享相应…

前缀和专题——一维模版+二维模版力扣实战应用

目录 1、模版 1.1【模版】一维前缀和 1.1.1 算法思想 1.1.2 算法代码 1.2【模版】二维前缀和 1.2.1 算法思想 1.2.2 算法代码 2、算法应用【leetcode】 2.1 题一:寻找数组的中心下标 2.1.1 算法思想 2.1.2 算法代码 2.2 题二:除自身以外数组…

Leetcode每日刷题之30.串联所有单词的子串

1.题目解析 本题的题目要求给出一个字符串 s 与一个字符数组 words ,并且 words 中的所有单词长度均相同,我们要寻找出 s 中是否存在子串符合 words 中单词的任意组合而成,注意重要的一点是 words 中的所有单词的长度均相同,这是解…

汇总1000+国内外AI工具合集,工作效率提升10倍的秘诀!

工具合集在文章末尾有领取方式。记得点在看收藏,每天默默的学习,然后惊艳所有人。 很多AI,都是开发商在自己的领域,或是借助某个领域的资源进行算法的模型训练。就目前来讲,每款AI都具备它自身的功能特性,没…

C++刷怪笼(2)类和对象的探索-上

1.前言 了解完C的一些入门干货之后,我们来对C的第一个重点就行学习——那就是类和对象,该重点我们分为三篇文章进行学习,请大家跟紧我的脚步,认真学知识哦~ 2.正文——类和对象 2.1类的定义 2.2.1类的定义格式 • class为定义…

认识git和git的基本使用,本地仓库,远程仓库和克隆远程仓库

本地仓库 #安装git https://git-scm.com/download/win #git是什么?有什么用? git相当于一个版本控制系统,版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。 作用: 记录(项目&#…

带你0到1之QT编程:三、打地基QMap的高效用法

此为QT编程的第三谈!关注我,带你快速学习QT编程的学习路线! 每一篇的技术点都是很很重要!很重要!很重要!但不冗余! 我们通常采取总-分-总和生活化的讲解方式来阐述一个知识点! 码…

Spring security的SecurityConfig配置时 userDetailsService报错如何解决?

文章目录 报错信息原因解决方案1. 实现 UserDetailsService 接口修改 IUsersService 接口和实现类 2. 修改 SecurityConfig3. 其他注意事项 报错信息 ‘userDetailsService(T)’ in ‘org.springframework.security.config.annotation.authentication.builders.AuthenticationM…

class 7: vue.js 3 前端工程化

默认情况下,不能直接使用单文件组件来编写组件,因为浏览器不认识SFC(.vue)文件。因此,我们需要使用webpack或者Vite构建一个支持SFC开发的Vue.js 3环境 目录 前端发展史webpackVue CLI脚手架 前端发展史 Web早期:也就是互联网发展…

激光雷达产品介绍

与传统激光雷达线性重复式的扫描方式不同,Livox mid系列激光雷达扫描路径不会重复。且视场中激光照射到的区域面积会随时间增大,这就意味着视场覆盖率随时间推移而显著提高。 内容参考自《解构大疆旗下 Livox Mid 激光雷达非重复扫描技术》作者&#xff…

今天来聊一聊前端框架有哪些呢? 主流Vue和React

使用工具: 联网搜索 前端框架主要包括React.js、Vue.js、Angular等。在现代网络技术的快速发展中,前端框架成为了实现界面美观、交互性强、用户体验佳的网页和应用不可或缺的工具。下面将具体介绍几款目前主流的前端框架: React.js 简介&…

Spring Boot部署服务器主页事项

部署服务器 首先项目内涉及到本地路径的 你得在数据库创建一个路径 替换上服务器的路径 其次就是数据配置 第一点 非常重要 你的MySQL一定要配置允许所有ip连接 不然网站上无法连接你的数据库 根本无法运行 再就是你的MyBatis也要配置好 服务器地址要正确 数据库端口你也…

[SDK]-按钮静态文本与编辑框控件

前言 各位师傅大家好,我是qmx_07,今天给大家讲解按钮控件和编辑框的相关知识 控件 概念:Windows Software Development Kit(SDK)提供的一组可重用的用户界面元素,在应用程序使用的可视化界面,比如:文本框&#xff…

ini文件中的节点如何删除?

1、在某些场合中,会将某些数据记录本地情况,会有“保存/加载”过程。 比如: 第一次Write节点信息(2个),如下节点 第二次Write节点信息(1个),如下节点。会发现本来想写入…

实战项目:俄罗斯方块(六)

文章目录 🍊自我介绍🍊图像界面绘制界面绘制界面显示代码运行结果 你的点赞评论就是对博主最大的鼓励 当然喜欢的小伙伴可以:点赞关注评论收藏(一键四连)哦~ 🍊自我介绍 Hello,大家好,我是小珑也…

检测文件解析漏洞的工具

免责声明此文档仅限于学习讨论与技术知识的分享,不得违反当地国家的法律法规。对于传播、利用文章中提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,本文作者不为此承担任何责任,一旦造成后果请自行承担&…

000:VTK的安装(VTK 编译 + 运行第一个例子)

VTK 医学图像处理---VTK安装 简介: 主要包括四个部分: 安装前准备(需要下载和安装什么软件以及为什么);VTK编译与安装(编译过程中的一些选项到底是否勾选,已经为什么勾选)&#xff…

9.2-考试项目前端容器的高可用+java容器的高可用+使用docker-compose部署考试前端容器+使用docker-compose一次性创建多台容器

配置高可用的项目 基于部署考试系统的项目进行高可用 一、前端的高可用 1.先创建三个前端nginx容器,端口不能映射80 # 删除通用的前端容器 [roothaproxy ~]# docker ps --all CONTAINER ID IMAGE COMMAND CREATED STATUS…

数论——拓展欧几里德算法复习

最近也是在备战比赛,所以也是来小小的复习了一下以前学的东西 最重要的是第一道题! 最重要的是第一道题! 最重要的是第一道题! 先放拓欧板子(不懂怎么推出了就发在评论区或者私聊) int exgcd(int a,i…