茴香豆的使用

news2025/1/17 0:49:54

RAG

RAG 模型的核心在于两大部分:检索器(Retriever)和生成器(Generator)。检索器的作用是从一个庞大的数据集中,根据输入的问题或者提示,快速有效地检索出最相关的信息或文档。这一步骤通常利用向量空间模型,将问题和文档库中的文档转化为高维空间中的向量,通过计算向量之间的相似度来找出最相关的文档。

检索到的相关文档随后被传递给生成器。生成器通常是一个基于Transformer的神经网络模型,如GPT或BERT,它使用检索来的文档作为上下文信息,结合原始输入(如问题),生成文本输出。这一过程中,生成器不仅仅依赖于自身预训练中获得的知识,更在于能够利用检索到的具体、实时的外部信息来生成回答或内容,使得输出更加准确和丰富。

例如,在问答系统中,传统的生成模型可能仅依赖于模型内部的知识库来回答问题,这容易造成回答过时或缺乏细节。而RAG 通过先检索最新的相关信息,然后基于这些信息构建答案,显著提高了回答的质量和实用性。

RAG 的实现通常依赖于两阶段的训练过程:首先,训练检索器,确保其能够有效地从文档库中检索信息;其次,训练生成器,使其能够在获得检索结果的基础上生成合理的文本。在实际应用中,这两个部分需要紧密协作,以确保整体模型的效能。

总之,RAG 通过结合检索技术和生成技术,为自然语言处理领域提供了一种强大的工具,特别适用于那些需要大量外部知识参与的复杂任务。它不仅提高了生成文本的质量,也拓展了模型处理复杂、知识密集型问题的能力。

在茴香豆 Web 版中创建自己领域的知识问答助手

上传简历的pdf文件,对项目经历提问
在这里插入图片描述
在这里插入图片描述

环境配置

studio-conda -o internlm-base -t InternLM2_Huixiangdou
conda activate InternLM2_Huixiangdou

下载基础文件

创建模型文件夹

cd /root && mkdir models

复制BCE模型

ln -s /root/share/new_models/maidalun1020/bce-embedding-base_v1 /root/models/bce-embedding-base_v1
ln -s /root/share/new_models/maidalun1020/bce-reranker-base_v1 /root/models/bce-reranker-base_v1

复制大模型参数(下面的模型,根据作业进度和任务进行选择一个就行)
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b /root/models/internlm2-chat-7b

下载安装茴香豆

安装 python 依赖

pip install -r requirements.txt

pip install protobuf4.25.3 accelerate0.28.0 aiohttp3.9.3 auto-gptq0.7.1 bcembedding0.1.3 beautifulsoup44.8.2 einops0.7.0 faiss-gpu1.7.2 langchain0.1.14 loguru0.7.2 lxml_html_clean0.1.0 openai1.16.1 openpyxl3.1.2 pandas2.2.1 pydantic2.6.4 pymupdf1.24.1 python-docx1.1.0 pytoml0.1.21 readability-lxml0.8.1 redis5.0.3 requests2.31.0 scikit-learn1.4.1.post1 sentence_transformers2.2.2 textract1.6.5 tiktoken0.6.0 transformers4.39.3 transformers_stream_generator0.0.5 unstructured0.11.2

因为 Intern Studio 不支持对系统文件的永久修改,在 Intern Studio 安装部署的同学不建议安装 Word 依赖,后续的操作和作业不会涉及 Word 解析。
想要自己尝试解析 Word 文件的同学,uncomment 掉下面这行,安装解析 .doc .docx 必需的依赖
apt update && apt -y install python-dev python libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig libpulse-dev

使用茴香豆搭建 RAG 助手

修改配置文件

sed -i ‘6s#.*#embedding_model_path = “/root/models/bce-embedding-base_v1”#’ /root/huixiangdou/config.ini

sed -i ‘7s#.*#reranker_model_path = “/root/models/bce-reranker-base_v1”#’ /root/huixiangdou/config.ini

sed -i ‘29s#.*#local_llm_path = “/root/models/internlm2-chat-7b”#’ /root/huixiangdou/config.ini

创建知识库

cd /root/huixiangdou && mkdir repodir

git clone https://github.com/internlm/huixiangdou --depth=1 repodir/huixiangdou

cd /root/huixiangdou
mv resource/good_questions.json resource/good_questions_bk.json

echo ‘[
“mmpose中怎么调用mmyolo接口”,
“mmpose实现姿态估计后怎么实现行为识别”,
“mmpose执行提取关键点命令不是分为两步吗,一步是目标检测,另一步是关键点提取,我现在目标检测这部分的代码是demo/topdown_demo_with_mmdet.py demo/mmdetection_cfg/faster_rcnn_r50_fpn_coco.py checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth 现在我想把这个mmdet的checkpoints换位yolo的,那么应该怎么操作”,
“在mmdetection中,如何同时加载两个数据集,两个dataloader”,
“如何将mmdetection2.28.2的retinanet配置文件改为单尺度的呢?”,
“1.MMPose_Tutorial.ipynb、inferencer_demo.py、image_demo.py、bottomup_demo.py、body3d_pose_lifter_demo.py这几个文件和topdown_demo_with_mmdet.py的区别是什么,\n2.我如果要使用mmdet是不是就只能使用topdown_demo_with_mmdet.py文件,”,
“mmpose 测试 map 一直是 0 怎么办?”,
“如何使用mmpose检测人体关键点?”,
“我使用的数据集是labelme标注的,我想知道mmpose的数据集都是什么样式的,全都是单目标的数据集标注,还是里边也有多目标然后进行标注”,
“如何生成openmmpose的c++推理脚本”,
“mmpose”,
“mmpose的目标检测阶段调用的模型,一定要是demo文件夹下的文件吗,有没有其他路径下的文件”,
“mmpose可以实现行为识别吗,如果要实现的话应该怎么做”,
“我在mmyolo的v0.6.0 (15/8/2023)更新日志里看到了他新增了支持基于 MMPose 的 YOLOX-Pose,我现在是不是只需要在mmpose/project/yolox-Pose内做出一些设置就可以,换掉demo/mmdetection_cfg/faster_rcnn_r50_fpn_coco.py 改用mmyolo来进行目标检测了”,
“mac m1从源码安装的mmpose是x86_64的”,
“想请教一下mmpose有没有提供可以读取外接摄像头,做3d姿态并达到实时的项目呀?”,
“huixiangdou 是什么?”,
“使用科研仪器需要注意什么?”,
“huixiangdou 是什么?”,
“茴香豆 是什么?”,
“茴香豆 能部署到微信吗?”,
“茴香豆 怎么应用到飞书”,
“茴香豆 能部署到微信群吗?”,
“茴香豆 怎么应用到飞书群”,
“huixiangdou 能部署到微信吗?”,
“huixiangdou 怎么应用到飞书”,
“huixiangdou 能部署到微信群吗?”,
“huixiangdou 怎么应用到飞书群”,
“huixiangdou”,
“茴香豆”,
“茴香豆 有哪些应用场景”,
“huixiangdou 有什么用”,
“huixiangdou 的优势有哪些?”,
“茴香豆 已经应用的场景”,
“huixiangdou 已经应用的场景”,
“huixiangdou 怎么安装”,
“茴香豆 怎么安装”,
“茴香豆 最新版本是什么”,
“茴香豆 支持哪些大模型”,
“茴香豆 支持哪些通讯软件”,
“config.ini 文件怎么配置”,
“remote_llm_model 可以填哪些模型?”
]’ > /root/huixiangdou/resource/good_questions.json

测试用例
cd /root/huixiangdou

echo ‘[
“huixiangdou 是什么?”,
“你好,介绍下自己”
]’ > ./test_queries.json

使用向量数据库
创建向量数据库存储目录
cd /root/huixiangdou && mkdir workdir

分别向量化知识语料、接受问题和拒绝问题中后保存到 workdir
python3 -m huixiangdou.service.feature_store --sample ./test_queries.json

运行茴香豆知识助手

填入问题

sed -i ‘74s/.*/ queries = [“huixiangdou 是什么?”, “茴香豆怎么部署到微信群”, “今天天气怎么样?”]/’ /root/huixiangdou/huixiangdou/main.py

运行茴香豆

cd /root/huixiangdou/
python3 -m huixiangdou.main --standalone
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1853468.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[面试题]Jenkins

[面试题]Java【基础】[面试题]Java【虚拟机】[面试题]Java【并发】[面试题]Java【集合】[面试题]MySQL[面试题]Maven[面试题]Spring Boot[面试题]Spring Cloud[面试题]Spring MVC[面试题]Spring[面试题]MyBatis[面试题]Nginx[面试题]缓存[面试题]Redis[面试题]消息队列[面试题]…

Java基础(二)——数组,方法,方法重载

个人简介 👀个人主页: 前端杂货铺 ⚡开源项目: rich-vue3 (基于 Vue3 TS Pinia Element Plus Spring全家桶 MySQL) 🙋‍♂️学习方向: 主攻前端方向,正逐渐往全干发展 &#x1…

颠覆多跳事实验证!Causal Walk 前门调整技术引领去偏新纪元

Causal Walk: Debiasing Multi-Hop Fact Verifcation with Front-Door Adjustment 论文地址: Causal Walk: Debiasing Multi-Hop Fact Verification with Front-Door Adjustment| Proceedings of the AAAI Conference on Artificial Intelligencehttps://ojs.aaai.org/index.p…

Linux Ubuntu 多块屏幕(副屏)装反矫正

一、案例 Ubuntu系统,主屏幕正常显示,第二块屏幕(副屏)装反了【各种原因,可能是线不够长,只能上下颠倒装起来】。 现需求,需要将第二块屏幕给矫正过来,正常显示!!! 二、…

累了就坐下来喝杯茶 然后继续前行

前言: 今天是情人节就不发技术文章了 先祝愿各位有情人总成眷属。也包括我,哈哈哈 今天要分享的是一个diy制作的教程 因为我女朋友不在这边,心中那份思念难耐 所以有感而发 写了这篇diy 教程的文章 效果图: 需要的材料 502胶水…

websocket 安全通信

WebSocket 协议 WebSocket:在 2008 年诞生,2011 年成为国际标准。它允许服务器主动向客户端推送信息,客户端也可以主动向服务器发送信息,实现了真正的双向平等对话。它是一种在单个 TCP 连接上进行全双工通讯的协议,能够更高效地进行实时通信。 传统的轮询:浏览器需要不…

网络技术原理需要解决的5个问题

解决世界上任意两台设备时如何通讯的?? 第一个问题,pc1和pc3是怎么通讯的? 这俩属于同一个网段,那么同网段的是怎么通讯的? pc1和pc2属于不同的网段,第二个问题,不同网段的设备是…

北京BJ90升级新款迈巴赫大连屏四座头等舱行政四座马鞍

北京BJ90升级奔驰迈巴赫头等舱行政四座大联屏的内饰效果会非常出色,将为车辆带来更豪华、高端的内饰氛围。以下是升级后可能的效果: • 科技感提升:奔驰的中控系统一直以来都以其先进的科技和用户友好的界面而闻名。升级后,北京B…

程序员如何高效读代码?

程序员高效读代码的技巧包括以下几点: 明确阅读目的:在开始阅读代码之前,先明确你的阅读目的。是为了理解整个系统的架构?还是为了修复一个具体的bug?或者是为了了解某个功能是如何实现的?明确目的可以帮助…

MapReduce程序设计2

要求 1、数据集stock-daily,包含A股近4000只股票的今年以来的日数据;数据集stock-daily-30d仅包含最近30个交易日数据,根据自己计算机性能选择。 数据来源:https://www.joinquant.com/help/api/help?nameJQData 2、数据集stoc…

LeetCode 算法:二叉树的最大深度 c++

原题链接🔗:二叉树的最大深度 难度:简单⭐️ 题目 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1: 输入:root [3,9,20,null,…

DDS信号的发生器(验证篇)——FPGA学习笔记8

前言:第一部分详细讲解DDS核心框图,还请读者深入阅读第一部分,以便理解DDS核心思想 三刷小梅哥视频总结! 小梅哥https://www.corecourse.com/lander 一、DDS简介 DDS(Direct Digital Synthesizer)即数字…

Piecewise Jerk Speed 论文以及代码解析

目录 1 算法原理 1.1 优化模型离散方式 1.1.1 Temporal Parameter Discretization 1.2 优化问题建模 1.2.1 Cost function 1.2.2 Constraints 2 ST-Graph 3 代码实现 ​编辑 3.1 STBoundsDecider 1 算法原理 1.1 优化模型离散方式 在处理最优化问题时,…

vuex的深入学习[基于vuex3]----篇(一)

vuex的深入学习[基于vuex3]----篇(一) vuex框架的核心流程[基于vuex3] Vue Components: Vue组件,html页面上,负责接受用户操作等交互行为,执行dispatch方法触发action进行回应dispatch:操作行为触发方法&a…

MySQL表解锁

查看锁信息 show full processlist 如果一个表被锁定了,会有一个 “Waiting for table metadata lock” 的提示,表明该表正在等待锁定。 解锁表 删除state上有值的事务 kill query 事务id 表解锁完成

Adobe Acrobat 编辑器软件下载安装,Acrobat 轻松编辑和管理各种PDF文件

Adobe Acrobat,它凭借卓越的功能和丰富的工具,为用户提供了一个全面的解决方案,用于查看、创建、编辑和管理各种PDF文件。 作为一款专业的PDF阅读器,Adobe Acrobat能够轻松打开并展示各种格式的PDF文档,无论是文字、图…

坎德拉candela3d光伏电站三维设计软件【无标题】

Candela3D 是一款基于 SketchUp(草图大师)开发的新一代光伏电站三维设计软件。它适用于复杂地形、平坦地形光伏电站的建设项目,同时适用于可研、初设、施工图、项目运营等阶段。这款软件具有多项功能,例如: • 能够突…

AcWing算法基础课笔记——求组合数3

求组合数Ⅲ 20万组数据, 1 ≤ b ≤ a ≤ 1 0 18 , 1 ≤ p ≤ 1 0 5 1 \le b \le a \le 10^{18}, 1\le p \le 10 ^5 1≤b≤a≤1018,1≤p≤105,使用卢卡斯定理。 卢卡斯定理: C a b ≡ C a m o d p b m o d p C a / p b / p ( m o d p ) C_a…

ASP.NETMVC-简单例子-从数据库构建Model+HTML帮助器

环境: win10,.NET Framework 4.6.1 参考: ASP.NET MVC 简介 | 菜鸟教程 https://www.runoob.com/aspnet/mvc-intro.html ASP.NET MVC HTML 帮助器 | 菜鸟教程 https://www.runoob.com/aspnet/mvc-htmlhelpers.html 上一篇: ASP.…

VS Code SSH 远程连接服务器及坑点解决

背景 Linux服务器重装了一下,IP没有变化,结果VS Code再重连的时候就各种问题,导致把整个流程全部走了一遍,留个经验帖以备查看 SSH 首先确保Windows安装了ssh,通过cmd下ssh命令查看是否安装了。 没安装,…