RAG进阶笔记：RAG进阶

RAG进阶笔记：RAG进阶

news2025/7/9 12:00:01

1 查询/索引部分

1.1 层次索引

创建两个索引——一个由摘要组成，另一个由文档块组成
分两步进行搜索：首先通过摘要过滤出相关文档，接着只在这个相关群体内进行搜索

1.2 假设性问题

让LLM为每个块生成一个假设性问题，并将这些问题以向量形式嵌入
在运行时，针对这个问题向量的索引进行查询搜索（用问题向量替换文档的块向量）
检索后将原始文本块作为上下文发送给LLM以获取答案
这种方法由于查询和假设性问题之间的语义相似性更高，从而提高了搜索质量

1.3 句子窗口检索

文档中的每个句子都被单独嵌入向量
在检索到的关键句子前后各扩展k个句子，然后将这个扩展的上下文发送给LLM

1.4 父文档检索器（自动合并检索器）

文档被分割成一个层级化的块结构，随后用最小的叶子块进行索引
在检索过程中检索出top k个叶子块
如果存在n个叶子块都指向同一个更大的父块，那么我们就用这个父块来替换这些子块，并将其送入大模型用于生成答案。

1.4 查询扩展

1.4.1 使用生成的答案进行查询扩展

Precise Zero-Shot Dense Retrieval without Relevance Labels

给定输入查询后，这种方法首先会指示 LLM 提供一个假设答案，无论其正确性如何
然后，将查询和生成的答案合并在一个提示中，并发送给检索系统
- 基本目的是希望检索到更像答案的文档。
- 假设答案的正确性并不重要，因为感兴趣的是它的结构和表述

1.4.2 用多个相关问题扩展查询

Query Expansion by Prompting Large Language Models

利用 LLM 生成 N 个与原始查询相关的问题
将所有问题（加上原始查询）发送给检索系统。
通过这种方法，可以从向量库中检索到更多文档。

1.4.3RAG-Fusion

首先根据原始question从不同角度生成多个版本的新question
然后针对每个question进行向量检索
在喂给LLM生成答案之前增加了一个排序的步骤
- 排序包含两个动作
  - 一是独立对每个question检索返回的内容根据相似度排序，确定每个返回chunk在各自候选集中的位置，相似度越高排名越靠前。
  - 对所有question 返回的内容利用RRF（Reciprocal Rank Fusion）综合排序
    - 这里rank计算的结果可能有问题，总之就是根据不同的question，得到不同的检索结果组合；分别计算他们各自的1/rank，然后加总，再排序

1.5 嵌入适配器

训练适配器的根本目的是改变嵌入查询，从而为特定任务产生更好的检索结果。
嵌入适配器是在嵌入阶段之后、检索之前插入的一个阶段。
可以把它想象成一个矩阵（带有经过训练的权重）

1.6 混合检索

将字面相似的传统搜索算法（Best Matching 25, BM25）与向量相似性检索相结合，实现混合搜索
可以加权融合分数、取各自topk检索后并集或RRF+Rerank

参考内容：

提升RAG检索质量的三个高级技巧（查询扩展、交叉编码器重排序和嵌入适配器）

从0开始学RAG之RAG-Fusion

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1559445.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

一文看懂DDR1到DDR5的演变

一文看懂DDR1到DDR5的演变

DDR内存技术自问世以来，已经经历了多代的迭代和优化。每一代DDR内存都在性能、容量、功耗和功能上有所提升。以下是从DDR1到DDR5的主要区别和特点： DDR1 DDR1是第一代双倍数据速率同步动态随机存取存储器，标志着内存技术的一个重要里程碑。…

阅读更多...

网安基础2-Sniffer的使用与防范

网安基础2-Sniffer的使用与防范

1. 嗅探器sniffer的工作原理能捕获经过该网络设备的报文，通过分析网络流量，找出关键信息，解决网络问题。不同于键盘捕获程序，如keylogger利用中断或钩子技术，Sniffer将网络接口置成适当的模式，如杂收。…

阅读更多...

瑞吉外卖实战学习--9、mybatisPlus公共字段自动填充

瑞吉外卖实战学习--9、mybatisPlus公共字段自动填充

mybatisPlus公共字段自动填充前言实现步骤实体类添加注解按照框架要求编写元数据对象处理器，在此类中统一为公共字段赋值，此类需要实现MetaObjectHandler接口1、在创建和更新的时候修改创建和更新的时候自动填充时间2、如何获取到当前的id 测试结果前言…

阅读更多...

Vision Mamba 双向状态空间模型下的高效视觉表示学习

Vision Mamba 双向状态空间模型下的高效视觉表示学习

论文题目：Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model 双向状态空间模型下的高效视觉表示学习论文链接：http://arxiv.org/abs/2401.09417 代码链接：https://github.com/hustvl/Vim 1、…

阅读更多...

Java中的多线程和线程安全问题

Java中的多线程和线程安全问题

线程线程是操作系统进行调度的最小单位。一个进程至少包含一个主线程，而一个线程可以启动多个子线程。线程之间共享进程的资源，但也有自己的局部变量。多线程程序和普通程序的区别：每个线程都是一个独立的执行流；多个线程之间是…

阅读更多...

大模型面试准备（九）：简单透彻理解MoE

大模型面试准备（九）：简单透彻理解MoE

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何备战、面试常考点分享等热门话题进行了深入的讨论。合集在这…

阅读更多...

C++list的模拟实现

C++list的模拟实现

为了实现list，我们需要实现三个类一、List的节点类 template<class T> struct ListNode {ListNode(const T& val T()):_pPre(nullptr),_pNext(nullptr),_val(val){}ListNode<T>* _pPre;ListNode<T>* _pNext;T _val; }; 二、List的迭代器…

阅读更多...

双网卡环境概率出现DNS解析错误

双网卡环境概率出现DNS解析错误

测试环境 VMware Rocky Linux 9 虚拟机, 双网卡(eth0和eth1)配置如下： eth0 10.206.216.27/24 DNS 10.204.16.18 eth1 192.168.1.27/24 DNS 192.168.1.1问题描述手动配置eth1的DNS后，网络不通，通过抓包发现是eth1的DNS server配置有误…

阅读更多...

【JavaWeb】Day29.SpringBootWeb请求响应——请求（二）

【JavaWeb】Day29.SpringBootWeb请求响应——请求（二）

请求响应 4.数组集合参数数组集合参数的使用场景：在HTML的表单中，有一个表单项是支持多选的(复选框)，可以提交选择的多个值。 4.1 数组数组参数：请求参数名与形参数组名称相同且请求参数为多个，定义数组类型形参即…

阅读更多...

springboot简历系统

springboot简历系统

摘要随着科学技术的飞速发展，社会的方方面面、各行各业都在努力与现代的先进技术接轨，通过科技手段来提高自身的优势，简历系统当然也不能排除在外。简历系统是以实际运用为开发背景，运用软件工程原理和开发方法，采用…

阅读更多...

速通汇编（三）寄存器及汇编mul、div指令

速通汇编（三）寄存器及汇编mul、div指令

一，寄存器及标志 AH&ALAX(accumulator)：累加寄存器BH&BLBX(base)：基址寄存器CH&CLCX(count)：计数寄存器DH&DLDX(data)：数据寄存器SP(Stack Pointer)：堆栈指针寄存器BP(Base Pointer)&#…

阅读更多...

Vue3+Vite Nginx部署跨域

Vue3+Vite Nginx部署跨域

打包项目 webstorm打开项目之后，在Terminal执行打包命令 pnpm run build:prod 复制到Nginx 打包完成之后,生成的包在根目录dist，把dist目录拷贝到Nginx放网站目录下：\nginx-1.25.2\html\divided ，dist改名了divided 修改配置…

阅读更多...

力扣---网络延迟时间---迪杰斯特拉，弗洛伊德floyd

力扣---网络延迟时间---迪杰斯特拉，弗洛伊德floyd

首先推荐博客：图论最短路径专题（力扣743、5888）_力扣最短路径-CSDN博客迪杰斯特拉算法： 太久没有做图论的题了，，临时抱佛脚。。这道题可以转化为max{点x到点k的距离}。因为带权图（权值为正…

阅读更多...

$[超详细]3种方法判断一个数是否为质数(Python)$

[超详细]3种方法判断一个数是否为质数(Python)

(发现好多博客对第三种进阶方法说的不明白，至少我是没完全看明白。后面结合自己的理解应该算是弄懂了，供大家参考，欢迎纠正。) 方法一：最暴力，最简单，也最耗时O(n) 思想：由素数的定义&#xf…

阅读更多...

arcgis 无法编辑元素的解决办法（无法删除元素或者缺失值替换）

arcgis 无法编辑元素的解决办法（无法删除元素或者缺失值替换）

打开“编辑器”中，“开始编辑”即可进行元素编辑，也可进行缺失值替换 （其他方式：选中图层，右击点击开始编辑） 在元素编辑状态下无法删除变量，可以删除元素元素编辑结束后点击“编辑器”&…

阅读更多...

深入剖析Spring WebFlux：从MethodHandler到反射获取请求信息的源码之旅

深入剖析Spring WebFlux：从MethodHandler到反射获取请求信息的源码之旅

文章目录前言一、获取请求执行的类、方法信息二、获取请求url变量三、获取请求处理数据总结前言最近想写一个代办事项后台服务，底层，选型WebFlux。在操作层面上，针对部分操作，想在不侵入业务代码的前提下，记录操作…

阅读更多...

使用 Seq2Seq 模型进行文本摘要

使用 Seq2Seq 模型进行文本摘要

目录引言 1 导入数据集 2 清洗数据集 3 确定允许的最大序列长度 4 选择合理的文本和摘要 5 对文本进行标记 6 删除空文本和摘要 7 构建模型 7.1 编码器 7.2 解码器 8 训练模型 9 测试模型 10 注意 11 整体代码引言文本摘要是指在捕捉其本质的同时缩短长文本的…

阅读更多...

主从复制与读写分离

主从复制与读写分离

前言： 在企业应用中，成熟的业务通常数据量都比较大，单台MySQL在安全性、高可用性和高并发方面都无法满足实际的需求？ 配置多台主从数据库服务器以实现读写分离目录一主从复制的工作原理 ①MySQL的复制类型 ②主从复制过…

阅读更多...

Netty组件优化之FastThreadLocal

Netty组件优化之FastThreadLocal

ThreadLocal:CSDNhttps://mp.csdn.net/mp_blog/creation/editor/132995427 Netty中的FastThreadLocal是对Java中的FastThreadLocal的优化主要是为了解决ThreadLocal中线性查找带来的性能下降同时实现快速查找和赋值 FastThreadLocal构建这里的index代表一个编号，从…

阅读更多...

【Web应用技术基础】CSS(4)——背景样式

【Web应用技术基础】CSS(4)——背景样式

第1题：背景颜色 .html <!DOCTYPE html> <html><head><meta charset"utf-8"><title>Hello World</title><link rel"stylesheet" href"step1/CSS/style.css"> </head><body>&…

阅读更多...

推荐文章

最新文章