外挂知识库的基本知识与内容

外挂知识库

1.什么是rag？

RAG,即LLM在回答问题或生成文本时，会先从大量文档中检索出相关的信息，然后基于这些信息生成回答或文本，从而提高预测质量。

2.外挂知识库的实现思路

只用几十万量级的数据对大模型进行微调并不能很好的将额外知识注入大模型。如果想让大模型根据文档来回答问题，必须要精简在输入中文档内容的长度。

如果模型对无限长的输入都有很好的理解能力，那么我可以设计这样一个输入“以下是世界上所有乐队的介绍：[插入100w字的乐队简介文档]，请根据上文给我介绍一下万青这支乐队”，让模型来回答我的问题。

一种做法是，我们可以把文档切成若干段，只将少量的和问题有关的文档片段拿出来，放到大模型的输入里。至此，”大模型外挂数据库“的问题转换成了“文本检索的问题”了，目标是根据问题找出文档中和问题最相关的片段，这已经和大模型本身完全无关了。

文本检索里边比较常用的是利用向量进行检索，我们可以把文档片段全部向量化（通过语言模型，如bert等），然后存到向量数据库（如Annoy、 FAISS、hnswlib等）里边，来了一个问题之后，也对问题语句进行向量话，以余弦相似度或点积等指标，计算在向量数据库中和问题向量最相似的top k个文档片段，作为上文输入到大模型中。向量数据库都支持近似搜索功能，在牺牲向量检索准确度的情况下，提高检索速度。

3.对称语义检索与非对称语义检索

问题1：How to learn Python online?

答案1:How to learn Python on the web?

适用于非对称语义检索的例子：

问题2:What is Python？

答案2:*Python is an interpreted, high-level and general-purpose programming language. Python’s design philosophy …”

对称语义检索的“问题”和“答案”要求有差不多的意思，或者根本就不属于我们常规意义里的问答，而仅仅是同义句匹配。而非对称语义检索所做的任务才是我们常规意义下问答任务。很显然，通过向量检索的方式进行非对称语义检索的难度要大的多。对称语义检索的目标是找相似的句子，与向量检索基于计算向量相似度的原理天然匹配，只需要模型有比较强的内容抽象能力就可以。但是非对称语义检索则要求模型能够将问题和答案映射到同一空间

通过上述例子，可以看出向量检索只能检索出意思差不多的内容，下游用一个可以真正能很好理解语义的大模型进行进一步的提取检索出来的句子中的信息是十分有必要的。

模型是否支持非对称语义检索的根本原因是什么呢？是训练的数据不同

正是因为训练数据有真正的问答属性，模型才有真正的问答检索能力（将问题与答案映射到同一向量空间）。我的理解是，如果训练数据里没有某一领域的数据，比如金融领域，那么通用的非对称语义模型就不能很好的完成该领域的检索任务。但是对称语义检索有“泛化”到其他领域的能力，毕竟只需要理解“字面意思”。

就直接把问题+答案拼在一起，做个二分类嘛。模型同时有了问题+答案这样一对的上下文信息，当然比直接分别将问题+答案映射到相同的向量空间、再计算相似度准的多了。但是这种计算向量相似度的模式会慢。假设有m个问题和n个答案，向量检索（图中的bi-encoder环节）只需要跑m+n次bert模型就够了，但是cross-encoder需要将所有问题和答案分别组合起来，跑m*n次bert模型。