一、什么是检索增强生成
检索增强生成(Retrieval-Augmented Generation,RAG)由Facebook AI Research(FAIR)团队于2020年首次提出,这是一种结合了信息检索技术与语言生成模型的人工智能技术。它通过从外部知识库中检索相关信息,并将其作为提示(Prompt)输入给大型语言模型(LLM),以增强模型处理知识密集型任务的能力,如问答、文本摘要、内容生成等。RAG技术的优势在于它能够提供更加准确、丰富且符合用户需求的文本内容。它允许开发人员为生成模型提供最新的研究、统计数据或新闻,从而保持信息的时效性和相关性,缓解知识截止问题(模型的知识仅限于训练时的数据)和模型幻觉(模型生成不准确或虚假的信息)。
二、RAG的流程
RAG的工作流程通常包括以下几个步骤:
1、检索(Retrieval):根据用户的查询,从预先构建的知识库中检索出相关的信息。这些信息通常被转换成向量形式存储在数据库中,通过计算查询与数据库中向量的相似度来检索最相关的信息。
2、增强(Augmentation):将检索到的信息与原始查询结合起来,形成增强的提示词,这个增强的提示词包含了查询的上下文信息。
3、生成(Generation):利用增强的提示词作为输入,大语言模型生成回答或完成特定的语言任务。
三、如何应用RAG
1、Kimi等智能助手
最直接可以体验RAG优势的就是Kimi智能助手了(也有一些其他的智能助手支持联网),它支持可调节的网络访问,你可以选择让Kimi联网或者不联网响应你的需求,只需要在对话框的左下角点击按钮即可。联网模式下,对于有的需求,Kimi会自动联网搜索并生成回复,而有的需求并不会这样,这取决于上下文以及Kimi的判断逻辑。不过,当你需要它搜索的时候,可以尝试在提示词中强制它联网搜索(虽然有时候会失败):
2、LangChain
LangChain 是一个开源框架,用于构建由大型语言模型(LLM)驱动的应用程序。它通过提供工具和抽象,使开发人员能够将语言模型与外部数据源连接,这相当于给LLM配备了一个小型的专属数据库,它可以随时检索数据库中的知识来回答你的问题。LangChain 的工作流程通常包括以下步骤:
-
用户提出问题。
-
问题被转换成向量表示,用于在向量数据库中进行相似性搜索。
-
从向量数据库中提取相关信息块,并将其输入给语言模型。
-
语言模型生成答案或执行操作。
四、总结
检索增强生成的概念很简单,复杂的是如何实现检索增强生成的这个流程。目前网上诸多跟LangChain类似的开源解决方案,但其中还有很多细节值得关注。例如,如何最大化压缩存储空间,如何提高检索速度,如何让大模型更好地应用检索到的知识或者信息等等,这些我们后面再逐一探究。