LlamaIndex 实现 RAG(三)- 向量数据

news2024/9/25 3:26:00

RAG 中使用向量存储知识和文档数据,召回时通过语意进行搜索。文档转为向量是个非常消耗时的操作,不同 Embedding Model 参数不同,结果维度也不同,消耗的算力也不同。所以通常的做法都会在索引阶段(Embedding)把向量保存到向量数据库中,在召回阶段,向量数据库会根据选择的算法计算向量相似度,最终将分数高的数据进行返回。本文将介绍向量数据库的使用方法,包括以下几部分

  1. 什么是 Embedding Model?
  2. 向量数据库的使用,包括 Chroma 和 PGVector
  3. 向量文档的管理,文档更新

什么是Embedding Model

嵌入模型用于通过复杂的数值来表示文档,嵌入模型将文本作为输入,并返回一个向量,向量用于捕捉文本的语义。这些嵌入模型经过训练,能够以向量方式表示文本,并帮助实现语音搜索。从高层次来看,如果用户提出一个关于狗的问题,那么该问题的向量与讨论狗的文本的向量将非常相似。在计算向量之间的相似度时,有许多方法可以使用(点积、余弦相似度等)。默认情况下,LlamaIndex在比较嵌入时使用余弦相似度。

相似度算法

向量相似度算法主要包括三种,欧式距离(L2)、夹角余弦(Cosine)、内积(IP),向量数据库创建集合时,可以指定相似度算法,

欧式距离:点与点(矩阵与矩阵)之间的直线距离,越小相似度越高。
在这里插入图片描述

夹角余弦:向量之间的夹角,1 重合,-1 完全相反,0 为向量垂直,1 相似度最高。

在这里插入图片描述

向量内积:向量内积,越大相似度越高

在这里插入图片描述

嵌入模型的选择

嵌入模型选择要从多方面考虑,参数、维度,可以在 HuggingFace 上查看 Embedding排名,选择语言,这里我们选择中文模型,可以看到 Qwen 系列排名都很靠前。在本文的案例中,使用的嵌入模型是 nomic-embed-text,维度 768,效果没有 Qwen 的好,模型相对较小,运行速度比较快,在 RAG 评估阶段,可以根据效果进行嵌入模型的替换。

在这里插入图片描述

集成向量数据库

使用 LlamaIndex 接入向量数据,下面将分别使用代码分别接入 Chroma 和 PGVector。

Chroma

Chroma 是一个开源向量数据库,提供的功能包括向量的存储以及搜索,文档存储,全文本搜索,元数据过滤,多模态等等。安装 Chroma 依赖。

pip install chromadb
pip install  llama-index-vector-stores-chroma

实现 Chroma 向量数据库,包括两个方法,对文档做索引和查询索引,要确保 LlamaIndex 和 Chroma 使用同样的嵌入模型


def get_chroma_storage():
    chroma_client = chromadb.PersistentClient(path="./chroma_db")
    chroma_collection = chroma_client.get_or_create_collection("quickstart", 
                                                               embedding_function= embedding_functions.OllamaEmbeddingFunction(
                                                                        model_name="nomic-embed-text",
                                                                    url="http://10.91.3.116:11434"
                                                                ),
                                                               metadata={"hnsw:space": "cosine"})
    vector_store = ChromaVectorStore(chroma_collection=chroma_collection)
    return vector_store

def index_doc_chroma():
    storage_context = StorageContext.from_defaults(vector_store=get_chroma_storage())
    
    # 读取 "./data" 目录中的数据并加载为文档对象
    documents = SimpleDirectoryReader("./data").load_data()

   
    # 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型
    vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, 
                                                   storage_context=storage_context,
                                                   transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)
    return vector_index

def get_doc_index_chroma():
    '''
    解析 PDF 并保存到 Chroma
    '''
    # 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型
    vector_index = VectorStoreIndex.from_vector_store(get_chroma_storage(), embed_model=ollama_embedding)
    return vector_index

PGVector

PGVector 是 Postgres 数据库 Vector 扩展,本文使用的是 PGVector.rs,是 PGVector 的 Rust 版本,性能比 PGVector 要好。首先安装 PGVector 依赖

pip install llama-index-vector-stores-pgvecto-rs
pip install pgvecto_rs[sdk]

启动 PG Docker,Docker 镜像最近都不好用了,找到了一个可以用的镜像地址,需要的朋友请查看镜像文档

docker run --name pgvecto-rs-demo -e POSTGRES_PASSWORD=mysecretpassword -p 5432:5432 -d tensorchord/pgvecto-rs:pg16-v0.0.0-nightly.20240823

实现 PGVector Store 并索引文档


def get_pg_storage():

    vector_store = PGVectoRsStore(client=client)
    return vector_store


def index_doc_pg():
    storage_context = StorageContext.from_defaults(vector_store=get_pg_storage())
    
    # 读取 "./data" 目录中的数据并加载为文档对象
    documents = SimpleDirectoryReader("./data").load_data()

   
    # 从文档中创建 VectorStoreIndex,并使用 OllamaEmbedding 作为嵌入模型
    vector_index = VectorStoreIndex.from_documents(documents, embed_model=ollama_embedding, 
                                                   storage_context=storage_context,
                                                   transformations=[SentenceSplitter(chunk_size=1000, chunk_overlap=20)],)
    return vector_index

PG 最大好处就是可以 SQL 操作

在这里插入图片描述

文档的管理

本地的知识库通常需要定期更新,例如文档内容的变更,文档管理主要是要处理更新和删除,文档的更新可能会更新文档的多个地方,很难做到细粒度的追踪到每个分块的更新。所以对于文档的更新,我们就是使用删除再插入的方式。如果文档变更了,我们先删除之前的,在插入更新的,问题就变为我们只要能够找到之前文档进行删除即可,在 LlamaIndex 中文档可以通过 ID 删除文档。

在 LlamaIndex 中每个 Vector Store 都有对应的一个 delete 方法,调用 delete 方式需要出入一个 doc_id,下面这个截图来自 pg_vector。
在这里插入图片描述
那么这个 Id 从哪里来的,这个 Id 是在创建 Document 时生成的,下图来自 SimpleDocumentStore,红框内就是 DocId。
在这里插入图片描述
所以,有了这些数据,自己就可以很容易的实现一个文档管理系统。

  1. 首先保存文档创建时的数据,尽量不用SimpleDocumentStore,使用关系数据库保存,易于查询,文件保存在对象存储上。
  2. 删除时,根据文件路径找到对应的 Id,这里要保证路径的唯一性。
  3. 对新的文档进行索引,并保存到数据库中。

总结

本文介绍了LlamaIndex 中向量数据库的使用,向量数据库产品很多,至少有几十个。其实向量数据没有那么复杂,简单来说,就是向量的存储加查询,查询是通过上面所说的相似度算法,最后根据得分排序。由于计算量比较大,现在很多向量数据库厂商使用了云资源,其实向量最好能用能用现有的数据库,这样就不用新引入组件,比如手 PGVec、Mongo 等等。

最后,在项目中,还是要根据具体情况进行选型,要看你的项目的现有存储架构,对于性能要求高的可以考虑使用 Redis,Redis 是支持向量查询的,而且性能也不错。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2073887.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

deeplab3-plus(中文翻译)

** Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation 文章目录 Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation1 Introduction2 Related Work3 Methods3.1 Encoder-Decoder with Atrous Convolution…

鸿蒙南向开发:测试框架xdevice核心组件

简介 xdevice是OpenHarmony中为测试框架的核心组件,提供用例执行所依赖的相关服务。 xdevice主要包括以下几个主要模块: command,用户与测试平台命令行交互模块,提供用户输入命令解析,命令处理。config,…

electron仿微信,高度还原,入门项目

效果展示 Electron仿写微信-效果展示 目前完成了一些基础的功能,还在持续开发中,后期会整理开源。 有些样式没有追求百分百还原,只是通过该项目,让大家了解一下Electron创建桌面应用,各种窗口的创建及销毁、事件传递机…

NLP从零开始------13.文本中阶序列处理之语言模型(1)

语言模型( language model) 用于计算一个文字序列的概率, 评估该序列作为一段文本出现在通用或者特定场景中的可能性。每个人的语言能力蕴涵了一个语言模型,当我们说出或写下一段话的时候,已经在不自觉地应用语言模型来帮助我们决定这段话中的…

viscode 自定义片段,快速生成自己的开发模板

设置 ---> 代码片段 2.选择新建全局代码片段文件 3.根据示例自定义配置代码片段 4.示例:vue prefix:内容--> 代表用于触发代码片段的内容 $1, $2 用于制表位,如 $1 代表生成后第一个输入的位置,$2代表第二个,不用自己移动鼠标 {// Place your snippets f…

Sac格式

本文章只作为自己学习时的用法,不通用,大家可不用参考。 sac格式 0.01000000 -1.569280 1.520640 -12345.00 -12345.009.459999 19.45000 -41.43000 10.46400 -12345.00-12345.00 -12345.00 -12…

SQL注入漏洞的基础知识

目录 SQL注入漏洞的定义和原理 SQL注入的类型和攻击方法 SQL注入的防御措施 示例代码 深入研究 SQL注入漏洞的常见攻击场景有哪些? 如何有效防范SQL注入攻击? SQL注入与跨站脚本攻击(XSS)之间有什么区别? 主要…

每日一练【最大连续1的个数 III】

一、题目描述 给定一个二进制数组 nums 和一个整数 k,如果可以翻转最多 k 个 0 ,则返回 数组中连续 1 的最大个数 。 二、题目解析 本题同样是利用滑动窗口的解法。 首先进入窗口,如果是1,就直接让right,但是如果是…

【软考】树、森林和二叉树之间的相互转换

目录 1. 说明2. 树、森林转换为二叉树2.1 树转成二叉树2.1 森林转成二叉树 3. 二叉树转换为树和森林 1. 说明 1.树、森林和二叉树之间可以互相进行转换,即任何一个森林或一棵树可以对应表示为一棵叉树,而任何一棵二叉树也能对应到一个森林或一棵树上。 …

SSRF复现

目录 环境 分析测试 写入shell 环境 web-ssrfme docker环境 拉取运行 分析测试 进入网站会显示源码 可以看到过滤了file,dict等,但get传参info会执行phpinfo() 可以发现这里网站ip是172.18.0.3,可以使用这个地址绕过waf 测试看是否存在…

如何实现一次搭建 多平台适配的小程序

如何实现一次搭建 多平台适配的小程序 什么是小程序小程序的优势有什么?如果构建小程序,会用在什么领域和场景?如何实现一站式开发多平台的小程序?你希望了解小程序上哪些功能模块的集成能力? 随着微信、支付宝、百度、…

七、Centos安装LDAP--Docker版--已失败

参考博客: docker 安装 OpenLDAP 及 LdapAdmin桌面版、页面版(osixia/openldap)_docker安装ldap-CSDN博客 LDAP使用docker安装部署与使用_memberof ldap docker-CSDN博客 目录 一、安装Docker Docker基本使用 管理镜像 二、拉取LDAP镜像 配置docker国内的镜像…

Java 入门指南:初识 Java 异常(Exception)

初识Java异常 何为异常 在Java中,异常是一个不需要的或意外的事件,它发生在程序执行期间,即在运行时,破坏了程序指令的正常流程。异常可以被程序捕获(catch)和处理(handle)。 方法…

C/C++逆向:寻找main函数(Debug-x86)

在程序的逆向分析中,寻找main函数在逆向分析中是非常重要的,它是程序的核心执行点,从这里开始,程序的主要逻辑开始展开;在这边我们需要明确两个概念:用户入口(User Entry Point) 和 …

【C语言进阶】深入C语言指针:基础到进阶的跨越

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C语言 “ 登神长阶 ” 🤡往期回顾🤡:C语言数据在内存中的存储 🌹🌹期待您的关注 🌹🌹 ❀C语言指针进阶 &a…

Linux中安装java和tomcat(保姆级教程)

java 篇 JDK是用于开发Java应用程序的软件开发工具包。它包含了编译器、调试器、运行时环境和其他一些开发工具,可以帮助开发人员创建、编译、调试和部署Java应用程序。JDK提供了Java编程语言的开发工具和运行时库,使开发人员能够编写和执行Java代码。 …

TypeScript教程(一)之我们为什么要学TypeScript

根据软件开发设计公司 The Software House 针对 2022 年前端市场状态的调查显示,84% 的受访者都在使用 TypeScript,43% 的受访者甚至认为 TypeScript 将超越 JavaScript 成为前端开发的主要语言。TypeScript 这些年越来越火,可以说是前端工程…

影视会员官方渠道api对接

API对接是指两个不同的软件系统或应用程序之间通过API(应用程序编程接口)进行交互的过程。这种交互允许数据和功能的共享,而不必暴露系统的内部工作原理。在影视会员充值场景中,API对接具有以下几个关键特点和优势: 数…

【Linux系列】AWK命令使用

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Java面试题--JVM大厂篇之JVM大厂面试题及答案解析(4)

💖💖💖亲爱的朋友们,热烈欢迎你们来到青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博…