基于大语言模型抽取文本中的实体和关系

news2024/11/24 4:25:34

      在基于大语言模型图数据库存储中,要从文本中提取实体,实体属性和关系。  实体关系抽取是从文本中的句子里抽取出一对实体并给出实体间关系的任务。

该任务的输入是一句话,输出是一个spo三元组(subject-predicate-object)。

spo三元组

  • subject 主语
  • object  宾语
  • predicate 谓词

中文表达

 

实体联系模式图(ERD)(Entity-relationship model)

实体(Entity)

 实体是一个系统内可定义的事物或概念,如人/角色(例如学生),对象(例如发票),概念(例如简介)或事件(例如交易)

实体的属性(attributes)

属性是定义实体或实体类型的质量、属性和特征。

联系(Relationship)

联系是多个实体之间的相互联系。
联系集是相同类型联系的集合。

基于大语言模型抽取实体和关系

大语言模型能够从语句中提取实体和关系,这给实体抽取提供了新的方法。下面是kimi 的回答:

例子:

陈述:请列出下列语句中的实体和实体之间的关系。姚远的妻子是刘素霞,他们有一个儿子叫姚大伟。用JSON 输出。

回答:{
  "entities": [
    {
      "name": "姚远",
      "type": "person"
    },
    {
      "name": "刘素霞",
      "type": "person"
    },
    {
      "name": "姚大伟",
      "type": "person"
    }
  ],
  "relationships": [
    {
      "subject": "姚远",
      "predicate": "妻子",
      "object": "刘素霞"
    },
    {
      "subject": "姚远",
      "predicate": "儿子",
      "object": "姚大伟"
    },
    {
      "subject": "刘素霞",
      "predicate": "儿子",
      "object": "姚大伟"
    }
  ]
}

例2

陈诉:请列出下列语句中的实体和实体之间的关系。丹阳第二中学位于江苏省丹阳市。用JSON 输出

回答:{
  "entities": [
    {
      "name": "丹阳第二中学",
      "type": "school"
    },
    {
      "name": "江苏省",
      "type": "province"
    },
    {
      "name": "丹阳市",
      "type": "city"
    }
  ],
  "relationships": [
    {
      "subject": "丹阳第二中学",
      "predicate": "位于",
      "object": "江苏省丹阳市"
    }
  ]

提取实体和关系的难点

中文表达关系的含义不准确。

例如:姚远的父亲是姚邦豪。

实体:姚远,姚邦豪

关系:父亲

 表达关系 (姚远)->[父亲]->(姚邦豪)

        这种关系的名称并不确切,经常会误解为姚远是姚邦豪的儿子。不如英文 is_father 和father_of 表达更贴切。

因此我们改用了英文表达关系。

具体应用中,依然存在许多的问题:

1  姚远的哥哥是谁?

    有时候会提取出实体为”姚远“,有时候会提取出”姚远的哥哥“

2 姚远的哥哥今年60岁了

   提取出来的实体是”姚远“ 和”姚远的哥哥“两个实体。不会通过”姚远“节点找到他的哥哥。

ERD 的图数据库存储

 当LLM 获取了实体和关系之后,可以将这些信息存储到图数据库中。

    节点-存储实体

     关系-关系的类型

(主语)->[关系]->(宾语)

例如:

姚远->[妻子]->刘素霞

ERD 图的文本表达 

(主语)->[关系]->(宾语) => 姚远妻子刘素霞

(主语)->[关系]->(宾语) =>  丹阳第二中学位于江苏省丹阳市

基本符合中文的语法。但是容易产生幻觉。

提示词:

你是一个图数据库专家,通过路径查询信息,回答问题。
已经查询的路径:
Path ={
    "entities":[{
        "name":"姚远",
        "type":"person"
    },
    {
        "name":"姚大伟",
        "type":"person"
    }
   ],
    "relationships": [
        {
          "subject": "姚远",
          "predicate": "儿子",
          "object": "姚大伟"
        }]
}

当前节点的名称:姚大伟。
当前节点有一些相邻节点,通过如下关系连接。
"relationships": [
        {
          "subject": "姚大伟",
          "predicate": "儿子",
          "object": "姚舜宇"
        },
{
          "subject": "姚大伟",
          "predicate": "妻子",
          "object": "翟瑞玥"
        },
]
要回答的问题:姚大伟的儿子的同学是那些人?
如果能回答问题,直接回答(文本格式)。
如果目前的信息还无法回答问题,请推荐下一个查询节点名称。使用JSON输出。你是一个图数据库专家,通过路径查询信息,回答问题。
已经查询的路径:
Path ={
    "entities":[{
        "name":"姚远",
        "type":"person"
    },
    {
        "name":"姚大伟",
        "type":"person"
    }
   ],
    "relationships": [
        {
          "subject": "姚远",
          "predicate": "儿子",
          "object": "姚大伟"
        }]
}

当前节点的名称:姚大伟。
当前节点有一些相邻节点,通过如下关系连接。
"relationships": [
        {
          "subject": "姚大伟",
          "predicate": "儿子",
          "object": "姚舜宇"
        },
{
          "subject": "姚大伟",
          "predicate": "妻子",
          "object": "翟瑞玥"
        },
]
要回答的问题:姚大伟的儿子的同学是那些人?
如果能回答问题,直接回答(文本格式)。
如果目前的信息还无法回答问题,请推荐下一个查询节点名称。使用JSON输出。格式为:
{
“NextNodes”:[ {“name”:”next query node”}]
}

结束语

        使用LLM 提取实体和关系,查询neo4j图数据库。这看似简单,但是极其富有挑战性。我们尝试了kimi 和零一万物大模型yi-large 。效果都不十分令人满意。而且使用程序调用大模型,要比大模型在线对话差一点。也不知道是为什么。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2036364.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构】TreeMap和TreeSet

目录 前言TreeMap实现的接口内部类常用方法 TreeSet实现的接口常用方法 前言 Map和set是一种专门用来进行搜索的容器或者数据结构,其搜索的效率与其具体的实例化子类有关。 一般把搜索的数据称为关键字(Key), 和关键字对应的称为…

【C#】知识汇总

目录 1 概述1.1 GC(Garbage Collection)1.1.1 为什么需要GC?1.1.2 GC的工作原理工作原理什么是Root?GC算法:Mark-Compact 标记压缩算法GC优化:Generational 分代算法 1.1.3 GC的触发时间1.1.4 如何减少垃圾…

MFC核心技术探索

原文地址:李浩的博客 lihaohello.top 本文采用逐步调试的方法,带你一起探索MFC程序的执行流程、窗体创建、消息映射、运行时类型识别、对象动态创建这些核心机制。 相信读者在深入理解这些核心机制后,会由衷感叹于MFC框架实现的精妙&#xf…

Outh2四种授权模式详解

1.oauth 2.0 简介 2.各个角色介绍 3.四种模式 4.授权码模式 ①:获取授权码 ②:申请授权接口 ③:申请token ④:申请token接口 5.简单模式 6.密码模式 7.客户端模式

StarRocks 存算分离 Data Cache 二三事

前言 StarRocks 存算分离模式架构中,数据导入后,会被写入远端对象存储。而对象存储由于其访问延迟较高特性,如果没有任何优化,每次查询直接访问后端对象存储,那么性能就会变得非常差,也就失去了 StarRocks…

【C#】一个项目移动了位置,或者换到其他电脑上,编译报错 Files 的值“IGEF,解决方法

文章目录 1 问题分析2 本文解决方法 一个项目可以正常运行编译的项目,所有路径均为相对路径。 移动了位置,或者换到其他电脑上,编译报错 Files 的值“IGEF, 1 问题分析 这个错误信息表明在处理文件时,Files 的值出…

tiktok 搜索接口请求与翻页

这几天有小伙伴问tk的搜索接口的问题, 一个是搜索热门接口请求返回 {“status_code”: 0},这个使用curl_cffi的requests库改一下指纹请求就行了。 再一个就是翻页问题 细心一些比对一下翻页参数都能做到的(小伙伴以为只改个offset就完事了) 要不然你只能得到这样的结果:…

JavaWeb—XML_Tomcat10_HTTP

一、XML XML是EXtensible MarkupLanguage的缩写,翻译过来就是可扩展标记语言。所以很明显,XML和HTML一样都是标记语言,也就是说它们的基本语法都是标签。 可扩展:三个字表面上的意思是XML允许自定义格式。但这不代表你可以随便写; 在XML基…

极狐GitLab 如何设置访问令牌前缀?

极狐GitLab 是 GitLab 在中国的发行版,专门面向中国程序员和企业提供企业级一体化 DevOps 平台,用来帮助用户实现需求管理、源代码托管、CI/CD、安全合规,而且所有的操作都是在一个平台上进行,省事省心省钱。可以一键安装极狐GitL…

GSON转换将Long类型转换Double导致精度丢失的问题排查

问题描述 项目中同步订单时发现一个问题,同一条的数据,order_id和item_id为Long类型,在同步时,数值变了。比如原本是6930414387088791188变成了69304143870884512001。 问题排查 经过排查发现http请求的返回参数是正常的&#…

树形结构数据数据查询优化过程

树形结构数据统计查询优化过程 初始方案&#xff1a; 组织树数据结构如下&#xff1a; 数据请求参数&#xff1a; 原技术方案&#xff1a; public List<Map<String, List<Long>>> getSelectParam(List<DepartmentQueryDTO> departmentList, Stri…

图论(二):图的度分析——度数bar图度数等级图度数直方图根据度数渲染节点颜色

本期所用数据集&#xff0c;空手道俱乐部关系数据集&#xff1a; 数据集中共有34个节点&#xff0c;每个节点代表俱乐部中的一名成员数据集中共有78条边&#xff0c;每条边表示两名成员之间的友谊关系或社交联系常见数据集格式为GML和TXT格式&#xff0c;还可能包含其他格式的…

检索增强生成算法

检索增强生成算法&#xff08;Retrieval-Augmented Generation&#xff0c;RAG)是由Patrick Lewis等人于2020年提出的&#xff08;https://arxiv.org/pdf/2005.11401&#xff09;&#xff0c;主要用于辅助大规模语言模型&#xff08;Large Language Models, LLMs&#xff09;在…

【网络】代理服务器

目录 正向代理 反向代理 个人主页&#xff1a;东洛的克莱斯韦克-CSDN博客 正向代理 正向代理&#xff08;Forward Proxy&#xff09;是一种常见的网络代理方式&#xff0c;它位于客户端和目标 服务器之间&#xff0c;代表客户端向目标服务器发送请求。正向代理服务器接收客户…

晓北斗 - 北斗七星、北斗导航系统

北斗导航 北斗卫星导航 芯片、模块、天线、板卡等基础产品,是北斗系统应用的基础。通过卫星导航专项的集智攻关,我国实现了卫星导航基础产品的自主可控,形成了完整的产业链。 北斗卫星导航系统&#xff08;Beidou Navigation Satellite System&#xff0c;简称&#xff1a;BD…

Effective-Java-Chapter5-泛型

https://github.com/clxering/Effective-Java-3rd-edition-Chinese-English-bilingual/blob/dev/Chapter-5/Chapter-5-Introduction.md 准则一 不要使用原始类型 首先来看一下什么是原始类型呢&#xff1f; List 对应的原始类型是 List&#xff0c;那其实就是说不带参数化类…

Selenium + Python 自动化测试13(HTML报告)

我们的目标是&#xff1a;按照这一套资料学习下来&#xff0c;大家可以独立完成自动化测试的任务。 上一篇我们讨论了unittest中discover 的构建&#xff0c;可以组织测试更多测试用例。 本篇文章我们接着讲。如何生成HTML报告&#xff0c;提高我们测试报告的可读性。 1、引入…

IOS 01 CocoaPods 安装与使用

什么是CocoaPods CocoaPods是一个依赖管理工具&#xff0c;类似Java语言的Maven&#xff0c;Gradle这样的工具&#xff1b;只是他是管理iOS&#xff0c;macOS等平台项目的依赖而已。 同类软件 Carthage&#xff0c;Swift官方提供的Swift Package Manager。 流行程度 Cocoa…

若依框架将Mybatis改成MybatisPlus

1.引入MybatisPlus的maven依赖 <mybatis-plus.version>3.2.0</mybatis-plus.version> <dependencies><!-- mybatis-plus --><dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifac…

国联证券:蛇吞象

券商蛇吞象&#xff0c;难解业绩荒 今天我们来聊——国联证券 重大资产重组预案发布两个半月后&#xff0c;国联证券最新重组方案出炉&#xff0c;作价294.92亿收购民生证券99.26%的股份。 炒了这么久的券商重组&#xff0c;终于迎来实质性落地。 也因为这两家的营收差异&…