用于事实核查的知识图谱比较推理:问题定义和算法 7.24

news2025/2/27 18:05:01

用于事实核查的知识图谱比较推理:问题定义和算法

  • 摘要
  • 介绍
  • 问题定义
    • 知识段(Knowledge Segment KS)
    • 共性
    • 不一致性
    • 集体共性
    • 集体不一致性
    • 成对比较推理
    • 集体比较推理
  • 知识片段提取
    • Predictate-Predictate Similarity
    • 特定边的知识段
    • 特定子图知识段
  • 比较推理
    • 比较推理的情景
    • 基于神经网络的成对比较推理

在这里插入图片描述

摘要

知识图谱是一种普遍存在的数据结构,已被应用于许多领域。知识图谱推理是根据知识图谱中已有的信息发现或推断知识。然而,大多数现有的工作都属于 point-wise 方法,这些方法对一条线索执行推理。

point-wise
是一种常见的评估和处理文本数据的方法。Point-wise方法将文本数据转化为单个数据点的形式进行处理和评估。
在文本分类任务中,point-wise方法将每个文本样本视为一个独立的数据点,并为每个数据点分配一个标签或分数。这样,可以使用常见的机器学习算法(如支持向量机、逻辑回归等)对每个数据点进行独立的分类或评分。这种方法的优点是简单直观,易于理解和实现。
例如,在情感分析任务中,point-wise方法将每个句子或文本片段视为一个数据点,并为其分配一个情感标签(如正面、负面、中性)。然后,可以使用分类算法对每个数据点进行情感分类。

知识图谱的比较推理侧重于推断多条线索的共性和不一致性,这是一个新的研究方向,可以应用于许多应用。

在本文中,我们正式给出了比较推理的定义,并提出了几种不同的方法来处理 成对(pairwise) 和集合情况下的比较推理。

pair-wise
和List-wise方法与point-wise方法相对, Pair-wise方法考虑了两个数据点之间的关系,例如比较两个文本的相似性或排序。List-wise方法则将整个数据集作为一个整体进行处理,例如在搜索排序中考虑整个文档列表的排序。

所提出的方法的思想是,我们从知识图谱中找到一个知识片段来最好地表示给定声明的语义,并根据它给出理由。并真实世界的数据集上进行了广泛的实证评估,以证明所提出的方法具有良好的性能。

介绍

知识图谱是一种普遍存在的数据结构,用于存储真实世界的实体及其关系。

自2012年首次亮相以来,已经提出了几种广泛使用的知识图谱,包括Yago、Wikidata、Freebase等。过去几年来,旨在发现或解释现有知识或从知识图谱中的现有信息推断新知识的知识图推理已成为一个重要的研究方向。

尽管在学术界和工业界都取得了巨大的成就,但现有的知识图谱推理工作大多属于point-wise(点式)方法,对一条线索(例如,三元组、多跳查询、复杂查询图)进行推理。例如,在事实核查中,给定一个主张(例如,表示为知识图谱的三元组),它决定该主张是真实的还是伪造的。然而,比较推理很少被研究。不同于点式推理(或在知识图谱上的推理),知识图谱上的比较推理侧重于对多条线索推断共性和(或)不一致性(例如关于一篇新的文章的多条声明),这是知识图谱推理上的新的研究方向并且可以广泛的应用于众多领域,例如事实核查。

与逐点(单一声明)事实核查相比,比较推理具有许多独特的优势。这是因为在许多真实世界的情况下,例如,多模态假新闻检测,单独的单一声明事实核查是不够的,而比较推理提供了关于输入线索的更完整的画面,这反过来帮助用户发现通过逐点方法看不见的细微模式(例如不一致性)。

当我们同时验证两个声明(或三元组)时,如果我们单独评估,即使每个声明(三元组)组本身是一致的,结果也可能不一致。

假设有一篇 多模态新闻的文章 ,我们希望验证它的真实性。为此,分别从给定的新闻中提取了两个查询图。一个查询图形包含来自文本的所有信息,另一个包含来自图像的信息。如果我们执行点式推理来分别检查这两个查询图中的每一个,那么两者似乎都是真的。然而,如果我们同时对两个查询图进行推理,并通过比较,我们可以发现它们之间微妙的不一致性(即,不同的飞机类型,最大飞行距离的差异)。此外,比较推理还可以用于知识图的扩展、集成和完成。
在这里插入图片描述

“Multi-modal news”(多模态新闻)
是指结合多种媒体形式(如文本、图像、视频、音频等)来呈现新闻内容的方式。

本文解决了比较推理的问题。主要关注两个问题:成对比较推理和集体比较推理。

具体而言,我们应对以下两个关键挑战:

  1. 我们利用图神经网络和图核,根据背景知识图中的信息,揭示输入线索的共性和不一致性。我们提出了几种不同的算法,并证明了它们的有效性。
  2. 比较推理的一个常见构建块是知识段,它是给定线索(例如,三元组或其一部分)的一个小连接子图,用于总结其语义上下文。在此基础上,我们提出了实现成对推理和集合推理的核心算法。关键思想是利用知识片段中的结构和语义信息来帮助发现模糊矛盾。

这篇论文的主要贡献:

  • 问题定义:我们在知识图上引入了比较推理,它补充并扩展了现有的逐点推理能力。
  • 算法:我们提出了一系列比较推理算法,既可以解决成对比较推理,也可以解决集体比较推理经验
  • 评估:我们进行了广泛的实证评估,以证明我们提出的方法的有效性。

问题定义

首先介绍符号——本文中将使用的符号,然后介绍其他重要概念和比较推理的正式定义。

在这里插入图片描述
给定多条线索,比较推理的目标是推断它们的共性和(或)不一致性。
如果给定的信息是一对线索,则称之为成对比较推理或成对策略检验。目的是推断这两条线索是否连贯。
如果给定的信息是一个连接的查询图,那么目标是检测给定图内部是否存在不一致。这个问题被称为集体比较推理或集体事实核查。

与传统的点推理方法不同,比较推理可以揭示一些点推理方法可能忽略的微妙模式。以基于知识图的事实核查为例,考虑两种声明(三元组):(巴拉克·奥巴马,哈佛大学毕业)和(巴拉克·奥巴马,政治学硕士)。即使每一条线索(说法)都是真实的,但如果我们同时检查它们,我们可以看到它们不可能都是真的。这是因为巴拉克·奥巴马在哈佛大学学习时主修法律而不是政治学。因此,如果不适当地将不同的线索/主张放在一起检查,我们可能无法发现它们之间的不一致。

为了便于比较推理,如何利用知识图中的背景信息是一个重要的问题。

如果我们能在知识图谱中找到一个子图,它能最好地表达每个输入线索的语义,那么隐藏的冲突就更容易被检测到。理想情况下,这个子图应该包含知识图中与给定线索相关的所有有意义/重要的实体和关系。我们称之为子图 知识段,其形式定义如下:

知识段(Knowledge Segment KS)

知识图谱中能够最好地表述一条线索的语义的连接子图。
在这里插入图片描述
可以看到,用知识片段来表达给定的线索可以帮助我们毫不费力地发现不一致性。

对于成对的案例来说,这种共性指的是两个知识片段的相同元素。不一致性包括相互矛盾的任意元素。

共性

两个三元组的共性是指这两个三元组共享的点和边,也是两个知识片段共享的点和边。

不一致性

两个知识片段中任何相互矛盾的元素(节点、节点属性、边)

集体共性

在一个查询图中的任意三元组之间的共同点也就是集体共同性

集体不一致性

在一个查询图的所有知识片段中相互矛盾的任何元素

成对比较推理

给出一个知识图谱和两个三元组,输出关于这两个三元组一致性的二元决策

集体比较推理

给出一个知识图谱和一个查询图,输出关于查询图一致性的二元决策

知识片段提取

本节将介绍如何对抽取知识段,以最好地表达给定术语的语义。

首先介绍了如何将知识图转换为关系指定的加权图,并介绍了如何从中提取特定于边的知识段(Edge-specific KS)和特定于子图的知识段(Subgraph-specific KS)。

知识段提取的目的是抽取一个子图,该子图能够最好地表达给定线索的语义。目前已经提出了许多现有的方法来提取加权图或未加权图中从查询边的源节点到其目标节点的简明子图。

然而,这些方法并不直接适用于知识图,因为知识图的边(即谓词)具有特定的语义(如类型、关系)。为了解决这个问题,我们试图通过设计用于知识段提取的谓词-谓词相似性(Predictate-Predictate Similarity)度量,将知识图转换为加权图。

Predictate-Predictate Similarity

为了将知识图转化为加权图,我们提出使用基于TF-IDF的方法来测量不同谓词之间的相似性,并将知识图转换为一个加权图,其边缘权重表示边缘谓词和查询谓词之间的相似度。

基于TF-IDF的方法的关键思想是,将知识图中的每个三元组及其相邻的三元组视为一个文档,并使用类似TF-IDF加权策略来计算谓词相似度。例如,谓词receiveDegreeFrom可能有相邻谓词major和graditeFrom。这些谓词具有高度的相似性。

具体而言,使用知识图谱来构建一个谓词的同时发生矩阵(co-occurence maxtrix of predicates),并且通过类似TF-IDF加权策略计算他们的相似度。

对于Predictate-Predictate Similarity来说,假设我们想计算major和study的相似度。major和study都只有一个相邻谓词graduate。这意味着谓词i ≠graduate,同时发生矩阵U(major,i)=U(study,i)=0。

特定边的知识段

特定边的知识片段提取旨在找到一个知识片段来最好地表征给定边的语义上下文(即三元组)。

对于带权图,存在几种连接子图提取方法,例如,使用基于重新启动的随机行走方法来找到近似子图;使用最大网络流来寻找子图,旨在寻找更密集的局部图分区。

在本文中,将知识图转换为带权图后,我们找到了从给定查询边的主体到对象的k-simple最短路径作为其知识段。

特定子图知识段

根据特定边知识段提取的思想,我们在给定的子图中的每个边缘提取一个知识段,并将包含所有边缘特定知识片段的图称为图特定知识片段。换言之,子图特定知识段由多个相互链接的边缘特定知识段组成(即,输入查询子图的每条边缘对应一个边缘特定知识片段)。

特定子图知识段提供了更为丰富的语义,包括查询图的每条边的语义和输入查询图的不同边之间的关系的语义。

比较推理

首先介绍什么情况下我们需要对两条线索(两个边或三元组)使用成对推理,然后介绍了两种侧重于成对推理的方式。最后,我们提出了集体比较推理。这些功能背后主要思想就是,使用知识段来表达每一个查询三元组的语义,并且根据知识段中的信息检查不一致性。

比较推理的情景

同时满足:

  1. 两条线索的主体是相同的
  2. 它们的谓词彼此相似或相同

进一步,如果它们的object是两个不相关的实体,那这两条线索大概率是不一致的。

基于以上观察,我们采取以下三个步骤进行配对比较推理。

  1. 给出一对线索,通过检查这两条线索的主语、谓语和宾语,我们决定它属于六种情况中的哪一种。
  2. 如果这对线索属于C3或C4,我们需要进一步判断它们是否一致。在下面的部分中,我们将说明如何处理这种情况。
    在这里插入图片描述

基于神经网络的成对比较推理

给定一对线索中属于C3或C4的两个知识段,我们将每个知识段视为一个属性图,并采用 网络对齐(network alignment) 的一些思想来促进比较推理。
基本思想是,如果两个知识段是一致的,那么它们的大多数节点必须能够在嵌入空间中相互对齐或接近。否则,不一致节点的嵌入距离应该过大。通常,不一致性检查问题类似于嵌入空间中的异常检测或相异性检测问题。

网络对齐(Network Alignment)
指在两个或多个不同的网络之间,通过找到节点之间的对应关系,将这些网络进行对齐或匹配的过程。这个概念通常用于图论和网络科学中,用于比较和分析不同网络之间的相似性和关联性。

在对一对知识段进行推理时,我们考虑两种信息:结构信息和语义信息。
例如,空军一号和直升机具有相似的结构信息,因为它们有许多共同的邻居,但它们的语义非常不同,这可能表明这两个知识片段之间存在潜在的不一致。
另一方面,尽管空军一号和直升机有不同的结构信息(在考虑边缘类型时),但它们也有不同的语义信息。这提示它们指的是不同的事物。
受此启发,我们提出了一个同时考虑知识片段的结构信息和语义信息的神经网络模型,以实现成对的比较搜索。

为了对结构相似性进行编码,我们使用 随机游动重启(Random Walk with Restart)(考虑边缘类型)对知识片段的结构信息进行编码。

Random Walk with Restart(随机游走重启)
是一种图算法,用于在图中进行节点排序或推荐任务。它结合了随机游走和重启机制,通过模拟节点之间的随机游走来计算节点之间的相似度或相关性。
在随机游走过程中,从一个起始节点开始,根据一定的概率选择下一个节点进行扩散。重启机制会定期将游走的节点重置为起始节点,以防止游走过程过于远离起始节点。这样做可以平衡节点的局部和全局信息,使得算法能够在节点之间进行有效的传播和探索。
Random Walk with Restart常用于图中的节点排序和推荐任务。通过计算节点之间的相似度或相关性,可以将节点按照重要性进行排序,或者根据节点之间的相似性为用户进行推荐。

给定一组 锚节点(anchor node),随机游动重启将计算跟每个锚节点有关的知识段中每个节点的分数。如果两个节点具有相似的随机游动重启得分向量,则它们的结构相似性应该很高。

为了对知识片段的语义信息进行编码,我们从知识图谱中抽取一些路径,并将每条路径视为一个句子,知识图中的节点可以视为句子中的单词。如果两个节点出现在同一个句子中,它们的语义信息应该相似。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/787209.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[巅峰极客2023]wp复现

文章目录 [巅峰极客2023]复现miscwelcomefoundmesong学生物 webunserializesql [巅峰极客2023]复现 misc welcome base64解码 foundme find.DMP文件 使用flag查找工具找到关键字: flag.avif 放入010中看到这个hint,找到好几个avif: 将他…

Shedskin 使用

Shedskin是一个编译器工具,可以将Python代码编译为C语言。先说结论吧,这玩意现在就只是个玩具,因为使用ShedSkin编译的程序不能自由使用Python标准库,目前只支持大约17个常用模块: bisect collections ConfigParser c…

4.python设计模式【建造者模式】

内容: 将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示。建造者模式与抽象工厂模式相似,也用来创建复杂对象。主要区分是建造者模式着重一步步构造复杂对象,而抽象工厂模式着重于多个系列的产品对象。角色&#xf…

嵌入式做单片机的门槛

我个人认为并不高,如果你非要有个量化的标准,那我觉得初中文凭都能学会并且能以此为生的程度。 文凭嘛,就是一张纸,并代表不了什么。 前几年,我接了一个帮研究生写毕业论文的单子,果然没让我失望&#xf…

实现Android屏幕分享和视频聊天(附源码)

在一些有人际互动的手机APP中,增加语音视频聊天功能是一个常见的需求。而现在,更进一步,在某些场景下,我们需要能将自己的手机屏幕分享给他人,或者是观看他人的手机屏幕。那么,这些常见的功能是如何实现的了…

reset master

1 reset master 执行 reset master; 后 变化1 :位点被重置 变化2 binlog日志被清空 原来的binlog被删除 从 mysql-bin.000001 开始记录。

【ribbon】Ribbon的负载均衡和扩展功能

Ribbon的核心接口 参考:org.springframework.cloud.netflix.ribbon.RibbonClientConfiguration IClientConfig:Ribbon的客户端配置,默认采用DefaultClientConfigImpl实现。IRule:Ribbon的负载均衡策略,默认采用ZoneA…

【GPT4结对编程】word文档导出功能GPT4来实现

需求背景 最近产品增加了一个导出word文档的需求,之前有导出过pdf格式、excel格式、csv格式,但还没导出过word文档。 开源框架调研 我们的后端服务主要是用golang,因此首先想到的是golang相关的开源工具,找到2个。 unioffice …

【网络安全】蜜罐部署实战DecoyMini攻击诱捕

蜜罐部署实战&DecoyMini攻击诱捕 前言一、蜜罐1. 概念2. 蜜罐溯源常见方式3. 蜜罐分类 二、蜜罐项目实战1. 配置DecoyMini1.1 命令行窗口运行1.2 修改配置信息 2. 登录DecoyMini3. 克隆网站3.1 增加仿真网站3.2 增加诱捕器3.3 查看端口监听3.4 克隆成功(蜜罐&am…

Qt : day1

1.聊天界面 #include "widget.h"Widget::Widget(QWidget *parent): QWidget(parent) {qDebug() << this->size(); //获取当前页面尺寸this->setFixedSize(500, 600); //设置固定尺寸this->setWindowTitle("聊天框"); //设置窗口…

解决Cannot resolve plugin org.apache.maven.plugins:xxxxxxxx

解决Cannot resolve plugin org.apache.maven.plugins:xxxxxxxx 方法一、检查配置设置 下图中三个方框圈出来的地方设置为自己的下载的maven地址&#xff0c;配置文件地址&#xff0c;仓库地址。刷新maven。 我个人试过没用&#xff0c;不过网上有的朋友用这个方法解决了。 …

CBC字节翻转攻击介绍 例题

知识导入&#xff08;AES-CBC模式&#xff09; 加密过程 1、首先将明文分组(常见的以16字节为一组)&#xff0c;位数不足的使用特殊字符填充。 2、生成一个随机的初始化向量(IV)和一个密钥。 3、将IV和第一组明文异或。 4、用key对3中xor后产生的密文加密。 5、用4中产生的密文…

大厂案例 - 腾讯万亿级 Elasticsearch 架构实践

文章目录 概述提纲益处正文一、Elasticsearch 简介0. 应用领域搜索引擎可观测性安全检测发展现状 1.系统架构集群架构物理数据模型查询 2.腾讯应用现状搜索领日志实时分析时序数据 二、技术挑战1.可用性2.成本3.性能 三、架构设计实践1.可用性优化1.1 解决方案2.2 集群扩展性2.…

RK3588平台开发系列讲解(LCD篇)LCD的分辨率和像素格式

文章目录 一、分辨率二、像素格式三、LCD成像步骤四、LCD屏幕时序4.1、行显示时序4.2、帧显示时序沉淀、分享、成长,让自己和他人都能有所收获!😄 📢液晶 LCD 显示器是由两片平行的玻璃基板组成,两片平行的玻璃基板之间放置了一个液晶盒。在下基板玻璃上,有一组被称为薄…

【Postman】- 基本用法

一、用例集 1.1 用例集 Collections&#xff1a;用例集。目录下可以创建子目录。 1.2 导出用例集 1.3 导入用例集 二、Postman断言 断言&#xff1a;让程序判断预期结果和实际结果是否一致 2.1 特点 Postman的断言是使用JavaScript语言编写的&#xff0c;写在"Tests&…

Jvm参数优化

Jvm参数优化 背景1. 系统上线规划容量- 分析 2. 垃圾回收器选择吞吐量和响应时间垃圾回收器选择 3. 规划各个分区的比例大小4. 对象年龄对少移动到老年代合适5. 对象多大放到老年代6. 垃圾回收器CMS老年代参数优化7. 配置OOM时的内存dump文件和GC日志8. 通用JVM参数模板 背景 …

任务的调度 和 任务的状态

任务的调度 Q: 什么是任务调度&#xff1f; A: 调度器就是使用相关的调度算法来决定当前需要执行的哪个任务。 FreeRTOS中开启任务调度的函数是 vTaskStartScheduler() &#xff0c;但在 CubeMX 中被封装为 osKernelStart() 。 这个“osKernelStart()”就是在main.c中main函…

MyBatis源码分析_ResultSetHandler(7)

1. 传统JDBC Mybatis其实就是封装传统JDBC的&#xff0c;它和传统JDBC访问数据库基本一模一样。因此&#xff0c;不要觉得Mybatis有多高级。而 ResultSetHandler 就是处理我们JDBC访问数据库获取到的ResultSet结果集的。在此之前&#xff0c;我们还是先看一下传统JDBC&#xf…

5.2.10.应用程序如何调用驱动 mknod /dev/test c 250 0 创建设备文件,应用app 程序 调用 我们 驱动 壳子

5.2.10.应用程序如何调用驱动 5.2.10.1、驱动设备文件的创建 (1)何为设备文件 索引驱动 (2)设备文件的关键信息是&#xff1a;设备号 主设备号 次设备号&#xff0c;使用ls -l去查看设备文件&#xff0c;就可以得到这个设备文件对应的主次设备号。 4颗LED不可能 都占用 主设备…

【深度学习】日常笔记14

对神经网络模型参数的初始化方案对保持数值稳定性有很重要的作用。初始化⽅案的选择可以与⾮线性激活函数的选择有趣的结合在⼀起。 突然有感触&#xff1a;做习题和模拟考研就分别是训练集和验证集&#xff0c;考研不就是最后的测试集&#xff08;&#xff09; p168的↓的解释…