【文献整理】基于深度强化学习的知识图谱推理研究

news2024/11/15 8:12:24

目录

  • DeepPath
      • 背景
      • Core
      • 贡献
      • 几个要点:
      • Training pipeline
      • 结论
  • DIVINE
      • 背景
      • Core
      • 贡献
      • 预备知识
      • DIVINE推理过程
      • 模型

文献整理基于综述论文:基于深度强化学习的知识推理研究进展综述_宋浩楠,赵刚,孙若莹
文中对知识图谱推理进行如下分类:在这里插入图片描述
基于逻辑的推理方法[23-31]主要是通过一阶谓词逻辑(first order logic)、描述逻辑(description logic)以及规则等推理出新的知识。该类方法的规则获取难度大,推理能力受限;
基于表示学习的推理方法[32-42]主要是利用知识表示学习模型,将知识图谱中的实体和关系映射到低维向量空间,并对知识图谱的低维向量表示进行计算来实现推理。该类方法未能充分利用 KG 中关系路径等信息,推理准确率尚有较大提升空间;
基于图的推理方法[43-48]主要是将知识图谱中实体间的不同的关系路径作为特征,通过统计关系路径来提取特征向量,建立针对关系的分类器,从而实现实体间关系的预测。该类方法未考虑路径的可靠性计算问题,难以适用于大规模知识图谱;
基于神经网络的推理方法[49-54]是基于神经网络模型来实现推理,该类方法具有更高的学习和泛化能力,可直接建模知识图谱事实元组,提高了推理的性能。

DeepPath

背景

研究置于多跳推理的背景下,这是一项学习显式推理公式的任务,给出了一个大的KG。

Core

提出可控多跳推理方法:我们将路径学习过程框架为强化学习(RL)。与PRA不同,我们使用基于翻译的基于知识的嵌入方法对RL代理的连续状态进行编码,这是在知识图的向量空间环境中进行推理的。
代理通过对关系进行采样来扩展其路径,从而采取增量步骤。
为了更好地指导RL代理学习关系路径,我们使用了策略梯度训练(Mnih等人,2015年)和一个新的奖励函数,共同鼓励准确性、多样性和效率

贡献

  1. 是第一个考虑强化学习(RL)的方法学习关系图的知识图;
  2. 学习方法使用复杂的奖励函数,同时考虑准确性、效率和路径多样性,在寻路过程中提供更好的控制和更大的灵活性;
  3. 方法可以扩展到大规模的知识图,在两个任务中优于PRA和KG嵌入方法。

在这里插入图片描述

RL模型概述
左:由MDP(马尔可夫决策模型)建模的KG环境E。虚线箭头显示KG中的现有关系链接,粗体箭头显示RL代理找到的推理路径。−1表示关系的倒数。
右:策略网络代理的结构。在每一步中,通过与环境交互,agent学习选择一个关系链接来扩展推理路径。

几个要点:

  1. Actions: 从源实体es开始,代理使用策略网络选择最有希望的关系,在每一步扩展其路径,直到到达目标实体et
  2. States: 实体和关系都是离散的原子符号,为了捕捉这些符号的语义信息,我们使用基于翻译的嵌入,如TransE(Bordes等人,2013)和TransH(Wang等人,2014)来表示实体和关系。这些嵌入将所有符号映射到低维向量空间。
    我们发现,通过使用一组特定关系的正样本训练RL代理,该代理可以成功地发现关系语义。
  3. Rewards:考虑全局准确性、效率和多样性
    在这里插入图片描述

Training pipeline

由于关系图的复杂性和较大的动作空间,如果我们直接通过试错训练RL模型(这是RL算法的典型情况),RL模型将表现出非常差的收敛性。为了解决这个问题

  • 有监督的策略开始训练

对于每个关系,我们使用所有正样本(实体对)的子集来学习监督策略。对于每个正样本(esource,etarget),进行双侧BFS以在实体之间找到相同的正确路径。对于具有一系列关系r1的每条路径p→ r2→ … → rn,我们使用蒙特卡罗策略梯度(RE)更新参数θ,以最大化预期累积报酬
BFS更喜欢短路径,代理很难找到可能有用的更长路径。我们希望路径仅由定义的奖励函数控制,采用了一个简单的技巧,在BFS中添加一些随机机制。我们没有直接搜索esource和etarget之间的路径,而是随机选择一个中间节点einter,然后在(esource,einter)和(einter,etarget)之间执行两个BFS。连接的路径用于训练代理。

为了找到由奖励函数控制的推理路径,

  • 使用奖励函数对监督策略网络进行再培训

结论

训练RL代理在知识库中寻找推理路径。与以前基于随机游动的路径发现模型不同,RL模型允许我们控制所发现路径的属性。在许多基于路径的推理方法中,这些有效路径也可以作为PRA的替代方法。对于两个标准的推理任务【Link Prediction 链路预测、Fact Prediction 事实预测】,使用RL路径作为推理公式,我们的方法通常优于两类基线。

DIVINE

背景

研究KGs中的多跳推理问题,即从已有的三元组中学习显式推理公式来完成缺失的三元组。
基于RL的方法仍然存在以下问题:

  1. 由于KG的复杂性,行动空间可能非常大,导致收敛性差,因往往需要从零开始进行大量试验;
  2. 策略网络更新的奖励函数是由人工设计,并且面向于特定数据集,不仅效率低、工作量大,而且难以满足当前快速变化的知识图谱推理需求。

Core

在本文中,提出了一个新的即插即用框架,它基于生成性对抗性模仿学习来增强现有的基于RL的方法。DIVINE,基于引导路径发现过程,通过模仿演示从知识图谱中自动采样来自适应地学习推理策略和奖励函数,以解决静态知识图谱推理过程中存在的问题。该框架由生成式对抗推理器和演示采样器两个模块组成。通过使用生成式对抗训练获得的演示和采样器获取的演示,训练一个包含生成器和判别器的推理器(生成器是 RL 中的任何一个基于策略网络的智能体,而判别器是一个自适应奖励函数;)。在两个基准数据集上的实验结果表明,我们的框架在不需要额外奖励工程的情况下提高了现有基于RL的方法的性能。
另外:
提出了一种基于路径的GAIL方法,该方法可以通过模仿演示的路径级语义特征来学习推理策略,以找到更多不同的证据路径进行预测。
设计了一个自动采样器,根据每个实体的特定环境,从KG动态采样关系路径作为演示。

贡献

  1. 提出了一个基于GAIL的即插即用框架,通过模拟演示学习推理策略和奖励函数,增强KGs中现有的基于RL的推理。
  2. 第一个将基于路径的GAIL方法引入知识图推理领域,以鼓励证据路径的多样性。为我们的框架设计了一个自动采样器,以在不需要额外人工的情况下对演示进行采样。
  3. 在两个基准数据集上进行了大量实验。实验结果表明,我们的框架在消除额外奖励工程的同时,提高了现有基于RL的方法的性能。

预备知识

知识图推理有两个主要任务,即链接预测和事实预测。链接预测涉及根据头部实体h和查询关系rq推断尾部实体t,而事实预测寻求预测未知事实(h,rq,t)是否成立。

一般来说,基于RL的推理方法努力寻找关系路径,以调整其预测推理策略,并将路径发现问题表述为马尔可夫决策过程(Markov decision process,MDP)。关系路径中的每个关系链都可以被视为一个推理链 。

模仿学习侧重于从演示中学习策略,在解决奖励工程方面取得了巨大成功。经典的方法是反向强化学习(IRL)(Russell,1998;Ng等人,2000)。然而,IRL需要在一个学习循环中解决RL问题,在大型环境中运行昂贵。因此,有人提出了生成性对抗性模仿学习(GAIL)(Ho和Ermon,2016),它通过生成性对抗性网络(GAN)学习专家策略(Goodfello等人,2014),消除了任何中间的IRL步骤。

DIVINE推理过程

对于每个查询关系,分别采用采样器和生成器从给定的KG中自动提取演示并生成关系路径。然后使用鉴别器评估生成路径之间的语义相似性,并进行演示以更新生成器。在生成器和鉴别器之间进行充分的对抗性训练后,可以使用训练有素的基于策略的代理(即生成器)找到与演示分布相匹配的证据路径,并通过合成这些证据路径进行预测。

模型

在这里插入图片描述
框架概述(生成器Generator可以是用于知识图推理的任何现有基于策略的代理,而判别器Discriminator。 )

鼓励代理寻找更多不同的证据路径,最好是通过模仿每个轨迹而不是其每个状态-动作对来训练代理。此外,推理链demonstrations只包含关系路径。基于上述分析,我们提出了一种基于路径的GAIL方法,该方法通过模仿仅由关系路径组成的演示的路径级语义特征来学习推理策略。

生成器可以是现有基于RL的方法中任何基于策略的代理。我们努力使生成器能够找到与语义空间中的演示分布相匹配的更多样化的证据路径。判别器可以被视为自适应奖励函数,为了更好地在语义上区分生成的路径和演示,我们选择卷积神经网络(CNN)来构造。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/32683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringSecurity(十七)---OAuth2的运行机制(下)-实现一个简单的单点登录应用程序

一、前言 本章实现第一个使用带有Spring Boot和Spring Security 的OAuth2框架的应用程序。这个示例将展示如何将OAuth2应用到Spring Security中,并阐释你需要了解的一些接口的内容。顾名思义,单点登录(SSO)应用程序是通过授权服务…

如何使用一台电脑远程控制多台电脑

如今,远程控制软件已经广泛应用于我们的日常生活中。我们使用远程桌面软件远程控制另一台电脑来完成我们的工作和学习。在某些情况下,我们可能还需要同时远程控制多台电脑。例如: 您是一名培训师,正在寻找远程访问软件来同时远程…

[激光原理与应用-15]:《激光原理与技术》-1- 什么是激光,激光概述

目录 第1章 什么是激光 1.1 什么是激光 1.2激光在生活中应用 第2章 激光的特点 2.1 方向性好(平行性、直线性) 2.2 单色性好(颜色纯度高) 2.3 相干性比太阳光好 2.4 亮度高 2.5 能量极大 第3章 光产生的方式与核心概念 …

又爆冷了啦,日本半场逆转德国,怎么利用共享经济搅乱世界杯格局

近日世界杯热点逐渐升高,在23号晚上亚洲劲旅日本以2-1逆转多次捧得大力神杯的德国队,此前德国还从未输过日本队,因此德国再次吃到闭门羹,爆出了本届世界杯开赛以来既阿根廷惨败的又一大冷门。赛后,日本全国人民共同庆祝…

Web(二)html5基础-超链接的应用(知识训练和编程训练)

web知识训练_html5_超链接的应用 web编程训练_html5_超链接的应用 第1关_创建热字超链接 编程要求 在右侧编辑器中的Begin - End区域内补充代码,创建热字超链接,具体要求是: 1.链源文字为“听音乐找酷我”。 2.链宿地址为“https://www.ku…

FPGA——多路选择器实现按键控制LED灯的亮灭

文章目录前言一、多路选择器二、绘制模块框图及波形图三、Verilog HDL代码及测试代码四、创建工程五、仿真六、上板验证1、分配引脚2、烧录七、效果演示八、总结前言 软件:Quartus Prime Standard 18.0仿真软件:modelsim 10.5代码编写软件:V…

【虹科新品】 HK-MR430330绝对式光纤编码器介绍合集(下)

HK-MR430系列ZapFREE光纤位置传感器是一款外形小巧、具有13位单圈分辨率的旋转位置传感器。MR430设计新颖,开发了新的应用和OEM产品功能,这在以前的电子传感器是无法实现的。该传感器100%无源,不受EMI、RFI、微波和磁场的影响。创新型全绝缘设…

我参加NVIDIA Sky Hackathon 后端修改

文件架构 前面两个分别是执行语音识别和图片识别的代码templates 存放的是网页的模板, 前端将文件写在这里即可uploads 存放的是上传至后台的文件server.ipynb 用于启动 flash 服务器app.py 内是用 flash 写的 Python 后端install_tools.sh 是用于安装相关工具的 sh…

(十四)Spring之回顾代理模式

文章目录回顾代理模式动态代理常用技术CGLIB动态代理技术上一篇:(十三)Spring之JdbcTemplate 回顾代理模式 参考:代理模式Proxy Pattern 不用JDK的动态代理,手写JDK动态代理 动态代理常用技术 在程序运行阶段&…

CentOS 7 手动安装OpenStack

官网文档 因为之前已经在 Ubuntu 20.04 下完成了 Ubuntu 20.04 手动安装OpenStack ,最后,想要学习 OVN 的时候,发现 ubuntu 上的 OVN 安装很复杂,没有 TripleO/RDO based deployments ,所以,又在 CentOS 7…

项目开源!基于PaddleDetection打造实时人体姿态检测的多关节控制皮影机器人

本文已在【飞桨PaddlePaddle】公众号平台发布,详情请戳链接:项目开源!基于PaddleDetection打造实时人体姿态检测的多关节控制皮影机器人 皮影戏是一种以兽皮或纸板做成的人物剪影以表演故事的民间戏剧,皮影一般由头、躯干&#x…

2003-2019年各省市场分割指数全步骤数据+最终结果

2003-2019年市场分割指数 1、时间:2003-2019年 2、数据包含:31各省份市场分割指数全步骤数据和最终结果 3、具体内容:市场分割指数差分形式相对价格、市场分割指数去均值、市场分割指数方差、市场分割指数最终结果。 4、指标说明&#xf…

vue3 框架学习概念笔记

文章目录前情提要框架设计概览命令式声明式小结虚拟dom性能运行时和编译时框架设计核心要素声明式描述UI渲染器组件的本质vue.js模板响应式系统概念完善的响应式系统响应式系统的调度计算属性Computedwatch 原理竞态问题非原始值的响应式方案javaScript 对象原始值的响应式方案…

毕业后河北种水稻 国稻种芯·中国水稻节:安徽姑娘承德务农

毕业后河北种水稻 国稻种芯中国水稻节:安徽姑娘承德务农 (新华每日电讯记者刘金海、方欣、牟宇) 新闻中国采编网 中国新闻采编网 谋定研究中国智库网 中国农民丰收节国际贸易促进会 国稻种芯中国水稻节 中国三农智库网-功能性农业农业大健康大会报道:整…

【Linux】内存查看vmstat命令(虚拟内存统计)

vmstat命令:虚拟内存统计 CPU使用率内存试用虚拟内存交换情况IO读写情况 process r:运行和等待CPU时间片的进程数 超过cpu个数, 出现CPU瓶颈 长时间大于1,CPU不足,需要增加CPU b:正在等待资源的进程数&…

玩转MySQL:定位排查解决突发Bug

引言 前面MySQL优化、调化两文中,聊到了关于数据库性能优化的话题,而本文则再来聊一聊关于MySQL线上排查方面的话题。线上排查、性能优化等内容是面试过程中的“常客”,而对于线上遇到的“疑难杂症”,需要通过理性的思维去分析问…

Java岗位必备技能SpringBoot的面试题集锦

当下SpringBoot框架真的很火,大多数企业把它作为基础技能,考察求职者的能力。如下截图,是我从Boss直聘中找到的,要求SpringBoot是必备技能。 所以非常有必要为了面试,好好归纳下SpringBoot常被提起来的问题。 题目大纲…

Tesseract .Net SDK C# OCR 2022.1

Tesseract .Net SDK C# OCR 库 #将扫描的 PDF 转换为可搜索的文档 #快速准确的基于神经网络的引擎 #纠正低质量扫描 # 120 多种语言 # .Net 2.0, .Net 5, 标准, 核心 Tesseract OCR - industry-fastest .Net OCR library 4 行代码,仅此而已 var api OcrApi.Creat…

[附源码]java毕业设计疫情环境下的酒店管理系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

不知道什么的复习题

P4408 [NOI2003] 逃学的小孩,一眼就看出要化简题面:不就是找三个点使得ABBC最大嘛,不妨想起直径的性质,最长,而且其他点到它的距离最长。那么直接拿直径来做就行。推导出结论为ansmax(min(dis[A][k],dis[B][k])dis[A][…