结合类型信息(1)——特征丰富的知识库补全网络

news2024/12/24 18:45:47

1  引言

1.1  问题

        首先,隐式对应关系的问题。在联合嵌入模型中,知识库和文本数据之间的关系并不是直接给出的,而是需要通过实体在文本中的共现来推断。这意味着模型必须从上下文中学习实体之间的潜在关联,而不是基于显式的标签或指示。这种隐式学习过程可能会导致信息的丢失或误解,尤其是当文本描述不够清晰或实体之间的关系在文本中没有明确表达时。

        其次,文本关系的噪音问题。文本数据,尤其是来自互联网的非结构化文本,往往包含大量的噪音和不确定性。文本关系的提取依赖于自然语言理解技术,如命名实体识别(NER)、关系抽取(RE)等,这些技术虽然在进步,但仍然会有错误。实体对可能在没有共享语义关系的情况下出现在同一句子中,这会导致模型接收到错误的信号,影响其学习质量。

        再者,知识库与文本关系的不匹配。知识库中的关系通常是经过清理和规范化的,而文本中的关系表达则更为自由和多样。例如,知识库可能使用“工作于”作为关系类型,而在文本中,这种关系可能被描述为“在...工作”,“服务于”,“隶属于”等。这种多样性使得直接将文本关系映射到知识库关系上变得困难,需要模型具备较高的泛化能力。

        最后,对齐和信息传播的挑战。为了有效利用文本信息增强知识库的表示,模型需要在没有明确证据的情况下学习知识库和文本关系之间的对齐,这意味着它必须能够识别出不同表述下的相同概念。一旦这种对齐建立,模型还需要通过实体嵌入的方式将信息从文本传播到知识库,以预测那些在知识库中缺失的三元组。这个过程要求模型不仅能够理解单个实体的含义,还能够把握实体间复杂的相互作用。

1.2 结合的信息

        利用额外的实体类型信息和句法文本关系在Freebase上进行实验,任务是尾实体预测。

1.3  解决方案

        提出了一种不同的方法来结合知识库和文本证据,其中文本关系不是同一图的一部分,而是被视为侧证据。在我们的设置中,事实不一定由(sbj, rel, obj)三元组组成,而是作为一个n元组,其中通过从知识库和对齐的侧资源(如文本)中提取额外信息来形成额外元素。我们通过学习元组中每个元素的潜在表示来对元组为真的概率进行评分,然后学习由多层感知器(MLP)参数化的组合和评分函数。

2

        知识库中的事实被编码为一个三元组(es, r, eo),其中es是主体实体,eo是客体实体。从由一组观察到的事实组成的现有知识库开始,我们的目标是在给定一些额外的外部资源的情况下,对未观察到的事实的合理性进行推理。在我们提出的模型中,我们通过考虑附加资源与三元组元素的对齐,将事实的表示扩展为n元组。我们最具表现力的模型将事实编码为X = (es, r, eo, ts, to, to, s),其中ts, to是两个实体类型的关联表示,而to, s是与侧语料库中的一对实体相关的对齐文本证据。实体和实体类型的表示在主题和对象之间共享。

        使用预训练的嵌入来初始化模型的实体向量和文本特征嵌入。文本特征嵌入是从基于维基百科训练的可用依赖项的skip-gram模型初始化的(Komninos和Manandhar, 2016)。未包含在预训练模型词汇表中的特征用一个随机向量初始化,该向量来自于一个均值为零且方差与预训练嵌入集相同的正态分布。对于实体向量,我们从Freebase检索实体的英文名称,并通过平均名称中出现的单词的嵌入来构造一个表示。没有name属性的实体是随机初始化的。

2.1  Freebase 实体类型

        在Freebase中,每个实体可以被赋予多个类型,这些类型提供了关于实体性质的详细信息。然而,论文中并没有直接使用Freebase提供的类型信息,而是选择通过观察训练集中实体涉及的关系来学习类型表示。以下是具体做法的详细解释:

  1. 关系编码:在Freebase中,每一条关系都被编码为与主题实体关联的域/类型/属性。这意味着关系不仅仅是简单的二元组,而是包含了关于实体类型和关系属性的更多信息。

  2. 提取主体位置的类型特征:论文中关注的是当实体处于关系三元组的主体位置时,提取其类型特征。对于每个实体,收集所有它作为主体出现的三元组,并保留其中的域/类型部分作为该实体的类型特征。

  3. 类型特征的嵌入表示:对于收集到的类型特征,使用嵌入表示来捕捉其内在含义。每个类型的嵌入向量都是在训练过程中学习得到的,反映了该类型在知识图谱中的分布和关系模式。

  4. 特征聚合:为了得到每个实体最终的类型表示,论文采用了所有观察到的类型特征嵌入的求和操作,随后进行L2归一化。这一过程确保了不同类型特征的重要性在最终表示中得到平衡,同时也保持了向量的单位长度,有利于后续的计算和比较。

  5. 处理未知类型:对于在训练集中没有作为三元组主体出现的实体,即没有观察到任何类型的实体,论文使用了一个特殊的UNKNOWN符号来表示。这确保了模型能够处理所有实体,即使它们在训练阶段没有类型信息。

  6. 实体类型表示的应用:最后,为每个实体创建了类型表示,并将其与主体和客体实体的原始表示拼接在一起,形成输入向量,供神经网络使用。这样,类型信息就被整合到了模型的输入中,为预测实体之间的关系提供了额外的上下文线索。

通过上述过程,论文方法不仅利用了Freebase中丰富的类型信息,还通过学习类型表示,增强了模型对实体性质的理解,从而在知识图谱补全任务中取得了更好的性能。

2.2  文本关系

  1. 侧语料库和最短依赖路径:首先,使用一个“侧语料库”,这是一个辅助的文本数据集,其中包含与知识库中实体相链接的文本信息。通过寻找实体对在文本中的最短依赖路径,可以提取出描述这两个实体之间关系的句子片段。依赖路径指的是语法结构中词语之间的关系链,它可以帮助理解词语在句子中的作用和相互联系。

  2. 文本关系提及的收集与关联:对于知识库中每一对实体,收集所有描述它们之间关系的文本提及。这些提及是基于上述最短依赖路径得到的。将收集到的提及与实体对在知识库中的关系事实相关联,形成了实体对关系的文本证据。这些提及的集合构成了描述实体对关系的文本证据库。

  3. 文本表示模型:为了将这些文本提及转化为可被机器学习模型使用的表示,使用了增强版的神经词袋模型(Neural Bag of Words,简称Neural BoW)。在这个模型中,不仅考虑了单词的独立嵌入表示,还引入了依赖特征。依赖特征是一种符号,代表单词在语法结构中的特定角色或功能,如“复合型知识”中的“复合”表示“knowledge”是复合名词的一部分。

  4. 特征聚合:与实体类型表示的方式相似,单词和依赖特征的嵌入通过简单的求和操作进行聚合,然后应用L2规范化,以保持向量的单位长度。这样做是为了确保不同长度的文本提及可以被公平地比较和处理。此外,如果某实体对在文本中没有提及,则会为这个实体对分配一个特殊的UNKNOWN符号,表示缺少文本证据。

  5. 模型有效性:尽管所使用的文本表示组件相对简单,但根据Komninos和Manandhar(2016)的研究,类似的模型在处理短文本的情况下已经表现出良好的性能。这意味着,即使不使用复杂的序列模型(如RNN或Transformer),Neural BoW模型也能有效地捕捉短文本中的关键信息,从而为知识库补全任务提供有价值的文本证据。

 2.3  使用多层感知机(MLP)估计一个n元组(n-tuple)是否真实的概率

  1. 低维嵌入:每个元组元素都有自己的低维度嵌入,这些嵌入会被拼接到一起形成输入到MLP的向量。这些嵌入是通过反向传播与MLP一起学习的。

  2. 概率表达式:公式(1)给出了一个事实为真的概率,其中𝜎是Sigmoid函数,用于将输出转换为[0,1]范围内的值,表示可能性。𝑔(∙)是一个应用于元素级别的非线性函数,通常是指ReLU激活函数。W3,𝑊2,𝑊1分别是网络的权重参数。

  3. 输入向量:公式(2)定义了输入向量𝑥x的构成,包括主体实体的嵌入𝑣(𝑒_𝑠),关系的嵌入𝑣(𝑟),客体实体的嵌入𝑣(𝑒_𝑜),以及主体和客体实体的附加特征𝑣(𝑡𝑠)和𝑣(𝑡𝑜)。T_s,o​是主体和客体实体之间的附加特征。

  4. 非线性函数的选择:文中提到使用Rectified Linear Units(ReLU)作为非线性函数。ReLU函数在深度学习中常用作激活函数,它的优点在于计算速度快并且避免了梯度消失问题。

损失函数:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1929041.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

利用css设计一套漩涡式网格(grid)布局

在Web开发中,CSS Grid布局系统为我们提供了前所未有的灵活性和控制力,使得创建复杂的二维布局变得轻而易举。今天,我们将探讨一种特殊的Grid布局——漩涡式布局,并通过一个具体的HTML和CSS示例来深入了解其实现方式。 漩涡式Grid布局概述 漩涡式Grid布局是一种视觉上呈现出…

【Linux】Ubuntu 漏洞扫描与修复的吃瘪经历

自从上次“劫持”事情后,项目经理将所有跟安全相关的都推给我了(不算 KPI 又要被白嫖,烦死了)。这次客户又提了一个服务器安全扫描和漏洞修复的“活”,我这边顺手将过程记录一下,就当经验总结跟各位分享一下…

一群追星星的人,对 AI 的盼与怕

面对 AI,有人害怕,有人期盼。 “AI 和画画的、开网约车的、写东西的人有仇吗?”近来成了很多从业者的心声。大模型技术驱动了 AI 的能力进化过临界点,我们普通人根本就跟不上,或快或慢被淘汰。看起来,AI 正…

[ACM独立出版] 2024年虚拟现实、图像和信号处理国际学术会议(VRISP 2024,8月2日-4)

2024年虚拟现实、图像和信号处理国际学术会议(VRISP 2024)将于2024年8月2-4日在中国厦门召开。 VRISP 2024将围绕“虚拟现实、图像和信号处理”的最新研究领域,为来自国内外高等院校、科学研究所、企事业单位的专家、教授、学者、工程师等提供…

SpringBoot中动态注册Bean的方式

测试环境,本文源码 Java:8SpringBoot:2.5.14示例场景:动态注册ProxyServlet,间接实现类似于Nginx的反向代理功能 先理解如何实现动态注册 Bean 。 由于在 SpringBoot 中,先进行 Bean 的定义,…

【前端4】表单 编辑模式、只读模式:HTML的`readonly`、el-input的v-if=“isEdit“

【前端】表单 编辑模式、只读模式 写在最前面一、什么是编辑模式与只读模式&#xff1f;应用场景编辑模式只读模式 二、编辑模式的实现例子只读模式的实现动态切换模式使用HTML的readonly属性使用Vue.js的v-if指令 三、前后端交互 <template>代码块两个字段独立是否直接与…

Auto CAD 2020下载安装教程怎么安装如何使用

Auto CAD 2020下载安装教程 下载链接&#xff1a;https://pan.baidu.com/s/16WR6WdkWqn8WnShZHu8S5Q?pwdhdh7 提取码&#xff1a;hdh7 解压后看到这些文件 进入第一个文件夹后看到安装包&#xff0c;如果缺少了第二个文件&#xff0c;先关闭杀毒软件后重新解压即可 进入…

超全整理,数据管理CDMP认证介绍

CDMP认证概述 CDMP&#xff08;Certified Data Management Professional&#xff09;认证&#xff0c;全称数据管理专业人士认证&#xff0c;是由国际数据管理协会&#xff08;DAMA International&#xff09;推出的权威认证。该认证旨在全面评估个人在数据管理和治理领域的专…

PyMongo Sort 操作:提升你的数据查询效率

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

最新PHP自助商城源码,彩虹商城源码

演示效果图 后台效果图 运行环境&#xff1a; Nginx 1.22.1 Mysql5.7 PHP7.4 直接访问域名即可安装 彩虹自助下单系统二次开发 拥有供货商系统 多余模板删除 保留一套商城,两套发卡 源码无后门隐患 已知存在的BUG修复 彩虹商城源码&#xff1a;下载 密码:chsc 免责声明&…

[MySQL][表的增删查改][二][Retrieve][SELECT][WHERE]详细讲解

目录 1.Retrieve1.基本语法2.SELECT列1.全列查询2.查询字段为表达式3.为查询结果指定别名4.结果去重 3.WHERE条件1.比较运算符2.逻辑运算符3.示例 4.结果排序1.基本语法2.示例 5.筛选分页结果 1.Retrieve 1.基本语法 SELECT [DISTINCT] * | {column [, column] ...} [FROM ta…

一个快速可视化Psrfits(search mode)的工具

【ONE】快速可视化Psrfits&#xff08;search mode&#xff09;的工具 此工具可以快速检测和处理数据中的问题或异常&#xff0c;在不损失采样率的情况下帮助查看脉冲的动态谱、脉冲结构。 网址:https://github.com/PersusX/PDDT 基于 pyqtgraph 的交互式查看数据的工具。 P…

Java SE—基本数据类型(详细讲解)

&#x1f4dd;个人主页&#x1f339;&#xff1a;誓则盟约 ⏩收录专栏⏪&#xff1a;Java SE &#x1f921;往期回顾&#x1f921;&#xff1a;Python 神器&#xff1a;wxauto 库——解锁微信自动化的无限可能 &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f3…

效能工具:执行 npm start 可直接切换proxy代理UR后直接启动项目

1) 背景: 我们项目是2个前端3个后端的配置。前端和每个后端都有需要调试的接口。 因此经常切换vite.congig.js中的proxy后端代理链接&#xff0c;是挺麻烦的。 于是我研究如何能快速切换后端URL&#xff0c;所幸懒人有懒福&#xff0c;我找到了Inquirer 和 fs&#xff0c; 实…

人员定位管理系统有怎样优势?这4点不可忽视

众所周知&#xff0c;人员定位管理系统是通过物联网和云计算等技术&#xff0c;记录所有员工的基本信息&#xff0c;将员工位置、工作情况、运动轨迹等信息上传给系统&#xff0c;全面记录和直观的展现厂区内所有工作人员的具体情况。 除了能够查看人员位置情况外&#xff0c;人…

【ROS2】中级:URDF-构建一个可移动的机器人模型

目标&#xff1a;学习如何在 URDF 中定义可移动关节。 教程级别&#xff1a;中级 时间&#xff1a;10 分钟 目录 头部 Head 夹爪 Gripper 抓取臂 Gripper Arm其他类型的关节 指定位姿 下一步 在本教程中&#xff0c;我们将修改上一个教程中制作的 R2D2 模型&#xff0c;使其具有…

港股指数实时行情API接口

港股 指数 实时 行情 API接口 # Restful API https://tsanghi.com/api/fin/index/HKG/realtime?token{token}&ticker{ticker}指定指数代码&#xff0c;获取该指数的实时行情&#xff08;开、高、低、收、量&#xff09;。 更新周期&#xff1a;实时。 请求方式&#xff1a…

并查集 ——(快速判断两个元素是否在同一个集合中)

五、并查集 0、并查集概念 并查集&#xff08;Union-Find&#xff09;是一种用于维护元素分组信息的数据结构。它支持以下两种基本操作: 合并(Union)&#xff1a;将两个不同的集合合并为一个集合。查找(Find)&#xff1a;确定某个元素属于哪个集合。 并查集通常用于解决涉及…

【C++题解】1168. 歌唱比赛评分

问题&#xff1a;1168. 歌唱比赛评分 类型&#xff1a;数组找数 题目描述&#xff1a; 四&#xff08;1&#xff09; 班要举行一次歌唱比赛&#xff0c;以选拔更好的苗子参加校的歌唱比赛。评分办法如下&#xff1a;设 N 个评委&#xff0c;打 N 个分数&#xff08; 0≤每个分…

PointCloudLib MLS算法法线估计 C++版本

测试效果 简介 MLS(Moving Least Squares,移动最小二乘法)算法在法线估计中的应用是一种基于局部数据拟合的技术,它通过对点云中每个点的邻域数据进行多项式拟合来估计该点的法线。以下是MLS算法在法线估计中的详细解释: MLS算法的基本原理 MLS算法是一种无网格的曲线和…