关系抽取与属性补全

news2025/1/10 16:30:19

文章目录

    • 实体关系抽取的任务定义
    • 机器学习框架
    • 属性补全

实体关系抽取的任务定义

    从文本中抽取出两个或者多个实体之间的语义关系;从文本获取知识图谱三元组的主要技术手段,通常被用于知识图谱的补全。美丽的西湖坐落于浙江省的省会城市杭州的西南面。-->(西湖,位于,杭州) , (浙江省,省会,杭州)

图片名称
实体关系抽取方法概览
图片名称
基于模板的方法:基于触发词匹配的关系抽取

    基于模板的方法:基于依存句法匹配的关系抽取。依存句法分析句子的句法结构,以动词为几点,构建规则,对节点上的词性和边上的依存关系进行限定。

图片名称
基于模板的方法:基于触发词匹配的关系抽取

    基于模板的方法:基于依存句法匹配的关系抽取。对句子进行分词、词性标注、命名实体识别、依存分析等处理;根据句子依存语法树结构上匹配规则,每匹配一条规则就生成一个三元组;根据扩展规则对抽取到的三元组进行扩展;对三元组实体和触发词进一步处理抽取出关系。

图片名称

    基于模板的方法:优缺点。优点:在小规模数据集上容易实现;构建简单。缺点:特定领域的模板需要专家构建;难以维护;可移植性差;规则集合小的时候,召回率很低。

图片名称

    基于监督学习的关系抽取:At-least-one Hypothesis。预先定义好关系的类别;人工标注一些数据;设计特征表示;选择一个分类方法 (SVM、NN等);评估结果。

图片名称

    基于监督学习的关系抽取:特征设计。实体特征:实体前后的词;实体的类型、语法、语义信息;实体词的共现特征, e.g., dog and cat;引入外部语义关系:ACE entity types,WordNet features。关系特征:实体之间的词;窗口及Chunk序列;实体间的依存关系路径;实体间树结构的距离;特定的结构信息,如最小子树。

机器学习框架

    机器学习框架——特征函数+最大熵模型,同关系句子具有类似的文本特征。

图片名称

    1. 目标是求在知道X的条件下使熵H最大的条件概率p(y|x);2. 满足一组约束条件,fi即是需要针对句子样本定义的特征函数。

    机器学习框架——核函数。在关系抽取任务中,给定句子空间X,核函数K: X * X -> [0, ∞)表示一个二元函数,它以X中的两个句子x,y为输入,返回二者之间的相似度得分K(x,y)。例如,我们可以为句子定义一个特征向量计算函数Ø(·),那么句子x和y对应特征向量的点 集K(x,y)=Ø(x)T ·Ø(y)可以作为核函数的一种实现形式。具体而言,给定输入文本T中的两个实体e1和e2,核函数方法采用下述方法计算它们之间满足关系r的置信度。首先从标注数据中找到文本T’,且T’中包含满足关系r的e1’和e2’。然后基于核函数计算T和T’之间的相似度,作为e1和e2满足关系r的置信度。该做法背后体现的思想是:如果两个实体对同时满足某个关系r,这两个实体对分别所在的文本上下文也应该相似,该相似通过核函数计算得到。计算相似度的方法有基于字符串核(Sequence kernel)和基于树核函数(Tree kernel)等多种方法

图片名称

    机器学习框架——字符串核举例。给定带有关系标注的训练样本集合,该方法首先基于每个样本中出现的实体e1和e2将该样本切分为左端上下文left、中间上下文middle和右端上下文right三部分。给定测试样本,根据其中出现的实体e1’和e2’对其进行同样的切分,生成left’ 、middle’和right’。基于字符串核函数计算该样本与每个训练样本在上述三个上下文上的相似度,最后对三个相似度得分进行加和,并用于分类模型的训练与预测。

图片名称

     机器学习框架——句法树核函数。句法树核,增加节点特征。

图片名称

    机器学习框架——最短依赖路径树核函数

图片名称
最短依赖路径树(SPT)内核
图片名称
上下文相关最短路径依赖树核函数

    机器学习框架——深度学习方法。基于特征的方法需要人工设计特征,这类方法适用于标注数量较少,精度要求较高,人工能够胜任的情况。基于核函数的方法能够从字符串或句法树中自动抽取大量特征,但这类方法始终是在衡量两段文本在子串或子树上的相似度,并没有从语义的层面对两者做深入比较。此外,上述两类方法通常都需要做词性标注和句法分析,用于特征抽取或核函数计算,这是典型的pipeline做法,会把前序模块产生的错误传导到后续的关系抽取任务,并被不断放大。深度学习技术不断发展,端到端的抽取方法能大幅减少特征工程,并减少对词性标注等预处理模块的依赖,成为当前关系抽取技术的主流技术路线。

    机器学习框架——基于递归神经网络的关系抽取。1. 对于输入句子中待分类的实体e1和e2,在句法树中找到能覆盖着两个实体的最小子树;2. 然后从该子树对应的叶节点开始,通过自底向上的方式两两合并相邻的两个单词或短语对应的向量和矩阵,直到遍历至该子树的根节点结束。3. 最后基于根节点对应的向量p,使用softmax对关系集合中的关系候选进行打分和排序。4. 该方法基于词向量和句法树本身的结构,有效的考虑了句法和语义信息,但并未考虑实体本身在句子中的位置和语义信息。

图片名称

    机器学习框架——基于CNN的关系抽取

图片名称

    机器学习框架——基于CNN的关系抽取。仅用词级别的特征提取,是会丢失语序、上下文、句子整体的信息,使用seq_length方向的词卷积,以尽量提取些句子级别的信息。

图片名称

    机器学习框架——基于BiLSTM的关系抽取

图片名称

    机器学习框架——基于图神经网络的关系抽取,图神经网络在图像领域的成功应用证明了以节点为中心的局部信息聚合同样可以有效的提取图像信息。利用句子的依赖解析树构成图卷积中的邻接矩阵,以句子中的每个单词为节点做图卷积操作。如此就可以抽取句子信息,再经过池化层和全连接层即可做关系抽取的任务。

    拓展问题——实体关系联合抽取

图片名称
误差传播问题
图片名称
实体识别和关系抽取任务之间的关联

    拓展问题——实体关系联合抽取,定义一种新颖的实体关系联合抽取的序列标注规范。

图片名称

    拓展问题——基于胶囊神经网络多标签关系抽取。传统模型主要关注单标签关系抽取,但同一个句子可能包含多个关系。采用胶囊神经网络可以帮助实现多标签的关系抽取。如图所示,模型首先通过预训练的 embedding 将句子中的词转化为词向量;随后使用BiLSTM 网络得到粗粒度的句子特征表示,再将所得结果输入到胶囊网络,首先构建出primary capsule,经由动态路由的方法得到与分类结果相匹配的输出胶囊。胶囊的模长代表分类结果的概率大小。

图片名称

    拓展问题——多元关系抽取

图片名称

    拓展问题——跨句推理,提取不同句子中单实体间的关系

图片名称

    半监督学习——基于远程监督的关系抽取,远程监督的基本假设:两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均可能表示出这种关系。

图片名称

    远程监督-基于多实例学习(降噪学习),包含相同实体对的句子组成一个Bag,基于注意力机制选择样本。

图片名称

    远程监督-强化学习(降噪学习),采取强化学习方式在考虑当前 句子的选择状态下选择样例,关系分类器向样例选择器反馈,改进选择策略。

图片名称

    半监督学习—基于Bootstrapping的关系抽取

图片名称

    语义漂移问题的一些解决方法:限制迭代次数,采用语义类型Semantic Type对样本进行过滤和约束,⟨ Organization⟩ ’s headquarters in ⟨ Location⟩ ⟨ Location⟩ -based ⟨ Organization⟩⟨ Organization⟩ , ⟨ Location⟩,对抽取结果进行类型检查,耦合训练。

属性补全

    属性知识:一个事物若干属性的取值来对这个事物进行多维度的描述,属性补全:对实体拥有的属性及属性值进行补全,方法:抽取式,基于模板,基于机器学习模型;生成式:基于机器学习模型。

图片名称

    抽取式属性补全:抽取输入文本中的字词,组成预测的属性值。预测出的属性值一定要在输入侧出现过。

图片名称

    生成式属性补全:直接生成属性值,而这个属性值不一定在输入文本中出现,只要模型在训练数据中见过即可。

图片名称

    属性补全方法比较:抽取式,只能抽取在输入文本中出现过的属性值,预测属性值一定在输入中出现过,具有一定可解释性,准确性也更高;生成式:可以预测不在文本中出现的属性值,只能预测可枚举的高频属性,导致很多属性值不可获取,预测出来的属性值没有可解释性。

图片名称

    属性补全应用-商品属性补全:商品关键属性补全,利于买家选择,利于提升导购,利于优质选品。方法:借助算法的图文识别能力,通过商品图片预测商品的类目、同款、品牌。

图片名称

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1612583.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IDEA中SVN 的使用

文章目录 前言一、svn安装二、IDEA集成SVN总结 前言 svn可以老牌的代码仓库了 说实话svn还是和git无法相比的,毕竟git有本地仓库的概念,可以很好的处理冲突,然而svn是没有本地仓库的概念的,所以只能拉取别人的代码,然后处理冲突后,才能提交代码; 由于最近的工作换成了用svn仓…

el-menu 有一级二级三级菜单

效果如下 菜单代码如下 <el-menu:default-active"menuDefaultActive"class"el-menu-box":text-color"menuTextColor":active-text-color"menuActiveTextColor":unique-opened"true"><!-- 一级菜单 --><tem…

线程池的核心参数有哪些???

线程池的核心参数包括以下七个&#xff1a; corePoolSize&#xff1a; 这是线程池中的核心线程数&#xff0c;即池中会保留的最少线程数。当提交任务时&#xff0c;如果当前线程数小于核心线程数&#xff0c;线程池会创建新的线程来执行任务。如果当前线程数等于或大于核心线程…

Docker - 简介

原文地址&#xff0c;使用效果更佳&#xff01; Docker - 简介 | CoderMast编程桅杆https://www.codermast.com/dev-tools/docker/docker-introduce.html Docker是什么&#xff1f; Docker 是一个开源的应用容器引擎&#xff0c;基于 Go 语言 并遵从 Apache2.0 协议开源。 D…

css-Echarts图表初始显示异常非完全显示

1.echarts图表初始加载异常 2.问题原因 初次加载时&#xff0c;由于外层使用%比 echarts dom元素没有完全加载完成&#xff0c;canvas绘画继承本身宽高&#xff0c;造成Echarts图表初始显示异常非完全显示。 3.使用echarts图表可参考以下代码&#xff08;实现一定的自适应&am…

stm32开发之threadx+emwin+awizard使用记录

前言 图形化开发界面选择(awizard)emwin使用的版本是6.10芯片采用的是stm32f407zgt6这里使用的开发板是普中麒麟f4系列的 lcd驱动文件&#xff08;基于提供的源码修改&#xff09; 1、这里是剔除了很多兼容其他显示屏部分的代码&#xff0c;只保留具体信号的代码,把一些全局…

Java实现AVL树

AVI树 如果一颗二叉搜索树不平衡,那么搜索效率会受影响 二叉搜索树如果不是这种不平衡的情况,时间复杂度可以达到O(logn) 但是像图中的这种不平衡情况时间复杂度为O(n),那么如何解决呢? 可以通过旋转解决 旋转之后并不会破坏二叉搜索树的特性 判断是否平衡有一个规则:如果一…

如何进行景气分析

景气分析是一种短期经济分析方法。主要分析短时间内&#xff08;一般指一年内&#xff0c; 或几个月内&#xff09;经济运行的态势&#xff0c;包括当前的状态和未来的趋势。景气分析可以为宏观经济政策提供重要的决策与参考信息&#xff0c;例如根据经济运行的方向、强弱可建议…

【AI开发:音频】二、GPT-SoVITS使用方法和过程中出现的问题(GPU版)

1.FileNotFoundError: [Errno 2] No such file or directory: logs/guanshenxxx/2-name2text-0.txt 这个问题中包含了两个&#xff1a; 第一个&#xff1a;No module named pyopenjtalk 我的电脑出现的就是这个 解决&#xff1a;pip install pyopenjtalk 第二个&#xff1a…

数据结构练习-数据结构概述

----------------------------------------------------------------------------------------------------------------------------- 1. 在数据结构中&#xff0c;从逻辑上可以把数据结构分成( )。 A. 动态结构和静态结构 B. 紧凑结构和非紧凑结构 C. 线性结…

初识ansible变量及实例配置

目录 1、为什么要使用变量 2、变量分类 3、 变量详解 3.1 vars,vars_files , group_vars 3.1 .1 vars 剧本中定义变量 3.1.2 vars_file 将变量存放到一个文件中&#xff0c;并在剧本中引用 3.1.3 group_vars 创建一个变量文件给某个组使用 实例1-根据不同的主机…

CGLIB动态代理

文章目录 前言概要SpringBoot中使用小结 前言 当我们需要在Java中实现动态代理时&#xff0c;通常会考虑使用 JDK原生动态代理 或者 CGLIB动态代理。 我这里说一下CGLIB动态代理&#xff0c;并给出一个例子。 概要 CGLIB&#xff08;Code Generation Library&#xff09;是一…

无损以太网的ROCE革命,队列的缓存空间优化分析

ROCE无损以太网&#xff0c;队列的缓存空间优化 多级缓存架构优化芯片性能&#xff1a;* 缓存空间细分为芯片级、端口级和队列级&#xff0c;实现精细管理。* 无损队列引入Headroom缓存空间&#xff0c;确保数据完整性。 在芯片层面&#xff1a; 静态缓存为端口提供保证的缓存空…

RHCE:网络服务综合项目

基础配置&#xff1a; 1.配置主机名&#xff0c;静态IP地址 2.开启防火墙并配置 3.部分开启SElinux并配置 4.服务器之间使用同ntp.aliyun.com进行时间同步 5.服务器之间实现SSH免密登录 业务需求&#xff1a; 1.Server-NFS-DNS主机配置NFS服务器&#xff0c;将博客网…

智慧园区引领未来产业趋势:科技创新驱动园区发展,构建智慧化产业新体系

目录 一、引言 二、智慧园区引领未来产业趋势 1、产业集聚与协同发展 2、智能化生产与服务 3、绿色可持续发展 三、科技创新驱动园区发展 1、创新资源的集聚与整合 2、创新成果的转化与应用 3、创新文化的培育与弘扬 四、构建智慧化产业新体系 1、优化产业布局与结构…

5.SpringBoot 配置文件

文章目录 1.配置文件作用2.配置文件格式2.1项目中同时存在两种配置文件2.2application.properties2.2.1 application.properties语法格式2.2.2获取自定义配置项 2.3 application.yml2.3.1 application.yml语法格式2.3.1.1单双引号区别2.3.1.2和application.properties格式对比&…

安全狗云眼的主要功能有哪些?

"安全狗云眼"是一款综合性的网络安全产品&#xff0c;主要用于实时监控和保护企业的网络安全。其核心功能包括威胁检测、漏洞扫描、日志管理和合规性检查等。 以下是安全狗云眼的主要功能详细介绍&#xff1a; 1、资产管理 定期获取并记录主机上的Web站点、Web容器、…

Python连接Oracle数据库问题解决及Linux服务器操作知识

背景说明 最近在做一个视频分析的项目&#xff0c;然后需要将视频分析的数据写入到oracle数据库&#xff0c;直接在服务器上测试数据库连接的时候出现了这个bug提示&#xff0c;自己通过不断的研究探讨&#xff0c;最终把这个问题成功进行了解决&#xff0c;在这里进行一下记录…

【周总结】总结下这周的工作、(hashmap)知识巩固等

总结 这周开发任务已经全部结束&#xff0c;主要是在修改一些 jira 问题 需要反思的是&#xff0c;中间改造接口时&#xff0c;数据库表需要新增一个字段&#xff0c;这个 sql 脚本忘记加到 basetable.sql 脚本里面了&#xff0c;这样如果是新建的项目&#xff0c;创建的时候不…

HackMyVM-Hommie

目录 信息收集 arp nmap WEB web信息收集 dirsearch ftp tftp ssh连接 提权 系统信息收集 ssh提权 信息收集 arp ┌──(root㉿0x00)-[~/HackMyVM] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC: 08:00:27:77:ed:84, IPv4: 192.168.9.126 Starting arp-…