【知识图谱】(task4)知识图谱的抽取和构建

news2024/11/28 10:53:58

note

  • CRF条件随机场是全局最优(判别式模型),HMM是局部最优(生成式模型)
  • 实体关系抽取方法概览:
    在这里插入图片描述
  • 事件抽取主要分为事件的发现和分类和事件要素抽取两部分,又可以细分为触发词识别与事件分类和要素检测与要素角色分类。与关系抽取相比,事件抽取是一个更加困难和复杂的任务。

文章目录

  • note
  • 一、知识工程和知识获取
  • 二、实体识别与分类
    • 2.1 基于序列标注
    • 2.2 基于深度学习的NER
    • 2.3 基于预训练语言模型的ENR
    • 2.4 小结
  • 三、关系抽取与属性补全
    • 3.1 关系抽取方法的演变:
    • 3.2 基于图神经网络的关系抽取
    • 3.3 基于胶囊神经网络多标签关系抽取
    • 3.4 属性补全任务
  • 四、概念抽取
    • 4.1 问题描述
    • 4.2 和GNN的结合
  • 五、事件识别与抽取
    • 5.1 问题描述
    • 5.2 基于结构预测
  • 六、知识抽取技术前沿
  • 时间安排
  • Reference

一、知识工程和知识获取

  • 知识图谱 ≠ 专家系统;传统知识工程不是获取三元组,也使用更多的人工。
  • 知识图谱工程:简化的知识工程

在这里插入图片描述

  • 从不同来源、不同结构的数据中进行知识提取,存入知识图谱

在这里插入图片描述

  • 本次学习更多是NLP从文本获取知识:
    • 命名实体识别:如从”库克非常兴奋“中找到实体【库克】,库克是个任务
    • 术语提取(概念抽取):从预料中发现多个单词组成的相关术语
    • 关系抽取:如从句子”王思聪是集团董事长王健林的独子“中抽取出:[王健林] <父子关系> [王思聪]

二、实体识别与分类

2.1 基于序列标注

(1)基本任务
分类:确定标签体系,选择模型,定义特征,模型训练
结果:给每个词打一个标签
注意:序列标签体系耗时
在这里插入图片描述
(2)HMM模型(隐马尔可夫模型)

  • 有向图模型
  • 假设特征之间是独立的

2.2 基于深度学习的NER

在这里插入图片描述

2.3 基于预训练语言模型的ENR

在这里插入图片描述

2.4 小结

  • 实体识别仍面临着标签分布不平衡,实体嵌套等问题,制约了现实应用;
  • 中文的实体识别面临一些特有的问题,例如:中文没有自然分词、用字变化 多、简化表达现象严重等等;
  • 实体识别是语义理解和构建知识图谱的重要一环,也是进一步抽取三元组和 关系分类的前提基础。

三、关系抽取与属性补全

3.1 关系抽取方法的演变:

在这里插入图片描述
一个基于深度学习的开源中文关系抽取框架 https://github.com/zjunlp/deepke

实体关系抽取方法概览:
在这里插入图片描述

  • 基于特征的方法需要人工设计特征,这类方法适用于标注数量较少,精度要求较高,人工能够 胜任的情况。
  • 基于核函数的方法能够从字符串或句法树中自动抽取大量特征,但这类方法始终是在衡量两段 文本在子串或子树上的相似度,并没有从语义的层面对两者做深入比较。
  • 上述两类方法通常都需要做词性标注和句法分析,用于特征抽取或核函数计算,这是典型的pipeline做法,会把前序模块产生的错误传导到后续的关系抽取任务,并被不断放大。
  • 深度学习技术不断发展,端到端的抽取方法能大幅减少特征工程,并减少对词性标注等预处理 模块的依赖,成为当前关系抽取技术的主流技术路线。

3.2 基于图神经网络的关系抽取

  • 图神经网络在图像领域的成功应用证明了以节点为中心的局部信息聚合同样可以有效的提 取图像信息。
  • 思想:
    • 利用句子的依赖解析树构成图卷积中的邻接矩阵,以句子中的每个单词为节点做图卷积操作。
    • 如此就可以抽取句子信息,再经过池化层和全连接层即可做关系抽取的任务
  • 论文:Graph Convolution over Pruned Dependency Trees Improves Relation Extraction. (EMNLP2018)
    • 这篇论文是利用GCN实现关系抽取的高被引经典研究,提出了针对关系抽取量身定制的一种新型图卷积网络。模型使用有效的图卷积运算对输入句子的依存关系结构进行编码,然后抽取以实体为中心的表示,以进行可靠的关系预测。
    • 设计了一个以路径为中心的剪枝策略移除依存树中与关系抽取无关的路径。

在这里插入图片描述

论文:Graph Convolution over Pruned Dependency Trees Improves Relation Extraction. (EMNLP2018)

3.3 基于胶囊神经网络多标签关系抽取

  • 传统模型主要关注单标签关系抽取,但同一个句子可能包含多个关系。采用胶囊神经网络 可以帮助实现多标签的关系抽取。
  • 如图所示:
    • 模型首先通过预训练的 embedding 将句子中的词转化为词向量;
    • 随后使用 BiLSTM 网络得到粗粒度的句子特征表示,
    • 再将所得结果输入到胶囊网络,首先构建出 primary capsule,经由动态路由的方法得到与分类结果相匹配的输出胶囊。胶囊的模长代表分类结果的概率大小

在这里插入图片描述
Attention-based capsule networks with dynamic routing for relation extraction. (EMNLP2018)

3.4 属性补全任务

  • 任务:事物的多个属性描述,补全。
  • 方法:
    • 抽取式:抽取输入文本中的字词,组成预测的属性值。预测出的属性值一定要在输入侧出现过。可解释性较高
    • 生成式:直接生成属性值,该属性值不一定在输入文本出现,只要模型在训练数据中见过即可
  • 应用:商品关键属性补全,即利用算法的图文预测item的类别、同款、品牌等
    在这里插入图片描述

四、概念抽取

4.1 问题描述

  • 如浙大是实体,高校是概念,浙大是高校,即浙大是高校的下位词
  • 概念(Concept)是人类在认识过程中,从感性认识上升到理性认识,把所感知 的事物的共同本质特点抽象出来的一种表达
  • 概念知识一般可以通过基于模板、基于百科和基于序列标注等方法进行获取
  • 概念知识可以帮助自然语言理解,促进搜索、推荐等应用的效果

4.2 和GNN的结合

  • Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation. EMNLP 2018.
  • Authors: Xiao Liu, Zhunchen Luo, Heyan Huang.
    • 利用GCN做多事件抽取的研究,提出了一种新颖的联合多个事件抽取(JMEE)框架,通过引入句法捷径弧和图卷积网络加自注意力机制来建模图结构信息。
    • 事件抽取模型需要对一句话中的所有token经过词嵌入层和Bi-LSTM层,之后将得到的无向图转换为带有自环的有向图结构,并利用GCN计算每个节点的表示: h v ( k + 1 ) = f ( ∑ u ∈ N ( v ) ( W K ( u , v ) ( k ) h u ( k ) + b K ( u , v ) ( k ) ) ) h_v^{(k+1)}=f\left(\sum_{u \in \mathcal{N}(v)}\left(W_{K(u, v)}^{(k)} h_u^{(k)}+b_{K(u, v)}^{(k)}\right)\right) hv(k+1)=fuN(v)(WK(u,v)(k)hu(k)+bK(u,v)(k))

五、事件识别与抽取

5.1 问题描述

  • 事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个 或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
    • 谁在啥时候,啥地方,做了啥事情
  • 事件抽取主要分为事件的发现和分类和事件要素抽取两部分,又可以细分为触发词识别与事件分类和要素检测与要素角色分类。与关系抽取相比,事件抽取是一个更加困难和复杂的任务
  • 事件结构远比实体关系三元组复杂,事件的Schema结构对事件抽取有很强的约束作用

5.2 基于结构预测

  • Joint Inference 将各模型通过整体优化目标整合起来,可以通过整数规划 等方法进行优化。
  • Joint Modeling (Structured) 将事件结构看作依存树,抽取任务相应转化为 依存树结构预测问题
  • 基于神经网络的事件抽取需要大量标注样本:样本难标注,远程监督困难

在这里插入图片描述

六、知识抽取技术前沿

  • 举一反三,面对低资源少样本场景,我们需要更加智能的少样本零样本知识 抽取方法;与时俱进, 知识是不断变化的,我们需要能够终身学习知识的框架
  • 零样本知识抽取ZSL:基于可见标注数据集和可见标签集合,学习并预测不可见数据集结果
    • 转换为问题:学习输入特征空间到类别描述的语义空间的映射

时间安排

任务任务信息截止时间
-12月12日正式开始
Task01:CP1知识图谱概论(2天)12月12-13日 周二
Task02:CP2知识图谱表示 + CP3知识图谱的存储和查询(上)(6天)12月14-19日 周六
Task03:CP3知识图谱的存储和查询(下)(3天)12月20-22日 周二
Task04:CP4知识图谱的抽取和构建(3天)12月23-25日 周五
Task05:CP5知识图谱推理(4天)12月26-29日 周二

Reference

[1] 推荐系统前沿与实践. 李东胜等
[2] 自然语言处理cs224n-2021–Lecture15: 知识图谱
[3] 东南大学《知识图谱》研究生课程课件
[4] 2022年中国知识图谱行业研究报告
[5] 浙江大学慕课:知识图谱导论.陈华钧老师
[6] https://conceptnet.io/
[7] KG paper:https://github.com/km1994/nlp_paper_study_kg
[8] 北大gStore - a graph based RDF triple store
[9] Natural Language Processing Demystified
[10] 玩转Neo4j知识图谱和图数据挖掘
[11] 锋哥的NLP知识图谱学习笔记
[12] https://github.com/datawhalechina/team-learning-nlp/tree/master/KnowledgeGraph_Basic
[13] 新一代知识图谱关键技术综述. 东南大学 王萌
[14] cs224w(图机器学习)2021冬季课程学习笔记12 Knowledge Graph Embeddings
[15] 关系抽取和事件抽取代码案例:https://github.com/taishan1994/taishan1994 (西西嘛呦)
[16] 年末巨制:知识图谱嵌入方法研究总结
[17] “知识图谱+”系列:知识图谱+图神经网络
[18] 【知识图谱】斯坦福 CS520公开课(双语字幕)
[19] 【论文阅读笔记】Graph Convolution over Pruned Dependency Trees Improves Relation Extraction
[20] 【论文翻译】Graph Convolution over Pruned Dependency Trees Improves Relation Extraction
[21] 论文笔记 EMNLP 2018|Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation
[22] https://github.com/LIANGKE23/Awesome-Knowledge-Graph-Reasoning
[23] 再谈图谱表示:图网络表示GE与知识图谱表示KGE的原理对比与实操效果分析
[24] WSDM’23 | 工业界搜推广nlp论文整理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/91819.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第13部分 VLAN,Trunk 和VTP

目录 13.1 VLAN&#xff0c;Trunk 和VTP 简介 13.1.1 VLAN 13.1.2 Trunk 13.1.3 VTP 13.1.4 EtherChannel 13.2 实验1&#xff1a;划分VLAN 1.实验目的 2.实验拓扑 3.实验步骤 4.实验调试 13.3 实验2&#xff1a;Trunk 配置 1.实验目的 2.实验拓扑 3.实验步骤 1…

SpringBoot整合Graylog做日志收集

日志收集折腾过程 ELK 之前整合过ELK做日志采集&#xff0c;就是Elasticsearch Logstash Kibana&#xff1a; Elasticsearch&#xff1a;存储引擎&#xff0c;存放日志内容&#xff0c;利于全文检索Logstash&#xff1a;数据传输管道&#xff0c;将日志内容传输到Elastics…

无法在Anaconda环境中使用pre-commit run --all-files:缺少匹配版本的ruamel.yaml

参考来源&#xff1a;https://stackoverflow.com/questions/68794749/unable-to-run-pre-commit-in-anaconda-environment 问题 与电脑两地隔离了半个月&#xff0c;今天开机commit的时候忽然弹出了下面的错误&#xff08;自己图忘存了&#xff0c;图源置顶链接&#xff09;&…

b站黑马的Vue快速入门案例代码——小黑记事本

目录 目标效果&#xff1a; 重点原理&#xff1a; &#xff08;1&#xff09;push&#xff08;&#xff09;方法——向数组末尾&#xff0c;添加新元素&#xff0c;并返回新长度 &#xff08;2&#xff09;v-on可以传递自定义参数&#xff0c;v-on:click”...“的简写是clic…

jdk11新特性——标准Java异步HTTP客户端

目录一、概述二、HTTP Client 同步发送请求使用示例2.1、创建简单的服务端2.2、创建HTTP Client 同步代码三、HTTP Client 异步发送请求使用示例3.1、创建简单的服务端&#xff08;参考2.1&#xff09;3.2、创建HTTP Client 异步代码一、概述 Java 9 开始引入的一个处理 HTTP …

浅谈ioremap,vmalloc,mmap三者之间的脉络

前言 系统mmu开启后, 程序对内存的访问都是虚拟地址, 之后mmu会自动将虚拟地址变为实际的物理地址&#xff08;硬件行为&#xff09;, 所以我们的程序如果要访问物理地址的话&#xff0c;必须要通过mmu建立虚拟地址与物理地址之间的映射关系。对于虚拟地址映射到物理地址的操作…

非零基础自学Golang 第7章 函数 7.6 延迟执行语句 7.7 小结

非零基础自学Golang 文章目录非零基础自学Golang第7章 函数7.6 延迟执行语句7.7 小结第7章 函数 7.6 延迟执行语句 Go语言中存在一种延迟执行的语句&#xff0c;由defer关键字标识&#xff0c;格式如下&#xff1a; defer 任意语句defer后的语句不会被马上执行&#xff0c;在…

Redis持久化详解

一、概述 在Redis中&#xff0c;实现高可用的技术主要包括持久化、复制、哨兵和集群&#xff0c;下面分别说明它们的作用&#xff0c;以及解决了什么样的问题。 持久化&#xff1a;持久化是最简单的高可用方法(有时甚至不被归为高可用的手段)&#xff0c;主要作用是数据备份…

springboot整合系列之如何选择版本及项目搭建

特别说明&#xff1a;本次项目整合基于idea进行的&#xff0c;如果使用Eclipse可能会略有不同。因为我很久没用过eclipse了&#xff0c;所以也没有办法给出两个版本。如果不一致的地方就自行google解决吧~~ springboot整合之如何选择版本及项目搭建 springboot整合mybatis-pl…

ADI Blackfin DSP处理器-BF533的开发详解52:图像处理专题-CMOS摄像头采集图像(含源码)

硬件准备 ADSP-EDU-BF533&#xff1a;BF533开发板 AD-HP530ICE&#xff1a;ADI DSP仿真器 软件准备 Visual DSP软件 硬件链接 功能介绍 板卡上设计了一个摄像头接口&#xff0c;可以连接与板卡匹配的 ADSP-EDU-CMOS 子卡板。摄像头接口采用 20PIN 插针接入&#xff0c;将插…

照片变漫画怎么做?分享这几个照片变漫画的技巧给你

大家在网上是否有看到过一些绘画博主给别人画漫画图呢&#xff1f;这些图片中的人物形象与现实中的非常相像&#xff0c;而且看起来真的很像漫画中的人物一般&#xff0c;画出来对于一些没有绘画功底的人来说是比较困难的。那么我们又该如何得到我们在漫画中的图片呢&#xff1…

四种常见排序(冒泡、选择、插入、快速排序)--- Python版

经典排序算法总结与实现 经典排序算法在面试中占有很大的比重&#xff0c;也是基础&#xff0c;为了未雨绸缪&#xff0c;这次收集整理并用Python实现了八大经典排序算法&#xff0c;包括冒泡排序&#xff0c;插入排序&#xff0c;选择排序&#xff0c;希尔排序&#xff0c;归…

Python实现批量采集美女视*频 <无水印>

前言 大家早好、午好、晚好吖 ❤ ~ 我给大家准备了一些资料&#xff0c;包括: 2022最新Python视频教程、Python电子书10个G &#xff08;涵盖基础、爬虫、数据分析、web开发、机器学习、人工智能、面试题&#xff09;、Python学习路线图等等 直接在文末名片自取即可&#x…

机器学习还能预测心血管疾病?没错,我用 Python 写出来了

全球每年约有1700万人死于心血管疾病&#xff0c;当中主要表现为心肌梗死和心力衰竭。当心脏不能泵出足够的血液来满足人体的需要时&#xff0c;就会发生心力衰竭&#xff0c;通常由糖尿病、高血压或其他心脏疾病引起。 在检测心血管疾病的早期症状时&#xff0c;机器学习就能…

nodejs+vue企业固定资产管理系统-vscode

目 录 摘 要 I 目 录 III 第一章 概述 1.1研究背景 1.2 开发意义 1.3 研究现状 1.4 研究内容 1.5 论文结构 第二章 开发技术介绍 2.5 B/S架构 3.1 可行性分析 3.1.1技术可行性 3.1.2操作可行性 3.1.3 经济可行性 3.1.4 运行可行性 3.2性能需求分析 3.4功能分析 第四章 系统设计…

轻量级的架构决策记录机制

作者&#xff1a;倪新明 ADR是一种性价比非常高的架构决策文档化实践&#xff0c;团队引入和实践成本很低&#xff0c;却能为团队带来极大收益&#xff01; 1 团队研发面临的问题 不论是在传统的IT行业&#xff0c;还是互联网行业&#xff0c;研发团队在架构决策层面或多或少…

在Arduino IDE上开发ESP32(离线安装SDK)

用过Arduino的朋友都知道&#xff0c;Arduino的整个生态强大得让你不能不服。大家所贡献出来的各种库让基于Arduino的开发虽然还没有变得无所不能&#xff0c;但也算是相当得心应手了。你所能想到的功能大体都能在网上找到对应的库和文章。可能是因为这个原因吧&#xff0c;所以…

Redis整理-未完成

目录 1. Redis安装 1.1 单机 1.2 主从 1.3 哨兵 1.4 集群 1.4.1 方式一 redis-cli --cluster命令 1.4.2 方式二 cluster meet/addslots/replicate 2. Redis配置 2.1 基本参数配置 2.2 持久化配置 2.3 内存策略设置 2.4 主从配置 2.5 哨兵配置 2.6 集群配置 2.6.…

吃透这份 “ 自动化测试 ” 核心技术栈,月薪30K还不是随便叫

为了帮助大家快速回顾学习自动化测试中的知识点&#xff0c;分享一下这些年来&#xff0c;我对于技术一些归纳和总结&#xff0c;和自己对作为一名 高级测试工程师需要掌握那些技能的笔记分享&#xff0c;希望能帮助到有心在技术这条道路上一路走到黑的朋友&#xff01; 一、L…

[附源码]Python计算机毕业设计SSM基于JAVA快递配送平台(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…