知识图谱系统课程笔记(二)——知识抽取与挖掘

news2024/10/5 18:32:58

知识图谱系统课程笔记(二)——知识抽取与挖掘

文章目录

    • 知识图谱系统课程笔记(二)——知识抽取与挖掘
      • OWL、RDF与RDFS关系
      • 知识抽取任务定义和相关比赛
        • 知识抽取技术
      • 知识获取关键技术与难点
      • 知识抽取的子任务
      • 实体抽取
        • 命名实体识别
        • 非结构化数据的实体抽取
      • 面向结构化数据的知识抽取
      • 面向半结构化数据的知识抽取
      • 实践展示:基于百科数据的知识抽取

在这里插入图片描述
在这里插入图片描述

OWL、RDF与RDFS关系

RDF是数据模型,定义了知识图谱的图结构,以主谓宾来表示的三元组,对应很多序列化格式。
RDFS也可以用RDF来表示,只是这里的调语和宾语是一些预定 义的词汇,如谓语是rdf:type, rdfs:subClass或rdfs subProperty , domain, range,宾语rdfs:Class和rdfs:Property等.在此基础上, OWL也可以用RDF来表示为三元组,他会增加更多的预定义的词汇.这些词汇使得我们有了更严格并支持本体推理的schema层或称为概念层。
对于了解一些常用的缩写是有价值的,这种多看几个我们说的知识库,并用- -下他们的SPARQL查询接口或浏览界面就会慢慢熟悉了,不要强行去背。
在这里插入图片描述

知识抽取任务定义和相关比赛

知识抽取技术

定义:知识抽取是自动地从文本中发现和抽取相关信息。
● 实体抽取
● 关系抽取
● 事件抽取.
在这里插入图片描述
(行业)知识图谱数据来源
在这里插入图片描述
知识抽取的数据类型
从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。
在这里插入图片描述
示例:
在这里插入图片描述

知识获取关键技术与难点

●) 从结构化数据库中获取知识: D2R
●难点:复杂表数据的处理
从链接数据 中获取知识:图映射
●难点:数据对齐
从半结构化 (网站)数据中获取知识:使用包装器
●难点:方便的包装器定义方法,包装器自动生成、更新与维护
从文本中获取知识:信息抽取
● 难点:结果的准确率与覆盖率

知识抽取的子任务

1.命名实体识别
检测:西瓜书的作者是周志华。→[西瓜书]:实体
分类:西瓜书的作者是周志华。→[西瓜书]:书籍
在这里插入图片描述

2.术语抽取
从语料中发现多个单词组成的相关术语。
3.关系抽取
抽取出实体、属性等之间的关系。
例子:王思聪是万达集团董事长王健林的独子。→[王健林] <父子关系> [王思聪]
4.事件抽取
相当于多元关系抽取
例子:
在这里插入图片描述
5.共指消解
在这里插入图片描述
在这里插入图片描述
其他
- 实体检测与识别
例如:人、组织、地点、工具等。
在这里插入图片描述
- 数值检测与识别
在这里插入图片描述
- 实体发现与链接
人 person(PER)
在这里插入图片描述
- 槽填充
发现并填充 实体的属性。
在这里插入图片描述
其他
在这里插入图片描述

实体抽取

定义:抽取文本中的原子信息元素。
实体:包括人名、组织/机构名、地理位置、时间/日期、字符值、金额值等(原子根据场景来定义)。
例子:
在这里插入图片描述

命名实体识别

**定义:**识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
**功能:**命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
标签类型:进行命名实体识别时,通常需要对每个字进行标注,中文为单个字,英文为单词,空格分割。标注的标签类型如下表所示在这里插入图片描述

————————————————
原文链接:https://blog.csdn.net/scgaliguodong123_/article/details/121303421

非结构化数据的实体抽取

非结构化数据的实体抽取可以认为是一个序列标注问题,于是我们可以使用序列标注的方法,例如使用HMM、CRF等方法,也可以使用LSTM+CRF的方法,

  • 序列标注方法

序列标注定义:序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。
原文链接:https://blog.csdn.net/scgaliguodong123_/article/details/121303421

  • 简述序列标注的三种方法
    实体识别三种常见的序列标注方法如下:
    **BIO:**标识实体的开始,中间部分和非实体部分
    **BMES:**增加S单个实体情况的标注
    **BIOSE:**增加E实体的结束标识
    1.BIO-三位序列标注法(B-begin,I-inside,O-outside)
    B-X代表实体X的开头
    I-X代表实体X的中间或结尾
    O代表不属于任何类型的
    样例:
    我是李果冻,我爱中国,我来自四川。
 我 O
 是 O
 李 B-PER
 果 I-PER
 冻 I-PER
 , O
 我 O
 爱 O
 中 B-ORG
 国 I-ORG
 , O
 我 O
 来 O
 自 O
 四 B-LOC
 川 I-LOC
 。 O

2.BMES-四位序列标注法(B-begin,M-middle,E-end,S-single)
B 表示一个词的词首位值
M 表示一个词的中间位置
E 表示一个词的末尾位置
S 表示一个单独的字词
样例:

我是四川人

 我 S
 是 S
 四 B
 川 M
 人 E

3.BIOES-四位序列标注法(B-begin,I-inside,O-outside,E-end,S-single)
B表示开始
I表示内部
O表示非实体
E表示实体尾部
S表示改词本身就是一个实体
样例:
我是李果冻,我爱中国,我来自四川。

 我 O
 是 O
 李 B-PER
 果 I-PER
 冻 E-PER
 , O
 我 O
 爱 O
 中 B-LOC
 国 E-LOC
 , O
 我 O
 来 O
 自 O
 四 B-LOC
 川 E-LOC
 。 O

————————————————
原文链接:https://blog.csdn.net/scgaliguodong123_/article/details/121303421
在这里插入图片描述
序列标注的实例:
在这里插入图片描述

HMM(隐马尔可夫模型)

几种方法通过F1值的比较如下:
在这里插入图片描述

HMM模型
https://zhuanlan.zhihu.com/p/533866352

面向结构化数据的知识抽取

面向半结构化数据的知识抽取

实践展示:基于百科数据的知识抽取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/124440.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【微服务架构实战】第2篇之Spring Cloud Gateway介绍

我们的项目采用 Spring Cloud Gateway gateway 的版本为&#xff1a;2.2.8.RELEASE 简介&#xff1a; Spring Cloud Gateway&#xff08;2.2.8.RELEASE&#xff09; 是 Spring 公司基于 Spring 5.0&#xff0c; Spring Boot 2.0 和 Project Reactor 等技术开发的网关&#xf…

Linux系统运行时参数命令--网络IO性能监控

目录 5 网络IO性能监控 5.1 性能指标 5.2 网络信息 5.2.1 套接字信息 5.2.2 协议栈统计信息-netstat命令 5.2.3 网络吞吐-sar命令 5.2.4 连通性和延时 5.3 其他常用的网络相关命令 telnet nc mtr连通性测试 nslookup traceroute iptraf强大的网络监控 tcpdump- …

(二十五)Vue之mixin混入/合

文章目录mixin局部混入全局混入Vue学习目录 上一篇&#xff1a;&#xff08;二十四&#xff09;Vue之props配置项 下一篇&#xff1a;&#xff08;二十六&#xff09;Vue之插件 mixin 在有些业务逻辑中&#xff0c;发现在多个组件的功能业务逻辑一样&#xff0c;可以把多个…

秋招荆棘之路

找工作期间&#xff0c;在牛客网上面看到很多前辈的面经和经验总结&#xff0c;给我面试带来了很多的帮助&#xff0c;本着互助原则&#xff0c;我也总结下自己秋招的经验&#xff0c;算是一种反馈了&#xff0c;给即将毕业的学弟学妹问一些经验。 1.1 背景 首先介绍下我的背景…

Project 2: CS61BYoG

Project 2主要分为两个部分&#xff1a;phase 1&#xff08;World Generation&#xff09;和 phase 2&#xff08;Interactivity&#xff09;。 最难的个人认为是phase 1中的生成随机地图的算法。这里也主要总结以下phase1。 自己一开始在这个位置卡了一天&#xff0c;一开始做…

Android动态代理源码分析

前言 前面我们简单介绍了代理模式的使用Android设计模式详解之代理模式&#xff0c;我们也明白了动态代理模式的重要性&#xff0c;那动态代理究竟是如何实现将方法交给InvocationHandler.invoke执行的呢&#xff1f;本文就从源码的角度一步步去探究这个问题&#xff1b; 源码…

开发工具与低代码开发平台丨上海道宁联合Grapecity为您提供各类软件开发工具和服务

Grapecity 提供软件开发技术和低代码平台 通过各类软件开发工具和服务 提升开发效率 推动软件产业发展 葡萄城研发各类开发控件和 商业智能报表工具 提供控件技术和数据分析工具 基于专业控件的技术积累 发布低代码开发平台 开发商介绍 葡萄城成立于1980年&#xff0c…

C# XML基本操作

一 XML的内容 二 XML的处理方式 1 DOM 文档对象模型&#xff08;Document Object Model&#xff09; 2 SAX XML解析的简单API&#xff08;Simple API for XML&#xff09; 3 .NET提供了XML支持&#xff1a;System.XML名称空间 三 常用的XML类 1 XmlDocument .LoadXml()…

linux安装mongodb的详细教程

目录 一、下载MongoDB Community Server(社区版) 三、启动mongodb 四、利用配置文件启动mongodb服务 一、下载MongoDB Community Server(社区版) 1.1、下载地址 Download MongoDB Community Server | MongoDB 1.2、选择安装版本 二、上传下载后的mongodb安装包&#xff0c;如…

vue路由写法小结

咱们先说路由的匹配语法&#xff0c;动态路由在项目中经常用到&#xff0c;在某些情况下我们要对路径参数进行正则表达式校验。 基础用法&#xff1a; 使用正则表达式后&#xff08;仅匹配数字&#xff09;&#xff1a; 加入*传入多个params参数&#xff0c;此时参数可以传多个…

使用Nordic的nrf52832进行主从机连接抓包分析

主机使用例程&#xff1a;nRF5_SDK_17.1.0_ddde560\examples\ble_central\ble_app_blinky_c\pca10040\s132\arm5_no_packs 从机使用例程&#xff1a;nRF5_SDK_17.1.0_ddde560\examples\ble_peripheral\ble_app_blinky\pca10040\s132\arm5_no_packs nrf528321. 空中数据包格式1.…

基于Amlogic 安卓9.0, 驱动简说(二):字符设备驱动,自动创建设备

文章目录一、前言二、系列文章三、替换部分3.1 自动分配设备号3.2 自动创建设备四、解析&#xff1a;完整源码4.1 helloworld_amlogic_char_driver_auto_mknode.c4.2 Makefile五、编译执行&#xff08;1&#xff09;编译及部署&#xff08;2&#xff09;加载ko文件&#xff08;…

HCIP作业三

文章目录一&#xff0c;建立拓扑图1&#xff0c;目的&#xff1a;实现全网可达二&#xff0c;在OSPF1区域1&#xff0c;所有路由器配置IP地址&#xff08;包含OSPF100区域&#xff09;2&#xff0c;进行O1的宣告&#xff0c;不能宣告ISP网段3&#xff0c;在O1区域的R3写缺省去I…

MIT6.830-2022-lab3实验思路详细讲解

文章目录一、实验概览二、实验过程成本估算&#xff08;Cost Estimation&#xff09;&#xff1a;基数和选择率Exercise 1: IntHistogramExercise 2: TableStatsExercise 3: Join Cost EstimationExercise 4: Join Cost EstimationExtra Credit总结一、实验概览 对于这次lab&a…

尚医通-数据字典接口-前端列表(十三)

目录&#xff1a; &#xff08;1&#xff09;数据字典接口-需求和准备 &#xff08;2&#xff09;数据字典接口-列表 &#xff08;3&#xff09; 数据字典前端-列表 &#xff08;1&#xff09;数据字典接口-需求和准备 前面我们完成了医院设置模块的开发&#xff0c;现在来…

js数组篇

数组定义 var arr1new Array(33,44,55,66); var arr2[A,B,C,D]; var arr3new Array(4); 数组常用方法 splice()方法用于替换数组中的指定项 splice(3,2,X,Y,Z)&#xff1a;从下标为3的项开始&#xff0c;连续替换2项 &#xff0c;插入XYZ var arr[A,B,C,D,E,F,G]; arr.spl…

Java线程间通信机制 (等待唤醒机制)

1.1 线程间通信 概念&#xff1a;多个线程在处理同一个资源&#xff0c;但是处理的动作&#xff08;线程的任务&#xff09;却不相同。 比如&#xff1a;线程A用来生成包子的&#xff0c;线程B用来吃包子的&#xff0c;包子可以理解为同一资源&#xff0c;线程A与线程B处理的动…

[JavaEE] Thread类及其常见方法

专栏简介: JavaEE从入门到进阶 题目来源: leetcode,牛客,剑指offer. 创作目标: 记录学习JavaEE学习历程 希望在提升自己的同时,帮助他人,,与大家一起共同进步,互相成长. 学历代表过去,能力代表现在,学习能力代表未来! 目录 1.Thread 的常见构造方法 2.Thread 的几个常见属性…

机器学习基石2(noise和error)

文章目录一、什么是noise&#xff1f;二、什么是error&#xff1f;三、常用error一、什么是noise&#xff1f; 我们之前的讨论都是一种理想化的说明&#xff0c;比如数据来源于目标函数fff&#xff0c;似乎我们手里拿到的数据是这样得来的&#xff0c;随机取一个输入&#xff0…

DOM算法系列009-判断给定节点是否为块级元素

UID: 20221227215215 aliases: tags: source: cssclass: created: 2022-12-27 块级元素 给定一个节点&#xff0c;如何判定它是否为块级元素呢&#xff1f; 首先&#xff0c;块级元素一定是元素节点&#xff0c;所以它的nodeType 1其次&#xff0c;我们思考&#xff0c;有什…