知识图谱系统课程笔记（二）—

知识图谱系统课程笔记（二）——知识抽取与挖掘

news2026/2/11 10:54:38

知识图谱系统课程笔记（二）——知识抽取与挖掘

文章目录

- 知识图谱系统课程笔记（二）——知识抽取与挖掘
- - OWL、RDF与RDFS关系
  - 知识抽取任务定义和相关比赛
  - - 知识抽取技术
  - 知识获取关键技术与难点
  - 知识抽取的子任务
  - 实体抽取
  - - 命名实体识别
    - 非结构化数据的实体抽取
  - 面向结构化数据的知识抽取
  - 面向半结构化数据的知识抽取
  - 实践展示:基于百科数据的知识抽取

在这里插入图片描述

OWL、RDF与RDFS关系

RDF是数据模型,定义了知识图谱的图结构,以主谓宾来表示的三元组,对应很多序列化格式。
RDFS也可以用RDF来表示，只是这里的调语和宾语是一些预定义的词汇,如谓语是rdf:type, rdfs:subClass或rdfs subProperty , domain, range,宾语rdfs:Class和rdfs:Property等.在此基础上, OWL也可以用RDF来表示为三元组,他会增加更多的预定义的词汇.这些词汇使得我们有了更严格并支持本体推理的schema层或称为概念层。
对于了解一些常用的缩写是有价值的,这种多看几个我们说的知识库,并用- -下他们的SPARQL查询接口或浏览界面就会慢慢熟悉了，不要强行去背。
在这里插入图片描述

知识抽取任务定义和相关比赛

知识抽取技术

定义：知识抽取是自动地从文本中发现和抽取相关信息。
● 实体抽取
● 关系抽取
● 事件抽取.
在这里插入图片描述
（行业）知识图谱数据来源

知识抽取的数据类型
从不同来源、不同结构的数据中进行知识提取，形成知识存入到知识图谱。

示例：

知识获取关键技术与难点

●) 从结构化数据库中获取知识: D2R
●难点:复杂表数据的处理
●从链接数据中获取知识:图映射
●难点:数据对齐
●从半结构化 (网站)数据中获取知识:使用包装器
●难点:方便的包装器定义方法，包装器自动生成、更新与维护
●从文本中获取知识:信息抽取
● 难点:结果的准确率与覆盖率

知识抽取的子任务

1.命名实体识别
检测：西瓜书的作者是周志华。→[西瓜书]：实体
分类：西瓜书的作者是周志华。→[西瓜书]：书籍
在这里插入图片描述

2.术语抽取
从语料中发现多个单词组成的相关术语。
3.关系抽取
抽取出实体、属性等之间的关系。
例子：王思聪是万达集团董事长王健林的独子。→[王健林] <父子关系> [王思聪]
4.事件抽取
相当于多元关系抽取
例子：
在这里插入图片描述
5.共指消解

其他
- 实体检测与识别
例如：人、组织、地点、工具等。

- 数值检测与识别

- 实体发现与链接
人 person(PER)

- 槽填充
发现并填充实体的属性。

其他

实体抽取

定义：抽取文本中的原子信息元素。
实体：包括人名、组织/机构名、地理位置、时间/日期、字符值、金额值等（原子根据场景来定义）。
例子：
在这里插入图片描述

命名实体识别

**定义：**识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。
**功能：**命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。
标签类型：进行命名实体识别时，通常需要对每个字进行标注，中文为单个字，英文为单词，空格分割。标注的标签类型如下表所示在这里插入图片描述

————————————————
原文链接：https://blog.csdn.net/scgaliguodong123_/article/details/121303421

非结构化数据的实体抽取

非结构化数据的实体抽取可以认为是一个序列标注问题，于是我们可以使用序列标注的方法，例如使用HMM、CRF等方法，也可以使用LSTM+CRF的方法，

序列标注方法

序列标注定义：序列标注（Sequence Tagging）是NLP中最基础的任务，应用十分广泛，如分词、词性标注（POS tagging）、命名实体识别（Named Entity Recognition，NER）、关键词抽取、语义角色标注（Semantic Role Labeling）、槽位抽取（Slot Filling）等实质上都属于序列标注的范畴。
原文链接：https://blog.csdn.net/scgaliguodong123_/article/details/121303421

简述序列标注的三种方法
实体识别三种常见的序列标注方法如下：
**BIO：**标识实体的开始，中间部分和非实体部分
**BMES：**增加S单个实体情况的标注
**BIOSE：**增加E实体的结束标识
1.BIO-三位序列标注法(B-begin，I-inside，O-outside)
B-X代表实体X的开头
I-X代表实体X的中间或结尾
O代表不属于任何类型的
样例：
我是李果冻，我爱中国，我来自四川。

 我 O
 是 O
 李 B-PER
 果 I-PER
 冻 I-PER
 ， O
 我 O
 爱 O
 中 B-ORG
 国 I-ORG
 ， O
 我 O
 来 O
 自 O
 四 B-LOC
 川 I-LOC
 。 O

2.BMES-四位序列标注法(B-begin，M-middle，E-end，S-single)
B 表示一个词的词首位值
M 表示一个词的中间位置
E 表示一个词的末尾位置
S 表示一个单独的字词
样例：

我是四川人

 我 S
 是 S
 四 B
 川 M
 人 E

3.BIOES-四位序列标注法(B-begin，I-inside，O-outside，E-end，S-single)
B表示开始
I表示内部
O表示非实体
E表示实体尾部
S表示改词本身就是一个实体
样例：
我是李果冻，我爱中国，我来自四川。

 我 O
 是 O
 李 B-PER
 果 I-PER
 冻 E-PER
 ， O
 我 O
 爱 O
 中 B-LOC
 国 E-LOC
 ， O
 我 O
 来 O
 自 O
 四 B-LOC
 川 E-LOC
 。 O

————————————————
原文链接：https://blog.csdn.net/scgaliguodong123_/article/details/121303421
在这里插入图片描述
序列标注的实例：

HMM（隐马尔可夫模型）

几种方法通过F1值的比较如下：
在这里插入图片描述

HMM模型
https://zhuanlan.zhihu.com/p/533866352

面向结构化数据的知识抽取

面向半结构化数据的知识抽取

实践展示:基于百科数据的知识抽取

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/124440.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！