信息抽取的三个最重要,最受关注的子任务:
-
实体抽取
- 命名实体识别,包括实体检测(find)和分类(classify)
-
关系抽取。
- 通常我们所述的三元组抽取, 一个谓词(predicate)带2个形参(argument),如:Founding-location(IBM,New York)
-
事件抽取
- 相当于一种多元关系抽取。
ACE的17类关系:
具体应用实例:
实体抽取
实体抽取或者说命名实体识别9NER),在信息抽取中扮演者重要角色,主要抽取的是文本中的原子信息元素。如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find & classify
找到命名实体,并进行分类:
主要应用:
- 命名实体作为索引和超链接。
- 情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类。
- 关系抽取的准备步骤。
- QA系统,大多数答案都是命名实体。
方法
传统机器方法
序列模型
有向图模型
H
M
M
HMM
HMM
无向图模型
C
R
F
CRF
CRF
总结
- 慢慢的将各种的信息抽取有关模型及实战,将其搞定。会自己进行整理与文档处理都行啦的样子与打算。