1 信息抽取任务
信息抽取(Information extraction,IE)任务指从非结构化或半结构化的文本中抽取出结构化信息。根据被抽取的对象,信息抽取可以分为以下4个任务:
(1) 实体抽取(Entity)
(2) 关系抽取(Relation)
(3) 事件抽取(Event)
(4) 情感抽取(Sentiment)
IE任务的应用背景:
(1) 互联网的蓬勃发展,捕获互联网上的舆情信息成为了需求
(2) 数据挖掘兴起后,产生了和语言文字相关的数据挖掘任务
1.1 实体抽取任务
定义:从预定语义类型(如人名、地点、组织等)的文本中识别特定类型指定物的任务。
任务:
(1) 指代消解任务(Anaphora resolution),关注句子中的指代关系。
- 找出指代关系
- 补充代词
(2) 共指消解(Co-references),关注一段文本中不同的命名实体,和所有的代表这些实体的词语。
(3) 与知识图谱相关的任务:实体链接,实体规范化。
1.2 关系抽取任务
定义:识别句子中命名实体间的特定关系。
任务:构建知识图谱
1.3 事件抽取任务
定义:事件有不同类型,从文本中抽取事件需要关注不同的触发词(trigger word)。一个事件,除了触发词,还有相应的事件论元,如在“访问”事件中,有访问者、被访问者等属性。
任务:
(1) 事实性检测:判断事件的可信度
(2) 事件时间顺序推断:自动抽取、恢复事件间原有的先后发生顺序
(3) 事件因果检测:从文本中推断事件的因果关系
(4) Script Learning:从大量文本中自从抽取整体的事件框架(script)知识的任务
1.4 情感抽取任务
任务:讽刺检测、情感词典构建、立场检测、情绪检测
链接1:https://zhuanlan.zhihu.com/p/571220239
链接2:https://www.bilibili.com/video/BV1kQ4y1r7ft/?spm_id_from=333.337.search-card.all.click&vd_source=2aa81cd07cc344789f94654b8878ab57