TextMining Day3 基于信息抽取的文本挖掘
- 1. 简介
- 2. 背景:文本挖掘与信息提取
- 3. 数据挖掘与信息提取相结合
- 3.1 DISCOTEX系统
- 3.2 评价
- 4. 使用挖掘规则改进IE
- 4.1 算法
- 4.2 评价
- 7. 结论
1. 简介
图1:基于IE(信息抽取)的文本挖掘框架概述
本文报告了计算机相关职位招聘领域的实验,证明了将KDD应用于抽取的数据库中获得的预测规则可以用于提高信息抽取的召回率。
2. 背景:文本挖掘与信息提取
“文本挖掘”是用来描述数据挖掘技术在自动从非结构化文本中发现有用或有趣知识方面的应用。
一些技术已经被提出用于文本挖掘,包括概念结构、关联规则挖掘、情节规则挖掘、决策树和规则归纳方法。此外,信息检索(IR)技术已广泛使用“词袋”模型来完成文档匹配、排序和聚类等任务。
要提取的数据通常由一个模板给出,该模板指定了一列槽,这些槽将由从文档中获取的子字符串填充。图2显示了一个(缩短了的)文档及其填充的模板,用于职位发布域中的信息抽取任务。该模板包含由直接从文档中获取的字符串填充的槽。在编程语言、平台、应用程序和领域中,几个职位可能会有多个职位空缺。
IE 已经被证明在各种各样的其他应用中是有用的,例如研讨会公告,餐厅指南,大学网页,公寓租赁广告,以及企业收购的新闻文章
3. 数据挖掘与信息提取相结合
在本节中,我们将讨论我们提出的文本挖掘框架DISCOTEX(从文本提取中发现)的细节。我们考虑的任务,首先构建一个数据库,应用一个学习的信息提取系统到一个自然语言的语料库。然后,我们将标准的数据挖掘技术应用于提取的数据,发现可以用于许多任务的知识,包括提高信息提取的准确性。
3.1 DISCOTEX系统
在本文提出的文本挖掘框架中,IE发挥了重要作用,它对文本文档的语料库进行预处理,以便将提取的条目传递给数据挖掘模块。在我们的实现中,我们使用了两个最先进的学习信息提取器系统,RAPIER(鲁棒自动生成信息提取规则)和BWI(增强包装诱导)。通过对用模板标注的文档语料库进行训练,他们获得了可以在新文档上测试的抽取规则知识库。RAPIER and BWI已被证明在实际应用中表现良好,如USENET招聘公告和研讨会公告。
我们将提取的数据库中的每个槽值对视为一个独特的二进制特征,例如“graphics∈area”,并学习从所有其他特征中预测每个特征的规则。
类似的槽填充物首先被折叠成一个预先确定的标准术语。例如,“Windows XP”是平台插槽的常用填充词,但它经常以“WinXP”、“WinXP”、“MS WinXP”等形式出现。在从数据中挖掘规则之前,这些术语被压缩为唯一的槽值。在实验中,我们使用了一个有111个条目的人工构造的同义词词典。表1显示了字典的前10个条目。
我们已经应用了C4.5RULES来从产生的二进制数据中发现有趣的规则。从USENET新闻组austin中提取的600个作业的数据库中挖掘的规则示例。带有RAPIER和C4.5RULES的作业如图3所示 。
我们还应用RIPPER和APRIORI从提取的数据中发现有趣的规则。APRIORI是一种标准的关联规则挖掘算法,它发现所有支持度和置信度大于用户指定的最小支持度和最小置信度的关联规则。图4显示了BWI从USENET新闻组misc.jobs.resumes中提取的600份简历数据库中的示例规则。前3条规则由RIPPER归纳,其余3条规则由APRIORI发现。
图5显示了从在线Amazon.com书店的1,500个科幻小说(SF)图书描述集合中挖掘的示例关联规则。从语料库中确定作者、标题、主题、相关书籍和平均客户评分等插槽。
3.2 评价
发现的知识只有在准确的情况下才是有用的 。因此,在独立的测试数据上测量发现的知识的准确性是很重要的。
在这个数据集中,奥斯汀新闻组招聘了600个计算机科学职位。作业被收集并使用正确的提取模板手工标注。使用十倍交叉验证来生成训练集和测试集。使用RAPIER学习IE组件,使用RIPPER作为KDD组件。我们归纳了预测语言、平台、应用程序和区域插槽的填充符的规则,因为这些填充符通常由多个离散值填充符填充,并且它们的值之间有明显的潜在关系。
为了测试所发现的规则的准确性,它们被用来预测用户标签示例数据库中的信息。对于每个测试文档,每个可能的槽值被预测为存在或不存在,给出了所有其他槽值的信息。然后计算所有特征和所有测试示例的平均性能。预测槽槽填充物缺失或存在的分类精度并不是一个特别有信息的性能指标,因为只要简单地假设每个槽槽填充物缺失,就可以实现高精度。
我们有意在一个相对较小的语料库上训练RAPIER,以证明只标注相对较少的文档就可以得到一组很好的提取规则,这些规则能够构建一个数据库,从中发现准确的知识。因为在DISCOTEX中使用了两个不同的训练阶段,所以存在一个问题,即IE的训练集是否也应该用于训练规则挖掘者。为了清楚地说明挖掘人标记数据和IE标记数据之间的区别,一旦IE训练数据被用于训练RAPIER,就会扔掉它们,并对其余540个示例执行10倍交叉验证,以评估数据挖掘部分。
两个KDD系统都提供了相同的一组训练示例,但它们之间的唯一区别是,在对60个用户标记的不相交的示例集进行训练后,由RAPIER自动提取DISCOTEX的训练数据。最终系统的总体架构如图6所示。
图7显示了两个系统的精度、召回率和F-measure的学习曲线,以及作为基线的随机猜测策略。随机猜测方法根据slotvalue在训练数据中的出现频率来预测slotvalue。即使使用少量用户标记的数据,结果表明,DISCOTEX的性能与在人工构建的数据库上训练的规则挖掘器相当。
4. 使用挖掘规则改进IE
在对抽取的数据进行知识挖掘后,DISCOTEX可以利用发现的规则预测先前抽取过程中遗漏的信息。在本节中,我们将讨论如何利用从抽取数据中挖掘出的知识来辅助信息抽取本身。
4.1 算法
精度和召回率定义为:
首先,我们在图8中显示规则挖掘阶段的伪代码。图中显示的最后一步是过滤在训练数据和一组不相连的标签验证数据上发现的规则,以便只保留最准确的归纳规则。目前,对训练或验证提取的模板做出不正确预测的规则被丢弃。由于关联规则不像分类规则那样作为一个集合使用,因此我们将重点放在挖掘预测规则上。
图9总结了试图通过使用挖掘的规则来提高召回率的提取算法。请注意,是否提取预测填充符的最终决定取决于该填充符(或其任何同义词)是否以子字符串的形式出现在文档中。如果在文本中发现了填充物,提取器认为它的预测得到了确认,然后提取填充物
在DISCOTEX中,所有前置条件为负数的规则都首先应用。这种订购策略试图通过做出尽可能多的可确认的预测来最大限度地增加回忆。
总之,用户用抽取的信息标注的文档,以及初始IE系统处理的非监督数据(RAPIER从监督数据中了解到),都是用来创建数据库的。然后,规则挖掘器处理该数据库,以构建用于预测槽值的规则知识库。然后,在测试过程中使用这些预测规则来提高现有IE系统的召回率,方法是提出额外的插槽填充,在将它们添加到最终的提取模板之前,这些插槽填充在文档中被确认。
4.2 评价
为了测试整个系统,奥斯丁新闻组发布了600个手工标注的计算机科学职位。乔布斯被收集起来。使用10倍交叉验证来生成训练集和测试集。此外,还收集了4000个未加注释的文档,作为文本挖掘器的附加可选输入。归纳出预测语言、平台、应用程序和区域槽填充的规则
7. 结论
本文给出了集成IE和KDD的初步结果,证明了这两种优势。文本挖掘是自然语言处理、机器学习、数据挖掘和信息检索相结合的一个相对较新的研究领域。通过适当地整合来自这些学科的技术,可以开发出从大型文本语料库中发现知识的有用新方法。特别是,计算语言学和机器学习之间日益增长的相互作用对有效的文本挖掘系统的开发至关重要。