TextMining Day3 基于信息抽取的文本挖掘

news2024/10/6 10:40:40

TextMining Day3 基于信息抽取的文本挖掘

  • 1. 简介
  • 2. 背景:文本挖掘与信息提取
  • 3. 数据挖掘与信息提取相结合
    • 3.1 DISCOTEX系统
    • 3.2 评价
  • 4. 使用挖掘规则改进IE
    • 4.1 算法
    • 4.2 评价
  • 7. 结论

1. 简介

图1:基于IE(信息抽取)的文本挖掘框架概述

image-20230705103317809

本文报告了计算机相关职位招聘领域的实验,证明了将KDD应用于抽取的数据库中获得的预测规则可以用于提高信息抽取的召回率。

2. 背景:文本挖掘与信息提取

“文本挖掘”是用来描述数据挖掘技术在自动从非结构化文本中发现有用或有趣知识方面的应用。

一些技术已经被提出用于文本挖掘,包括概念结构、关联规则挖掘、情节规则挖掘、决策树和规则归纳方法。此外,信息检索(IR)技术已广泛使用“词袋”模型来完成文档匹配、排序和聚类等任务。

要提取的数据通常由一个模板给出,该模板指定了一列槽,这些槽将由从文档中获取的子字符串填充。image-20230705105646501图2显示了一个(缩短了的)文档及其填充的模板,用于职位发布域中的信息抽取任务。该模板包含由直接从文档中获取的字符串填充的槽。在编程语言、平台、应用程序和领域中,几个职位可能会有多个职位空缺。

IE 已经被证明在各种各样的其他应用中是有用的,例如研讨会公告,餐厅指南,大学网页,公寓租赁广告,以及企业收购的新闻文章

3. 数据挖掘与信息提取相结合

在本节中,我们将讨论我们提出的文本挖掘框架DISCOTEX(从文本提取中发现)的细节。我们考虑的任务,首先构建一个数据库,应用一个学习的信息提取系统到一个自然语言的语料库。然后,我们将标准的数据挖掘技术应用于提取的数据,发现可以用于许多任务的知识,包括提高信息提取的准确性。

3.1 DISCOTEX系统

在本文提出的文本挖掘框架中,IE发挥了重要作用,它对文本文档的语料库进行预处理,以便将提取的条目传递给数据挖掘模块。在我们的实现中,我们使用了两个最先进的学习信息提取器系统,RAPIER(鲁棒自动生成信息提取规则)和BWI(增强包装诱导)。通过对用模板标注的文档语料库进行训练,他们获得了可以在新文档上测试的抽取规则知识库。RAPIER and BWI已被证明在实际应用中表现良好,如USENET招聘公告和研讨会公告。

我们将提取的数据库中的每个槽值对视为一个独特的二进制特征,例如“graphics∈area”,并学习从所有其他特征中预测每个特征的规则。

类似的槽填充物首先被折叠成一个预先确定的标准术语。例如,“Windows XP”是平台插槽的常用填充词,但它经常以“WinXP”、“WinXP”、“MS WinXP”等形式出现。在从数据中挖掘规则之前,这些术语被压缩为唯一的槽值。在实验中,我们使用了一个有111个条目的人工构造的同义词词典。表1显示了字典的前10个条目。

image-20230709092503053

我们已经应用了C4.5RULES来从产生的二进制数据中发现有趣的规则。从USENET新闻组austin中提取的600个作业的数据库中挖掘的规则示例。带有RAPIER和C4.5RULES的作业如图3所示image-20230709093156826

我们还应用RIPPERAPRIORI从提取的数据中发现有趣的规则。APRIORI是一种标准的关联规则挖掘算法,它发现所有支持度和置信度大于用户指定的最小支持度和最小置信度的关联规则。image-20230709093601508图4显示了BWI从USENET新闻组misc.jobs.resumes中提取的600份简历数据库中的示例规则。前3条规则由RIPPER归纳,其余3条规则由APRIORI发现。image-20230709093828024

图5显示了从在线Amazon.com书店的1,500个科幻小说(SF)图书描述集合中挖掘的示例关联规则。从语料库中确定作者、标题、主题、相关书籍和平均客户评分等插槽。

3.2 评价

发现的知识只有在准确的情况下才是有用的 。因此,在独立的测试数据上测量发现的知识的准确性是很重要的。

在这个数据集中,奥斯汀新闻组招聘了600个计算机科学职位。作业被收集并使用正确的提取模板手工标注。使用十倍交叉验证来生成训练集和测试集。使用RAPIER学习IE组件,使用RIPPER作为KDD组件。我们归纳了预测语言、平台、应用程序和区域插槽的填充符的规则,因为这些填充符通常由多个离散值填充符填充,并且它们的值之间有明显的潜在关系。

为了测试所发现的规则的准确性,它们被用来预测用户标签示例数据库中的信息。对于每个测试文档,每个可能的槽值被预测为存在或不存在,给出了所有其他槽值的信息。然后计算所有特征和所有测试示例的平均性能。预测槽槽填充物缺失或存在的分类精度并不是一个特别有信息的性能指标,因为只要简单地假设每个槽槽填充物缺失,就可以实现高精度。

我们有意在一个相对较小的语料库上训练RAPIER,以证明只标注相对较少的文档就可以得到一组很好的提取规则,这些规则能够构建一个数据库,从中发现准确的知识。因为在DISCOTEX中使用了两个不同的训练阶段,所以存在一个问题,即IE的训练集是否也应该用于训练规则挖掘者。为了清楚地说明挖掘人标记数据和IE标记数据之间的区别,一旦IE训练数据被用于训练RAPIER,就会扔掉它们,并对其余540个示例执行10倍交叉验证,以评估数据挖掘部分。image-20230709100350384

两个KDD系统都提供了相同的一组训练示例,但它们之间的唯一区别是,在对60个用户标记的不相交的示例集进行训练后,由RAPIER自动提取DISCOTEX的训练数据。最终系统的总体架构如图6所示。

image-20230709100459324

图7显示了两个系统的精度、召回率和F-measure的学习曲线,以及作为基线的随机猜测策略。随机猜测方法根据slotvalue在训练数据中的出现频率来预测slotvalue。即使使用少量用户标记的数据,结果表明,DISCOTEX的性能与在人工构建的数据库上训练的规则挖掘器相当。

4. 使用挖掘规则改进IE

在对抽取的数据进行知识挖掘后,DISCOTEX可以利用发现的规则预测先前抽取过程中遗漏的信息。在本节中,我们将讨论如何利用从抽取数据中挖掘出的知识来辅助信息抽取本身。

4.1 算法

精度和召回率定义为:image-20230709102606904

首先,我们在图8中显示规则挖掘阶段的伪代码。图中显示的最后一步是过滤在训练数据和一组不相连的标签验证数据上发现的规则,以便只保留最准确的归纳规则。目前,对训练或验证提取的模板做出不正确预测的规则被丢弃。由于关联规则不像分类规则那样作为一个集合使用,因此我们将重点放在挖掘预测规则上。image-20230709104022305

图9总结了试图通过使用挖掘的规则来提高召回率的提取算法。请注意,是否提取预测填充符的最终决定取决于该填充符(或其任何同义词)是否以子字符串的形式出现在文档中。如果在文本中发现了填充物,提取器认为它的预测得到了确认,然后提取填充物

image-20230709104042090

在DISCOTEX中,所有前置条件为负数的规则都首先应用。这种订购策略试图通过做出尽可能多的可确认的预测来最大限度地增加回忆。

总之,用户用抽取的信息标注的文档,以及初始IE系统处理的非监督数据(RAPIER从监督数据中了解到),都是用来创建数据库的。然后,规则挖掘器处理该数据库,以构建用于预测槽值的规则知识库。然后,在测试过程中使用这些预测规则来提高现有IE系统的召回率,方法是提出额外的插槽填充,在将它们添加到最终的提取模板之前,这些插槽填充在文档中被确认。

4.2 评价

为了测试整个系统,奥斯丁新闻组发布了600个手工标注的计算机科学职位。乔布斯被收集起来。使用10倍交叉验证来生成训练集和测试集。此外,还收集了4000个未加注释的文档,作为文本挖掘器的附加可选输入。归纳出预测语言、平台、应用程序和区域槽填充的规则

7. 结论

本文给出了集成IE和KDD的初步结果,证明了这两种优势。文本挖掘是自然语言处理、机器学习、数据挖掘和信息检索相结合的一个相对较新的研究领域。通过适当地整合来自这些学科的技术,可以开发出从大型文本语料库中发现知识的有用新方法。特别是,计算语言学和机器学习之间日益增长的相互作用对有效的文本挖掘系统的开发至关重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/742967.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

stm32 使用CubeIDE 移植RTX5

STM32 使用st的官方开发环境 cubeide (eclipse gcc)移植 cmsis rtos2 RTX5 实时操作系统 这套环境的主要优势是免费。cubeide免费使用。RTX5 免商业版税(已从原keil中剥离出来,现在完全开源免费)。 一,环…

微软开源社区上线,能够给微软Win95等“上古系统”打补丁

日前一个基于社区的项目“Windows Update Restored”上线,据了解该项目的目的是为老系统重新提供对Windows Update的支持,可为 Windows 95 / NT 4.0/98(包括 SE)/ME/ 2000 SP2 等“上古时期”的微软操作系统提供升级补丁、修复 bug 或安全漏洞。 据悉&a…

Python+Requests+Excel接口测试实战

1、EXCEL文件接口保存方式,如图。 2、然后就是读取EXCEL文件中的数据方法,如下: 1 import xlrd2 3 4 class readExcel(object):5 def __init__(self, path):6 self.path path7 8 property9 def getSheet(self): 10 …

设计模式【创建型】-- 原型模式

原型模式(Prototype) 原型模式是指原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象。调用者不需要知道任何创建细节,不调用构造函数 主要应用: 浅拷贝深拷贝 原型模式: 抽象原型类&#xf…

【Redis】—— Redis的AOF持久化机制

💧 【 R e d i s 】—— R e d i s 的 A O F 持久化机制 \color{#FF1493}{【Redis】 —— Redis的AOF持久化机制} 【Redis】——Redis的AOF持久化机制💧 🌷 仰望天空,妳我亦是行人.✨ 🦄 个人主页——微风撞…

如何搭建一个优秀的移动商城?

移动商城是一种新兴的购物方式。随着移动设备的普及和人们对线上购物的需求不断增加,移动商城已经成为了现代电子商务的重要组成部分。 对于想要在这个领域中获得成功的人来说,建立一个优秀的移动商城非常重要。但在搭建移动商城的过程中,有很…

【监控系统】Prometheus架构相关概念及源码部署实战

上篇我们介绍了业界主流监控框架的对比,我们监控系统这块主要是采用Prometheus。 那么,什么是Prometheus 官网:https://prometheus.io/docs/introduction/overview/ Prometheus是一个开源的系统监控和报警系统,现在已经加入到CN…

Android Java代码与JNI交互 JNI方法Java类字段 (六)

🔥 Android Studio 版本 🔥 🔥 Java 基础类型数据对应 jni 中的字母 🔥 通过 jni 查找java某个类中相应字段对应的数据类型 , 需要使用到 jni 中的 GetFieldID() 函数 jfieldID GetFieldID(jclass clazz, const char* name, const char* sig){ return functions-&g…

MySQL 如何处理 慢查询

如何定位慢查询? 方式一: 可以使用开源工具,比如: 调试工具:Arthas运维工具:Prometheus 、Skywalking 方式二: 使用MySQL自带慢日志 慢查询日志记录了所有执行时间超过指定参数(long_qu…

bsub 的用法和意义

bsub -R “rusage [mem40960]” -Is -XF 执行脚本的方法 bsub <run 几条有用的命令 bqueues 查询所有queue的状态 4. 常用命令之bhosts 显示各节点作业相关情况 bhosts hostname 常用命令之bjobs 查看提交作业运行情况; bjobs –r 显示正在运行的作业 bjobs –a 显示正在…

微信小程序,左上脚返回点击直接到首页

我们做小程序时就有很多这种情况&#xff0c;根据不同情况处理方式不同 第一种情况&#xff1a;小程序有多个tab onUnload(event){ //多层级跳转之后&#xff0c;监听左上角返回事件&#xff0c;直接退回到indexuni.switchTab({url:"/pages/index/index"})}, 第二种…

pandas 笔记:高亮内容

1 高亮缺失值 1.0 数据 import pandas as pd import numpy as npdata[{a:1,b:2},{a:3,c:4},{a:10,b:-2,c:5}]df1pd.DataFrame(data) df1 1.1 highlight_null df.style.highlight_null(color: str red,subset: Subset | None None,props: str | None None, ) 1.1.1 默认情…

【Elasticsearch】RestClient操作文档

目录 5.RestClient操作文档 5.1.新增文档 5.1.1.索引库实体类 5.1.2.语法说明 5.1.3.完整代码 5.2.查询文档 5.2.1.语法说明 5.2.2.完整代码 5.3.删除文档 5.4.修改文档 5.4.1.语法说明 5.4.2.完整代码 5.5.批量导入文档 5.5.1.语法说明 5.5.2.完整代码 5.6.小…

java 整合 Elastic 8.

1. 准备工作 使用docker 快速搭建的环境,官网docker-compose 方式搭建的集群 设置了密码登录 elastic elastic 需要给jdk 导入证书 找到 证书对应目录&#xff0c;复制到桌面。主要导入下面2个证书,执行如下命令 keytool -importcert -alias "修改成你的证书名"…

[数字图像处理]第八章 图像压缩

文章目录 第八章 图像压缩引言8.1 基础知识8.1.1 编码冗余8.1.2 空间冗余和时间冗余8.1.3 不相关的信息8.1.4 图像信息的度量山农第一定理 8.1.5 保真度准则8.1.6 图像压缩模型编码或压缩过程解码或解压缩过程 8.2 一些基本的压缩方法8.2.1 霍夫曼编码8.2.2 Golomb编码8.2.3 算…

开启visual studio,git for windows 疯狂占用内存的解决

1、开启visual studio&#xff0c;git for windows 疯狂占用内存的解决 最近开启visual studio写代码的时候&#xff0c;IDE总是会莫名奇妙的卡住然后闪退&#xff0c;今天打开任务管理器看了下原因&#xff0c;发现是visual studio所占磁盘内存不断疯涨&#xff0c;每秒几十M…

基于单片机语音识别智能家居系统的设计与实现

功能介绍 以STM32单片机作为主控系统&#xff1b;液晶显示当前环境温湿度&#xff0c;用电器开关状态通过语音模块识别设定的语音&#xff1b;DHT11进行环境温湿度采集&#xff1b;通过语音播报模块报当前温湿度&#xff0c;智能回复通过语音识别可以打开灯&#xff0c;窗帘&am…

LangChain大型语言模型(LLM)应用开发(三):QA over Documents

LangChain是一个基于大语言模型&#xff08;如ChatGPT&#xff09;用于构建端到端语言模型应用的 Python 框架。它提供了一套工具、组件和接口&#xff0c;可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互&#x…

Jenkins 创建一个 job , 用于单独执行脚本

目录 1.首先,在Jenkins中创建一个新的job 2.之后&#xff0c;会进入配置页面&#xff0c;在配置页面进行配置。 2.1.找到【Build Steps】在下&#xff0c;拉菜单中选择「シェルの実行」 &#xff08;Shell的运行&#xff09; 2.2.之后&#xff0c;会出现シェルスクリプト …

文本挖掘 day2 文本挖掘的研究趋势:期刊语义网络和主路径分析(2020年)

期刊语义网络和主路径分析 文本挖掘的研究趋势&#xff1a;期刊语义网络和主路径分析&#xff08;2020年&#xff09;1. 简介2. 理论背景2.1 文本挖掘2.2 网络分析2.3. 主路径分析2.4. 文献分析 3. 文本挖掘研究的分析和分类3.1. 分析范围3.2. 文本挖掘研究的学术领域 4. 选定期…