科研学习|论文解读——词汇量及其对主题表示的影响 (IPM, 2017)

news2024/9/23 7:29:34

原文标题

Vocabulary size and its effect on topic representation

摘要

        这项研究调查了如何通过选择性地从被建模的文本语料库的词汇中删除术语来减少主题模型训练的计算开销。我们使用三个数据集,比较了删除单独出现的术语、前0.5%1%5% 最频繁出现的术语以及前 0.5% 最频繁和单独出现的术语的影响,以及建模主题数量的变化(1020304050100) 。对四种结果指标进行了比较。删除单独出现的术语对所有测试的结果几乎没有影响。通过文档空间密度来衡量的文档区分能力,随着频繁出现的术语的移除而降低,但随着主题数量的增加而增加。词汇量对熵的影响不大,但熵​​受主题数量的影响。最后,由成对主题相似度和Jensen-Shannon散度衡量的主题相似度随着频繁项的删除而降低。这些发现对利用主题建模的信息检索和信息计量学中的信息科学研究有影响。

关键词:信息检索;信息计量学;主题建模;潜在狄利克雷分布;词汇量;词频

1.引言

        主题建模是一种应用于文本语料库的机器学习技术,最初开发它是为了减少在信息检索 (IR) 等环境中发现的高维空间中固有的计算开销。主题建模采用计算方法 (例如无监督学习或矩阵分解) 从文本语料库中揭示潜在主题结构,即文档和术语之间的不可观察层。这些主题通常被表示为语义连贯性术语 (概率不同) 的混合体,集中在一些可解释的主题上。该技术已广泛用于信息检索,最近已在信息计量研究中得到应用。与传统的词袋表示相比,经过训练的主题也被认为是语义空间的更简洁的表示,因此可能更有利。在过去的十年中,主题建模的形式已应用于信息计量研究,由于现在可以获得更大的全文数据集,类似的计算开销问题正变得越来越普遍。信息计量研究中使用的一种主题建模形式依赖于LDA

        LDA模型将文档视为主题的混合体,将主题视为术语的混合体。Rosenzvi等人(2010)将原始的LDA模型扩展到包含作者,并提出了作者-主题模型,该模型可直接应用于基于作者的比较的信息度量。最近,Lu等人(2012)提出使用LDA来比较作者的作品之间的相似性。

        尽管主题建模技术(LDA)可以在训练主题之后减少比较实体的计算负担,但训练过程本身可能是耗时和计算密集的LDA算法的复杂度与语料库中的文档数量、主题数量和术语数量成正比。随着越来越大的文本语料库的编制,词汇量可以是巨大的。如果在训练期间可以减少词汇表的大小,而不显著影响主题表示或文档比较的性质,这也可以减少识别主题的计算开销。本研究旨在系统考察词汇量对主题模型结果的影响。本研究探讨了以下研究问题:

        1) 删除频繁和/或非频繁出现的术语对基于文档空间密度区分文本语料库中的文档的能力有什么影响?

        2) 删除频繁和/或非频繁出现的术语如何影响文档中的主题分布,以及使用几种度量标准来衡量训练主题的区别性 (熵、两两主题相似度和Jensen-Shannon散度)?

        三个数据集上进行实验,考察了不同词汇选择策略对主题模型结果的影响。有助于在信息科学研究中更有效地使用主题建模技术,包括使用大型文本语料库的 IR 和信息学研究。

2.文献回顾

2.1 主题建模的发展

        向量空间模型是一种经典的数学模型,它描述了文档和查询间以及文档本身之间的关系。文档和查询在高维空间中表示为向量,其维数由系统索引的词汇数量决定。文档和查询关系由空间内各种计算的距离或基于角度的度量确定。随着IR系统索引的文档数量(n)的增加,与处理文档和查询相关的计算负担也会增加。由于可能有数亿个术语(m)和数百万个文档,处理一个n x m空间所带来的计算挑战变得很明显。

        如果一种降维方法能够降低这种计算开销,而不会对存在于文档和查询之间的可观察关系造成明显的损失,那么这种方法将有利于文档的评估和检索。假设主题之间彼此独立(Deerwester 1990, 潜在语义索引, LSI)\ (Hofmann 1999, 概率LSI)\ (Blei 2003, LDA)主题之间不独立:已经引入了相关主题建模 (主题之间的相关性);已经开发了分层主题建模 (主题之间的分层关系);主题建模还被扩展到多语言环境,以适应处理多语言文本资源的需要。

2.2 主题建模的应用

        基于LDA的主题建模已经在信息科学中涉及自然语言处理的各种情况下变得非常流行,包括信息检索、信息计量和其他应用。

信息检索

        Wei 等人 (2006) 研究了如何使用基于 LDA 的文档模型来改进 ad-hoc 检索;Yi 等人(2009) 发现更复杂的主题模型不一定比 LDA 模型提供额外的 IR 优势。基于 LDA 和其他形式的主题建模也被引入到不同的IR应用中,例如文本分割、文本分类、文本摘要、查询扩展、搜索查询中的模式识别、跨语言信息检索和引文推荐。

信息计量

        主题建模广泛用于信息计量研究,作为基于引用和协作方法的替代或补充,以识别感兴趣实体间关系。与引用和协作不同 (作者或文档间必须存在链接才能识别可衡量的关系),在文档本身(标题、摘要和/或全文)中使用NL可以提供一个指示实体间关系或相似性的密切程度。

其它

        主题建模作为信息计量研究方法学工具的另一种可能用途是将作者身份归属于匿名或有争议的作品。例如,Savoy (2013) 使用 LDA 来识别有争议文本的主题分布,然后能够通过计算文本的主题分布与每个集合的主题分布之间的距离来确定该文本的最可能作者作者的。

2.3 主题建模的计算开销

        这些研究没有涉及的一个领域是与开发和训练主题模型相关的计算开销。减少开销的技术可以解决词汇表大小和主题计算方法的问题。在许多研究中使用了基于频率的术语移除方法(Newman, 2007) (Jiang, 2015) (Yan, 2013) (Chang, 2009) (Wang, 2007) (Ramage, 2010);人们还尝试了其他删除词汇的技术 (Mcauliffe, 2008, tf-idf)

        尽管在许多主题建模研究中已经应用了基于频率的术语删除,但还没有系统的调查来比较基于删除不同数量的术语的模型结果。本研究通过比较使用不同词汇量和几种评估措施的训练模型的结果来解决这一差距。这项研究的结果有助于在未来的研究中更有效地使用主题建模。

3.方法

        进行了实验以检查词汇选择对基于四种评估措施的主题模型结果的影响。方法部分介绍了数据收集、应用的主题建模方法、词汇选择策略以及本研究中使用的评估措施。

3.1 数据收集

3.2 主题模型

Java实现的LDA模型。参数设置:α=50/K (K为主题数)β=0.01,迭代次数为1000αβ的设置是基于Steyvers等人(2007)的建议,他们发现在许多不同的文本集合中都能很好地工作。对于迭代的数量没有特定的指导方针。 (K = 1020304050100),检验K对结果的影响。

3.3 词汇选择策略

        为了了解词汇量对主题表示的影响,使用不同的词汇选择方法为LDA模型选择词汇。具有完整词汇表表示的数据集作为基线 (只删除了停用词列表)。然后,测试了去除单次出现的术语,以及去除最常出现的前0.5%1%5%的术语类型。移除频繁和不频繁的词汇也进行了测试,0.5%最频繁和单独出现的词汇都被移除。使用不同的词汇选择方法对每个结果数据集进行LDA主题训练。然后根据下一节中描述的结果比较度量对主题表示进行比较。

        尽管在IR系统中词汇表大小与文档集大小相关,但是随着附加文档的增加,词汇表大小的增加会逐渐减少。添加的标记越多,添加的新类型就越少,因为它们已经存在于索引中 (希普斯定律, 1978)。频繁出现的术语在频率上继续增加,新术语类型的数量也在增加,但速度是渐进的。如果频繁或不频繁出现的术语在主题开发中没有发挥重要作用,那么应该在主题训练之前删除它们,以减少计算开销。

3.4 结果比较

4.发现

        (x)None (Baseline)Singly OccurringTop 0.5%Top 0.5% & Singly OccurringTop 1%Top 5%; (y):度量值;(z):六个主题总数(10,20,30,40,50,100个主题) 。然后对使用四种结果比较方法的每个组合的结果进行可视化比较。本节介绍了实验的结果 (折线图)

文档空间密度 (DSD): 度量一组文档在高维空间中的密度,越低越好

        使用基于主题的 DSD 删除单个出现的术语不会对基于主题的 DSD 或由此产生的文档判别能力产生太大影响,而删除频繁出现的术语会增加 DSD,这会对检索产生负面影响。

( Entopy ) 文档中的主题分布是否均匀,越大越好

        词汇量在结果熵中并没有发挥很大的作用。去掉Top术语后,熵值略有增加,这表明文档中的主题分布更加均匀。

        主题数量确实在每个数据集的熵结果中发挥了更突出的作用。使用较少的主题所带来的较低的熵值并不令人惊讶。由于主题较少,人们会期望文档更多地关注某些主题。使用不同词汇量训练主题模型对熵的影响不大。

成对主题相似度 (PTS) 衡量训练主题间不同的程度,越低越好 ( 主题越有特色 )

        去除单一出现的词汇后,稍微增加了成对的话题相似度;最值得注意的是,通过删除最常出现的术语,基本上消除了主题数量对成对主题相似度的影响;通过删除存在于大多数文档中并且可能会影响主题独特性的频繁出现的术语,主题越有特色;删除Top 0.5% Singly Occurring会产生与单独删除Top 0.5% 的非常相似的结果。

Jensen-Shannon 散度 ( JS) 两个概率分布差异的对称度量,越大越好

        与其他三个指标相比,主题数量和术语删除之间的交互作用更大;当使用完整的词汇表或删除Singly Occurring时,使用更多的主题时,主题之间的分歧会更大;通过删除最常出现的术语,特别是对于较少的主题,发散值会增加,并且在删除Top 1%Top 5%最常出现的术语时,无论主题的数量如何,发散值都会收敛;除去Top 5%最常出现的术语,较低的主题数量比较高的主题数量导致更大的区别性;去掉Top 0.5%Singly Occurring的结果与去掉Top 0.5%的项目的结果相似。

5.结果与讨论

Ø 无论使用何种测量方法, 都可删除单独出现的术语 ,而基于主题的结果没有明显差异;
Ø 即使将术语转换为主题, 中频术语 仍然在通过主题表示来区分文档方面发挥重要作用;
Ø 主题应该是独特的 ,以帮助区分文档和解释语料库的内容。

        本研究的结果对使用主题建模来表示文本语料库(IRInformmetrics)的研究具有启示意义。主题建模本身通过将处理的维数从数百万项降低到更易于管理的主题数量,最终减少了计算开销。这使得文本语料库的前端处理任务更加高效。然而,主题本身的初始训练在计算上仍然是昂贵的。本研究表明,这种训练开销可以通过减少训练过程中涉及的词汇表的大小来降低,而对主题的表示或结果文档空间的影响很小。信息检索和信息计量学研究都越来越多地使用主题建模的形式来揭示和表示在文献语料库中发现的实体关系,包括文章、作者和期刊。通过战略性地消除对主题发展无关紧要的词汇来减少计算处理开销的能力,将允许研究人员更有效地处理数据。

        本研究揭示了词汇选择与话题建模结果之间的关系,对话题模型理论也有一定的贡献。虽然这四种测量方法提供了词汇量和话题数量变化对话题特殊性和检索性能的影响的证据,但这些都是间接测量方法。类似地,使用三个数据集也不允许我们概括所使用的样本数据集之外的结果,样本数据集主要由英语文档组成。我们无法得出结论,如果将频繁或不频繁的术语移除应用于其他语言的数据集,是否会有相同的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1518412.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Gitee配置SSH登录

一、背景 新入手的电脑,需要对Gitee上存放的项目进行更改上传,发现上传不了需要登录,便采用SSH密钥进行登录,防止远程管理工程中的信息泄露 二、前提 电脑已下载Git Bash工具,在项目下点击鼠标右键,进入…

多线程(线程池)

线程池 池的概念意味着可以复用, 减少创建, 销毁线程的消耗 即事先把需要使用的线程创建好, 放到 “池” 中, 需要的时候从 “池” 里取, 用完再放回 池里取 这样全程只创建和销毁线程一次(之说是一次哦, 没说一次创建和销毁多少个)即可 标准库线程池的使用 public class Main…

【解读】区块链和分布式记账技术标准体系建设指南

大家好,这里是苏泽。一个从业Java后端的区块链技术爱好者。 今天带大家来解读这份三部门印发的行业建设指南《区块链和分布式记账技术标准体系建设指南》 原文件可查看P020240112840724196854.pdf (www.gov.cn) 以下是个人解读,如有纰漏请指正&#xff…

学习Android的第二十八天

目录 Android Service (服务) 线程 Service (服务) Service 相关方法 Android 非绑定 Service startService() 启动 Service 验证 startService() 启动 Service 的调用顺序 Android 绑定 Service bindService() 启动 Service 验证 BindService 启动 Service 的顺序 …

《LeetCode热题100》笔记题解思路技巧优化_Part_3

《LeetCode热题100》笔记&题解&思路&技巧&优化_Part_3 😍😍😍 相知🙌🙌🙌 相识😢😢😢 开始刷题链表🟢1. 相交链表🟢2. 反转链表&…

html5cssjs代码 020 推荐网址

html5&css&js代码 020 推荐网址 一、代码二、解释 这段HTML代码定义了一个网页,它包含了一个标题、一些样式和一个表格。表格中列出了一些推荐的网址,包括序号、名称、网址、描述和备注。每个表格行都包含一个链接到相应网址的超链接。页面的样式…

一种基于宏和serde_json实现的rust web中统一返回类

本人rust萌新,写web碰到了这个,基于ChatGPT和文心一言学了宏,强行把这玩意实现出来了,做个学习记录,如果有更好的方法,勿喷。 先看效果,注意不支持嵌套,且kv映射要用>(因为它这个…

《JAVA与模式》之抽象工厂模式

系列文章目录 文章目录 系列文章目录前言一、使用简单工厂模式的解决方案二、引进抽象工厂模式三、抽象工厂模式结构四、抽象工厂模式的优缺点前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看…

MC78L05ACDR2G线性稳压器芯片中文资料规格书PDF数据手册引脚图参数图片价格

产品概述: MC78L00A系列线性稳压器价格便宜,易于使用,适用于各种需要最高100mA的调节电源的应用。与大功率MC7800和MC78M00系列一样,这款稳压器也提供内部电流限制和高温关断,因此非常坚固耐用。在很多应用中&#xf…

提高工作效率,这 10 款 AI 工具不能错过

作为一个职场打工人,我深知时间和效率的重要性。正是因为如此,我开始使用各种人工智能工具来帮助我提高工作效率。在这篇文章中,我将会分享 10 款必备的 AI 工具,这些工具可以让你的工作更加高效,从而为你节省更多的时…

windows 11访问Debian10上的共享目录

步骤 要在Windows 11上访问Debian 10.0.0的共享目录,可以通过以下步骤来实现: 1. 设置Samba服务:在Debian系统上,需要安装并配置Samba服务,以便能够实现文件夹共享。Samba是一个允许Linux/Unix服务器与Windows操作系…

Windows系统搭建Cloudreve结合内网穿透打造可公网访问的私有云盘

目录 ⛳️推荐 1、前言 2、本地网站搭建 2.1 环境使用 2.2 支持组件选择 2.3 网页安装 2.4 测试和使用 2.5 问题解决 3、本地网页发布 3.1 cpolar云端设置 3.2 cpolar本地设置 4、公网访问测试 5、结语 ⛳️推荐 前些天发现了一个巨牛的人工智能学习网站&#xff…

C#,数值计算,数据测试用的对称正定矩阵(Symmetric Positive Definite Matrix)的随机生成算法与源代码

C.Hermite 1、对称矩阵 对称矩阵(Symmetric Matrices)是指以主对角线为对称轴,各元素对应相等的矩阵。在线性代数中,对称矩阵是一个方形矩阵,其转置矩阵和自身相等。1855年,埃米特(C.Hermite,1822-1901年)证明了别的数学家发现的一些矩阵类的特征根的特殊性质,如称为埃…

AI智能电话机器人的核心技术是什么?

电话机器人是近几年兴起的人工智能产品,它主要通过电话群呼潜在客户,沟通进行信息筛选,帮助企业选择意向客户。企业使用电话机器人可以减少人工成本,提高工作效率。我们一起来看看智能电话机器人的核心技术是什么? 电话…

Tengine编译安装

首先下载源码 可以去官网:The Tengine Web Server 当前最新版地址:https://tengine.taobao.org/download/tengine-3.1.0.tar.gz 安装编译依赖 yum -y install gcc pcre-devel zlib-devel openssl-devel libxml2-devel \libxslt-devel gd-devel GeoIP…

安装linux_centos7虚拟机_开启网络_ssh_防火墙

文章目录 安装linux_centos7虚拟机_开启网络_ssh_防火墙安装centos7虚拟机1. 进入VMware --> 点击文件 --> 新建虚拟机2. 选择典型 --> 选择下一步3. 选择--> 稍后安装操作系统4. 选择--> Linux --> CentOS 7 64位5. 在虚拟机名称输入(虚拟机名) --> 选择…

一条 SQL 更新语句如何执行的

Server 层 存储引擎层 总流程 查询语句 连接器 查询缓存 分析器 优化器 执行器 更新语句 redo log(节省的是随机写磁盘的 IO 消耗(转成顺序写&#x…

windows达梦安装

1.首先准备好windows安装系统,准备工作的做好,然后把素材包dm8_20230418_x86_win_64放进去,进行解压 解压完成之后,把dm8_20230418_x86_win_64再次进行解压,然后点击安装setup进行安装 然后点击接受进行下一步&#xf…

网络安全msf学习1

工具:netcat 用途 :端口连接、数据提交 工具nmap 用途:端口扫描、服务识别、操作系统指纹识别 工具 httprint 用途:通过远程http指纹判断http服务类型 工具: tamper ie 用途: http数据包修改、转发工…

直方图及数据95%置信区间及特征筛选

rm(list ls()) library(Rmisc) library(ggplot2) library(dplyr)data <- iris x<-iris$Sepal.Length #求置信区间方法1## confidence_interval <- t.test(x)$conf.int print(confidence_interval) #[1] 5.709732 5.976934 #attr(,"conf.level") #[1] 0.95#…