【技术博客】文本挖掘之LDA主题模型

news2024/9/25 15:26:49

文本挖掘之LDA主题模型

作者:郑培

引言

主题模型是文本挖掘的重要工具,近年来在工业界和学术界都获得了非常多的关注。在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model)能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。

Latent Dirichlet Allocation(LDA)是其中最具代表性的模型。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以:

  • 发掘语料库中英藏的主题模式;
  • 根据主题对文档进行标注;
  • 利用标注对文档进行组织、整理、归纳和检索。

1. 什么是主题(topic)?

从词汇的角度讲:使一篇文章或几篇文章共同的代表、隐藏语义、共同出现词语的一种模式、共同出现词语的一种据类、一种弱的分类类表;

从概率分布的角度讲:每个主题都是对所有词的一个概率分布;主体对同时出现的词赋予较高的概率;同时出现的次互相之间有某种关联性;

从机器学习的角度来讲,主题模型是将层次贝叶斯网络应用到数据(文档或者图像)的典型应用:每篇文档包含多个主题、隐含变量起到表示文档间主体结构的作用、主题模型基于bag-of-word或者bag-of-feature假设(所以词的顺序是没有意义的)。

2. 为什么是隐藏的(latent)?

贝叶斯网络通过如下几个方面描述变量之间的关系:

  1. 连接节点的边和边的指向;
  2. 结点的概率分布—先验分布和后验分布。

对于无法准确描述的变量关系通过引入隐含节点来解决。在LDA中,通过隐含节点的后验概率来描述词的共现现象,并且对其赋予较高的概率,用公式可以表述为:
P ( y , x 1 , … , x n ) = P ( y ) ∏ n = 1 N P ( x n ∣ y ) P\left(y, x_{1}, \ldots, x_{n}\right)=P(y) \prod_{n=1}^{N} P\left(x_{n} | y\right) P(y,x1,,xn)=P(y)n=1NP(xny)

用以下的盒子结构来表示重复结构:

如图,其中结点表示变量,边表示可能的依赖关系。隐含结点为空心,观测结点为实心,盒子表示重复结构。则可以获得LDA模型的整体结构:

3. LDA模型的文档生成过程

在LDA模型中,一篇文档生成的方式如下:

  1. 从dirichlet分布 α α α中取样生成文档i的主题分布 θ i θ_i θi;
  2. 从主题的多样是分布 θ i θ_i θi中取样生成文档i的第j个词的主题 Z i , j Z_{i,j} Zi,j;
  3. 从dirichlet分布 β β β中取样生成主题 Z i Z_i Zi,j对应的此域分布 Ф z i , j Ф_{z_{i,j}} Фzi,j;
  4. 从词语的多项式分布 Ф z i , j Ф_{z_{i,j}} Фzi,j中采样最终生成词语 ω i , j ω_{i,j} ωi,j.

上面的LDA的处理过程是拆解成一篇文档一篇文档的过程来处理,并不是实际的处理过程。文档中每个词的生成都要抛两次骰子,第一次抛一个doc-topic骰子得到 topic, 第二次抛一个topic-word骰子得到 word,每次生成每篇文档中的一个词的时候这两次抛骰子的动作是紧邻轮换进行的。

如果语料中一共有 N 个词,则上帝一共要抛 2N次骰子,轮换的抛doc-topic骰子和 topic-word骰子。但实际上有一些抛骰子的顺序是可以交换的,我们可以等价的调整2N次抛骰子的次序:前N次只抛doc-topic骰子得到语料中所有词的 topics,然后基于得到的每个词的 topic 编号,后N次只抛topic-word骰子生成 N 个word。此时,可以得到:
p ( w ⃗ , z ⃗ ∣ α ⃗ , β ⃗ ) = p ( w ⃗ ∣ z ⃗ , β ⃗ ) p ( z ⃗ ∣ α ⃗ ) = ∏ k = 1 K Δ ( ϕ ⃗ K + β ⃗ ) Δ ( β ⃗ ) ∏ m = 1 M Δ ( θ ⃗ m + α ⃗ ) α ⃗ \begin{array}{l}p(\vec{w}, \vec{z} | \vec{\alpha}, \vec{\beta})=p(\vec{w} | \vec{z}, \vec{\beta}) p(\vec{z} | \vec{\alpha}) \\ =\prod_{k=1}^{K} \frac{\Delta\left(\vec{\phi}_{K}+\vec{\beta}\right)}{\Delta(\vec{\beta})} \prod_{m=1}^{M} \frac{\Delta\left(\vec{\theta}_{m}+\vec{\alpha}\right)}{\vec{\alpha}}\end{array} p(w ,z α ,β )=p(w z ,β )p(z α )=k=1KΔ(β )Δ(ϕ K+β )m=1Mα Δ(θ m+α )

4. LDA模型的训练

根据上一小节中的联合概率分布 p ( ω ⃗ , z ⃗ ) p(\vec{\omega}, \vec{z}) p(ω ,z ), 我们可以使用Gibbs Sampling对其进行采样。我们得到LDA 模型的 Gibbs Sampling 公式为:
p ( z i = k ∣ z → ¬ i , w → ) ∝ n m , ¬ i ( k ) + α k ∑ k = 1 K ( n m , ¬ i ( k ) + α k ) ⋅ n k , ¬ i ( t ) + β t ∑ t = 1 V ( n k , ¬ i ( t ) + β t ) p\left(z_{i}=k | \overrightarrow{\mathbf{z}}_{\neg i}, \overrightarrow{\mathbf{w}}\right) \propto \frac{n_{m, \neg i}^{(k)}+\alpha_{k}}{\sum_{k=1}^{K}\left(n_{m, \neg i}^{(k)}+\alpha_{k}\right)} \cdot \frac{n_{k, \neg i}^{(t)}+\beta_{t}}{\sum_{t=1}^{V}\left(n_{k, \neg i}^{(t)}+\beta_{t}\right)} p(zi=kz ¬i,w )k=1K(nm,¬i(k)+αk)nm,¬i(k)+αkt=1V(nk,¬i(t)+βt)nk,¬i(t)+βt

根据公式,我们的目标有两个:

  • 估计模型中的参数 φ ⃗ 1 , ⋯   , φ ⃗ K \vec{\varphi}_{1}, \cdots, \vec{\varphi}_{K} φ 1,,φ K θ 1 , ⋯   , θ M \theta_{1}, \cdots, \theta_{M} θ1,,θM
  • 对于新来的一篇文档,我们能够计算这篇文档的 topic 分布 θ ⃗ \vec{\theta} θ

训练的过程:

  1. 对语料库中的每篇文档中的每个词汇 ω \omega ω ,随机的赋予一个topic编号z;
  2. 重新扫描语料库,对每个词 ω \omega ω ,使用Gibbs Sampling公式对其采样,求出它的topic,在语料中更新;
  3. 重复步骤2,直到Gibbs Sampling收敛;
  4. 统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型;

根据这个topic-word频率矩阵,我们可以计算每一个p(word|topic)概率,从而算出模型参数 φ ⃗ 1 , ⋯   , φ ⃗ K \vec{\varphi}_{1}, \cdots, \vec{\varphi}_{K} φ 1,,φ K , 这就是那 K 个 topic-word 骰子。而语料库中的文档对应的骰子参数 θ 1 , ⋯   , θ M \theta_{1}, \cdots, \theta_{M} θ1,,θM 在以上训练过程中也是可以计算出来的,只要在 Gibbs Sampling 收敛之后,统计每篇文档中的 topic 的频率分布,我们就可以计算每一个 p ( t o p i c ∣ d o c ) p(topic|doc) p(topicdoc) 概率,于是就可以计算出每一个 θ m \theta_{m} θm

由于参数 θ m \theta_{m} θm 是和训练语料中的每篇文档相关的,对于我们理解新的文档并无用处,所以工程上最终存储 LDA 模型时候一般没有必要保留。通常,在 LDA 模型训练的过程中,我们是取 Gibbs Sampling 收敛之后的 n 个迭代的结果进行平均来做参数估计,这样模型质量更高。

有了 LDA 的模型,对于新来的文档 doc, 我们只要认为 Gibbs Sampling 公式中的 φ ⃗ k t \vec{\varphi}_{k t} φ kt 部分是稳定不变的,是由训练语料得到的模型提供的,所以采样过程中我们只要估计该文档的 topic 分布 θ \theta θ 就好了. 具体算法如下:
1. 对当前文档中的每个单词 ω \omega ω , 随机初始化一个topic编号z;
2. 使用Gibbs Sampling公式,对每个词 ω \omega ω , 重新采样其topic;
3. 重复以上过程,知道Gibbs Sampling收敛;
4. 统计文档中的topic分布,该分布就是 θ ⃗ \vec{\theta} θ

5. 项目实现

项目源码地址:https://momodel.cn/workspace/5e5e4746b3338581db1dcba9?type=app

6. 参考文献

[1] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.
[2] LDA 数学八卦Rickjin.

##关于我们
Mo(网址:https://momodel.cn) 是一个支持 Python的人工智能在线建模平台,能帮助你快速开发、训练并部署模型。

Mo人工智能俱乐部 是由 Mo 的研发与产品团队发起、致力于降低人工智能开发与使用门槛的俱乐部。团队具备大数据处理分析、可视化与数据建模经验,已承担多领域智能项目,具备从底层到前端的全线设计开发能力。主要研究方向为大数据管理分析与人工智能技术,并以此来促进数据驱动的科学研究。

近期 Mo 也在持续进行机器学习相关的入门课程和论文分享活动,欢迎大家关注我们的公众号:MomodelAI获取最新资讯!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/130004.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ArcGIS基础实验操作100例--实验23提取栅格有效边界值

本实验专栏来自于汤国安教授《地理信息系统基础实验操作100例》一书 实验平台:ArcGIS 10.6 实验数据:请访问实验1(传送门) 基础编辑篇--实验23 提取栅格有效边界值 目录 一、实验背景 二、实验数据 三、实验步骤 (…

sqlserver 求平均数,中位数,众数

sqlserver 求平均数,中位数,众数 sqlserver 聚合函数结合 窗口函数的巧妙使用。 SELECT -- *, t1.remark, t1.my_count, t1.my_sum, t1.my_avg, t1.my_min, t1.my_max, /*my_median : 中位数*/ t2.my_median, /*my_mos…

保姆教程系列二、Redis高可用(主从同步+哨兵模式)

系列文章目录 !!!是的没错,胖友们,保姆教程系列又更新了!!! 保姆教程系列一、Redis部署 so easy 保姆教程系列二、Redis高可用(主从同步哨兵模式) 保姆教程系…

2008-2020年上市公司环境治理费用

2008-2020年上市公司环境治理费用 1、时间区间为:2008-2020年 2、指标包括:统计截止日期、证券代码、证券简称、本期金额、上期金额、上市公司排污费、环保费、绿化费、环保支出等有关环境治理费用 3、指标说明: EndDate [统计截止日期] …

ArcGIS基础实验操作100例--实验22NoData数据处理

本实验专栏来自于汤国安教授《地理信息系统基础实验操作100例》一书 实验平台:ArcGIS 10.6 实验数据:请访问实验1(传送门) 基础编辑篇--实验22 NoData数据处理 目录 一、实验背景 二、实验数据 三、实验步骤 方法一&#xff1…

Linux网络协议之以太网协议(数据链路层)

Linux网络协议之以太网协议(数据链路层) 文章目录Linux网络协议之以太网协议(数据链路层)1.数据链路层解决的问题2.以太网协议2.1 认识以太网2.2 以太网帧格式2.3 认识MAC地址2.4 MAC地址与IP地址的区别3.ARP协议3.1 ARP协议的作用3.2 ARP数据报格式3.3 ARP协议工作流程3.4 ARP…

数据结构——基本术语

数据 数据能输入且被被计算机处理的符号集合。数据包括数值型数据和非数值型数据。非数值类型包括图,文字等 数据项和数据元素 数据元素时数据的基本单位,在计算机中通常被当作一个整体处理 也简称为元素,或者记录 数据元素又可以被若干个…

LaTeX环境的安装和配置 (vscode版)

目录下载Latex镜像文件安装镜像检验是否安装成功第一个Latex文件在vscode中使用latex支持中文编译引用下载Latex镜像文件 访问清华镜像网站,进行latex2022的下载 网站地址如下:latex_清华镜像 选择后缀名为.iso的文件进行下载即可 安装镜像 下载完成之…

CloudCanal对Online DDL 工具 GH-OST 和 PT-OSC 的支持

简介 CloudCanal 实现了对 Online DDL 工具如 GH-OST 和 PT-OSC 的支持,保证了对端实时同步源端的 Online DDL 操作。 本文以 MySQL -> MySQL 同步链路使用 GH-OST 为例,介绍 CloudCanal 是如何支持实时同步 GH-OST 产生的 DDL 的。 Online DDL 技…

CentOS7版本中mysql卸载和安装步骤问题汇总记录--2020-12-29

目录一、如何卸载1.1 查询系统是否安装了MySQL1.2 关闭MySQL服务1.3 删除MySQL安装的服务1.4 删除MySQL相关的文件夹二、如何安装2.1 下载MySQL5.7安装包2.2 安装MySQL2.3 配置MySQL2.3.1 初始化数据库2.3.2 配置开机自启2.3.3 启动MySQL服务2.3.4 登录MySQL进行初始化参考文献…

【开源项目】消息队列XXL-MQ源码解析

消息队列XXL-MQ源码解析 项目介绍 XXL-MQ是一款轻量级分布式消息队列,拥有 “水平扩展、高可用、海量数据堆积、单机TPS过10万、毫秒级投递” 等特性, 支持 “并发消息、串行消息、广播消息、延迟消息、事务消费、失败重试、超时控制” 等消息特性。现已开放源代码…

专栏目录总览

文章目录摘要1. Backbone2. Neck3. Bottleneck4. Head5.GAP或者avgpool:6.Embedding摘要 梳理了一些长见的名词,方便大家够好的理解论文和Ai方向的文章。 1. Backbone 骨干网络或者说是主干网络,指的是提取特征的网络,其作用就…

Bean 作用域,Bean生命周期,Bean执行原理

Spring 是⽤来读取和存储 Bean,因此在 Spring 中 Bean 是最核⼼的操作资源,所以接下来我们深⼊学习⼀下 Bean 对象. 1.通过⼀个案例来看 Bean 作⽤域的问题 假设现在有⼀个公共的 Bean,提供给 A ⽤户和 B ⽤户使⽤,然⽽在使⽤的…

线程池的原理和使用

ThreadPoolExecutor 为什么用线程池 线程池做的主要工作就是控制运行的线程的数量,处理过程中,将任务放入到队列中,然后线程创建后,启动这些任务,如果线程数量超过了最大数量的线程排队等候,等其它线程执…

7.移动端笔记-less基础

1.css的弊端 CSS需要书写大量的看似没有逻辑的代码,冗余度高不方便维护,不利于复用没有很好的计算能力 2.Less介绍 简单说:Less是CSS预处理语言,扩展了CSS的动态性 CSS的扩展语言,也成为CSS的预处理器。在CSS基础上…

论文精读:Centernet:Objects as Points

论文地址:https://arxiv.org/pdf/1904.07850.pdf 代码地址:https://github. com/xingyizhou/CenterNet. Abstract 基于anchor的目标检测算法通常会列举大量可能存在对象位置的列表,这是浪费的、低效的。作者采用了一种不同的方法。将一个对象建模为单个点——其边…

魔术小游戏

魔术游戏一、问题描述二、基本流程三、具体步骤1.在集合中随机生成起始牌2.菜单栏3.找到包含[选中牌]的一组牌在大集合中的索引4.洗牌5.发牌四、完整代码五、效果展示一、问题描述 这是一个魔术游戏,将15张牌分为三组,每组5张,让玩家从中任选…

填鸭表单|2022年度总结功能发布

自从我们在2020年发布了开源版本以来,我们结识了许多社区伙伴。在和这些社区伙伴的接触中,我们深刻地感受到了“做产品的感觉,令人振奋且充满激情”。 我们认为,专注于做一件事情,持续深耕,时间自然会给出…

C#语言实例源码系列-实现对文件进行加密保护

专栏分享点击跳转>Unity3D特效百例点击跳转>案例项目实战源码点击跳转>游戏脚本-辅助自动化点击跳转>Android控件全解手册 👉关于作者 众所周知,人生是一个漫长的流程,不断克服困难,不断反思前进的过程。在这个过程中…

jmeter压测使用实践

环境搭建篇见https://blog.csdn.net/weixin_42498050/article/details/12847945 参考Jmter压测使用实践 jmeter压测实战总结 搭建 Apache Jmeter 分布式压测与监控 Jmeter常用断言 1. 添加线程组 测试计划 (右键->添加->Threads(Users&#x…