文本挖掘之LDA主题模型

作者：郑培

引言

主题模型是文本挖掘的重要工具，近年来在工业界和学术界都获得了非常多的关注。在文本挖掘领域，大量的数据都是非结构化的，很难从信息中直接获取相关和期望的信息，一种文本挖掘的方法：主题模型（Topic Model）能够识别在文档里的主题，并且挖掘语料里隐藏信息，并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。

Latent Dirichlet Allocation（LDA）是其中最具代表性的模型。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，用来推测文档的主题分布。它可以：

发掘语料库中英藏的主题模式；
根据主题对文档进行标注；
利用标注对文档进行组织、整理、归纳和检索。

1. 什么是主题（topic)？

从词汇的角度讲：使一篇文章或几篇文章共同的代表、隐藏语义、共同出现词语的一种模式、共同出现词语的一种据类、一种弱的分类类表；

从概率分布的角度讲：每个主题都是对所有词的一个概率分布；主体对同时出现的词赋予较高的概率；同时出现的次互相之间有某种关联性；

从机器学习的角度来讲，主题模型是将层次贝叶斯网络应用到数据（文档或者图像）的典型应用：每篇文档包含多个主题、隐含变量起到表示文档间主体结构的作用、主题模型基于bag-of-word或者bag-of-feature假设（所以词的顺序是没有意义的）。

2. 为什么是隐藏的（latent）?

贝叶斯网络通过如下几个方面描述变量之间的关系：

连接节点的边和边的指向；
结点的概率分布—先验分布和后验分布。

对于无法准确描述的变量关系通过引入隐含节点来解决。在LDA中，通过隐含节点的后验概率来描述词的共现现象，并且对其赋予较高的概率，用公式可以表述为：
$P\left(y, x_{1}, \ldots, x_{n}\right)=P(y) \prod_{n=1}^{N} P\left(x_{n} | y\right)$

用以下的盒子结构来表示重复结构：

如图，其中结点表示变量，边表示可能的依赖关系。隐含结点为空心，观测结点为实心，盒子表示重复结构。则可以获得LDA模型的整体结构：

3. LDA模型的文档生成过程

在LDA模型中，一篇文档生成的方式如下：

从dirichlet分布 $α$ 中取样生成文档i的主题分布 $θ_i$ ;
从主题的多样是分布 $θ_i$ 中取样生成文档i的第j个词的主题 $Z_{i,j}$ ;
从dirichlet分布 $β$ 中取样生成主题 $Z_i$ ,j对应的此域分布 $Ф_{z_{i,j}}$ ;
从词语的多项式分布 $Ф_{z_{i,j}}$ 中采样最终生成词语 $ω_{i,j}$ .

上面的LDA的处理过程是拆解成一篇文档一篇文档的过程来处理，并不是实际的处理过程。文档中每个词的生成都要抛两次骰子，第一次抛一个doc-topic骰子得到 topic, 第二次抛一个topic-word骰子得到 word，每次生成每篇文档中的一个词的时候这两次抛骰子的动作是紧邻轮换进行的。

如果语料中一共有 N 个词，则上帝一共要抛 2N次骰子，轮换的抛doc-topic骰子和 topic-word骰子。但实际上有一些抛骰子的顺序是可以交换的，我们可以等价的调整2N次抛骰子的次序：前N次只抛doc-topic骰子得到语料中所有词的 topics,然后基于得到的每个词的 topic 编号，后N次只抛topic-word骰子生成 N 个word。此时，可以得到：
$\begin{array}{l}p(\vec{w}, \vec{z} | \vec{\alpha}, \vec{\beta})=p(\vec{w} | \vec{z}, \vec{\beta}) p(\vec{z} | \vec{\alpha}) \\ =\prod_{k=1}^{K} \frac{\Delta\left(\vec{\phi}_{K}+\vec{\beta}\right)}{\Delta(\vec{\beta})} \prod_{m=1}^{M} \frac{\Delta\left(\vec{\theta}_{m}+\vec{\alpha}\right)}{\vec{\alpha}}\end{array}$

4. LDA模型的训练

根据上一小节中的联合概率分布 $p(\vec{\omega}, \vec{z})$ , 我们可以使用Gibbs Sampling对其进行采样。我们得到LDA 模型的 Gibbs Sampling 公式为：
$p\left(z_{i}=k | \overrightarrow{\mathbf{z}}_{\neg i}, \overrightarrow{\mathbf{w}}\right) \propto \frac{n_{m, \neg i}^{(k)}+\alpha_{k}}{\sum_{k=1}^{K}\left(n_{m, \neg i}^{(k)}+\alpha_{k}\right)} \cdot \frac{n_{k, \neg i}^{(t)}+\beta_{t}}{\sum_{t=1}^{V}\left(n_{k, \neg i}^{(t)}+\beta_{t}\right)}$

根据公式，我们的目标有两个：

估计模型中的参数 $\vec{\varphi}_{1}, \cdots, \vec{\varphi}_{K}$ 和 $\theta_{1}, \cdots, \theta_{M}$ ；
对于新来的一篇文档，我们能够计算这篇文档的 topic 分布 $\vec{\theta}$ 。

训练的过程：

对语料库中的每篇文档中的每个词汇 $\omega$ ，随机的赋予一个topic编号z；
重新扫描语料库，对每个词 $\omega$ ，使用Gibbs Sampling公式对其采样，求出它的topic，在语料中更新；
重复步骤2，直到Gibbs Sampling收敛；
统计语料库的topic-word共现频率矩阵，该矩阵就是LDA的模型；

根据这个topic-word频率矩阵，我们可以计算每一个p(word|topic)概率，从而算出模型参数 $\vec{\varphi}_{1}, \cdots, \vec{\varphi}_{K}$ , 这就是那 K 个 topic-word 骰子。而语料库中的文档对应的骰子参数 $\theta_{1}, \cdots, \theta_{M}$ 在以上训练过程中也是可以计算出来的，只要在 Gibbs Sampling 收敛之后，统计每篇文档中的 topic 的频率分布，我们就可以计算每一个 $p (t o p i c ∣ d oc)$ 概率，于是就可以计算出每一个 $\theta_{m}$ 。

由于参数 $\theta_{m}$ 是和训练语料中的每篇文档相关的，对于我们理解新的文档并无用处，所以工程上最终存储 LDA 模型时候一般没有必要保留。通常，在 LDA 模型训练的过程中，我们是取 Gibbs Sampling 收敛之后的 n 个迭代的结果进行平均来做参数估计，这样模型质量更高。

有了 LDA 的模型，对于新来的文档 doc, 我们只要认为 Gibbs Sampling 公式中的 $\vec{\varphi}_{k t}$ 部分是稳定不变的，是由训练语料得到的模型提供的，所以采样过程中我们只要估计该文档的 topic 分布 $\theta$ 就好了. 具体算法如下：
1. 对当前文档中的每个单词 $\omega$ , 随机初始化一个topic编号z;
2. 使用Gibbs Sampling公式，对每个词 $\omega$ , 重新采样其topic；
3. 重复以上过程，知道Gibbs Sampling收敛；
4. 统计文档中的topic分布，该分布就是 $\vec{\theta}$ 。