《学术小白学习之路》DTM主题动态模型构建
- 一、LDA与DTM的区别
- 二、代码实操
-
- 2.1 数据
- 2.2 获取数据向量
- 2.3 参数设置与模型构建
- 2.4 结果的输出
一、LDA与DTM的区别
LDA主题模型主要针对一段段的文档
可以得出每个主题,所对应主题词的词语的概率
该模型的主题概率的生成是基于文档层面的
而BTM是为分析短文本而生,该模型的生成是基于整个的语料库生成词语概率
没有文档的层级,所以不能像LDA一样获取对于文档层面所对应的概念矩阵。
而上述的模型,都未考虑到主题随着时间的变化模型:因此DTM就应运而生。
DTM是基于不同时刻生成的主题模型
t-1和t时刻都有对应的主题模型,下一个阶段的模型的参数aβ都与上一时刻有关系
下一个时刻的主题,是根据上一个时刻的主题平滑的演化而来
作者在论文中提及,狄利克雷分布不适合时序模型,所改常用高斯噪声 演化的状态空间模型来获取生成的β
以及同样的,在动态拓扑模型中,使用了其他模型获取α
可以基于DTM的分析结果,生成主题的热力图
或者生成主题河流图(桑基图)