AI目录:sheng的学习笔记-AI目录-CSDN博客
基础知识
什么是话题模型(topic model)
话题模型(topic model)是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用。
隐狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)是话题模型的典型代表。
使用场景
Topic Model是一种自然语言处理技术,它可以从大量的文本中发现潜在的主题。这种模型的应用范围非常广泛,特别是在新闻推荐和商品分析领域。通过主题模型,可以对语料库中的每篇新闻进行主题分析,根据浏览者的已看新闻推荐同主题的新闻,或者分析商品的评论,挖掘购买者对商品不同维度的意见和评价。此外,主题模型还在社交倾听和文本挖掘方面发挥着重要作用,帮助分析大量文本数据,提取关键信息和主题,为决策提供支持。
具体来说,主题模型的应用场景包括:
- 新闻推荐:通过对语料库中的每篇新闻进行主题分析,可以根据用户的阅读历史推荐相同或相似主题的新闻。
- 商品分析:分析商品的评论和反馈,挖掘消费者对商品不同维度的评价和意见,帮助企业了解市场需求和改进方向。
- 社交倾听:通过分析社交媒体上的大量文本数据,发现公众对特定话题或事件的看法和态度,为企业或个人提供市场趋势和公众情绪的洞察。
- 文本挖掘:在大量的文档中提取有用的信息,如关键词、主题等,用于进一步的数据分析和知识发现。
综上所述,AI Topic Model通过从文本中发现潜在的主题,为新闻推荐、商品分析、社交倾听和文本挖掘等领域提供了强大的支持,帮助企业和个人更好地理解和利用大量的文本数据
基础概念
词(word)、文档(document)和话题(topic)。
- “词”是待处理数据的基本离散单元,例如在文本处理任务中,一个词就是一个英文单词或有独立意义的中文词。
- “文档”是待处理的数据对象,它由一组词组成,这些词在文档中是不计顺序的,例如一篇论文、一个网页都可看作一个文档;这样的表示方式称为“词袋”(bag-of-words)。数据对象只要能用词袋描述,就可使用话题模型。
- “话题”表示一个概念,具体表示为一系列相关的词,以及它们在该概念下出现的概率。
Unigram Model
流程
文档生成算法
pLSA Model
基础知识
1)Unigram Model
模型过于简单。事实上人们写一篇文章往往需要先确定要写哪几个主题。
如:写一篇计算机方面的文章,最容易想到的词汇是:内存、CPU、编程、算法等等。之所以能马上想到这些词,是因为这些词在对应的主题下出现的概率相对较高。
因此可以很自然的想到:一篇文章由多个主题构成,而每个主题大概可以用与该主题相关的频率最高的一些词来描述。
2)主题 topic
:表示一个概念。具体表示为一系列相关的词,以及它们在该概念下出现的概率。
- 与某个主题相关性比较强的词,在该主题下出现概率较高
- 与某个主题相关性比较弱的词,在该主题下出现概率较低
文档生成算法
模型原理
参数求解
pLSA
模型由两种参数求解方法:矩阵分解、EM
算法。
矩阵分解
EM 算法
EM算法步骤
LDA Model
基础知识
因此 LDA
模型是pLSA
模型的贝叶斯版本。
文档生成算法
模型原理
主题生成过程
单词生成过程
联合概率
后验概率
模型求解
LDA
的求解有两种办法:变分推断法、吉布斯采样法。
吉布斯采样
模型训练
参考文章
18.主题模型 - 一、Unigram Model - 《AI算法工程师手册》 - 书栈网 · BookStack
18.主题模型 - 二、pLSA Model - 《AI算法工程师手册》 - 书栈网 · BookStack
18.主题模型 - 三、LDA Model - 《AI算法工程师手册》 - 书栈网 · BookStack
机器学习 书