sheng的学习笔记-AI-话题模型(topic model),LDA模型,Unigram Model,pLSA Model

news2024/12/23 5:39:07

AI目录:sheng的学习笔记-AI目录-CSDN博客

基础知识

什么是话题模型(topic model)

话题模型(topic model)是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合)​,在信息检索、自然语言处理等领域有广泛应用。

隐狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)是话题模型的典型代表。

使用场景

Topic Model是一种自然语言处理技术,它可以从大量的文本中发现潜在的主题。这种模型的应用范围非常广泛,特别是在新闻推荐和商品分析领域。通过主题模型,可以对语料库中的每篇新闻进行主题分析,根据浏览者的已看新闻推荐同主题的新闻,或者分析商品的评论,挖掘购买者对商品不同维度的意见和评价。此外,主题模型还在社交倾听和文本挖掘方面发挥着重要作用,帮助分析大量文本数据,提取关键信息和主题,为决策提供支持。

具体来说,主题模型的应用场景包括:

  1. 新闻推荐‌:通过对语料库中的每篇新闻进行主题分析,可以根据用户的阅读历史推荐相同或相似主题的新闻。
  2. 商品分析‌:分析商品的评论和反馈,挖掘消费者对商品不同维度的评价和意见,帮助企业了解市场需求和改进方向。
  3. 社交倾听‌:通过分析社交媒体上的大量文本数据,发现公众对特定话题或事件的看法和态度,为企业或个人提供市场趋势和公众情绪的洞察。
  4. 文本挖掘‌:在大量的文档中提取有用的信息,如关键词、主题等,用于进一步的数据分析和知识发现。

综上所述,AI Topic Model通过从文本中发现潜在的主题,为新闻推荐、商品分析、社交倾听和文本挖掘等领域提供了强大的支持,帮助企业和个人更好地理解和利用大量的文本数据‌

基础概念

词(word)、文档(document)和话题(topic)。

  • ​“词”是待处理数据的基本离散单元,例如在文本处理任务中,一个词就是一个英文单词或有独立意义的中文词。
  • ​“文档”是待处理的数据对象,它由一组词组成,这些词在文档中是不计顺序的,例如一篇论文、一个网页都可看作一个文档;这样的表示方式称为“词袋”(bag-of-words)。数据对象只要能用词袋描述,就可使用话题模型。​
  • “话题”表示一个概念,具体表示为一系列相关的词,以及它们在该概念下出现的概率。

Unigram Model

流程

文档生成算法

pLSA Model

基础知识

1)Unigram Model模型过于简单。事实上人们写一篇文章往往需要先确定要写哪几个主题。

如:写一篇计算机方面的文章,最容易想到的词汇是:内存、CPU、编程、算法等等。之所以能马上想到这些词,是因为这些词在对应的主题下出现的概率相对较高。

因此可以很自然的想到:一篇文章由多个主题构成,而每个主题大概可以用与该主题相关的频率最高的一些词来描述。

2)主题 topic:表示一个概念。具体表示为一系列相关的词,以及它们在该概念下出现的概率。

  • 与某个主题相关性比较强的词,在该主题下出现概率较高
  • 与某个主题相关性比较弱的词,在该主题下出现概率较低

文档生成算法

模型原理

 参数求解

pLSA 模型由两种参数求解方法:矩阵分解、EM 算法。

矩阵分解

EM 算法

 

EM算法步骤

LDA Model

基础知识

因此 LDA 模型是pLSA 模型的贝叶斯版本。 

 文档生成算法

模型原理

主题生成过程

单词生成过程

联合概率

后验概率

模型求解

LDA的求解有两种办法:变分推断法、吉布斯采样法。

吉布斯采样

模型训练

参考文章

18.主题模型 - 一、Unigram Model - 《AI算法工程师手册》 - 书栈网 · BookStack

18.主题模型 - 二、pLSA Model - 《AI算法工程师手册》 - 书栈网 · BookStack

18.主题模型 - 三、LDA Model - 《AI算法工程师手册》 - 书栈网 · BookStack

机器学习 书 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2127942.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【赵渝强老师】大数据主从架构的单点故障

大数据体系架构中的核心组件都是主从架构,即:存在一个主节点和多个从节点,从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。   视频讲解如下: 大数据主从架构的单点故障 【赵渝强老师】大数据主从架构的…

【大模型专栏—入门篇】科研论文疑惑汇总

大模型专栏介绍 😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本文为大模型专栏子篇,大模型专栏将持续更新,主要讲解大模型从入门到实战打怪升级。如有兴趣,欢迎您的阅读。 &#x1f4…

【多线程】手把手带你学习定时器那些事

💐个人主页:初晴~ 📚相关专栏:多线程 / javaEE初阶 在软件开发中,有一些代码逻辑并不需要立马就被执行,可能需要等一段时间在执行。就好像我们会用闹钟来提醒我们过一段时间后要做某事一样,代码…

裸土检测算法、裸土检测算法样本标注,裸土覆盖检测算法

裸土检测算法主要用于环境保护、土地管理和农业等领域,通过图像识别技术来检测地表上的裸露土壤区域。这种技术对于土地退化监测、水土流失预防、农田管理等方面有着重要意义。以下是关于裸土检测算法的技术实现、应用场景及优势的详细介绍。 应用场景 裸土检测算法…

kafka原理剖析及实战演练

一、消息系统概述 一)消息系统按消息发送模型分类 1、peer-to-peer(单播) 特点: 一般基于pull或polling接收消息发送对队列中的消息被一个而且仅仅一个接收者所接收,即使有多个接收者在同一队列中侦听同一消息即支持异…

JVM - GC垃圾回收

文章目录 目录 文章目录 1. 自动垃圾回收 1.1 垃圾回收区域 2. 方法区回收 3. 堆回收 3.1 对象已死? 3.1.1 引用计数算法 3.1.2 可达性分析算法 3.1.3 再谈引用 强引用 软引用 弱引用 虚引用 3.2 垃圾收集算法 3.2.1 分代收集理论 3.2.2 垃圾回收算…

Android U 多任务启动分屏——Launcher流程(下分屏 更新中)

前文 Android U 多任务启动分屏——Launcher流程(上分屏) 最近任务onClick事件的监听 在最近任务中每个任务都是一个TaskView,对TaskView操作,就是每个任务的操作。 代码路径:packages/apps/Launcher3/quickstep/…

安装Anaconda(过程)

Anaconda是一个开源的Python发行版本,用来管理Python相关的包,安装Anaconda可以很方便的切换不同的环境,使用不同的深度学习框架开发项目,本文将详细介绍Anaconda的安装。 一、安装 1、安装方式 官网:“https://www.…

C#环境搭建和入门教程--vs2022之下

目录 1.环境搭建 2.先让程序跑起来 3.C#代码结构 4.变量,输入输出介绍 5.内容输入和类型转换 1.环境搭建 我们的这个c#基础学习主要就是在这个vs2022上面进行的,我们的这个c/c使用的都是这个平台 我们首先检查一下我们的这个环境是不是完全的配置了…

什么是API网关(API Gateway)?

1. 什么是API网关(API Gateway)? 在微服务体系结构中,客户端可能与多个前端服务进行交互。 API 网关位于客户端与服务之间。 它充当反向代理,将来自客户端的请求路由到服务。 它还可以执行各种横切任务,例…

技术美术一百问(01)

———————————————————问题篇———————————————————— 基础: 解释BRDF? 什么是Lightmap? 游戏里的各种液体怎么实现? 渲染流水线中,屏幕中的一个像素是怎么绘制出来的&#xff…

【推荐100个unity插件之33】比 Unity 自带协程更高效的异步处理方式,提供一个高性能和0GC的async/await异步方案——UniTask插件

文章目录 前言github地址GC(Garbage Collection,垃圾回收)GC 的影响 UniTask优缺点使用案例案例完结 前言 UniTask 是一个轻量级的异步编程库,专门为 Unity 设计,旨在提供比 Unity 自带协程更高效的异步处理方式。它是…

(11)(2.1.1) PWM、OneShot和OneShot125 ESC(一)

文章目录 前言 1 PWM 2 OneShot 3 参数说明 前言 大多数 ArduPilot 飞行器使用由无刷电机 ESC 控制的无刷电机。这些 ESC 使用的最常见协议是PWM、OneShot、OneShot125 和 DShot。本页介绍前三种(PWM、OneShot 和OneShot125)。 !Warning…

中间件安全(一)

本文仅作为学习参考使用,本文作者对任何使用本文进行渗透攻击破坏不负任何责任。 一,中间件。 1,什么是中间件。 是一类能够为一种或多种应用程序合作互通、资源共享,同时还能够为该应用程序提供相关的服务的软件。中间件是一类…

哈尔滨的珍同学

写在前面 10225 字 | 朋友 | 旅行 | 友谊 | 情感 | 感触 | 思考 | 消极内容 全文篇幅过于庞大,请慎重考虑是否阅读。 与佳芯小姐的短文,将另行发布。 TL;DR 我不知道我和珍的关系还能维持多久。 按理来说,与朋友见面应当是一件开心的事情。这…

Linux系统连接蓝牙、WiFi方法分享,适用瑞芯微RK3562、RK3568、RK3588等开发板

本文适用于瑞芯微RK3562、RK3568、RK3588等各类开发板。本教程使用到的是深圳触觉智能开发的RK3562开发板,型号EVB3562,RK3562采用四核Cortex-A53 CPU,频率可达2.0GHz;最大支持 8GB 内存;内置独立的 NPU,可用于轻量级人…

卷轴模式系统源码开发:探索游戏世界——游戏模式的设计

在电子游戏的发展历程中,卷轴模式(Scrolling Mode)作为一种经典且广泛应用的游戏界面呈现方式,为玩家提供了沉浸式的探索体验。从早期的《超级马里奥兄弟renxb001》到现代的《塞尔达传说》系列,卷轴模式不仅定义了众多…

PPT中的图形与图片:插入、调整与格式设置技术详解

目录 引言 一、图形与图片的插入 1. 插入图形 2. 插入图片 二、图形与图片的调整 1. 调整大小与位置 2. 裁剪与旋转 3. 图形与图片的合并与组合 三、图片格式与布局设置 1. 图片格式设置 2. 图片布局设置 示例案例:制作产品展示PPT 四、结论 引言 在现…

Python中如何将图片资源打包进exe文件

目录 一、安装PyInstaller 二、准备图片资源 三、修改图片资源的引用方式 1. 使用Base64编码 2. 修改资源路径的引用 1. 打包命令 2. 打包后的文件 3. 运行exe文件 五、案例与测试 六、总结 在Python开发中,经常需要将图片等资源文件与Python脚本一起打包成独立的可…

【d41】【Java】【力扣】21.合并两个有序链表

题目 21. 合并两个有序链表 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4]示例 2: 输入:l1 [],…