【深度学习】最强算法模型之:潜在狄利克雷分配(LDA)

news2024/11/18 9:20:24

潜在狄利克雷分配

  • 1、引言
  • 2、潜在狄利克雷分配
    • 2.1 定义
    • 2.2 原理
    • 2.3 算法公式
    • 2.4 代码示例
  • 3、总结

1、引言

小屌丝:鱼哥, 给我讲一讲LDA
小鱼:LDA? 你指的是?

小屌丝:就是算法模型的LDA啊, 你想啥?
小鱼:哦,哦, 那就好,
小屌丝:你告诉我,你想啥了?
小鱼:不滴, 我就不
小屌丝:…你就说吧,我又不是外人
小鱼:…把耳朵凑过来,这只能悄悄说
在这里插入图片描述

小屌丝:鱼哥,你这… 咱不开车行不
小鱼:… 最近健身,骑自行车呢
小屌丝: … 我差点信了
在这里插入图片描述

小鱼:… 不扯了,咱还是开始 LDA吧。
小屌丝:那可不。

2、潜在狄利克雷分配

2.1 定义

潜在狄利克雷分配(LDA)是一种生成概率模型,用于集合(如文档集合或语料库)的离散数据(如文档中的单词)的集合中发现潜在的结构。

在LDA中,每个文档被视为由多个主题的混合生成,而每个主题又是由词汇表中单词的特定概率分布所定义。

2.2 原理

LDA的核心原理在于假设文档是由潜在的主题混合而成的,而每个主题则由一组单词的概率分布来定义。

LDA通过最大化文档的似然性来估计这些主题和它们的单词分布。

在文档生成过程中,首先根据主题分布选择一个主题,然后根据该主题的单词分布生成一个单词。

这个过程在文档中重复进行,直到生成完整的文档。

2.3 算法公式

LDA的数学表达涉及概率图模型中的节点和边,以及相应的条件概率分布。

具体来说,LDA定义了一个文档集合中每篇文档的主题分布 ( θ ) (θ) θ,每个主题的单词分布 ( φ ) (φ) φ,以及文档的生成过程。

LDA的主要公式包括:

  • 主题分布θ的先验分布 D i r i c h l e t ( α ) Dirichlet(α) Dirichlet(α)
  • 单词分布φ的先验分布 D i r i c h l e t ( β ) Dirichlet(β) Dirichlet(β)
  • 文档中第n个词的主题分布 z n   M u l t i n o m i a l ( θ ) z_n ~ Multinomial(θ) zn Multinomial(θ)
  • 给定主题z_n,文档中第n个词的单词分布KaTeX parse error: Double subscript at position 22: …Multinomial(φ_z_̲n)

其中, α α α β β β超参数,分别控制主题分布单词分布稀疏性

在这里插入图片描述

2.4 代码示例

# -*- coding:utf-8 -*-
# @Time   : 2024-01-21
# @Author : Carl_DJ

'''
实现功能:
    使用Python的gensim库实现LDA主题模型的
'''

import gensim  
from gensim import corpora  
from pprint import pprint  
  
# 假设我们有一些文档数据  
documents = [  
    "这是第一个文档。",  
    "这是第二个文档,与第一个文档相似。",  
    "第三个文档与前两个文档不同,讨论的是另一个主题。",  
]  
  
# 创建文本语料库  
texts = [[text for text in doc.split()] for doc in documents]  
dictionary = corpora.Dictionary(texts)  
corpus = [dictionary.doc2bow(text) for text in texts]  
  
# 使用LDA模型  
lda_model = gensim.models.LdaModel(corpus=corpus, id2word=dictionary, num_topics=2, random_state=100, update_every=1, chunksize=100, passes=10, alpha='auto', per_word_topics=True)  
  
# 打印主题  
pprint(lda_model.print_topics())  
  
 
# 获取文档的主题分布  
doc_topics = lda_model[corpus]  
for i, doc_topic in enumerate(doc_topics):  
    print(f"文档 {i} 的主题分布: {doc_topic}")  
  


  • 打印主题 运行结果
#输出结果示例  
[(0, '0.237*"文档" + 0.196*"第一个" + 0.179*"这是" + 0.145*"相似" + 0.100*"第二个"'),  
(1, '0.263*"另一个" + 0.251*"主题" + 0.226*"讨论" + 0.140*"是" + 0.120*"不同"')]  
  • 获取文档的主题分布运行结果
# 输出结果示例  
 文档 0 的主题分布: [(0, 0.9999911059222225)]  
 文档 1 的主题分布: [(0, 0.9999999999999997)]  
 文档 2 的主题分布: [(1, 0.9999999999999998)]

3、总结

潜在狄利克雷分配(LDA)是一种强大的无监督学习算法,它能够通过发现文档集合中的隐藏主题和主题分布,有效地揭示文档集合的内在结构。LDA的灵活性使其成为主题建模、文档分类、信息检索等多个任务中的理想选择。

LDA的核心在于它的生成式模型框架,该框架允许我们同时建模文档的主题混合和每个主题下的单词分布。通过最大化文档的似然性,LDA能够学习到这些分布,进而揭示出文档中的主题信息。

在实际应用中,LDA通常需要配合适当的预处理步骤(如分词、停用词去除、词干提取等)以及后续处理步骤(如主题可视化、主题解释等)来达到最佳效果。

此外,LDA的性能也受到一些因素的影响,如主题数量的选择、超参数的设定以及语料库的大小和质量等。

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO博客专家
  • 企业认证金牌面试官
  • 多个名企认证&特邀讲师等
  • 名企签约职场面试培训、职场规划师
  • 多个国内主流技术社区的认证专家博主
  • 多款主流产品(阿里云等)测评一、二等奖获得者

关注小鱼,学习【机器学习】&【深度学习】知识,不再迷路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1548163.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于XGBoost和数据预处理的电动汽车车型预测

基于XGBoost和数据预处理的电动汽车车型预测 文章目录 基于XGBoost和数据预处理的电动汽车车型预测1、前言2、导入数据3、各县电动汽车采用情况条形图4、电动车类型饼图5、前5最欢迎的电动车制造商6、XGBoost模型6.1 字符串列的标识6.2 删除不相关的列6.3 编码分类变量6.4 电动…

【机器学习之---数学】统计学基础概念

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?typeblog 0. 前言 统计学基础 1. 频率派 频率学派(传统学派)认为样本信息来自总体,通过对样本信息的研究可以合理地推断和估计总体信息…

探究 HTTPS 的工作过程

目录 1. HTTPS 协议原理 1.1. 为什么要有HTTPS协议 1.2. 如何理解安全 1.3. HTTPS 协议是什么 2. HTTPS 的前置概念 2.1. 什么是加密 && 解密 2.2. 为什么要加密 2.3. 常见的加密方式 2.3.1. 对称加密 2.3.2. 非对称加密 2.4. 数据摘要 && 数据指纹…

Linux系统------------MySQL备份与恢复

目录 一、数据备份的重要性 二、数据库备份的分类 2.1从物理与逻辑的角度,备份可分为物理备份与逻辑备份 2.2从数据库的备份策略角度:备份可分为完全备份、差异备份、 增量备份 2.2.1完全备份 2.2.2差异备份 2.2.3增量备份 2.2.4备份方式比较 三…

白酒:生产过程的能耗分析与节能减排措施

在当今的绿色环保时代,节能减排已经成为各行各业关注的焦点。作为传统的白酒生产企业,云仓酒庄深知环境保护的重要性,并积极采取措施降低生产过程中的能耗,为可持续发展贡献力量。 在豪迈白酒的生产过程中,能耗主要来自…

【剑指offr--C/C++】JZ23 链表中环的入口结点 与哈希表

一、哈希表(unordered_set)知识点 unordered_set是一种无序的数据集合容器,元素和键同时存在,元素没有按任何特定的顺序排序,而是根据它们的散列(hash)值组织成桶,以允许直接通过值…

不花一分钱,10分钟搭建自己的网站

不花一分钱,10分钟搭建自己的网站 文章目录 不花一分钱,10分钟搭建自己的网站效果展示第1步 账号注册与登录第2步 新建仓库第3步 新建文件夹及文件第4步 网站发布部署大功告成 效果展示 课程效果展示 进阶效果展示 第1步 账号注册与登录 点击这里 https://gitee.com/&…

韶音、南卡、Oladance开放式耳机值得买吗?多维度测评实力最强品牌

​近期,不少朋友向我咨询关于开放式耳机的选购建议,他们反映市面上的开放式耳机在音质和佩戴舒适度方面表现参差不齐。面对众多品牌,消费者往往感到无从选择。针对这一问题,我将对市面上热门的韶音、南卡和Oladance三款开放式耳机…

linux将未分配空间分配到指定挂载点

lsblk命令查看硬盘,空间有200G,子分区加起来才100个G,有100个G未使用 lsblk给硬盘分配盘符 fidisk /dev/vda n 回车 回车 w将所有未分配的空间分区,这里有100个GB 查看分配的分区 /dev/vda4 fidisk -lpvcreate /dev/vda4查看…

武汉星起航:亚马逊跨境电商市场蓬勃发展,竞争日趋激烈

近年来,跨境电商行业如日中天,成为国际贸易的新宠。作为全球电商的领头羊,亚马逊凭借其卓越的物流、支付和售后服务体系,稳坐跨境电商领域的头把交椅。然而,在激烈的市场竞争与不断变化的消费者需求面前,亚…

Deepin中定义 ll 文件查看命令

Deepin中定义 ll 文件查看命令 一、概述1. 在终端中使用2. 配置本用户使用 一、概述 在Ubuntu中习惯使用 ll 命令作为查看文件系统数据,在Deepin中无法使用此命令。我们可以用ls命令去组装一个ll命令。 1. 在终端中使用 我们如果只使用一次,我们可以用…

Halcon与C#联合开发——1.读取图片、图像二值化

在vs中引入halcon控件 修改目标平台为 x64 拖出三个控件 代码展示 using System; using System.Windows.Forms; //引用支持halcon的命名空间 using HalconDotNet;namespace _1.HalconDisplay {public partial class Form1 : Form {// HObject 是Halcon库中表示图像和其他图形…

Mac系统微信小程序的保存位置和缓存清除

Mac系统微信小程序的保存位置和缓存清除 1.小程序的保存位置2.小程序的缓存清除 1.小程序的保存位置 /Users/<UserName>/Library/Containers/com.tencent.xinWeChat/Data/.wxapplet/packages进入该目录后可以看到有很多以AppID命名的文件夹 最后再使用手机查看该小程序的…

白酒:新型包装材料的选择与应用对产品形象的提升

随着消费者对产品包装的关注度不断提高&#xff0c;包装在提升产品形象和品牌价值方面发挥着越来越重要的作用。云仓酒庄深知包装的重要性&#xff0c;并积极探索和应用新型包装材料&#xff0c;以提升豪迈白酒的产品形象。 新型包装材料的选择与应用对于产品形象的提升具有显著…

springboot swagger 接口文档分组展示

例如将 controller 分成四类&#xff0c;分别放到四个包下&#xff1a; xxx.xxx.xxx.controller.manage xxx.xxx.xxx.controller.client xxx.xxx.xxx.controller.authority xxx.xxx.xxx.controller.common SwaggerConfig.java&#xff1a; import io.swagger.annotations.Api…

java ssh 电影院购票管理系统eclipse开发mysql数据库MVC模式java编程网页设计

一、源码特点 JSP ssh 电影院购票管理系统是一套完善的web设计系统&#xff08;系统采用ssh框架进行设计开发&#xff09;&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用 B/S模式开发。开发环境为TOMCAT…

集成学习 | 集成学习思想:Stacking思想

目录 一. Stacking 思想 一. Stacking 思想 Stacking(或stacked generalization)&#xff0c;是指训练一个模型用于组合(combine)其他各个模型 Stacking有两层第一层是不同的基学习器&#xff08;classifiers/regressors&#xff09;第二层是用于组合基学习器的元学习&#xf…

全选和取消全选

html <table><thead><tr><th><el-checkbox change"check" v-model"checkAll">全选/取消</el-checkbox></th></tr></thead><tbody><tr v-for"(item, index) in tableData" :ke…

最新的Flutter3.x版本获取应用包名的方法

以前的flutter项目可以在 AndroidManifest.xml 中获取应用包名&#xff0c; 最新的Flutter3.x版本要获取应用包名可以找到build.gradle 更多内容参考&#xff1a;最新的Flutter3.x版本如何获取应用包名

Git学习笔记之基础

本笔记是阅读《git pro》所写&#xff0c;仅供参考。 《git pro》网址https://git-scm.com/book/en/v2 git官网 https://git-scm.com/ 一、git起步 1.1、检查配置信息 git config --list查看所有的配置以及它们所在的文件 git config --list --show-origin可能有重复的变量名…