NLP 笔记:Latent Dirichlet Allocation (介绍篇)

news2024/10/7 8:26:58

1 问题介绍

  • 假设我们有一堆新闻,每个新闻都有≥1个主题

  • 我们现在只知道新闻的内容,我们希望一个算法,帮我们把这些新闻分类成主题
  • 人类可以根据每个每个文章里面的单词判断主题,那计算机怎么做呢?
    • ——>LDA(Latent Dirichlet Allocation)

2 方法介绍 (生成文本角度)

  • LDA 创建一个“几何的”方法:假设我们有三个topic,他就创建一个三角,每个角是一个主题,然后将文件放进去,每个文件靠近他属于的那个角
    • 如果一个文件包括两个主题,那么他在三角形的边上;如果一个文件三个主题都囊括了,那就在三角形的中间

那么问题是,如何知道文件应该放在哪里呢?

我们可以把LDA看成是一个生产文件的机器,不同的配置下,他会生成不同的文件

  • 最好的setting,可以生成最接近于原始文件的内容,这个setting对应的主题,就是原始文件最有可能的主题

3方法介绍 (概率图角度)

  • 这个是LDA的概率图
    • 根据两个多项分布,获得一堆主题和一堆文字
    • 把单词连在一块就是文件

这就是生成文字W和主题Z的概率,后面四个是参数。' 

我们先按下不表,首先介绍一下迪利克雷分布

4 迪利克雷分布

4.1 场景假设:一个聚会

假设有一个聚会,黄色点是人,人可以出现在三角的任何位置

  • 现在在三个角上放了东西,人就往三个角移动了,这样就形成了迪利克雷分布

4.2 迪利克雷分布可视化

每个角的内容对应一个α

4.3 回到topic

此时每一个点是一个三维向量,表示分别是三个主题的一个的概率

4.4 概率的概率

  • 换言之,迪利克雷分布是“分布的分布”
  • 三角中的每一个点,就是一个多项分布

4.5 更多的topic时的迪利克雷分布

5 回到概率分布角度的LDA

这两个迪利克雷分布分别是:已知单词,问他是哪个topic;和已知topic,问他是哪个单词

5.1 LDA如何生成document

5.1.1 生成topic

  • 采样迪利克雷分布得到一个点(每个topic的概率)
    • ——>得到multinomial 分布
    • 然后采样这个多项分布,生成topic

5.1.2 根据topic 生成对应的word

这时候就需要另一个迪利克雷分布了

  • 每个topic对应了一个词汇分布(多项式分布)

把得到的词连起来,最终生成一个文件

5.2 找到最相似的article

最详细的article对应的两个迪利克雷分布,就是可能的topic对应的分布

5.3 总结

一个迪利克雷分布+多项式分布生成topic,另一个生成对应的单词

5.4 文件的长度

长度根据泊松分布采样

参考内容:Latent Dirichlet Allocation (Part 1 of 2) (youtube.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1539956.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文详解Rust中的字符串

有人可能会说,字符串这么简单还用介绍?但是很多人学习rust受到的第一个暴击就来自这浓眉大眼、看似毫无难度的字符串。 请看下面的例子。 fn main() {let my_name "World!";greet(my_name); }fn greet(name: String) {println!("Hello…

HTML元素语义化补充之css函数(三)

文章目录 CSS中的函数css函数–varcss函数–calccss函数–blurcss函数–gradientlinear-gradient的使用 CSS中的函数 ◼ 在前面我们有使用过很多个CSS函数: 比如rgb/rgba/translate/rotate/scale等; CSS函数通常可以帮助我们更加灵活的来编写样式的值; ◼ 下面有几…

亚稳态及其解决办法

异步电路 亚稳态 亚稳态亚稳态的产生原因什么是同步异步信号怎么消除亚稳态 亚稳态 在数字电路中,每一位数据不是1(高电平)就是0(低电平)。当然对于具体的电路来说,并非1(高电平)就是…

学习Python的第一天(下载Python环境和工具Pycharm)

下载工具 PyCharm Community Edition 2023.3.4 下载环境 Python3.10.4 目录 1.环境Python下载 1.1 Python环境变量下载网址: 1.2 下载步骤 2.工具Pycharm下载 2.1 pycharm下载网址 2.2 pycharm下载步骤 1.环境Python下载 1.1 Python环境变量下载网址: Python Releas…

在离线的arm架构kylin v10服务器上使用Kuboard-Spray搭建K8S集群

在离线的arm架构kylin v10服务器上使用Kuboard-Spray搭建K8S集群 在内网项目中需要安装K8S集群,经过调研,选择使用Kuboard-Spray工具搭建K8S集群,降低学习成本,提高安装效率。 为了简化安装使用集群的过程,搭建了私有…

01.家目录及桌面的认识(Linux基本概念)

知识引入: 我们在打开我们的电脑后,直接就可以看到图形化界面,这个图形化的界面就是我们常说的桌面。同时我们的电脑还可以多用户使用,就是在电脑开机的时候,选择用户,输入密码。这就说明,我们的…

java数据结构与算法基础-----字符串------正则表达式的练习案例---持续补充中

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 正则表达式基础:https://blog.csdn.net/grd_java/article/det…

零基础-MySQL数据库的基本操作

①MYSQL数据库基本操作-DDL 1.DDL的解释 DDL(Data Definition Language),数据定义语言,包括以下内容: 对数据库的常用操作 对表结构的常用操作 修改表结构 2.对数据库的常用操作 功能SQL查看所有的数据库show d…

阿猪写作能用吗 #媒体#微信

阿猪写作是一个非常实用的论文写作工具,它不仅能帮助用户快速完成论文写作,还可以提供查重降重的功能,帮助用户确保论文的原创性。在当今社会,论文写作是学术界和科研领域最重要的工作之一,而阿猪写作的出现无疑是给这…

使用阿里云服务器搭建网站教程,超简单10分钟网站上线

使用阿里云服务器快速搭建网站教程,先为云服务器安装宝塔面板,然后在宝塔面板上新建站点,阿里云服务器网aliyunfuwuqi.com以搭建WordPress网站博客为例,来详细说下从阿里云服务器CPU内存配置选择、Web环境、域名解析到网站上线全流…

JVM——运行时数据区

前言 由于JAVA程序是交由JVM执行的,所以我们所说的JAVA内存区域划分也是指的JVM内存区域划分,JAVA程序具体执行的过程如下图所示。首先Java源代码文件会被Java编译器编译为字节码文件,然后由JVM中的类加载器加载各个类的字节码文件&#xff0…

RabbitMQ之Plugins插件----AMQP对接MQTT

1.启用插件 rabbitmq-plugins enable rabbitmq_mqtt 2.检查是否启动成功,打开rabbitmq后台 3.概念: AMQP是由交换器和queue队列组成的消息队列机制,MQTT是由订阅主题组成的消息机制 1.MQTT创建连接时会向rabbitmq创建一个自己的queue&…

信号处理之快速傅里叶变换(FFT)

信号处理之快速傅里叶变换FFT 历史溯源欧拉公式傅里叶级数(FS)傅里叶变换(FT)离散傅里叶级数(DFS)离散时间傅里叶变换(DTFT)离散傅里叶变换(DFT)快速傅里叶变换(FFT)MATLAB中常用的FFT工具FFT中常见的问题 历史溯源 相信很多人知道傅里叶变换,但是很多人对傅里叶变…

【Monero】Onion Monero Blockchain Explorer | 洋葱门罗币区块链浏览器

github:onion-monero-blockchain-explorer Onion Monero Blockchain Explorer特点: 没有cookie,没有网络分析跟踪器,没有image, 开源, 完全用C编写, 显示加密的付款 ID, 显示环签名,…

C# WPF编程-控件

C# WPF编程-控件 概述WPF控件类别包括以下控件:背景画刷和前景画刷字体文本装饰和排版字体继承字体替换字体嵌入文本格式化模式鼠标光标 内容控件Label(标签)Button(按钮) 概述 在WPF领域,控件通常被描述为…

阿里云原生:如何熟悉一个系统

原文地址:https://mp.weixin.qq.com/s/J8eK-qRMkmHEQZ_dVts9aQ?poc_tokenHMA-_mWjfcDmGVW6hXX1xEDDvuJPE3pL9-8uSlyY 导读:本文总结了熟悉系统主要分三部分:业务学习、技术学习、实战。每部分会梳理一些在学习过程中需要解答的问题,这些问题…

一笔画--PTA

文章目录 题目描述思路AC代码 题目描述 输入样例1 3 2 1 2 2 3 输出样例1 Y输入样例2 4 3 1 2 1 3 1 4 输出样例2 N输入样例3 1 0 输出样例3 Y思路 dfs 、欧拉通路、欧拉回路的判定 前导知识 欧拉通路、欧拉回路、欧拉图 无向图: ①设G是连通无向图,则称…

在使用 Java 数据采集时,有哪些需要注意的问题?

近年来,随着网络数据的爆发式增长,爬虫技术在信息收集和数据分析领域发挥着重要作用。而Java作为一种强大的编程语言,其爬虫库和框架也日益受到开发者的青睐。然而,使用Java爬虫也存在一些需要注意的问题。 首先,是合…

【排序算法】实现快速排序值(霍尔法三指针法挖坑法优化随即选key中位数法小区间法非递归版本)

文章目录 📝快速排序🌠霍尔法🌉三指针法🌠挖坑法✏️优化快速排序 🌠随机选key🌉三位数取中 🌠小区间选择走插入,可以减少90%左右的递归🌉 快速排序改非递归版本&#x1…

2024阿里云2核2G服务器租用价格99元和61元一年

阿里云2核2G服务器配置优惠价格61元一年和99元一年,61元是轻量应用服务器2核2G3M带宽、50G高效云盘;99元服务器是ECS云服务器经济型e实例ecs.e-c1m1.large,2核2G、3M固定带宽、40G ESSD entry系统盘,阿里云活动链接 aliyunfuwuqi.…