主题模型LDA教程：主题数选取困惑度perplexing

主题模型LDA教程：主题数选取困惑度perplexing

news2025/7/8 11:34:13

文章目录

- - - LDA主题数
    - 困惑度
    - - 1.概率分布的困惑度
      - 2.概率模型的困惑度
      - 3.每个分词的困惑度

LDA主题数

LDA作为一种无监督学习方法，类似于k-means聚类算法，需要给定超参数主题数K，但如何评价主题数的优劣并无定论，一般采取人为干预、主题困惑度preplexing和主题一致性得分coherence score，本文介绍困惑度。

困惑度

在信息论中，perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。低困惑度的概率分布模型或概率模型能更好地预测样本。

1.概率分布的困惑度

定义离散概率分布的困惑度如下：
$2^{H(p)} = 2^{-\sum_x p(x) \log_2 p(x)}$

其中H§是概率分布p的熵，x是样本点。因此一个随机变量X的困惑度是定义在X的概率分布上的（X所有"可能"取值为x的部分）。

一个特殊的例子是k面均匀骰子的概率分布，它的困惑度恰好是k。一个拥有k困惑度的随机变量有着和k面均匀骰子一样多的不确定性，并且可以说该随机变量有着k个困惑度的取值（k-ways perplexed）。（在有限样本空间离散随机变量的概率分布中，均匀分布有着最大的熵）

困惑度是信息熵的指数。

2.概率模型的困惑度

用一个概率模型q去估计真实概率分布p，那么可以通过测试集中的样本来定义这个概率模型的困惑度。
$b^{-\frac{1}{N}\sum_{i=1}^N \log_b q(x_i)}$

其中测试样本 $x_1, x_2, …, x_N$ 是来自于真实概率分布p的观测值，b通常取2。因此，低的困惑度表示q对p拟合的越好，当模型q看到测试样本时，它不会“感到”那么“困惑”。

我们指出，指数部分是交叉熵。
$H(\hat{p},q) ={-\sum_x\hat{p}(x) \log_2 q(x)}$

其中 $\hat{p}$ 表示我们对真实分布下样本点x出现概率的估计。比如用 $p (x) = n / N$

3.每个分词的困惑度

在自然语言处理中，困惑度是用来衡量语言概率模型优劣的一个方法。一个语言概率模型可以看成是在整个句子或者文段上的概率分布。
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1200187.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

电子工程师的焊接技法总结

电子工程师的焊接技法总结

基础学习视频如下： 1 老司机焊接纯干货分享，让你焊接不迷路，很适合零基础小白_哔哩哔哩_bilibili 焊接常用工具 1 焊锡丝按照粗细来分的话，有粗焊锡，有细焊锡，细焊锡一般适合比较精细的焊接。按照是否含铅…

阅读更多...

吃透 Spring 系列—Web部分

吃透 Spring 系列—Web部分

目录 ◆ Spring整合web环境 - Javaweb三大组件及环境特点 - Spring整合web环境的思路及实现 - Spring的web开发组件spring-web ◆ web层MVC框架思想与设计思路 ◆ Spring整合web环境 - Javaweb三大组件及环境特点在Java语言范畴内，web层框架都是基于J…

阅读更多...

win环境Jenkins部署前端项目

win环境Jenkins部署前端项目

今天分享win环境Jenkins部署前端vue项目，使用的版本jenkins版本Jenkins 2.406版本。前提是jenkins安装好了，通用配置已经配置好了，可以参考上两篇博客。 1、前端项目依赖nodejs，需要安装相关插件点击进入安装成功标准 jenki…

阅读更多...

Home Assistant使用ios主题更换背景

Home Assistant使用ios主题更换背景

Home Assistant使用ios主题、更换背景 lovelace-ios-dark-mode-theme 默认前置情况，1、已安转HACS插件2、搜索安装 IOS Dark Mode Theme1）第一、二步应该很容易实现，configuration.yaml文件很容易被找到2）而本人在进行第三步操作时…

阅读更多...

在vue3中使用Element-plus的图标

首先安装Element-Plus-icon # 选择一个你喜欢的包管理器# NPM $ npm install element-plus/icons-vue # Yarn $ yarn add element-plus/icons-vue # pnpm $ pnpm install element-plus/icons-vue 如何使用 Element-Plus-icon官方文档链接Icon 图标 | Element Plus (element-…

阅读更多...

Zyxel NBG2105 身份验证绕过

Zyxel NBG2105 身份验证绕过

直接访问如下payload则会以管理员身份跳转到 home.htm页面 /login_ok.htm漏洞证明查看本页面的cookie，login为1 文笔生疏，措辞浅薄，望各位大佬不吝赐教，万分感谢。免责声明：由于传播或利用此文所提供的信息、…

阅读更多...

antlr4踩坑记录

antlr4踩坑记录

一. syntax error: ‘<’ came as a complete surprise to me while matching alternative 参考这个issue，antlr版本必须得是4.6 下载链接：http://www.antlr.org/download/antlr-4.6-complete.jar 二.org.antlr.v4.analysis.LeftRecursiveRuleTrans…

阅读更多...

如何在ModelScope社区魔搭下载所需的模型

如何在ModelScope社区魔搭下载所需的模型

本篇文章介绍如何在ModelScope社区下载所需的模型。若您需要在ModelScope平台上有感兴趣的模型并希望能下载至本地，则ModelScope提供了多种下载模型的方式。使用Library下载模型若该模型已集成至ModelScope的Library中，则您只需要几行代码即可加载…

阅读更多...

【Vue3】scoped 和样式穿透

【Vue3】scoped 和样式穿透

我们使用很多 vue 的组件库（element-plus、vant），在修改样式的时候需要进行其他操作才能成功更改样式，此时就用到了样式穿透。而不能正常更改样式的原因就是 scoped 标记。 scoped 的渲染规则： <template>&l…

阅读更多...

Ubuntu查看Python某个包的具体路径

Ubuntu查看Python某个包的具体路径

使用命令： python(版本号) -m pip show (包)这里的Location就是这个包所在的路径。同时它还列出了这个包的版本的信息。

阅读更多...

吴恩达《机器学习》8-3-＞8-4:模型表示I、模型表示II

吴恩达《机器学习》8-3-＞8-4:模型表示I、模型表示II

8.3、模型表示I 一、大脑神经网络的基本原理为了构建神经网络模型，首先需要理解大脑中的神经网络是如何运作的。每个神经元都可以被看作是一个处理单元或神经核，它包含多个输入（树突）和一个输出（轴突）。…

阅读更多...

【见缝插针】射击类游戏-微信小程序项目开发流程详解

【见缝插针】射击类游戏-微信小程序项目开发流程详解

还记得小时候玩过的见缝插针游戏吗，比一比看谁插得针比较多，可有趣了，当然了，通过它可以训练自己的手速反应，以及射击水平，把握时机，得分越高就越有成就感，相信小朋友们会喜欢它的&a…

阅读更多...

pointnetgpd复现

pointnetgpd复现

参考： Installation Instructions — Dex-Net 0.2.0 documentation Install git clone https://github.com/lianghongzhuo/PointNetGPD.git 添加环境变量 gedit ~/.bashrc #添加下面这一行 export PointNetGPD_FOLDER$HOME/code/PointNetGPD #然后source source…

阅读更多...

k8s 1.28.3 使用containerd

k8s 1.28.3 使用containerd

文章目录环境说明最终结果环境配置时钟同步主机名称配置主机名解析关闭swap安装ipvs 安装containerd安装containerd生成配置修改配置开启containerd服务安装runc安装k8s安装kubelet kubeadm kubectl获取kubernetes 1.28组件容器镜像拉取镜像初始化集群方法一（不…

阅读更多...

【4】Gradle-快速入门使用【Gradle多模块项目详解】

【4】Gradle-快速入门使用【Gradle多模块项目详解】

目录【4】Gradle-快速入门使用【Gradle多模块项目详解】创建多项目构建添加子项目命名建议项目依赖项项目路径不同模块的build.gradle配置子项目之间共享构建逻辑公约插件跨项目配置buildSrc开发公约插件调整多模块项目配置修改项目树的元素了解Gralde配置时间和执行时间并…

阅读更多...

API 集成测试工具Hitchhiker 0.1.1 正式发布

API 集成测试工具Hitchhiker 0.1.1 正式发布

Hitchhiker 是一款开源的 Restful Api 集成测试工具，你可以在轻松部署到本地，和你的 team 成员一起管理 Api。能做什么 * Team 协作开发 Api * Api 历史修改记录及支持 diff 展示 * 支持多环境变量及运行时变量 * 支持 Schedule 及批量 run * 不同…

阅读更多...

Ubuntu诞生已经19年了

Ubuntu诞生已经19年了

导读2004 年 10 月 20 日，Ubuntu 4.10 正式发布，代号‘Warty Warthog’。 2004 年 10 月 20 日，Ubuntu 4.10 正式发布，代号‘Warty Warthog’。 ▲ Ubuntu 4.10 与最新版 Ubuntu 23.10 的对比作为 Ubuntu 第一个版本&#xff0…

阅读更多...

[mysql]索引优化-2

[mysql]索引优化-2

目录一、分页查询优化1.根据自增且连续的主键排序的分页查询2.根据非主键字段排序的分页查询二、Join关联查询优化1.嵌套循环连接 Nested-Loop Join(NLJ) 算法2.基于块的嵌套循环连接 Block Nested-Loop Join(BNL)算法三、count(*)查询优化1.查询mysql自己维护的总行数2.sho…

阅读更多...

PySide/PYQT如何用Qt Designer和代码来设置文字属性，如何设置文字颜色？

PySide/PYQT如何用Qt Designer和代码来设置文字属性，如何设置文字颜色？

文章目录 📖 介绍 📖🏡 环境 🏡📒 实现方法 📒📝 Qt Designer设置📝 代码📖 介绍 📖 本人介绍如何使用Qt Designer/代码来设置字体属性（包含字体颜色） 🏡 环境 🏡 本文使用Pyside6来进行演示📒 实现方法 📒 📝 Qt Designer设置首先打开Qt De…

阅读更多...

Langchain-Chatchat环境安装

Langchain-Chatchat环境安装

目录一、简介二、环境安装三、使用Langchain-Chatchat 3.1、下载模型 3.2、设置配置文件 3.3、执行一、简介基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现，开源、可离线部署的检索增强生成(RAG)大模型知识库项目。 🤖️ 一种利用 l…

阅读更多...

推荐文章

最新文章