word2vec两种优化方式的联系和区别

word2vec两种优化方式的联系和区别

news2026/2/13 2:48:07

总结不易，请大力点赞，感谢

上一个文章，Word2vec-负采样/霍夫曼之后模型是否等价-绝对干货是字节的面试真题，建议朋友们多看几遍，有问题及时沟通。

私下有几个朋友看完之后还是有点懵，又问了一下具体细节。基于此，我重新写了一个简短的文章，希望能让大家明白，大家可以结合上一个文章看。

我们再看一下题目：W2V经过霍夫曼或者负采样之后，模型与原模型相比，是等价的还是相似的？

首先，我们要明确，这里的原模型指的是什么？原模型就是我们的没有经过优化的W2V（当然我们也说过它是一个工具不是一个模型）。

也就是只是使用Skip-gram模型或者CBOW模型而没有进行优化的原始版本。对于这个原始版本，是在最后一层进行了Softmax。

我们的目标函数中，最核心的一个部分就是在给定中心词的条件下生成正确背景词的概率，我们要最大化这个东西，公式如下：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

仔细看，在分母涉及到了一个V，这里的V就是我们的词典大小。也就是说，为了计算这个条件概率，我们需要对整个词典进行操作，复杂度就是O(|V|)

所以，负采样和霍夫曼就是针对这一个计算开销大的地方进行了优化。当然W2V为了减少计算量，还是去掉了隐层。比如CBOW直接是输入向量求和平均然后接霍夫曼树。比如Skip-gram直接是中心词的词向量接霍夫曼树。

这不是我这个文章的重点，就不细细展开了。

我们先说负采样。负采样的本质在于生成K个噪声。它的本质是基于中心词生成正确的背景词概率为1，生成噪声词概率为0，这个是我们的优化方向。公式如下：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

仔细看这个公式，V已经消失，取而代之的是K，也就是我们的噪声词的数量，换句话讲，我们的复杂度被K这个大小限制住了，降低为了O(|K|)

然后我们再来看层序Softmax。它的核心本质是在一条路径上不停的做二分类，概率连乘就会得到我们的条件概率。公式如下：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意看，这个公式中，V也已经消失了，被霍夫曼树中到达背景词的路径限制住了，这也就是上个文章中说到的，复杂度变成了二叉树的高度: O(log|V|)

既然只是针对的部分节点，那么与原始版本相比，当然是近似。

简单的总结一下：

其实可以这样理解，以跳字模型为例，条件概率是中心词生成背景词的概率，也就是我们优化函数中最核心的部分。没有使用优化的，分母涉及到全部词汇，训练开销大。负采样近似训练，把复杂度限制在了k个噪声词，层序softmax也属于近似训练，在它的条件概率中，不断的二分类，涉及到的是能够达到背景词的那个路径上的非叶子结点，也就是没涉及到其他节点，这一点和负采样很类似，都是从全部词汇降低复杂度，只不过负采样是被k限制，层序是被路径编码限制(0,1,1,1,0)这种限制住。

不知道大家有没有注意到，负采样和霍夫曼都是讲Softmax转化为二分类的问题从而降低了复杂度。负采样是针对是不是背景词做二分类，霍夫曼是在对是不是正确路径上的节点做二分类。这么说有点不严谨，但是意思就是这么个意思，大家理解一下。

总结不易，请大力点赞，感谢

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1139940.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

云起无垠典型案例入选《2023软件供应链安全洞察》报告

云起无垠典型案例入选《2023软件供应链安全洞察》报告

近日，历时6个月，由ISC编制的《2023软件供应链安全洞察》报告（以下简称《报告》）正式对外发布。《报告》围绕软件供应链安全现状、技术内核、治理指南、落地实践展开，以期为行业从业者提供有价值的信息和洞见&#xff0…

阅读更多...

港联证券：124份对外投资公告揭示：A股民营企业投资积极性上升

港联证券：124份对外投资公告揭示：A股民营企业投资积极性上升

自“民营经济31条”发布以来，A股民营上市公司出资热心明显上升。据上海证券报记者不完全统计，7月至今，已有124家民营上市公司发布了对外出资公告，其间42家公司对外出资规划达10亿元以上，且不乏百亿级大单，最…

阅读更多...

新能源下半场要拼“电池”，欣旺达动力胜算几何？

新能源下半场要拼“电池”，欣旺达动力胜算几何？

如今，续航焦虑、里程焦虑是新能源汽车避不开的话题。因此，电池作为续航的核心硬件，其质量的好坏自然也就成为了市场颇为关心的话题，与之相关的新能源电池厂商也受到了越来越多的关注。其中，新能源电池厂商中的新秀—…

阅读更多...

C++手写可扩展数组模板类

C++手写可扩展数组模板类

前言仅做学习理解和参考！ // dome.cpp : 此文件包含 "main" 函数。程序执行将在此处开始并结束。 // #define _CRT_SECURE_NO_WARNINGS #include <iostream> #include <functional> using namespace std; #include <vector> const i…

阅读更多...

Vue项目引入百度统计的正确操作步骤，亲测有效！

Vue项目引入百度统计的正确操作步骤，亲测有效！

1、平台获取统计代码 2、在head和body中分别添加以下代码 head: <script>var _hmt _hmt || [];</script>body: <script>var _hmt _hmt || [];(function () {var hm document.createElement("script");hm.src "https://hm.baidu.com/hm.js…

阅读更多...

NET-MongoDB的安装使用

一．下载 MongoDB 点击 Select package 选择自己所需版本后点击下载，本文选用Windows 6.0版本以上二、配置MongoDB 在 Windows 上，MongoDB 将默认安装在 C:\Program Files\MongoDB 中。将 C:\Program Files\MongoDB\Server\version_numbe…

阅读更多...

汇编语言王爽第四版17.3完程可运行可调试

汇编语言王爽第四版17.3完程可运行可调试

汇编语言王爽第四版17.3节完整程序，可调试，可运行。最基本的字符串输入程序，具备以下功能： 1、在输入的同时需要显示这个字符串； 2、输入回车符后，一个字符串的输入结束； 3、能够删除已经输入…

阅读更多...

增速4755%！撬动海外美妆市场，赛盈分销洞察美国市场年终布局方向！

增速4755%！撬动海外美妆市场，赛盈分销洞察美国市场年终布局方向！

2020年国货美妆扎堆出海，行业增速23%，市场增长翻了10倍，也是从这一年开始，国货美妆真正进入了“大航海时代”。从埃森哲的数据报告里看到，今年全球美妆市场整体规模已超6000亿美元，若按照每年10%的增幅增长…

阅读更多...

2023-10-21 美团2024秋招后端开发岗笔试题

2023-10-21 美团2024秋招后端开发岗笔试题

1 考察dfs和拓扑排序 1.1 题目描述（如果拓扑排序不清楚可以去做一下lc 207. 课程表） 1.2 答案 import java.util.*;public class Meituan {static int m,n;public static void main(String[] args) {Scanner in new Scanner(System.in);m in.nextInt…

阅读更多...

微服务治理之道：构建可伸缩和高可用的系统

微服务治理之道：构建可伸缩和高可用的系统

文章目录什么是微服务治理？1. 服务发现和注册2. 负载均衡3. 容错处理4. 安全5. 日志和监控6. 版本管理构建可伸缩的微服务系统1. 水平扩展2. 使用负载均衡3. 自动化扩展4. 异步通信5. 缓存构建高可用的微服务系统1. 容错设计2. 多区域部署3. 自动故障转移4. 数据…

阅读更多...

环境变量的秘密武器：让您的命令行效率倍增（环境变量图文详解）

环境变量的秘密武器：让您的命令行效率倍增（环境变量图文详解）

Linux中的环境变量（图文详解） 1. 基本概念2. 常见环境变量PATH : 指定命令的搜索路径HOME : 指定用户的主工作目录(即用户登陆到Linux系统中时,默认的目录)SHELL : 当前Shell,它的值通常是/bin/bash 3. 查看环境变量方法4. 测试PATH5. HOME6. 和环境变量…

阅读更多...

众和策略可靠吗？股票有杠杆吗？

众和策略可靠吗？股票有杠杆吗？

可靠在投资股票时，人们常常听到“杠杆”这个概念。可是，股票有杠杆吗？这个问题并不完全是是非两色的，需求从多个视点来看待。从理论上讲，股票不是一个有杠杆的财物类别。杠杆是一种金融东西，能够使投资…

阅读更多...

【解决AWS上死机问题】

【解决AWS上死机问题】

状况：每天手动重启AWS的机器，如果不重启， 网站打不开。发现死机原因为内存用完了， 这也是我后面安装软件时才发现的检查内存 free 检查谁用了内存 ps aux|head -1;ps aux|grep -v PID|sort -rn -k 4|head 检查发现使用内存的都…

阅读更多...

【每日一题】1465. 切割后面积最大的蛋糕-2023.10.27

【每日一题】1465. 切割后面积最大的蛋糕-2023.10.27

题目： 1465. 切割后面积最大的蛋糕矩形蛋糕的高度为 h 且宽度为 w，给你两个整数数组 horizontalCuts 和 verticalCuts，其中： horizontalCuts[i] 是从矩形蛋糕顶部到第 i 个水平切口的距离verticalCuts[j] 是从矩形蛋糕的左侧到…

阅读更多...

LeetCode 1465. 切割后面积最大的蛋糕：纵横分别处理

LeetCode 1465. 切割后面积最大的蛋糕：纵横分别处理

【LetMeFly】1465.切割后面积最大的蛋糕：纵横分别处理力扣题目链接：https://leetcode.cn/problems/maximum-area-of-a-piece-of-cake-after-horizontal-and-vertical-cuts/ 矩形蛋糕的高度为 h 且宽度为 w，给你两个整数数组 horizontalCut…

阅读更多...

LeetCode209——长度最小的子数组

LeetCode209——长度最小的子数组

LeetCode209——长度最小的子数组题目描述： 给定一个含有 n 个正整数的数组和一个正整数 target 。找出该数组中满足其总和大于等于 target 的长度最小的连续子数组 [numsl, numsl1, …, numsr-1, numsr] ，并返回其长度。如果不存在符合条件的子数…

阅读更多...

【LeetCode:1465. 切割后面积最大的蛋糕 | 贪心 + 排序】

【LeetCode:1465. 切割后面积最大的蛋糕 | 贪心 + 排序】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持，因为它具有很高的价值，算法就是这样✨ 🌲 作者简介：硕风和炜，…

阅读更多...

高校打造动捕实训室：开启元宇宙创新教育时代

高校打造动捕实训室：开启元宇宙创新教育时代

随着科技的发展，高校教育面临着新的挑战与机遇。高校动捕实训室涉及多个学科领域，如艺术学院、设计学院、新媒体学院等，适用于动画、视觉传达、数码媒体、数字媒体艺术等专业。动捕实训室可以为学生提供创意发挥的空间，使用动捕设…

阅读更多...

【文末送书】GPT如何赋能软件研发全流程

【文末送书】GPT如何赋能软件研发全流程

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关…

阅读更多...

Typora（morkdown编辑器）的安装包和安装教程

Typora（morkdown编辑器）的安装包和安装教程

Typora（morkdown编辑器）的安装包和安装教程下载安装1、覆盖文件2、输入序列号①打开 typora ，点击“输入序列号”：②邮箱一栏中任意填写（但须保证邮箱地址格式正确），输入序列号，点击…

阅读更多...

推荐文章

最新文章