Word2Vec浅谈

news2024/11/25 11:06:51

论文地址:Efficient Estimation of Word Representations in Vector Space
个人认为,word2vec主要解决的问题是one-hot中维度过高并且稀疏的问题。word2vec是Google团队在2013年发表的一篇paper,当时一经问世直接将NLP领域带到了一个新的高度,在2018年bert被提出之前,word2vec一直是NLP算法工程师追捧的预训练词向量模型。
Word2Vec是轻量级的神经网络,其模型仅仅包括输入层、隐藏层和输出层,模型框架根据输入输出的不同,主要包括CBOW和Skip-gram模型。CBOW是知道 w t − 2 w_{t-2} wt2, w t − 1 w_{t-1} wt1, w t + 1 w_{t+1} wt+1, w t + 2 w_{t+2} wt+2,预测 w t w_t wt.而Skip-gram是知道 w t w_t wt,预测 w t − 2 w_{t-2} wt2, w t − 1 w_{t-1} wt1, w t + 1 w_{t+1} wt+1, w t + 2 w_{t+2} wt+2
在这里插入图片描述
首先,输入层是一个one-hot向量,具体细节请看前面的博客。例如 w t − 2 = [ 0 , 0 , 1 , 0 , 0 , 0 ] w_{t-2}=[0,0,1,0,0,0] wt2=[0,0,1,0,0,0] 经过一个矩阵 [ 0 1 1 1 1 0 3 5 6 1 1 0 1 0 1 ] \begin{bmatrix} 0&1&1\\ 1&1&0\\ 3&5&6\\ 1&1&0\\ 1&0&1\\ \end{bmatrix} 013111151010601 将高维度的one-hot向量映射为低维度的向量 [ 3 , 5 , 6 ] T [3,5,6]^T [3,5,6]T,再经过一个矩阵,把低维向量映射回高维,得到输出层 [ 1 1 1 1 1 3 1 0 1 1 2 5 6 1 1 ] \begin{bmatrix} 1&1&1&1&1\\ 3&1&0&1&1\\ 2&5&6&1&1\\ \end{bmatrix} 132115106111111 这样可以得到输出为 [ 30 , 38 , 39 , 14 , 14 ] T [30,38,39,14,14]^T [30,38,39,14,14]T这就是根据 w t − 2 w_{t-2} wt2预测得到 w t w_t wt的结果,将 w t − 2 w_{t-2} wt2扩展到 w t − 1 w_{t-1} wt1, w t + 1 w_{t+1} wt+1, w t + 2 w_{t+2} wt+2就是多几个输入的one-hot向量的问题。同理Skip-gram也是一样。总的来说就是一个从高维映射到低维再映射回去的过程。

参考:

  1. 详解Word2Vec原理篇
  2. 深入浅出Word2Vec原理解析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1219762.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学会使用这个平台,教你制作出色的产品画册?

产品画册是企业和用户之间的桥梁,它可以第一时间给用户传递我们企业的最新产品信息。如何制作一本精美的产品画册呢? 这个不难,给大家推荐一款免费实用的在线制作工具FLBOOK ,用这个平台可以轻松制作精美电子产品画册。 在制作产…

vue3 + ts项目(无vite)报错记录

记录项目创建后遇到的报错 1.类型“Window & typeof globalThis”上不存在属性“_CONFIG”。ts(2339) 问题描述: 使用全局 window 上自定义的属性,TypeScript 会报属性不存在 解决:需要将自定义变量扩展到全局 window 上&#xff0c…

C语言调用【Python3】

一、搭建编译环境 终端查询系统及软件版本dpkg -l 列出所有已安装的软件包 二、C语言中调用Python 使用 GCC编译并链接 Python 3.10 的共享库如何在C中获取和修改 sys.path 三、C语言调用无参python函数 四、C语言调用有参python函数 一、搭建编译环境 通过C语言调用Pyth…

PT Plugin Plus(PT助手、种子下载)扩展程序安装教程

PT助手 PT 助手 Plus,是一款浏览器插件(Web Extensions),主要用于辅助下载 PT 站的种子。 适用于各 PT 站,可使下载种子等各项操作变化更简单、快捷。配合下载服务器(如 Transmission、Torrent 等&#x…

电源线虚接,导致信号线发烫

音频板的信号是经过隔直电容接到音频板的。

VRRP专题

一,VRRP:虚拟路由冗余协议 将多个路由设备联合组成一台虚拟的路由设备,这台虚拟的路由设备做用户的网关,转发数据;这台虚拟的设备的网关由一个高优先级的设备承载,该设备被称为master路由器,其…

OpenCV快速入门:像素操作和图像变换

文章目录 前言1. 像素操作1.1 像素统计1.2 两个图像之间的操作1.2.1 图像加法操作1.2.3 图像加权混合 1.3 二值化1.4 LUT(查找表)1.4.1 查找表原理1.4.2 代码演示 2 图像变换2.1 旋转操作2.1.1 旋转的基本原理2.1.2 代码实现 2.2 缩放操作2.3 平移操作2.…

大数据-之LibrA数据库系统告警处理(ALM-12050 网络写吞吐率超过阈值)

告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 >…

【容器化】Kubernetes(k8s)

文章目录 概述Docker 的管理痛点什么是 K8s云架构 & 云原生 架构核心组件K8s 的服务注册与发现组件调用流程部署单机版部署主从版本Operator来源拓展阅读 概述 Docker 虽好用,但面对强大的集群,成千上万的容器,突然感觉不香了。 这时候就…

Molecular Plant | ChIP-seq+RNA-seq解析E2F转录因子在植物复制胁迫响应中的独特和互补作用

生物体的生存完全依赖于它们对基因组完整性的维持,而基因组完整性受到增殖细胞复制胁迫的永久威胁。尽管植物DNA损伤反应(DDR)调节因子SOG1已被证明能够应对复制缺陷,但越来越多的证据表明,还有其他途径独立于SOG1发挥…

Python爬虫动态ip代理防止被封的方法

目录 前言 一、什么是动态IP代理? 二、如何获取代理IP? 1. 付费代理IP 2. 免费代理IP 3. 自建代理IP池 三、如何使用代理IP爬取数据? 1. 使用requests库设置代理IP 2. 使用urllib库设置代理IP 3. 使用selenium库设置代理IP 四、常…

C/C++ 字符 - ‘0‘ 或者 + ‘0‘ 的含义及区别(从ASCII码深度解析,小白一看就懂!!!)

目录 一、前言 二、什么是ACSII码? 三、深度理解字符 - ‘0‘ 或者 ‘0‘ 四、实战演练 五、共勉 一、前言 想必大家在刷题或者是看别人写的代码中,经常会遇到 s[i]-’0‘ 或者 s[i]’0‘ 这个情况,初次遇到这种代码,肯定是…

【proverif】proverif的语法-各种密码原语的介绍和具体编码

proverif-系列文章目录 【proverif】proverif的下载安装和初使用【proverif】proverif的语法-解决中间人攻击-代码详解【proverif】proverif的语法2-各种密码原语的编码 (本文) 文章目录 proverif-系列文章目录前言铺垫知识一、对称加密二、非对称加密三…

java架构师禁止在项目中使用继承,合理吗?

java架构师禁止在项目中使用继承,合理吗? 如果建议用组合替代继承,非必要不用继承,这个很合理的建议的。 在非必要的情况下不用继承,用组合替代有几个优势:最近很多小伙伴找我,说想要一些 Jav…

音视频转换软件Permute mac中文板特点介绍

Permute mac是一款Mac平台上的媒体格式转换软件,由Chaotic Software开发。它可以帮助用户快速地将各种音频、视频和图像文件转换成所需格式,并提供了一些常用工具以便于用户进行编辑和处理。 Permute mac软件特点 - 支持大量格式:支持几乎所…

【强化学习】时间循环最优决策:原理与Python实战

Python 如何在时间循环里最优决策?时间旅行和平行宇宙时间旅行引发的悖论强化学习策略梯度算法代码案例代码推荐阅读理论完备:实战性强:配套丰富: 如何在时间循环里最优决策? 时间循环是一类热门的影视题材&#xff0…

Unity减少发布打包文件的体积(二)——设置WebGL发布时每张图片的压缩方式

一个项目在发布成WebGL后,其体积至关重要,体积太大,用户加载会经历一个漫长的等待…轻则骂娘,重则用脚把电脑踢烂(扣质保金)… 那么如何减少发布后的体积呢,本文从图片的压缩开始入手。 前传回顾: Unity减…

语雀 P0 事故复盘,这 9 个字亮了!

大家好,我是鱼皮。 最近语雀不是出了个号称 “载入史册” 的 P0 级事故嘛 —— 连续宕机 7 个多小时无法使用,作为一个大厂知名产品,这个修复速度属实让人无法理解。要命的是我们公司的知识库也是放在语雀上的,导致那天下午大家摸…

【C语法学习】26 - strcat()函数

文章目录 1 函数原型2 参数3 返回值4 使用说明5 示例5.1 示例1 1 函数原型 strcat():将src指向的字符串拼接在dest指向的字符串末尾,函数原型如下: char *strcat(char *dest, const char *src);2 参数 strcat()函数有两个参数src和dest&am…