2.自然语言处理NLP:词映射为向量——词嵌入(word embedding)

news2024/11/29 3:59:40
1. 什么是词嵌入(word2vec)

把词映射为向量(实数域)的技术

2. 为什么不采用one-hot向量:

one-hot词向量无法准确表达不同词之间的相似度,eg:余弦相似度,表示夹角之间的余弦值,无法表达不同词之间的相似度。

3. word2vec主要包含哪两个模型

跳字模型:基于某个词生成它周围的词(每个词表示为两个d维向量用来计算条件概率)eg: the man loves his son, 可以给定中心词“loves”, 生成距离不超过两个词的条件概率(P(the、man、his、 son | loves),即P(the|loves).......

连续词袋模型: 与跳字模型基本类似,最大的不同在于基于某中心词再文本序列前后的背景词来生成该中心词。(P(loves|the、man、his、son), 即P(love|the)

4. 模型的重要因素

跳字模型:我们通过最大化似然估计来学习模型参数,等价于最小化以下损失函数

定义损失函数: 最大化似然估计等价于最小化损失函数

5. 如何降低计算复杂度(近似训练)?

负采样:负采样通过考虑同时含有正样本和负样本的相互独立事件来构造损失函数。其训练中每一步的梯度计算开销与采样的个数线性相关。

层序softmax:使用了二叉树,并根据根结点到叶结点的路径来构造损失函数。其训练中每一步的梯度计算开销与词典大小的对数相关。

6. 如何训练

构造嵌入层:将中心词和背景词由索引变为向量,定义超参数向量维度。

小批量乘法:中心词(批量大小,1)、背景词(批量大小,max_len) ,通过小批量乘法得到输出(批量大小,1, max_len),输出的每个元素是中心词向量和背景词向量的内积。

定义损失函数:根据负采样中损失函数的定义,可以直接使用Gluon的二元交叉熵损失函数。

定义训练模型:可以通过负采样进行训练。

7. 全局向量的词嵌入

子词嵌入(fastText):在跳字模型的基础上,将中心词向量表示成单词的子向量之和。(eg:dogs,dogcatcher都有相同的词根)

全局向量的词嵌入(GloVe):在有些情况下,交叉熵损失函数有劣势,GloVe采用了平方损失,并通过词向量拟合预先基于整个数据集计算得到的全局统计信息。任意词的中心词向量和背景词向量在GloVe模型中是等价的。

引用:  动手学深度学习 李沐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/572587.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

创新案例|Amazon如何打造增长飞轮保持每年20%以上的营收增速

作为世界五百强中的头部企业,亚马逊的价值定位经历了三次转变,从成为“地球上最大的书店”,到成为最大的综合网络零售商,再到成为“最以客户为中心的企业”,亚马逊最终以“客户中心”破除了对企业价值定位的束缚&#…

DNS风险分析及安全防护研究(三):DNS缓存投毒及防御策略

在前面章节中,我们简单介绍了DNS系统在协议、软件以及结构中脆弱性,并对DNSSEC协议、去中心化结构等安全增强进行了讨论,接下来针对DNS安全所面临的外部攻击威胁和相应的防御策略做下讨论。 1.DNS缓存投毒攻击 在目前各种DNS攻击手段中&…

安科瑞浅谈集成式电力电容器无功补偿装置的技术特点

安科瑞 徐浩竣 江苏安科瑞电器制造有限公司 zx acrelxhj 摘要:阐述了集成式电力电容器无功补偿装置的组成与应用状况.在与常规电力电容器对比的基础上,分析了集成式电力电容器无功补偿装置的技术特点。通过对集成式无功补偿装置原理结构的…

Linux文件系统、磁盘I/O是怎么工作的?

同CPU、内存一样,文件系统和磁盘I/O,也是Linux操作系统最核心的功能。磁盘为系统提供了最基本的持久化存储。文件系统则在磁盘基础上,提供了一个用来管理文件的树状结构。 目录: 一. 文件系统 1. 索引节点和目录项 2. 虚拟文件系…

提升国际品牌影响力:小企业海外网红营销实战指南

在当今数字化时代,小企业们越来越意识到海外市场的巨大潜力。与此同时,海外网红的崛起也为小企业提供了一个独特的机会,通过与他们合作,迅速拓展国际市场并吸引更多目标受众的关注。然而,对于许多小企业来说&#xff0…

超全性能测试-全链路压测总结,完整一套从环境到脚本详细...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 性能测试&#xf…

类和对象 --- 封装+对象特性

👂 快乐E调 - 林澜叶 - 单曲 - 网易云音乐 👂 Plain Jane (Freestyle) - Ombre2Choc Nation - 单曲 - 网易云音乐 1.5倍速,跟着敲,初识C 目录 🏆封装 🌳属性和行为作为整体 🌳案例 -- 设置…

js数组去重与循环对象

目录 一、数组对象去重 1.1、需要获取重复数据 1.2、直接过滤filterfindIndex 二、循环对象 三、多层数组对象过滤 一、数组对象去重 1.1、需要获取重复数据 let persons [{"name": "yzq","age": 20,"gender": true,"hei…

k8s配置资源管理|secret|configmap

k8s配置资源管理|secret|configmap 一 配置资源管理1 创建 Secret2 使用方式3 将 Secret 导出到环境变量中 二 ConfigMap1 Pod 中使用 ConfigMap2 Pod的创建3 用 ConfigMap 设置命令行参数4 通过数据卷插件使用ConfigMap 一 配置资源管理 //Secret Secret 是用来保存密码、tok…

2023年6月合肥/厦门/长春/深圳DAMA-CDGP数据治理专家认证报名

目前6月18日CDGA&CDGP考试目前开放的城市有:北京、上海、广州(满)、深圳、长沙、呼和浩特、杭州(满)、南京、济南(满)、成都、西安、武汉(满)、天津。 新增了武汉、天津这2个城市。另外合肥…

【Netty】Reactor 模型(十)

文章目录 前言一、传统服务的设计模型二、NIO 分发模型三、Reactor 模型3.1、Reactor 处理请求的流程3.2、Reactor 三种角色 四、单Reactor 单线程模型4.1、消息处理流程4.2、缺点 五、单Reactor 多线程模型5.1、消息处理流程5.2、缺点 六、主从Reactor 多线程模型6.1、Reactor…

Python的一些基础实操练习题

书接上文多看一眼多进步,python入门到放弃,是根据python的知识点的一些基础练习题,说了是基础练习题,基础练习题,基础练习题,水平高的就别看了,平高的就别看了,高的就别看了&#xf…

IP协议-服务类型字段

服务类型(Type of Service)字段是比较复杂的一个字段,该字段经过多次标准变更。 IPv4报文 一、最初标准(RFC 791) RFC 791定义TOS字段总共占用8bit,分为IP Precedence优先级(3bit)、…

Ansys Zemax | 如何将高斯光整形为平顶光

概要 本文展示了如何设计光束整形器将激光器产生的高斯分布的光转换为平顶分布的光输出。(联系我们获取文章附件) 介绍 光束整形光学元件可以将入射光的光强分布转换为其他特定的分布输出。最常见的例子就是将激光器产生的高斯分布的光转换为平顶&#x…

GMesh的Mesh操作面板介绍

GMesh操作面板介绍 Define 用于控制网格生成过程中各个单元的尺寸大小 “Size at points”选项允许您指定空间中某些点的尺寸大小。这些点可以是模型的几何结构中的点,也可以是在Gmsh中手动定义的点(使用“Point”命令)。在这种情况下&…

pycharm在终端运行时ps 不显示环境

如果下面显示的是ps ----- 而不是 则需要把这儿修改一下

2023年Java教学大纲!好程序员教你如何快速学会Java!

今天好程序员给大家分享一篇2023年的Java教学大纲,跟着这篇大纲学习,并且熟练掌握该技能,实习轻松月入过万不是梦! 一、Java初级程序员必须要掌握的技能: Java基础知识控制声明面向对象的概念数组字符串异常处理输入/输…

Ubuntu22.04安装最新Eigen库

按道理:该方法适用所有Linux,适合安装多版本 本文采用源码 cmake的方法安装,故前置条件: 源码下载,官网下载或GitLab下载安装cmake(没有安装cmake,也可以采用其他办法安装) 官网下…

解决win无法删除多层嵌套文件夹

起因:昨天研究jpackage工具,不小心搞得一个文件夹里嵌套了好几百个文件夹,用win自己的删除删不掉,shiftdel直接删除也不行,直接弹窗删除错误; 后来用电脑管家下载了个“文件粉碎”,添加目录&am…

硬核机器学习知识点教学--(代码讲解)

用代码和实战讲解机器学习,零基础一样看得懂👏🏻👏🏻👏🏻 复习、学习、备战考试皆可用👏🏻👏🏻👏🏻 本系列持续更新中&a…