细说NLP中的Embedding层

news2024/9/21 22:47:37

文章目录

  • 前言
  • 一、为什么要引入Embedding层
  • 二、Embedding层是怎么发挥作用的?
  • 三、感受Embedding的强大
  • 四、为什么理解Embedding的底层原理?
  • 总结


前言

在构建高效的自然语言处理模型时,Embedding层是不可或缺的组成部分。它不仅可以帮助我们捕获词汇之间的语义关系,还能提高模型的性能。在本篇博客中,我们将详细介绍Embedding层的基本原理、使用方法以及它在深度学习框架中的实现,帮助你更好地理解和应用这一技术。

一、为什么要引入Embedding层

你是否曾经遇到过这样的问题:在处理大量文本数据时,如何有效地表示词汇或短语?传统的独热编码(One-Hot Encoding)方法存在哪些局限性?Embedding层又是如何解决这些问题的?接下来,我们将一起探讨Embedding层的工作原理及其在自然语言处理中的应用。

传统的onehot编码的局限性在于:
1.维度过高且稀疏:当词库(或特征集合)很大时,独热编码会生成一个维度极高的向量,其中大部分元素为0,只有对应特征位置的元素为1。这种高维且稀疏的表示方式不仅占用大量的存储空间,而且在后续的计算中会导致计算成本显著增加。
2.丢失了单词间的语义关系:独热编码仅根据单词在词库中的索引位置进行编码,没有考虑到单词之间的语义关系。
3.对词汇数量的敏感度:独热编码的维度与词库的大小直接相关。如果词库中的单词数量增加,那么编码的维度也会相应增加,这会导致上述的维度过高和稀疏性问题进一步加剧。
4.无法处理未知单词:如果在测试或应用阶段遇到了一个训练阶段中未曾出现过的单词(即未知单词),那么独热编码将无法为其生成一个有效的表示向量,因为该单词在词库中没有对应的索引位置。

随着语料库越来越大,在处理大规模这些文本数据或需要捕捉单词间语义关系时,one hot编码的局限性变得尤为突出。为了克服这些局限性,人们发展出了如词嵌入 等更先进的文本表示方法。

而且,在大语言模型盛行的今天,Embedding层仍然是不可或缺的一部分,它在表示文本内容、增强模型性能以及解决长文本输入问题等方面发挥着重要作用。

二、Embedding层是怎么发挥作用的?

在这里我以经典的Word2Vec为例子。简单介绍一下Word2Vec,它是一个将单词表示为向量的的词向量学习方法。有两种实现方式,分别是CBOWSkip-Gram模型。
方便起见,这里以CBOW举例子了。他的思想是这样的:给出目标单词周围的词,预测目标单词。就比如一句话原本的语句是“我爱你”,后来把“爱”遮住,使用CBOW预测出“我”和“你”之间的单词是什么。
在这里插入图片描述

网络结构如图所示:(输入下面的两个方块是周围单词,映射下面的方块是低维、稠密的词向量表示,输出下面的方块表示用softmax得出的得分)

在这里插入图片描述

CBOW做的是输入矩阵(即周围单词的矩阵表示)与一个输入单词权重矩阵 W i n W_{in} Win(也称嵌入矩阵)做矩阵相乘。这样就把输入变成了低维稠密的单词向量的形式,然后把这个单词向量表示进行softmax输出,取概率最大的单词。

本文章是为了介绍Embedding层,简单起见,所以我们聚焦于一个其中一个周围单词和 W i n W_{in} Win矩阵乘积的情况。
在这里插入图片描述

如果单词的输入矩阵用one hot向量表示。我们那么这个过程就变成了一下情况
输入单词向量形状是1 * 1000000, W i n W_{in} Win的形状是1000000 * 100,最终得到 1 * 100的低纬稠密向量。
在这里插入图片描述

这个过程有一个问题,矩阵相乘的时间复杂度是1 * 1000000 * 100 = 100000000。这个过程需要这么大的计算量。

但是,如果仔细观察的话,我们做的知识把第i行的元素提取出来而已。

为了解决这个问题,我们引入Embedding层,做的就是把 W i n W_{in} Win的某一行提取出来。

  • Embedding层的作用:一个 可以抽取单词id对应的行(向量) 的层。
  • 还有一个说法也比较贴切,Embedding是一个简单的查找表

三、感受Embedding的强大

引入Embedding层之后,这样问题就简单了。
考虑更复杂的一种情况,输入是100 * 1000000(输入100个单词,用每个单词用1000000维onehot表示)的情况,要把它压缩成100 * 100的矩阵。
原本的计算是这样的。
在这里插入图片描述
计算量是100 * 1000000 * 1000000=100000000000000。看数字可能感觉不够明显,翻译成中文就是10万亿。更何况语料库更加庞大的今天,可以说如果使用传统方法计算量简直是天文数字,根本不可以实现。

但是如今有了Embedding的方法,就简单多了。
在这里插入图片描述

我们要做的无非就是根据单词对应的序号从 W i n W_in Win中选出100行而已。
计算量=100 * 100 = 10000。(第一个100是输入的单词数,第二个100是 W i n W_{in} Win的100的纬度)
这样就把一个上面不可能解决的问题变成了一个很简单的取数问题。
简直爽爆了!

四、为什么理解Embedding的底层原理?

现如今,深度学习的框架十分方便,只要输入文本对应的整数索引(也称为类别索引或token索引),使用nn.Embedding(input),自动就转化成了想要的token(分词或单词)的低纬稠密表示。

但是我们不能知其然不知其所以然。虽然框架很方便,实际工作中光会调用接口是远远不够的。

了解Embedding的底层原理有助于你更深入地理解模型是如何工作的,在某些情况下,你可能需要自定义Embedding层的实现,以适应特定的任务或数据,从而进一步提高模型的运行效率。

总之,尽管深度学习框架提供了方便的接口来实现Embedding层,但学习其底层原理仍然是非常重要的。这不仅可以帮助你更好地理解模型的工作原理,还可以提高你的技术能力和创新能力


总结

在本文中,我们深入探讨了Embedding层的底层实现。我们了解到Embedding层在深度学习中扮演着将离散索引映射为连续向量空间的重要角色,

通过对Embedding层底层实现的解析,我们不难发现其高效性和灵活性的关键。使用嵌入矩阵作为查找表,Embedding层能够快速地根据索引返回对应的嵌入向量,而无需进行复杂的计算。同时,嵌入向量的维度可以根据任务需求进行灵活调整,以适应不同的应用场景。

最后,我想强调的是,Embedding层只是深度学习中的一个组成部分,它的作用和价值需要与其他网络层相结合才能充分发挥。因此,在学习和使用Embedding层时,我们需要深入理解其背后的原理和实现细节,并结合具体任务和数据集进行实践和调整。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1808291.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于JSP的健身俱乐部会员管理系统的设计与实现

【免费】基于JSP的健身俱乐部会员管理系统.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89416957 基于JSP的健身俱乐部会员管理系统的设计与实现 摘 要 目前我国虽然己经开发出了应用计算机操作的健身俱乐部管理系统,但管理软件,管理方…

Flutter 实现dispose探测控件

文章目录 前言一、什么是dispose探测控件?1、通常情况2、使用dispose探测控件 二、如何实现1、继承StatefulWidget2、定义dipose回调3、定义child4、重载Dispose方法5、build child 三、完整代码四、使用示例1、基本用法2、设置定义数据 总结 前言 开发flutter一般…

LabVIEW调用DLL时需注意的问题

在LabVIEW中调用DLL(动态链接库)是实现与外部代码集成的一种强大方式,但也存在一些常见的陷阱和复杂性。本文将从参数传递、数据类型匹配、内存管理、线程安全、调试和错误处理等多个角度详细介绍LabVIEW调用DLL时需要注意的问题,…

第1回 最开始的两行代码

当你按下开机键的那一刻,在主板上提前写死的固件程序BIOS会将硬盘启动区中的512(B)的数据,原封不动地复制到内存中的0x7c00这个位置,并跳转到那个位置: 下面我们针对每一步做详细介绍. 开机后初始化指向BIOS CPU中有一个PC寄存器,里面存储这将要执行的指令在内存中的地…

推测性解码:加速多模态大型语言模型的推理

大模型(LLMs)以其卓越的性能在多个应用场景中大放异彩。然而,随着应用的深入,这些模型的推理速度问题逐渐凸显。为了解决这一挑战,推测性解码(Speculative Decoding, SPD)技术应运而生。本文深入…

ROS geometry_msgs和sensor_msgs

ROS geometry_msgs和sensor_msgs geometry_msgs geometry_msgs 是 ROS(Robot Operating System)中用于几何计算和空间表示的一个核心消息包。它定义了一系列消息类型,用于表示位置、方向、速度等几何概念。以下是一些 geometry_msgs 中定义…

Tessy学习系列(三):单元测试——官方例程isValueInRange

一、工程创建 (1)新建工程 注意:工程名称以及路劲不能包含空格和中文 (2)新建测试集与单元测试模块 新建测试集 新建单元测试模块 设置测试模块为单元测试模块并选择GNU GCC编译器如果需要其他的编译器,…

SSM物流管理系统的设计与实现-计算机毕业设计源码44323

摘 要 科技进步的飞速发展引起人们日常生活的巨大变化,电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流,人类发展的历史正进入一个新时代。在现实运用中,应用软件的工作…

vue-router全部搞定(附源码)

源码下载链接(先转存,后下载):https://pan.quark.cn/s/b0c6edd68c21 怎么用vue-cli搭建项目 我们固然可以用传统htmljs的方式来搭建vue项目,但是如果组件很多,就需要通过Vue.component的方式一个个去引入…

flask实现抽奖程序(一)

后端代码E:\LearningProject\lottery\app.py from flask import Flask, render_template import randomapp Flask(__name__)employees [赵一, 钱二, 孙三, 李四, 周五, 吴六, 郑七, 王八]app.route(/) def hello_world():return render_template(index.html, employeesemplo…

14.《C语言》——【牛客网BC116—BC123题目讲解】

亲爱的读者,大家好!我是一名正在学习编程的高校生。在这个博客里,我将和大家一起探讨编程技巧、分享实用工具,并交流学习心得。希望通过我的博客,你能学到有用的知识,提高自己的技能,成为一名优…

【语音告警】Zabbix语音播报-报警媒介部分配置-语音报警灯|声光报警器|网络信号灯

阅读说明 本文为博灵语音通知终端与Zabbix报警媒介的配置,对接完成后可以实现Zabbix的声光语音告警,播报效果可以参考 Modbus-博灵语音通知终端与PLC联动告警介绍 对接前需配置好通知终端的IP地址,设备参数参见 其他完整的Zabbix语音播报报…

重邮计算机网络803-(2)物理层

一.物理层 1.介绍 物理层的主要任务描述为确定与传输媒体的接口的一些特性,即: ①机械特性 指明接口所用接线器的形状和尺寸、引线数目和排列、固定和锁定装置等等。 ②电气特性 指明在接口电缆的各条线上出现的电压的范围。 ③功能特性 指明某条线上…

Long-Context LLM综述

目录 前言1. Preliminary2. 方法分类3. 长度外推3.1 位置外推和插值位置外推插值 3.2 上下文窗口分割与滑动3.3 提示压缩 4. 注意力近似4.1 低秩分解4.2 稀疏注意力4.3 Softmax-free Attention 5. Attention-free Transformers5.1 状态空间模型(State Space Model, SSM)5.2 位置…

Redis实战——创建账户及连接数据库

一、创建一个新账户 要创建一个带有免费数据库的新账户,请按照以下步骤操作: 前往 Redis Cloud 的注册页面。有两种开始使用 Redis Cloud 的选项: 在表单中输入您的信息,然后选择“Get Started”(开始使用&#xff…

PR如何让音频淡入淡出

PR如何让音频淡入淡出 方法一:效果控件关键帧方法二:音频轨道关键帧 以淡入为例,介绍如何设置淡入的两种方法,推荐使用第二种。淡出效果类似。 方法一:效果控件关键帧 选中音频,点击效果控件 在淡入结束的…

差动放大器

差动器的出现是为了解决直接耦合电路存在的零点漂移问题,另外,差动放大器还有灵活的输入,输出方式。 一,基本差动放大器 差动放大器在电路结构上具有对称性,三极管VT1,VT2同型号,R1R2,R3R4,R5…

Web学习_SQL注入_布尔盲注

盲注就是在SQL注入过程中,SQL语句执行后,查询到的数据不能 回显到前端页面。此时,我们需要利用一些方法进行判断或者尝 试,这个过程称之为盲注。而布尔盲注就是SQL语句执行后,页面 不返回具体数据,数据库只…

SQL(一)基本语法

文章目录 一、Sql 语言基本特点二、数据查询(按执行顺序排列)1. From & Join2. Where3. Group by4. Having5. Select6. Distinct7. Order by8. Limit/ Offset 三、功能公式1. 字符处理2. 时间处理3. 统计计算 一、Sql 语言基本特点 不区分大小写分号…

平面设计神器CorelDRAW2021精简版,你值得拥有!

亲爱的设计师小伙伴们,今天我要为大家种草一款神奇的软件——CorelDRAW平面设计软件2021精简版!🤩✨作为一名专业的图形设计师,我深知一个好工具对于我们的工作有多么重要。而这款软件简直就是我们设计师的救星!&#…