【机器学习300问】126、词嵌入(Word Embedding)是什么意思?

news2025/2/28 3:14:17

        人类的文字,作为一种高度抽象化的符号系统,承载着丰富而复杂的信息。为了让电脑也能像人类一样理解并处理这些文字,科学家们不断探索各种方法,以期将人类的语言转化为计算机能够理解的格式。

一、One-Hot编码的不足

        在自然语言处理发展的早期,给文字进行编码是处理文本数据的主要手段。其中,One-Hot编码是一种简单直观的方法,它将每个单词或字符映射为一个独特的二进制向量,该向量的长度等于词汇表的大小,并且只有一个位置是1(表示该单词或字符),其余位置都是0。像是下面这样:

        假设我有一个四个单词的字典,分别存放了“man”、“woman”、“king”、“queen”这四个单词。我们可以为每个词分配一个唯一的索引(假设“man”为0,“woman”为1,“king”为2,“queen”为3),然后基于这个索引来创建一个向量,其中对应索引的位置为1,其余位置为0。

  • man[1, 0, 0, 0]
  • woman[0, 1, 0, 0]
  • king[0, 0, 1, 0]
  • queen[0, 0, 0, 1]

        但这样做电脑就真的理解了文字所蕴含的意义了吗?文字与文字之间的关系电脑能读懂吗?真实的世界中字词数量浩如烟海,计算机能处理过来吗?One-Hot编码存在着明显的不足:

  1. 高维稀疏性:每个词被编码为一个长向量,除了代表该词的那个位置为1,其余均为0,导致向量极其稀疏。对于词汇量大的语言而言,这种编码方式需要极高的维度,造成存储和计算资源的大量浪费。

  2. 缺乏语义信息:One-hot编码完全忽略了词与词之间的语义关系。每个词被视为独立的实体,即使含义相近的词(如“快乐”与“愉快”)在向量空间中也表现为正交,无法通过向量的距离或相似度来衡量它们的语义相似性。

  3. 无法捕捉上下文信息:在实际语言使用中,词的意义往往依赖于其上下文环境。One-hot编码无法体现这种上下文的变化,同一词语在不同句子中的语境差异无法通过编码反映出来。

  4. 模型复杂度增加:由于向量的高维性,基于One-hot编码的模型往往需要处理大量的参数,这不仅增加了计算复杂度,也可能导致过拟合问题。

二、自然语言处理中的词嵌入是什么意思?

(1)词嵌入的定义

        词嵌入(Word Embedding)是自然语言处理(NLP)中一种表示文本中单词的方法。词嵌入的核心思想是将单词或短语映射为固定长度的连续向量。这些向量能够捕捉词之间的语义和句法关系。

词嵌入方法的关键思想是将单词表示为高维空间中的点,这些点的位置由单词的意义决定。

高维向量空间画不出来,这里用3D的示意一下

上图直观的感受到,词汇表中的每个词映射到一个高维向量空间中的一个点。

(2)词嵌入的作用

        高维的连续向量空间中的每个点(向量)代表一个词。词嵌入的作用主要包括以下几个方面:

① 降低模型维度

        作为深度学习模型的输入,词嵌入相比传统的独热编码(One-hot Encoding)能大幅度减少模型的维度,降低计算复杂度,同时提供更多的语义信息,从而提升诸如文本分类、情感分析、机器翻译等任务的性能。

② 捕获语义信息

        词嵌入能够捕捉词语的语义特征,使得具有相似意义的词语在向量空间中距离较近。例如,“猫cat”和“小猫kitten”的词嵌入向量会比“猫cat”和“房子houses”的向量更接近。

        可以通过t-SNE算法将高维空间中的词映射到低纬空间中,便于可视化和探索词汇关系。 t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非线性降维技术,尤其擅长于将高维空间中的数据点映射到二维或三维的空间中,同时尽可能保持原数据点之间的局部邻近关系。

③ 支持向量运算

        词嵌入允许对词语进行数学运算,比如向量加减可以表达某种语义上的关系。例如“King - Man + Woman = Queen”,这样的运算在某些词嵌入模型中能得出有意义的结果。

 计算两个向量的相似度,通常使用余弦相似度来表示:

        余弦相似度的值域在-1到1之间。值为1表示两个向量完全相同(方向一致),值为0表示两者正交(无相关性),值为-1则意味着两个向量方向完全相反。在实际应用中,正值表示某种程度的相似性,值越接近1相似度越高;负值虽然理论上可能出现,但在大多数自然语言处理任务中,由于向量通常是正向量,所以很少遇到。

④ 支持迁移学习

        预训练的词嵌入模型(如Word2Vec、GloVe、FastText等)可以被用作其他NLP任务的起点,使得模型能够在没有大量标注数据的情况下也能学到高质量的文本表示,实现迁移学习的效果。

(3)词嵌入中“嵌”字怎么理解?

        词嵌入中的“嵌”字,是指在一个高维向量空间中,一个词就好像嵌入其中一样。它形象地描述了将词语从高维的离散表示(如one-hot独热编码)转换并“嵌入”到一个低维的连续向量空间的过程。在这个过程中,每个词语不再是一个孤立的符号,而是变成了一个在多维空间中有具体位置的向量,这个向量蕴含了词语的语义信息和上下文关联。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1841387.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每月策略会议

周一顾问策略会议,对于企业辅导而言,领导力是可以培训的,而决策力不是靠培训就能达成,是需要反复训练和反思。从最为关心的一个状况出发,去行动才会有结果,有了结果反思我们的假设是否有盲区是否有误才有可…

LVGL开发教程-Grid(网格布局)

系列文章目录 知不足而奋进 望远山而前行 目录 系列文章目录 文章目录 前言 1. 常用方法 2. 代码实现 总结 前言 网格布局(Grid Layout)是一种强大的布局方式,它允许将项目按照行和列的二维表格方式进行排列。LVGL(Little…

分布式之日志系统平台ELK

ELK解决了什么问题 我们开发完成后发布到线上的项目出现问题时(中小型公司),我们可能需要获取服务器中的日志文件进行定位分析问题。但在规模较大或者更加复杂的分布式场景下就显得力不从心。因此急需通过集中化的日志管理,将所有服务器上的日志进行收集汇总。所以ELK应运而生…

Android Glide, first start based on loadThumbnail, Kotlin(二)

Android Glide, first start based on loadThumbnail, Kotlin(二) Android Glide, first start based on loadThumbnail, Kotlin(一)中有个小问题,通过loadThumbnail()采集到的缩略图真的就是整张图片的完整缩略图&…

NET Core C# 中的Action委托:语法、用法和示例_2024-06-19

Action委托是一个内置的泛型委托类型。此委托使您的程序更具可读性和效率,因为您无需定义自定义委托,如以下示例所示。 它在 System 命名空间下定义。它没有输出参数,输入参数最少为 1 个,最多为 16 个。 Action委托通常用于具有…

高压电阻器支持牙科 X 射线成像的准确性

为了捕获患者牙齿和颌骨的足够图像,牙医依靠锥形束计算机断层扫描 (CBCT) 系统的先进 3D 成像。CBCT系统的输出对于准确诊断口腔健康问题和随后的治疗计划至关重要。为了确保这些图像的可靠性,CBCT系统制造商利用了Exxelia Ohmcra…

【bug】配置SpringCloudAlibaba AI的maven依赖问题

问题描述 尝鲜alibaba的ai模块,maven依赖一直报找不到包,报错如下 Unresolved dependency: org.springframework.ai:spring-ai-core:jar:0.8.1原因分析: 由于是按照官方文档配置的,所以检查了很多遍maven配置,加上去…

给电脑bios主板设置密码

增强安全性:防止未经授权的人员更改 BIOS 中的重要设置,如启动顺序、硬件配置等。这有助于保护计算机系统的稳定性和数据的安全性。防止恶意篡改:阻止可能的攻击者或恶意软件通过修改 BIOS 设置来破坏系统或获取敏感信息。数据保护&#xff1…

阿里云 debian10.3 sudo apt-get updat 报错的解决方案

阿里云全新的debian10.3(buster)镜像,却无法正常执行 sudo apt-get update。主要报错信息如下: Err:6 http://mirrors.cloud.aliyuncs.com/debian buster-backports Release404 Not Found [IP: 100.100.2.148 80] Err:3 http://mirrors.cloud.aliyuncs…

【JavaEE 进阶(五)】SpringBoot日志

❣博主主页: 33的博客❣ ▶️文章专栏分类:JavaEE◀️ 🚚我的代码仓库: 33的代码仓库🚚 🫵🫵🫵关注我带你了解更多进阶知识 目录 1.前言2.日志使用2.1打印日志2.2 门面模式(外观模式)2.3SLF4J框架2.4日志格式说明 3.Sl…

MySQL----配置主从复制

环境 master(CtenOS7):192.168.200.131 ----ifconfig查看->ens33->inet slave(win10):192.168.250.52 ----ipconfig查看->无线局域网适配器 WLAN:-> IPv4 地址 保证两个环境中MySQL版本一致 网络互通 win:ping 192.168.200.13…

NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解

1. MindSQL(库) MindSQL 是一个 Python RAG(检索增强生成)库,旨在仅使用几行代码来简化用户与其数据库之间的交互。 MindSQL 与 PostgreSQL、MySQL、SQLite 等知名数据库无缝集成,还通过扩展核心类,将其功能扩展到 Sn…

【五子棋】C语言教程

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…

webhook-k8s API和apimachinery版本高于Client-go

1. 问题 使用go mod tidy 存在丢弃的版本 go: downloading github.com/josharian/intern v1.0.0 go: finding module for package k8s.io/api/flowcontrol/v1alpha1 go: simple-webhook/types importsk8s.io/client-go/rest tested byk8s.io/client-go/rest.test importsk8s.…

大数据-数据分析初步学习,待补充

参考视频:数据分析只需3小时从入门到进阶(up亲身实践)_哔哩哔哩_bilibili 数据指标: 对当前业务有参考价值的统计数据 分类:用户数据,业务数据,行为数据 用户数据 存量: DAU&#…

基于Vue3.0 Node.js 的 大文件切片上传、秒传、断点续传实现方案梳理

✨💻 在处理大文件上传时,切片上传是提高效率与用户体验的关键技术之一。下面将详细介绍如何在前端利用Vue框架与Node.js后端配合,实现这一功能。 👆🏻大体流程 👆🏻一、文件切片上传 通过文件…

43、基于神经网络拟合函数的体脂估计(matlab)

1、神经网络拟合函数的原理及流程 神经网络拟合函数是一种基于人工神经元之间相互连接的模型,用来拟合复杂的非线性函数关系。其原理是通过多层次的神经元网络,每一层神经元通过激活函数将输入信号加权求和后输出,经过多次迭代优化权值&…

Java 集合框架详谈及代码分析(Iterable->Collection->List、Set->各接口实现类、Map->各接口实现类)

目录 Java 集合框架详谈及代码分析(Iterable->Collection->List、Set->各接口实现类、Map->各接口实现类)1、集合概述1-1:Java 集合概述1-2:List、Set、Map 三者的区别?1-3:集合框架底层数据结…

python电灯开关 青少年编程电子学会python编程等级考试三级真题解析2021年12月

python电灯开关 2021年12月 python编程等级考试级编程题 一、题目要求 1、编程实现 n个灯排成一排,开始时都是关着的。现进行如下操作: 所有电灯的按钮按动一次;所有编号为2的倍数的电灯按钮按动一次;所有编号为3的倍数的电灯的按钮按动一次: …所有编号为n-1的…

LeetCode 算法:删除链表的倒数第 N 个结点 c++

原题链接🔗:删除链表的倒数第 N 个结点 难度:中等⭐️⭐️ 题目 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 示例 1: 输入:head [1,2,3,4,5], n 2 输出&#xff1a…