【机器学习300问】127、怎么使用词嵌入?

news2024/10/6 12:26:35

        在探讨如何使用词嵌入之前,我们首先需要理解词嵌入模型的基础。之前的文章已提及,词嵌入技术旨在将文本转换为固定长度的向量,从而使计算机能够解析和理解文本内容。可以跳转下面链接去补充阅读哦!

【机器学习300问】126、词嵌入(Word Embedding)是什么意思?icon-default.png?t=N7T8https://blog.csdn.net/qq_39780701/article/details/139803883        那么,词嵌入模型又是什么呢?简而言之,词嵌入模型是一套特定的方法(通常是深度学习算法),它通过这些方法生成一个词嵌入矩阵。这个矩阵究竟是什么呢?它实际上是由一系列词嵌入向量组合而成的,每个向量代表一个词汇,从而构成了一个独特的词汇表示矩阵。更多的细节在下文中逐一展开。

一、词嵌入矩阵

一上来直接看词嵌入矩阵长什么样:

嵌入矩阵

        词嵌入矩阵长什么样子其实很清楚,没什么神秘的,但知道它张什么样并不是最关键的。关键点在于它的本质是什么?它怎么来的?以及它有什么用?想要回答出这些问题就得先从最一开始的问题:如何才能让计算机读懂人类的文字?实际上众多NLP概念都上从这个问题出发的,始终带着这个最初问题去学习,能让你有清晰的感受,解答众多“为什么这样做?”的疑惑。

(1)词嵌入矩阵的本质

        词嵌入矩阵,本质是一个词汇表,就是把词向量堆叠了起来,它的行数对应词汇表中词的数量,列数则是词嵌入的维度,即每个词向量的长度。矩阵中的每个元素代表了词汇表中某个词的一个特定维度上的值。

        例如上图中,词汇表有5000个不同的词,且词嵌入维度设为128,那么词嵌入矩阵就是一个5000行 x 128列的矩阵。计算机要想读懂某个词,通过查找词汇表中每个词的索引,就可以直接从矩阵中获取其对应的词嵌入向量。

(2)词嵌入矩阵怎么构建的?

        上面说到了词嵌入矩阵本质是一个特殊的词汇表(能让计算机真正读懂文字的词汇表),词嵌入矩阵通常是词嵌入机器学习算法在训练过程中动态学习得到。这一部分比较庞大,而且很重要,所以我单独写一篇文章来说,这里先简单提一下。矩阵可以通过无监督学习方法(如Word2Vec、GloVe)预先训练好,然后固定或微调使用。

        生成词嵌入矩阵的算法模型,被叫做“词嵌入模型或词嵌入算法”如:Word2Vec

(3)词嵌入矩阵有什么用?

        词嵌入矩阵E一旦构建完成后,通过与分词后的One-Hot编码矩阵进行运算,即可得到每一个词的词向量。

词嵌入矩阵的使用方式

用数学公式表达:

O_j \cdot E = e_j 

        其中,O_j是指某个词的one-hot编码, E是词嵌入矩阵,e_j是指这个词对应的词向量。

        这里讲的“有什么用?”不是指嵌入矩阵能用在什么地方,而是特指:词嵌入矩阵能够和one-hot编码向量相乘得到该词的词向量。

求出的结果是每个词的词向量

二、 怎么使用词嵌入?

        使用词嵌入技术通常有固定的基本步骤,下面就逐一介绍:

(1)基本步骤说明

① 选择或构建词嵌入模型

  • 选择现有模型:如Word2Vec、GloVe、FastText等,这些是预训练好的词嵌入模型,可以直接下载使用。
  • 自定义训练:如果你的领域有特定的语言习惯或术语,可能需要基于自己的语料库训练词嵌入模型。

② 准备语料库

  • 清洗和预处理文本数据,去除噪声,如标点符号、数字、停用词等。
  • 可能需要分词,尤其是对于非英语语言,如中文需要进行分词处理。

③ 构建词汇表并编码

  • 将语料库中所有出现过的单词或短语对应一个唯一的索引。
  • 利用这个索引,将词汇编码成一个One-Hot词汇表。

④ 转换文本为向量表示(词嵌入)

  • 将One-Hot编码通过与嵌入矩阵相乘得到想要词汇的词向量。
  • 然后你还可以采用平均法、加权平均法或者使用RNN/LSTM等模型结合上下文信息来聚合单个词向量为整个句子或文档的向量表示。

(2)举例说明

        用一个简化的过程来说明,如何使用词嵌入技术处理句子“我喜欢学习数学”,并假设有一个词汇表大小为5000,每个词的嵌入维度为128的词嵌入矩阵。

① 步骤1:选择一个现有的模型

② 步骤2:准备语料库

        使用只有一句话的语料库,简单说明一下。s=“我喜欢学习数学”

③ 步骤3:文本预处理

  • 分词:将句子“我喜欢学数学”分词为["我", "喜欢", "学习", "数学"]
  • 构建词汇表索引:假设这四个词都在我们的5000词词汇表内,且分别对应索引1、2、3、5000。
  • 进行One-Hot编码:将词语使用One-Hot进行编码,产生一个词汇矩阵V

③ 步骤3:文本转为向量(词嵌入)

假设我们已有一个(5000, 128)的词嵌入矩阵E,其中每一行代表一个词的128维向量。

通过运算得出想要的词向量:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1842097.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C#.Net筑基-集合知识全解

01、集合基础知识 .Net 中提供了一系列的管理对象集合的类型,数组、可变列表、字典等。从类型安全上集合分为两类,泛型集合 和 非泛型集合,传统的非泛型集合存储为Object,需要类型转。而泛型集合提供了更好的性能、编译时类型安全…

【Jenkins】构建失败重试插件Naginator

Jenkins的Naginator插件是一个用于在构建失败后自动重新调度构建的插件。以下是对Naginator插件的详细介绍: 1. 插件功能 自动重试构建:当Jenkins上的某个构建任务失败时,Naginator插件可以自动重新调度该构建任务,以尝试解决由于…

【扫雷游戏】C语言教程

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…

sklearn之各类朴素贝叶斯原理

sklearn之贝叶斯原理 前言1 高斯朴素贝叶斯1.1 对连续变量的处理1.2 高斯朴素贝叶斯算法原理 2 多项式朴素贝叶斯2.1 二项分布和多项分布2.2 详细原理2.3 如何判断是否符合多项式贝叶斯 3 伯努利朴素贝叶斯4 类别贝叶斯4 补充朴素贝叶斯4.1 核心原理4.2 算法流程 前言 如果想看…

示例:应用DependencyPropertyDescriptor监视依赖属性值的改变

一、目的:开发过程中,经常碰到使用别人的控件时有些属性改变没有对应的事件抛出,从而无法做处理。比如TextBlock当修改了IsEnabled属性我们可以用IsEnabledChanged事件去做对应的逻辑处理,那么如果有类似Background属性改变我想找…

【Spine学习13】之 制作受击动画思路总结(叠加颜色特效发光效果)

绑定IK腿部骨骼容易出错的一种方式, 要记住 如果按照错误方式绑定骨骼,可能移动IK约束的时候会另腿部的弯曲方向相反了 : 上节分享了攻击动作的制作思路总结, 这节总结受击思路。 第一步: 创建一个新的动画&#xff1…

无需科学上网:轻松实现国内使用Coze.com平台自己创建的Bot(如何实现国内免费使用GPT-4o/Gemini等最新大模型)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 如何在国内使用 Coze.com 创建的 Bot 📒📝 创建Bot📝 实现国内使用📝 测试⚓️ 相关链接 ⚓️📖 介绍 📖 Coze.com 是一个强大的平台,允许用户创建各种类型的 Bot。然而,许多国内用户可能会遇到访问问题,导致无法…

【原创教程】汇川H5U PLC控制伺服的方法(小白篇)

1、伺服驱动器SV660在软件上的配置,右击运动控制轴-添加轴(如下图所示)。 2、新建后出现Asix-0,双击进入基本设置,在输出设备中进行分配,其他选项默认不改(如下图所示)。 3、在单位换算设置上只需要修改脉冲数和移动量(根据伺服配套导轨上名牌进行设置),其他设置默…

【论文笔记】Parameter-Effificient Transfer Learning for NLP

题目:Parameter-Effificient Transfer Learning for NLP 阅读 文章目录 0.摘要1.引言2 Adapter tuning for NLP3 实验3.1 参数/性能平衡3.2 讨论 4.相关工作 0.摘要 克服微调训练不高效的问题,增加一些adapter模块,思想就是固定原始的网络中的参数&…

我工作中用Redis的10种场景

Redis作为一种优秀的基于key/value的缓存,有非常不错的性能和稳定性,无论是在工作中,还是面试中,都经常会出现。 今天这篇文章就跟大家一起聊聊,我在实际工作中使用Redis的10种场景,希望对你会有所帮助。 …

使用dify.ai做一个婚姻法助手

步骤 1:注册并登录 Dify.ai 访问 Dify.ai 官网,注册一个账号并登录。 步骤 2:创建新项目 登录后,点击“创建新项目”。为项目命名,例如“婚姻法助手”。 步骤 3:导入婚姻法文本到知识库 在项目中&…

如何快速部署泛域名SSL证书

部署泛域名SSL证书的方法主要有购买通配符SSL证书、申请表格并生成CSR、验证域名和身份、下载并安装证书等步骤。在当今数字化时代,确保网站的安全性已经成为网站运营者以及访问者所共同关注的重要问题。 1、选择证书提供商 选择一个提供泛域名(通配符&…

计算机组成原理必备知识点

计算机组成原理必备知识点 前言 本文档由本人复习计算机组成原理期末考试所总结,所有习题以及知识点的页数参考2025年王道计算机组成原理 中断处理过程 硬件完成 1.关中断 2.保存断点 3.中断服务程序寻址 中断程序完成 4.保存现场和屏蔽字 5.开中断 6.执…

最实战的GLM4微调入门:从文本分类开始

GLM4是清华智谱团队最近开源的大语言模型。 以GLM4作为基座大模型,通过指令微调的方式做高精度文本分类,是学习LLM微调的入门任务。 使用的9B模型,显存要求相对较高,需要40GB左右。 在本文中,我们会使用 GLM4-9b-Chat…

嵌入式开发二十:定时器之基本定时器

定时器是微控制器中的关键外设,用于精确控制时间和事件。通过配置时钟源、预分频器、计数周期和比较值,可以实现各种时间控制任务,如定时中断、PWM生成和时间测量。理解定时器的工作原理和配置方法是嵌入式系统开发中的基本技能。 STM32F407 …

转让神州开头的无区域科技公司需要多少钱

您好,我公司现有2家无区域神州名称的公司转让。所谓无区域名称是公司名称中不带有行政区划、及行业特点的公司名称,都是需要在工商总,局核准名称的,对于民营企业来说也比较喜欢这种名称名称很大气,现在重核更严格了,所…

期货止损口诀需牢记

实战操作难免错,心中不必一团火; 出错认输是常事,亏损不止闯大祸。 止损纪律要定死,价格不能差豪丝; 触及止损要出局,管它价格怎放肆。 强势多空价放宽,价格波动要空间; 大势不改…

OpenAI 前首席科学家 Ilya Sutskever 成立新人工智能公司

OpenAI 联合创始人之一 Ilya Sutskever 在正式离开 OpenAI 一个月后,成立了一家新公司 Safe Superintelligence Inc. (SSI)。Sutskever 是 OpenAI 的长期首席科学家,他与前 Y Combinator 合伙人 Daniel Gross 以及前 OpenAI 工程师 Daniel Levy 共同创立…

[SAP ABAP] MESSAGE消息处理

常用的MESSAGE命令的字符 信息类型描述EError 出现错误消息,应用程序在当前点暂停 WWarning 出现警告消息,用户必须按Enter键才能继续应用程序 IInformation 将打开一个弹出窗口,其中包含消息文本,用户必须按Enter键才能继续 SSu…

watcher学习小结

架构 主要是watcher-api,watcher-applier,watcher-decision-engine watcher-applier watcher-decision-engine 将DecisionEngineManager和DecisionEngineSchedulingService封装到oslo_service,然后调service的launch_service,实…