词向量（One-Hot Encoding、Word Embedding、Word2Vec）

词向量（One-Hot Encoding、Word Embedding、Word2Vec）

news2026/3/26 1:21:10

词向量，顾名思义，用向量表示单词。

1、One-Hot Encoding

One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

在这里插入图片描述

python 代码示例：

from sklearn import preprocessing  
   
enc = preprocessing.OneHotEncoder()  
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])  # 训练。这里共有4个数据，3种特征
   
array = enc.transform([[0,1,3]]).toarray()  # 测试。这里使用1个新数据来测试
   
print array   # [[ 1  0  0  1  0  0  0  0  1]] # 独热编码结果

*后面参考文献有对代码进行解释

使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。

2、Word Embedding

由于 One-Hot Encoding 表示的词向量无法解决词之间相似性问题（即词与词之间的关系）。
然而，通过 One-Hot Encoding 表示的词向量输入神经网络语言模型中，得到新的词向量可以解决词之间相似性问题（即可以采用余弦相似度等方法计算两个词之间的相似度）。

在这里插入图片描述

Word Embedding 例子：

当一个单词表达成 Word Embedding 后，很容易找出语义相近的其它词汇。

Word Embedding

3、Word2Vec

Word2Vec 是 Word Embedding 语言模型之一。

在这里插入图片描述

Word2Vec 有两种训练方法：
第一种叫 CBOW，核心思想是从一个句子里面把一个词抠掉，用这个词的上文和下文去预测被抠掉的这个词；
第二种叫做 Skip-gram，和 CBOW 正好反过来，输入某个单词，要求网络预测它的上下文单词。

[REFERENCE]

数据预处理：独热编码（One-Hot Encoding）和 LabelEncoder标签编码
机器学习数据预处理1：独热编码（One-Hot）及其代码
机器学习之独热编码（One-Hot）详解（代码解释）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2058178.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

回归预测|基于雪消融优化相关向量机的数据回归预测Matlab程序SAO-RVM 多特征输入单输出 SAO-RVM

回归预测|基于雪消融优化相关向量机的数据回归预测Matlab程序SAO-RVM 多特征输入单输出 SAO-RVM

回归预测|基于雪消融优化相关向量机的数据回归预测Matlab程序SAO-RVM 多特征输入单输出 SAO-RVM 文章目录前言回归预测|基于雪消融优化相关向量机的数据回归预测Matlab程序SAO-RVM 多特征输入单输出 SAO-RVM 一、SAO-RVM模型1. 基本模型原理2. 贝叶斯框架3. 模型优化流程4. 总…

阅读更多...

AI 智能体：从普通人到《黑神话:悟空》，保姆级教程让你瞬间变身！

AI 智能体：从普通人到《黑神话:悟空》，保姆级教程让你瞬间变身！

大家好，我是木川今天还没下班，就看到一款名为《黑神话:悟空》的游戏火爆全网，唤醒了无数玩家对大圣孙悟空的崇拜与向往。游戏中，悟空的七十二变让人叹为观止，但你是否想过，借助AI的力量，我们也…

阅读更多...

Kimi + 小爱音箱，我家宝贝的新聊天伙伴。

Kimi + 小爱音箱，我家宝贝的新聊天伙伴。

给儿子制作了一个特别版的小爱音箱，它集成了 Kimi 大模型，他对这个聪明的音箱简直着迷到不行，整天跟它聊天，问东问西。希望这个玩具不仅能激发起他对 AI 的浓厚兴趣，最好还能让他对我这个老爸有那么一点点的崇拜&…

阅读更多...

函数进阶—python

函数进阶—python

一、函数如何返回多个返回值如果想让一个函数有多个返回值，该怎么办？ 返回多个数据，按照返回值的顺序，用对应顺序的多个变量接收即可，变量之间用逗号隔开，支持不同类型的数据return，如下列代…

阅读更多...

GATK SampleList接口介绍

GATK SampleList接口介绍

在 GATK 中，SampleList 是一个接口，用于表示一个样本列表。这些样本通常是在基因组分析过程中被处理的不同生物样本。SampleList 接口提供了访问这些样本的一些基本方法，通常用于多样本分析任务，比如变异检测或基因组重测序。 Sa…

阅读更多...

入门request请求库使用

入门request请求库使用

基础条件想要入门request 打开pycharm的终端查看是否在虚拟环境下在路径前面是否有（venv） 如果没有需要先配置虚拟环境然后在终端中输入 pip install request 等待下载完成后就在我们的项目中导入基本用法 1.发送GET请求 import requestsurl…

阅读更多...

【C#】去掉字符串中的第一或最后一位

要去掉字符串中的第一或最后一位，可以使用以下几种方法： 1. 去掉第一位如果想去除字符串的第一位，同样可以使用 Substring 方法。 1.1 使用 Substring 方法 string str "8,"; if (str.Length > 0) {str str.Substring(1)…

阅读更多...

如何利用AI创作高质量的文章

如何利用AI创作高质量的文章

讯飞星火利用AI创作高质量的文章需要遵循以下步骤： 确定主题和目标受众：在开始写作之前，明确文章的主题和目标受众。这将帮助你确定文章的风格、结构和内容。收集资料和信息：在撰写文章之前，进行充分的研究&#x…

阅读更多...

推荐一款基于Spring Boot + VUE 框架开发的分布式文件管理系统，功能齐全、实用便捷（附源码）

推荐一款基于Spring Boot + VUE 框架开发的分布式文件管理系统，功能齐全、实用便捷（附源码）

前言在数字化时代，文件管理是企业和个人用户的基本需求。然而，现有的文件管理系统往往存在一些痛点，如存储空间有限、文件共享困难、缺乏在线编辑功能、移动端适配性差等。这些问题限制了用户在不同设备和场景下的文件处理能力。为了解-决…

阅读更多...

利用开源项目加速AI+绘画设计与AI+视频生成的商业化进程

利用开源项目加速AI+绘画设计与AI+视频生成的商业化进程

随着生成式人工智能技术的发展，越来越多的工具被开发出来，用于辅助创意工作者创作出令人惊叹的作品。本文将介绍两个开源项目——一个专注于将ComfyUI工作流转换为商业化的移动应用和网页，另一个则聚焦于利用AI技术简化视频创作过程。这两个项目不仅为创作者提供了强大的工具…

阅读更多...

【Linux】2.Linux常见指令以及权限理解（1)

【Linux】2.Linux常见指令以及权限理解（1)

文章目录 1.Xshell的一些快捷键操作2.Linux指令2.1常用指令示例2.2常用指令选项2.2.1 ls指令2.2.2 cd/pwd/shoami指令2.2.3 touch指令2.2.4 mkdir指令2.2.5 rmdir指令2.2.6 rm指令 1.Xshell的一些快捷键操作 Xshell： altenter：Xshell自动全屏&#xff0c…

阅读更多...

远程在线诊疗小程序的设计

远程在线诊疗小程序的设计

管理员账户功能包括：系统首页，个人中心，用户管理，医生管理，科室信息管理，科室类型管理，患者信息管理，通知公告管理，医院介绍，系统管理微信端账号功能包括&a…

阅读更多...

【吊打面试官系列-Memcached面试题】memcached 如何处理容错的？

【吊打面试官系列-Memcached面试题】memcached 如何处理容错的？

大家好，我是锋哥。今天分享关于【memcached 如何实现冗余机制？ 】面试题，希望对大家有帮助； memcached 如何实现冗余机制？ 不处理！ 在 memcached 节点失效的情况下，集群没有必要做任何容错处理…

阅读更多...

机器人测试自动化智能化交流沙龙 —— 免费参与，线上线下同步进行，探索未来科技新篇章！

机器人测试自动化智能化交流沙龙 —— 免费参与，线上线下同步进行，探索未来科技新篇章！

在这个科技日新月异的时代，机器人技术正以前所未有的速度推动着各行各业的变革。而在这场变革中，如何确保机器人系统的稳定性、可靠性及高效性，成为了每一个从业者必须面对的重要课题。为此，我们特地在成都这座充满活力的城市&…

阅读更多...

ok,boomer xss的dom破坏

ok,boomer xss的dom破坏

一、首先什么是dom破坏在HTML中，如果使用一些特定的属性名（id、name）给DOM元素命名，这些属性会在全局作用域中创建同名的全局变量，指向对应的DOM元素。这种行为虽然有时可以方便地访问元素，但也会引发一些…

阅读更多...

【Linux】Linux环境基础开发工具使用之Linux调试器-gdb使用

【Linux】Linux环境基础开发工具使用之Linux调试器-gdb使用

目录一、程序发布模式1.1 debug模式1.2 release模式二、默认发布模式三、gdb的使用结尾一、程序发布模式程序的发布方式有两种，debug模式和release模式 1.1 debug模式目的：主要用于开发和测试阶段，目的是让开发者能够更容易地调试和跟…

阅读更多...

【Go】实现字符切片零拷贝开销转为字符串

【Go】实现字符切片零拷贝开销转为字符串

package mainimport ("fmt""unsafe" )func main() {bytes : []byte("hello world")s : *(*string)(unsafe.Pointer(&bytes))fmt.Println(s)bytes[0] Hfmt.Println(s) }slice的底层结构是底层数组、len字段、cap字段。string的底层结构是底层…

阅读更多...

第1章-04-Chrome及Chrome Driver安装及测试

第1章-04-Chrome及Chrome Driver安装及测试

🏆作者简介，黑夜开发者，CSDN领军人物，全栈领域优质创作者✌，CSDN博客专家，阿里云社区专家博主，2023年CSDN全站百大博主。 🏆数年电商行业从业经验，历任核心研发工程师&am…

阅读更多...

MYSQL定时任务使用手册

MYSQL定时任务使用手册

开发和管理数据库时，经常需要定时执行某些任务，比如每天备份数据库、每周统计报表等。MySQL提供了一个非常有用的工具，即事件调度器（Event Scheduler），可以帮助我们实现定时任务调度的功能。本文将介绍如何…

阅读更多...

Excel中的“块”操作

Excel中的“块”操作

在Excel中，有offset、index、indirect三个对“区域”操作的函数，是较高版本Excel中“块”操作的利器。 (笔记模板由python脚本于2024年08月20日 19:25:21创建，本篇笔记适合喜欢用Excel处理数据的coder翻阅) 【学习的细节是欢悦的历程】 Pytho…

阅读更多...

推荐文章

最新文章