「Pytorch」解析 nn.Embedding 词嵌入 及反推输入

news2024/12/31 7:33:48

在这里插入图片描述

在Pytorch里面有三种编码方式,Embedding 就是其中之一,不同于 one_hot 需要用同长度的张量存 Embedding将单词映射为稠密向量,并且指定 embedding_dim维度。通过 Embedding层 转换的数据并不是经过词典映射的,而是原始数据。Embedding的输出可以作为神经网络的输入,进一步进行训练和处理。在深度学习中,Embedding是将离散的输入映射为连续的向量表示的一种技术。它在自然语言处理和推荐系统等任务中广泛使用。

在这里插入图片描述

One-hot 的缺点:

  • one-hot 没有任何的语义信息
  • one-hot 编码的 维度等于字典的长度,转换张量为一个低稠密度向量

其实一般就是前用两个参数

  1. num_embeddings 就是生成 num_embeddings 个嵌入向量,
  2. embedding_dim 就是嵌入向量的维度,即使用一个 [1, embedding_dim] 向量表示一个
import torch
from torch import nn

k = 49408
embedding = nn.Embedding(k, embedding_dim=16)

emb = embedding(torch.tensor([1, 4, 5, 7])).detach()  		# 输入数据大小不能超过 阈值k,detach是去除梯度信息
print('emb',emb.data)

# 输出是一个 [4,16] 维的张量,
tensor([[-2.0561, -1.0517,  1.1487,  1.2165, -0.7428,  0.0255, -2.3840, -0.6686,
         -0.1522, -0.6380,  0.8078,  2.3382, -0.3678, -0.5860, -0.1160,  0.4851],
        [-0.0821,  0.6428, -0.7851, -0.6309, -0.1035, -0.0277,  0.4757,  0.0314,
          0.2354,  0.0902,  0.6876, -0.6741, -0.7009,  0.6107, -0.5739, -0.7009],
        [ 0.2205, -0.5750, -0.4575,  0.2809,  0.1322, -0.4874,  0.0903, -0.9487,
          0.4847,  0.5165,  0.0463,  0.2832,  0.1155, -1.0731, -0.4711, -0.4850],
        [-1.3978,  0.8461,  0.4533,  0.6129,  0.4035,  0.1373, -1.1821,  1.2093,
         -0.0140,  1.4716,  0.2694,  1.7981,  0.4558,  0.6396,  0.4042, -1.9535]])

注意:nn.Embedding()是可以训练的,参考 torch.nn.Embedding是否有梯度,是否会被训练

Embedding 反推输入

Embedding 在创建的时候会创建一个 [ k , H ] [k, H] [k,H] 维度的张量,可以通过 embedding.weigh 获取

embedding = nn.Embedding(k, embedding_dim=H)

原本还想证明 embedding 是可以反推输入的,但是直到下面这几行输出,我发现了什么 (ΩДΩ) (ΩДΩ) (ΩДΩ)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2040860.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VirtualBox扩容VDI虚拟磁盘

环境 虚拟机软件:VirtualBox虚拟机:Ubuntu 18.04.1 第一步:调整虚磁盘大小 方法1:使用VirtualBox管理器直接修改 关闭虚拟机,点击VirtualBox管理器菜单管理>虚拟介质管理,重新设大小 方法2&#x…

【Linux基础】对Linux权限的理解与管理

目录 🚀前言一,有关用户二,Linux权限管理1. 文件访问者的分类(人)2. 文件类型和访问权限(事物属性)2.1 文件类型2.2 文件/目录的基本权限 三,文件权限值的表示方法3.1 字符表示方法3.2 八进制数值表示方法 四,文件访问…

服务器是什么?怎么选择适合自己的服务器?

在这个数字化的世界中,我们每天都在与各种网站打交道,浏览新闻、购物、看视频等。你是否曾经好奇过,这些网站是如何运行的?它们又是如何实现随时随地可访问的呢? 在这背后,有一个神秘的角色在默默地支撑着…

数据结构与算法 - 贪心算法

一、贪心例子 贪心算法或贪婪算法的核心思想是: 1. 将寻找最优解的问题分为若干个步骤 2. 每一步骤都采用贪心原则,选取当前最优解 3. 因为没有考虑所有可能,局部最优的堆叠不一定让最终解最优 贪心算法是一种在每一步选择中都采取在当前…

letcode 分类练习 树的遍历

letcode 分类练习 树的遍历 树的构建递归遍历前序遍历中序遍历后序遍历 迭代遍历前序遍历中序遍历后序遍历 层序遍历层序遍历可以解决的问题107. 二叉树的层序遍历 II199. 二叉树的右视图637. 二叉树的层平均值429. N 叉树的层序遍历515.在每个树行中找最大值116.填充每个节点的…

掌机系统MuOS游戏名称中文乱码解决主题

最近买了安伯尼克的rg35xxh掌机来玩儿,然后刷了muos,系统很小巧,1g的运行内存,系统运行的时候只占用了不到100m,而且界面也很美观,就是有一个问题——中文名称会乱码,都变成了方框,从…

如何给IP地址开启https—IP证书

先IP地址申请的前提:80端口有打开,或者可以短暂的打开10分钟左右等验证完IP管理权再关掉。 一:访问JoySSL官网,注册账号并填写注册码230922,选择IP地址证书并下单加入购物车,下单之后就会跳转到证书申请界…

Linux--应用层协议HTTP协议(http服务器构建)

目录 1.HTTP 协议 2.认识 URL 3.urlencode 和 urldecode(编码) urlencode(URL编码) urldecode(URL解码) 4.HTTP 协议请求与响应格式 4.1HTTP 常见方法(三种) 5.HTTP 的状态码…

C++:命名空间与输入输出

目录 前言 一、命名空间 1.1 namespace的价值 1.2 namespace的定义 1.3 命名空间的使用 二、C输入&输出 前言 C是一种面向对象的计算机程序设计语言,‌它扩展了C语言的功能,‌并引入了面向对象编程的概念,‌如类、‌继承和多态等&a…

【笔记】从零开始做一个精灵龙女-画贴图阶段(下)

补充四点,第一,前期画体积用一号或十三号笔刷,压力60,硬度80,体积大一点 2号笔刷比较适合画过渡和软一点的东东 第二, 游戏里面角色原画海报都是发光很亮很透。但是在bp不能画那么亮,因为你进…

git强制推送代码教程

git强制推送代码教程 首先说明情况,我的代码remote了两个git库,现在想要推送到其中一个,但是版本不对,被拒绝,因此下面将进行强制推送 首先检查远程库都有哪些 git remote -v2. 检查当前的分支 git branch当前分支前…

Python 初学者入门:揭秘 Anaconda

初学者在学习 Python 时,经常看到的一个名字是 Anaconda。究竟什么是 Anaconda,为什么它如此受欢迎?在这篇文章中,我们将探讨 Anaconda ,了解 Anaconda 的从安装到使用的。 Anaconda 是一个免费开源的 Python 和 R 编…

PCL 三线性插值

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 三线性插值是一种在三维空间中使用已知数据点进行插值的方法。它是在立方体内的插值方法,通过利用立方体的八个顶点的已知值来估算立方体内任意一点的值。三线性插值扩展了一维的线性插值和二维的双线性插值。其基…

数据结构入门——06树

1.树 树(Tree)非线性数据结构,它是n(n≥0)个节点的有限集合,它满足两个条件 : 有且仅有一个特定的称为根(Root)的节点; 其余的节点可以分为m(m…

一文带你快速了解——keepalived高可用集群

一、高可用集群 1.1 集群类型 LB:Load Balance 负载均衡LVS/HAProxy/nginx(http/upstream, stream/upstream)HA:High Availability 高可用集群 数据库、RedisSPoF: Single Point of Failure,解决单点故障HPC&#xf…

Java_finalize

目录 finalize方法 案例演示 finalize方法 当垃圾回收器确定不存在对该对象的更多引用时,由对象的垃圾回收器调用此方法。 当对象被回收时,会自动调用,子类可以重写该方法,做一些释放资源的操作。 案例演示 可以使用快捷键进行…

一台电脑同时开多个微信

这几天闲没事, 就在网上查了一些相关的一台电脑同时开多个微信。经测试,确实可以做的,而且一点了不麻烦。经本人测试,把信息补全一些... 同时登录了两个微信,为什么只能两个微信,因为我只有两个微信。废话少…

leetcode412. Fizz Buzz,简单遍历

leetcode412. Fizz Buzz 给你一个整数 n ,找出从 1 到 n 各个整数的 Fizz Buzz 表示,并用字符串数组 answer(下标从 1 开始)返回结果,其中: answer[i] “FizzBuzz” 如果 i 同时是 3 和 5 的倍数。 answ…

0到1学习Google广告(2):掌握展示位置及排名规则丨出海笔记

大家好, 我是专注谷歌广告和谷歌SEO的谷哥哥哥,感谢出海笔记Alan邀请。今天我们来聊聊广告界的大拿——谷歌广告。在这个数字营销的黄金时代,无论是B2B、B2C还是品牌类客户,谷歌广告都是一个不容忽视的战场。那么,如何在这个战场上…