PyTorch嵌入层(nn.Embedding)

news2025/4/4 11:49:00

在 PyTorch 中，nn.Embedding 层（即 model.user_embedding）除了 .weight 这个核心属性外，还有其他属性和方法。以下是完整的解析：

1. 主要属性

(1) `weight`（核心参数）

作用：存储所有嵌入向量的可训练权重矩阵。
形状：(num_embeddings, embedding_dim)。

示例：

print(model.user_embedding.weight.shape)  # 输出：torch.Size([3, 4])

(2) `num_embeddings`

作用：返回嵌入向量的总数（即用户/物品的数量）。

示例：

print(model.user_embedding.num_embeddings)  # 输出：3

(3) `embedding_dim`

作用：返回每个嵌入向量的维度。

示例：

print(model.user_embedding.embedding_dim)  # 输出：4

(4) `padding_idx`（可选）

作用：如果设置了 padding_idx，则对应的嵌入向量会被强制设为 0 且不参与训练。

示例：

# 初始化时设置 padding_idx=0
self.user_embedding = nn.Embedding(3, 4, padding_idx=0)
print(model.user_embedding.padding_idx)  # 输出：0
print(model.user_embedding.weight[0])    # 输出：tensor([0., 0., 0., 0.], grad_fn=<SelectBackward>)

2. 主要方法

(1) `forward(input)`

作用：根据输入的 ID 返回对应的嵌入向量。

示例：

input_ids = torch.tensor([0, 1, 2])  # 查询用户 0、1、2 的向量
embeddings = model.user_embedding(input_ids)  # 返回 shape (3, 4)

(2) `reset_parameters()`

作用：重新随机初始化权重（通常在训练前调用）。
内部逻辑：默认使用均匀分布 $U(-\sqrt{k}, \sqrt{k})$ ，其中 $embedding_dim k = \frac{1}{\text{embedding\_dim}}$ 。

示例：

model.user_embedding.reset_parameters()

(3) `extra_repr()`

作用：返回层的额外信息（用于 print 时显示）。

示例：

print(model.user_embedding.extra_repr())  
# 输出：'num_embeddings=3, embedding_dim=4'

3. 其他底层属性（一般无需直接操作）

_parameters：存储所有可训练参数（包括 weight）。
_buffers：存储非可训练参数（如 BatchNorm 的 running_mean）。
training：布尔值，表示是否处于训练模式。

4. 完整属性/方法列表

可以通过 dir() 查看所有属性和方法：

print(dir(model.user_embedding))

输出示例：

['__class__', '__delattr__', '__dir__', ..., 'weight', 'num_embeddings', 'embedding_dim', 'padding_idx', 'forward', 'reset_parameters']

5. 关键总结

属性/方法	用途	示例值/调用方式
`.weight`	核心权重矩阵	`shape=(3, 4)`
`.num_embeddings`	嵌入向量的总数（用户数）	`3`
`.embedding_dim`	每个向量的维度	`4`
`.padding_idx`	指定填充索引（可选）	`None` 或 `0`
`.forward(input)`	查询嵌入向量	`model.user_embedding([0, 1])`
`.reset_parameters()`	重新初始化权重	`model.user_embedding.reset_parameters()`

6. 常见问题

Q：如何修改嵌入向量？

直接操作 .weight：

# 将用户 0 的向量置零
model.user_embedding.weight.data[0] = torch.zeros(4)

Q：如何冻结嵌入层？

禁用梯度：

model.user_embedding.weight.requires_grad = False

Q：`padding_idx` 和普通索引有什么区别？

padding_idx 对应的向量会固定为 0，且不参与梯度更新。

掌握这些属性和方法后，你可以更灵活地操作嵌入层！ 🚀

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2327885.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

PyTorch嵌入层(nn.Embedding)

1. 主要属性

(1) `weight`（核心参数）

(2) `num_embeddings`

(3) `embedding_dim`

(4) `padding_idx`（可选）

2. 主要方法

(1) `forward(input)`

(2) `reset_parameters()`

(3) `extra_repr()`

3. 其他底层属性（一般无需直接操作）

4. 完整属性/方法列表

5. 关键总结

6. 常见问题

Q：如何修改嵌入向量？

Q：如何冻结嵌入层？

Q：`padding_idx` 和普通索引有什么区别？

相关文章

《AI大模型应知应会100篇》加餐篇：LlamaIndex 与 LangChain 的无缝集成

元素三大等待

【DY】信息化集成化信号采集与处理系统；生物信号采集处理系统一体机

康谋分享 | 仿真驱动、数据自造：巧用合成数据重构智能座舱

Vue 数据传递流程图指南

【C语言】strstr查找字符串函数

机器学习、深度学习和神经网络

数字孪生在智慧城市中的前端呈现与 UI 设计思路

Android OpenGLES 360全景图片渲染(球体内部)

LETTERS(DFS)

NVM 多版本Node.js 管理全指南（Windows系统）

C，C++语言缓冲区溢出的产生和预防

《Linux内存管理：实验驱动的深度探索》【附录】【实验环境搭建 2】【vscode搭建调试内核环境】

Flutter项目之登录注册功能实现

ctfshow VIP题目限免源码泄露

移动神器RAX3000M路由器变身家庭云之七：增加打印服务，电脑手机无线打印

《函数基础与内存机制深度剖析：从 return 语句到各类经典编程题详解》

Python | 使用Matplotlib绘制Swarm Plot（蜂群图）

新版本Xmind结合DeepSeek快速生成美丽的思维导图

set和map封装

PyTorch嵌入层(nn.Embedding)

1. 主要属性

(1) weight（核心参数）

(2) num_embeddings

(3) embedding_dim

(4) padding_idx（可选）

2. 主要方法

(1) forward(input)

(2) reset_parameters()

(3) extra_repr()

3. 其他底层属性（一般无需直接操作）

4. 完整属性/方法列表

5. 关键总结

6. 常见问题

Q：如何修改嵌入向量？

Q：如何冻结嵌入层？

Q：padding_idx 和普通索引有什么区别？

相关文章

(1) `weight`（核心参数）

(2) `num_embeddings`

(3) `embedding_dim`

(4) `padding_idx`（可选）

(1) `forward(input)`

(2) `reset_parameters()`

(3) `extra_repr()`

Q：`padding_idx` 和普通索引有什么区别？