pytorch的CrossEntropyLoss交叉熵损失函数默认reduction是平均值

news2025/7/13 10:00:28

pytorch中使用nn.CrossEntropyLoss()创建出来的交叉熵损失函数计算损失默认是求平均值的，即多个样本输入后获取的是一个均值标量，而不是样本大小的向量。

net = nn.Linear(4, 2)
loss = nn.CrossEntropyLoss()
X = torch.rand(10, 4)
y = torch.ones(10, dtype=torch.long)
y_hat = net(X)
l = loss(y_hat, y)
print(l)

打印的结果：tensor(0.7075, grad_fn=<NllLossBackward0>)

以上是对10个样本做的均值的标量

net = nn.Linear(4, 2)
loss = nn.CrossEntropyLoss(reduction='none')
X = torch.rand(10, 4)
y = torch.ones(10, dtype=torch.long)
y_hat = net(X)
l = loss(y_hat, y)
print(l)

在构造CrossEntropyLoss时候加入 reduction='none'，就把默认求平均取消掉了

打印结果：

tensor([0.6459, 0.7372, 0.6373, 0.6843, 0.6251, 0.6555, 0.5510, 0.7016, 0.6975,
        0.6849], grad_fn=<NllLossBackward0>)

以上是10个样本各自的loss值

上图是pytorch的CrossEntropyLoss的构造方法，默认是 reduction='mean'

此外，使用反向传播计算梯度也会发生变化，loss值调用backward()要求loss值是一个tensor标量，如果是reduction='none'，loss值得到的是tensor向量，会报错。 loss值需要求和或者求平均得到标量再进行backward()的计算

l = loss(y_hat, y)
l.sum().backward()

至于为什么求和或者求平均都可以，首先要看下更新梯度的计算公式

求和学习率就调整的大一点，求均值的话学习率就可以小一点，总之就是除以样本数这个操作可以放到调整学习率中

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/840687.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

pytorch的CrossEntropyLoss交叉熵损失函数默认reduction是平均值

相关文章

认识 MyBatis + MyBatis如何使用（MyBatis操作数据库）

AI 一键去水印：教你无限量使用商业图片的技巧

如何从零开始配置前端环境以及安装必备的软件插件

设计模式-迭代器模式在Java中使用示例

MaskedTextBox基本用法

快速实现一个div的水平垂直居中

管理类联考——写作——论说文——实战篇——行文篇——通用性强，解释多种现象的经典理论——谈必要

基于人工智能的中医图像分类系统设计与实现

285 · 高楼大厦

Python中的PDF文本提取：使用fitz和wxPython库（带进度条）

谷歌、Edge等浏览器截图长图的方法

LeetCode--HOT100题（19）

socker套接字

C语言单链表OJ题(较易)

Statefulset 实战 3

【云原生】K8S二进制搭建三：高可用配置

vue2-vue实例挂载的过程

通讯协议032——全网独有的OPC HDA知识一之聚合（一）

Maven出现报错； Unable to import maven project: See logs for details错误的多种解决方法

观察者模式（C++）