pytorch小记（十五）：pytorch中交叉熵损失详解：为什么logits比targets多一个维度？

news2025/3/29 19:50:05

pytorch小记（十五）：pytorch中交叉熵损失详解：为什么logits比targets多一个维度？

PyTorch交叉熵损失详解：为什么logits比targets多一个维度？
- 一、前言：新手常见困惑
- 二、核心概念：从考试得分到概率分布
- - 1. logits：原始得分矩阵
  - 2. targets：正确答案索引
- 三、维度差异的本质原因
- - 1. 分类任务的数学需求
  - 2. 维度对照表
  - 3. 错误用法解析
- 四、手把手计算交叉熵损失
- - 1. 输入数据
  - 2. 计算步骤
  - - 步骤1：Softmax归一化
    - 步骤2：提取正确类别的概率
    - 步骤3：计算交叉熵
- 五、设计哲学深度解析
- - 1. 为何不直接使用概率？
  - 2. 多任务场景对照表
- 六、常见问题解答
- - Q1：二分类能否用形状[N]的logits？
  - Q2：如何处理多标签分类？
  - Q3：为什么我的loss计算很慢？
- 七、总结

PyTorch交叉熵损失详解：为什么logits比targets多一个维度？

关键词：PyTorch交叉熵损失、logits维度、分类任务原理、深度学习基础

一、前言：新手常见困惑

许多初学PyTorch的朋友在使用交叉熵损失函数时，都会对logits和targets的维度关系感到困惑。典型的报错场景如下：

# 正确用法
logits = torch.tensor([[1.2, -0.5], [0.3, 2.1]])  # 形状 [2, 2]
targets = torch.tensor([0, 1])                     # 形状 [2]

# 错误用法（触发维度错误）
logits_error = torch.tensor([0.5, 1.2])            # 形状 [2]
targets_error = torch.tensor([0, 1])               # 形状 [2]
loss = F.cross_entropy(logits_error, targets_error)  # 报错！

本文将用生活实例+手把手计算的方式，带你彻底理解交叉熵损失的维度设计逻辑。

二、核心概念：从考试得分到概率分布

1. logits：原始得分矩阵

想象你正在参加一场有2道选择题的考试，每道题有A、B两个选项。模型对每个选项给出原始得分：

logits = torch.tensor([
    [-1.0, 1.0],   # 第1题：A得-1分，B得1分
    [-0.5, 1.5],   # 第2题：A得-0.5分，B得1.5分
    [-0.5, 1.5]    # 第3题（新增）：同上
])

形状[3, 2]：3个样本（题目），每个样本2个类别（选项）
物理意义：未经归一化的"信心分数"，数值越大表示模型越倾向该选项

2. targets：正确答案索引

targets = torch.tensor([0, 1, 1]) 
# 含义：第1题正确答案是A（索引0），第2、3题是B（索引1）

形状[3]：3个样本各对应一个正确答案位置

三、维度差异的本质原因

1. 分类任务的数学需求

模型需要为每个可能的类别提供判断依据
即使正确答案只有一个，也必须比较所有选项的"证据强度"

2. 维度对照表

张量	形状	物理意义
`logits`	[N, C]	N个样本，每个样本C个类别的得分
`targets`	[N]	N个样本的正确类别索引（n在0~c-1之间）

3. 错误用法解析

若logits与targets同维度：

logits_error = torch.tensor([0.2, 0.7, 0.5])  # 形状[3]
targets = torch.tensor([0, 1, 1])              # 形状[3]

此时模型无法判断：

每个数值对应哪个类别？
如何进行多类别比较？

四、手把手计算交叉熵损失

以具体例子演示计算全过程：

1. 输入数据

logits = torch.tensor([
    [-1.0, 1.0], 
    [-0.5, 1.5],
    [-0.5, 1.5]
])  # 形状[3,2]
targets = torch.tensor([0, 1, 1])  # 形状[3]

2. 计算步骤

步骤1：Softmax归一化

将原始得分转换为概率分布（每行和为1）：

第1个样本（[-1.0, 1.0]）：

exp(-1.0) = 0.3679  
exp(1.0) = 2.7183
总合 = 0.3679 + 2.7183 = 3.0862
概率 = [0.3679/3.0863 ≈ 0.1192, 2.7183/3.0863 ≈ 0.8808]

第2个样本（[-0.5, 1.5]）：

exp(-0.5) ≈ 0.6065  
exp(1.5) ≈ 4.4817
总合 = 0.6065 + 4.4817 ≈ 5.0882
概率 = [0.6065/5.0882 ≈ 0.1192, 4.4817/5.0882 ≈ 0.8808]

步骤2：提取正确类别的概率

根据targets索引：

样本1：取索引0 → 0.1192  
样本2：取索引1 → 0.8808  
样本3：取索引1 → 0.8808

步骤3：计算交叉熵

公式：loss = -平均(ln(正确概率))

loss = -(ln(0.1192) + ln(0.8808) + ln(0.8808)) / 3
     = -[(-2.127) + (-0.127) + (-0.127)] / 3
     ≈ 0.7937

验证PyTorch计算结果：

print(loss.item())  # 输出 0.7937

五、设计哲学深度解析

1. 为何不直接使用概率？

数值稳定性：直接处理指数运算易导致溢出
梯度优化：logits的线性特性更利于反向传播

2. 多任务场景对照表

任务类型	logits形状	targets形状	损失函数
二分类（2个选项）	[N,2]	[N]	`CrossEntropyLoss`
多标签分类	[N,C]	[N,C]	`BCEWithLogitsLoss`
回归任务	[N]	[N]	`MSELoss`

六、常见问题解答

Q1：二分类能否用形状[N]的logits？

可以，但需配合sigmoid：

# 二分类特例
logits = torch.tensor([0.8, -0.3])  # 形状[2]
prob = torch.sigmoid(logits)        # 转换为概率
loss = F.binary_cross_entropy(prob, targets)

Q2：如何处理多标签分类？

当每个样本可能有多个正确标签时：

logits = torch.tensor([[1.2, -0.5], [0.3, 2.1]])  # 形状[2,2]
targets = torch.tensor([[1, 0], [0, 1]])          # 形状[2,2] (one-hot)
loss = F.binary_cross_entropy_with_logits(logits, targets)