PyTorch 中的 detach 函数详解

news2025/3/12 9:10:19

PyTorch 中的 `detach` 函数详解

在深度学习中，张量的操作会构建一个计算图（Computation Graph），其中每个张量都记录了如何计算它的历史，用于反向传播更新梯度。而在某些场景下，我们需要从这个计算图中分离出一个张量，使其不再参与梯度计算或反向传播，这时就需要用到 detach 函数。

本文将从以下几个方面详细介绍 PyTorch 的 detach 函数：

detach 的定义和作用
detach 的典型使用场景
实际代码示例
注意事项

1. 什么是 `detach`？

detach 是 PyTorch 张量（Tensor）对象的一个方法，用于返回一个新的张量，该张量与原始张量共享相同的数据，但不会参与梯度计算。具体而言：

detach 返回的张量是原始张量的浅拷贝。
返回的张量不再属于原始计算图，也不会记录任何与其相关的梯度计算。

函数定义：

Tensor.detach() -> Tensor

主要特性：

共享存储： 新张量与原张量共享相同的底层数据存储。
断开计算图： 新张量从当前的计算图中分离出来，不参与反向传播。
不可求梯度： 返回的张量默认 requires_grad=False，即使原张量的 requires_grad=True。

2. `detach` 的典型使用场景

在深度学习中，有许多场景需要用到 detach，以下是一些常见的用例：

(1) 防止梯度传播

在某些复杂的模型中，我们可能不希望梯度从某个分支传播回主网络。例如：

使用预训练模型时，仅冻结其部分层。
在强化学习中，计算目标值时需要从计算图中分离预测值。

(2) 提高计算效率

在不需要反向传播时，通过 detach 避免不必要的梯度计算，减少计算开销。

(3) 用于评估或记录中间变量

当需要记录中间张量的值而不影响梯度时，可以用 detach 创建一个只用于评估的张量。

3. 实际代码示例

示例 1：防止梯度传播

具体分析过程可参考笔者的另一篇博客：PyTorch 梯度计算详解：以 detach 示例为例
以下示例展示如何使用 detach 分离张量，防止梯度从特定分支传播回主模型：

import torch

# 定义张量
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)

# 定义计算
y = x * 2
z = y.detach()  # 分离 z，z 不会参与反向传播
w = z ** 2

# 反向传播
w.sum().backward()

# 打印梯度
print("x 的梯度：", x.grad)  # 输出：x 的梯度： None
# RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

在这个例子中，detach 分离了 z，使得后续计算的梯度不会影响到 y 或 x。

示例 2：冻结预训练模型的部分层

具体可以参考笔者的另一篇博客：PyTorch 中detach 和no_grad的应用：以 Llama 3 冻结参数为例
冻结部分层时，可以通过 detach 禁止梯度更新：

import torch.nn as nn

# 假设我们有一个预训练模型
pretrained_model = nn.Linear(10, 5)
pretrained_model.weight.requires_grad = True

# 输入张量
x = torch.randn(3, 10)

# 冻结输出
with torch.no_grad():
    frozen_output = pretrained_model(x).detach()

# 后续操作
output = frozen_output + torch.ones(3, 5)
print(output)

示例 3：用于强化学习中的目标计算

具体可以参考笔者的另一篇博客：PyTorch 中detach的使用：以强化学习中Q-Learning的目标值计算为例
强化学习中通常需要用 detach 分离目标值的计算，例如 Q-learning：

# 假设 q_values 是当前 Q 网络的输出
q_values = torch.tensor([10.0, 20.0, 30.0], requires_grad=True)
next_q_values = torch.tensor([15.0, 25.0, 35.0], requires_grad=True)

# 使用 detach 防止目标值的梯度传播
target_q_values = (next_q_values.detach() * 0.9) + 1

# 损失计算
loss = ((q_values - target_q_values) ** 2).mean()
loss.backward()

print("q_values 的梯度：", q_values.grad)  # q_values 会有梯度

在这个例子中，detach 确保 next_q_values 不参与目标值的梯度计算，从而避免影响 Q 网络的更新。

4. 注意事项

共享数据存储
detach 返回的新张量与原张量共享相同的底层数据。这意味着修改新张量的值会影响原张量的值。例如：
```
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = x.detach()
y[0] = 10
print(x)  # x 的值也被修改
```
与 no_grad 的区别
- detach 是针对单个张量操作，断开它与计算图的关系。
- torch.no_grad() 是上下文管理器，用于禁止其内所有张量的梯度计算。
慎用 detach 在训练模型中
在模型训练过程中，使用 detach 可能会导致梯度无法正确传播，需确保使用它是有意为之。