【Pytorch】一文向您详尽解析 with torch.no

【Pytorch】一文向您详尽解析 with torch.no_grad(): 的高效用法

news2026/2/12 16:06:00

【Pytorch】一文向您详尽解析 with torch.no_grad(): 的高效用法

下滑即可查看博客内容
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！🎇

🎓 博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的 中科院顶刊一作论文，熟练掌握PyTorch框架。

🔧 技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计提供近千次定制化产品服务，助力用户少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于深度学习、PyTorch、Python相关的实用内容。已发表原创文章700余篇，代码分享次数逾十万次。

💡 服务项目：包括但不限于科研辅导、知识付费咨询以及为用户需求提供定制化解决方案。

🌵文章目录🌵

🕵️‍♂️ 一、引言：with torch.no_grad() 的重要性
📚 二、基础篇：with torch.no_grad() 的基本用法
📚 三、进阶篇：with torch.no_grad() 与其他功能的联动
- - 什么是`.eval()`？
  - `torch.set_grad_enabled(False)`的作用
  - 案例比较
  - 实践建议
💪 四、实战篇：案例解析与性能优化
- - 案例背景
  - 实验代码
  - 性能优化技巧
🎓 五、举一反三：with torch.no_grad() 的应用拓展
- - 数据预处理
  - 特征提取
  - 应用实例
🚀 六、总结与展望

下滑即可查看博客内容

🕵️‍♂️ 一、引言：with torch.no_grad() 的重要性

在深度学习的世界里，模型训练与评估是两个相互独立却又紧密相连的过程。训练时我们需要梯度来更新模型参数，但在评估阶段，梯度计算则成为了不必要的负担。torch.no_grad()正是为此而生——它允许我们在不记录梯度的情况下执行前向传播，从而节省内存并加速推理过程。本文将带你深入了解torch.no_grad()的精妙之处，让你在模型评估时游刃有余。

📚 二、基础篇：with torch.no_grad() 的基本用法

在本章节，我们将从torch.no_grad()的基本语法入手，探讨它如何影响PyTorch的自动微分机制。通过具体的代码示例，你将学会如何在模型评估时正确使用它，从而获得更快、更高效的推理速度。

import torch

# 创建一个需要梯度计算的张量
x = torch.tensor([3.0], requires_grad=True)
y = torch.tensor([2.0], requires_grad=True)

# 默认情况下，计算会记录梯度信息
z = x * y
z.backward()
print(x.grad) # 输出: tensor([2.])

# 使用 torch.no_grad() 避免梯度记录
with torch.no_grad():
    z = x * y
print(z.requires_grad) # 输出: False

📚 三、进阶篇：with torch.no_grad() 与其他功能的联动

在上一节中，我们已经了解了torch.no_grad()的基本用法。然而，为了更好地管理和优化我们的模型，有时我们需要结合其他功能一起使用。例如，.eval()模式和torch.set_grad_enabled(False)。在这一节中，我们将探讨它们之间的差异与联系，并给出实际应用中的最佳实践建议。

什么是`.eval()`？

.eval()是PyTorch中一个用于切换模型到评估模式的方法。在评估模式下，某些层（如BatchNorm和Dropout）的行为会发生变化。例如，BatchNorm层在训练模式下会使用mini-batch的统计信息来标准化输入，而在评估模式下则使用整个训练集的移动平均统计信息。这意味着，即使不打算更新权重，我们也需要调用.eval()来确保模型处于正确的状态。

`torch.set_grad_enabled(False)`的作用

torch.set_grad_enabled()是一个全局设置，用于控制是否启用梯度计算。当你希望在整个程序中禁用梯度计算时，这比局部使用with torch.no_grad():更为方便。不过需要注意的是，它影响的是整个程序，所以在使用完毕后应该恢复原来的设置，以避免意外情况。

案例比较

# 使用 torch.no_grad()
with torch.no_grad():
    outputs = model(inputs)

# 使用 .eval()
model.eval()
outputs = model(inputs)
model.train()  # 切换回训练模式

# 使用 torch.set_grad_enabled()
torch.set_grad_enabled(False)
outputs = model(inputs)
torch.set_grad_enabled(True)  # 恢复梯度计算

实践建议

评估模型：在评估模型时，推荐使用model.eval()和with torch.no_grad()的组合，以确保模型处于正确的状态并且不会记录不必要的梯度信息。
性能考虑：如果你的代码结构允许，使用torch.set_grad_enabled(False)可以简化代码，但一定要小心管理它的开启与关闭状态。

💪 四、实战篇：案例解析与性能优化

为了更直观地理解torch.no_grad()的实际应用效果，我们来看一个简单的案例：比较启用和禁用梯度计算时模型评估的速度差异。

案例背景

假设我们有一个已经训练好的图像分类模型，现在需要对其进行性能评估。我们将分别在开启和禁用梯度计算两种情况下运行模型，观察性能的变化。

实验代码

import time
import torch
from torch.utils.data import DataLoader

# 假设 model 是已经训练好的模型
model = torch.load('trained_model.pth')
model.eval()

# 准备一批数据
data_loader = DataLoader(dataset, batch_size=32, shuffle=False)

# 启用梯度计算的情况
start_time = time.time()
for inputs, labels in data_loader:
    outputs = model(inputs)
end_time = time.time()
print("With gradient calculation:", end_time - start_time)

# 禁用梯度计算的情况
start_time = time.time()
with torch.no_grad():
    for inputs, labels in data_loader:
        outputs = model(inputs)
end_time = time.time()
print("Without gradient calculation:", end_time - start_time)

性能优化技巧

内存管理：在大数据集上进行预测时，禁用梯度计算可以显著减少内存占用。
批处理：尽可能地使用批量数据进行预测，这样可以充分利用GPU的并行计算能力，进一步提升性能。
模型优化：考虑使用更轻量级的模型架构，或者在不影响准确率的前提下裁剪掉不必要的层。

🎓 五、举一反三：with torch.no_grad() 的应用拓展

除了模型评估之外，torch.no_grad()还可以在其他场景中发挥作用，比如数据预处理、特征提取等。

数据预处理

在进行数据预处理时，我们可能需要计算一些统计信息（如均值、方差等）。这些操作通常不需要梯度信息，因此可以使用torch.no_grad()来提高效率。

特征提取

当使用预训练模型进行特征提取时，我们通常只关心模型的输出特征，而不是训练新的模型。这时，使用torch.no_grad()可以避免不必要的梯度计算，从而提高提取速度。

应用实例

# 特征提取示例
pretrained_model = torchvision.models.resnet50(pretrained=True)
features = []
with torch.no_grad():
    for img in images:
        feature = pretrained_model(img)
        features.append(feature)