图像在神经网络中的预处理与后处理的原理和作用(最详细版本)

news2024/11/20 10:36:59

1. 问题引出及内容介绍

相信大家在学习与图像任务相关的神经网络时,经常会见到这样一个预处理方式。

self.to_tensor_norm = transforms.Compose([
        transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
        ])

具体原理及作用稍后解释,不知道大家有没有想过,将这样一个经过改变的图像数据输入到网络中,那么输出的结果也是这种类似改动过的,那岂不是真实的数据了

所以一般会有个后处理的代码,如下:

def tensor2img(img):
        img = np.round((img.permute(0, 2, 3, 1).cpu().numpy() + 1)* 127.5)
        img = img.clip(min=0, max=255).astype(np.uint8)
        return img

为什么这样就可以将改动过的数据恢复原样了,后处理的代码看着也不像预处理的逆过程啊。

先来分析一下代码,了解其处理过程,最后再推理出这两个互为逆过程。

2. 预处理

transforms.ToTensor()

transforms.ToTensor()是PyTorch中的一个图像转换方法,用于将PIL图像或numpy数组转换为PyTorch张量。具体来说,它会执行以下操作:

  1. 将图像或数组的数据类型从uint8(0-255)转换为float32(0.0-1.0)。
  2. 对图像进行标准化处理,即将像素值除以255,将其缩放到0到1之间。
  3. 如果输入是一个多通道的图像(例如RGB图像),它会重新排列通道,将通道维度放在第一个维度上

下面是我翻译的源码的注释,包含了输入的要求:

torchvision.transforms.ToTensor 类用于将 PIL 图像 numpy 数组转换为张量。这个转换不支持 torchscript。

将一个 PIL 图像或 numpy 数组(大小为 H x W x C,其中 H 表示高度,W 表示宽度,C 表示通道数)的像素值范围从 [0, 255] 转换为范围在 [0.0, 1.0] 的 torch.FloatTensor,其形状为 (C x H x W)。这种转换只有在以下情况下才会进行:

  • 如果 PIL 图像的模式为(L、LA、P、I、F、RGB、YCbCr、RGBA、CMYK、1)之一
  • 如果 numpy 数组的数据类型为 np.uint8。(因为uint8的类型的取值范围是0-255

在其他情况下,转换后的张量将不会进行缩放。

两者内容互为补充,相信足够理解这个代码了,如果不够理解,没事,我自己写个代码解释:

上述数值被分别除以255得到转换后的张量,现在应该有更直观的理解了。

transforms.Normalize()

transforms.Normalize()是PyTorch中的一个图像转换方法,用于对张量进行标准化处理。具体来说,它执行以下操作:

  1. 对每个通道进行均值归一化:将每个通道的像素值减去均值,以使每个通道的均值为0。
  2. 对每个通道进行标准差归一化:将每个通道的像素值除以标准差,以使每个通道的标准差为1。

在给定的示例中,(0.5, 0.5, 0.5)表示每个通道的均值,(0.5, 0.5, 0.5)表示每个通道的标准差。这个转换将图像的每个通道的像素值从0到1的范围,调整到-1到1的范围内。

上述的预处理的两个步骤可以概括为归一化或者标准化,为什么需要这两个步骤呢,我举例子加以说明

  1. 加速收敛

    • 例子:假设有一个深度神经网络,其输入是未经归一化的图像数据,像素值范围是0到255。如果使用简单的梯度下降法进行优化,由于像素值的范围很大,梯度更新可能会非常缓慢。通过将数据归一化到0到1之间,梯度更新将更加稳定,从而加快收敛速度。
  2. 提高模型性能

    • 例子:考虑一个用于手写数字识别的卷积神经网络(CNN)。如果输入图像的亮度差异很大,网络可能会对亮度较高的图像更加敏感。通过归一化亮度,网络可以更专注于识别数字的形状和结构,而不是亮度。
  3. 稳定性

    • 例子:在处理图像数据时,如果某些像素值异常高(例如,由于光照条件的变化),这可能会导致数值计算中的溢出问题。通过归一化,可以将这些极端值限制在一个较小的范围内,从而提高数值稳定性。
  4. 防止过拟合

    • 例子:在一个包含多种类型图像的数据集中,如果某些类型的图像具有更高的对比度,网络可能会偏向于学习这些特征,从而忽视其他类型的图像。通过归一化,可以减少这种偏差,使网络能够更均匀地学习所有类型的图像。
  5. 适应不同初始化

    • 例子:使用He初始化或Xavier初始化等方法为神经网络的权重赋予初始值时,这些方法通常假设输入数据已经被归一化。如果输入数据未经归一化,权重初始化的效果可能会大打折扣。
  6. 节省计算资源

    • 例子:在进行大规模图像处理时,如果输入数据未经归一化,那么在浮点数运算中可能会遇到数值溢出的问题,这需要使用更高精度的数据类型,从而增加计算资源的消耗。归一化可以减少这种情况的发生。
  7. 改善梯度下降的效率

    • 例子:在训练一个深度神经网络时,如果输入数据未经归一化,梯度可能会在某些方向上过大,在其他方向上过小。这会导致优化过程中的锯齿现象,使得找到全局最小值变得更加困难。归一化有助于平衡梯度的大小,使优化过程更加平滑。

3. 后处理

img = np.round((img.permute(0, 2, 3, 1).cpu().numpy() + 1)* 127.5)

这行代码的作用是将PyTorch张量转换为numpy数组,并执行以下操作:

  1. img.permute(0, 2, 3, 1):这一步是对张量的维度进行重新排列,将通道维度移到最后一个维度上。这通常是因为在PyTorch中,图像的通道维度是第二个维度,而在numpy数组中,通常是最后一个维度。所以这一步是为了将数据转换为numpy数组后,通道维度的顺序与numpy数组的约定相匹配。

  2. .cpu().numpy():这一步将PyTorch张量移动到CPU上,并将其转换为numpy数组。通常,在GPU上进行计算后,需要将数据移回CPU上才能调用numpy方法。

  3. + 1:这一步将数组中的所有元素加1,将范围从[-1, 1]映射到[0, 2]

  4. * 127.5:这一步将数组中的所有元素乘以127.5,将范围从[0, 2]映射到[0, 255],将数据重新缩放到uint8范围内。

  5. np.round():这一步对数组中的所有元素执行四舍五入操作,将浮点数转换为整数。

综合起来,这行代码的作用是将PyTorch张量(范围在[-1, 1]之间)转换为numpy数组,并将其值重新映射到uint8范围内(0-255),并将浮点数转换为整数。
 

 img = img.clip(min=0, max=255).astype(np.uint8)

这行代码的作用是确保numpy数组中的数值范围在0到255之间,并将其类型转换为无符号8位整数(uint8),以便表示图像像素值。

4. 推导逆过程

先把代码放一起进行比较

预处理:
self.to_tensor_norm = transforms.Compose([
        transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
        ])

后处理:
def tensor2img(img):
        img = np.round((img.permute(0, 2, 3, 1).cpu().numpy() + 1)* 127.5)
        img = img.clip(min=0, max=255).astype(np.uint8)
        return img

下面是推导过程:

完结撒花!
不足之处还请大家指正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1624250.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用html写一个旋转菜单

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>旋转菜单</title><link relstylesheet href"https://cdnjs.cloudflare.com/ajax/libs/font-awesome/4.7.0/css/font-awesome.css"&…

重发布的原理及其应用

重发布的作用&#xff1a; 在一个网络中&#xff0c;若运行多种路由协议或者相同协议的不同进程&#xff1b;因为协议之间不能直接沟通计算&#xff0c;进程之间也是独立进行转发和运算的&#xff0c;所以&#xff0c;需要使用重发布来实现路由的共享。 条件 &#xff1a; 1&am…

保护数据安全:加密算法知多少,几种常见的加密算法及其应用

在当今数字化时代&#xff0c;数据安全是一个非常重要且不可忽视的问题。为了保护敏感数据不被恶意窃取或篡改&#xff0c;加密算法诞生了。加密算法通过对原始数据转换和处理成不可读取的内容&#xff0c;防止未经授权的人读取和理解&#xff0c;从而确保数据的安全性、机密性…

熟悉mybatis操作全过程(详细操作)

目录 操作前准备 创建实体类 Brand 准备测试用例 安装mybatisx插件 查询 查询所有数据 结果映射 实现查看详情逻辑功能 条件查询 多条件动态条件查询 单条件动态查询 添加 基本添加功能 主键返回 修改数据 修改全部字段 修改动态字段 删除数据 删除一个…

GRASSHOPPER电池Expression

Grasshopper中如果要实现简单的条件if语句的效果&#xff0c;可以使用电池Expression。 举例&#xff1a;获取两个数的差值&#xff0c;永远用大数减去小数

js网络请求---fetch和XMLHttpRequest的用法

fetch 语法规则 let promise fetch(url, [options]) //url —— 字符串&#xff1a;要访问的 URL。 //options —— 对象&#xff1a;可选参数&#xff1a;method&#xff0c;header 等。 fetch函数返回一个promise&#xff0c;若存在网络问题&#xff0c;或网址不存在&…

【linux】基础IO(软硬链接)

上一节我们已经搞懂了已经被打开的文件&#xff0c;还有没有被打开的文件都是怎样被管理起来的&#xff0c;同样&#xff0c;路径的重要性也不言而喻&#xff0c;是确定文件在那个分区&#xff0c;进而可以解析到目标文件与目录内容的关系&#xff0c;从而找到inode&#xff0c…

MATLAB线性函数拟合并预测

线性函数拟合&#xff0c;由线性函数很好描述的一个数集,也就是说如果我们所考虑的数据是以y(x)的形式给出&#xff0c;并且其中f(x)满足: 要求得 m 和b的值&#xff0c;我们可以使用一个称为 polyii(x,y,n)的 MATLAB 函数&#xff0c;其中n是我们要 MATLAB 求出的多项式的次数…

ubuntu18.04系统编译openwrt21.02.3

搭建ubuntu18.04环境 使用虚拟机安装ubuntu环境网上教程很多&#xff0c;这里不做赘述&#xff0c;主要是安装一些我们在编译openwrt时可能会用到的一些工具环境 sudo apt-get update sudo apt instll libncurses-dev gawk sudo apt-get install build-essential libncurses5…

InternLM2-lesson5

目录 大模型部署挑战常用大模型部署方式模型剪枝(Pruning)知识蒸馏量化 LMDeploy核心功能性能表现支持部署的模型 作业配置 LMDeploy 运行环境以命令行方式与 InternLM2-Chat-1.8B 模型对话 大模型部署 大模型部署就是将大模型在特定的环境种运行&#xff01;可以部署到服务器…

The Clock and the Pizza [NeurIPS 2023 oral]

本篇文章发表于NeurIPS 2023 (oral)&#xff0c;作者来自于MIT。 文章链接&#xff1a;https://arxiv.org/abs/2306.17844 一、概述 目前&#xff0c;多模态大语言模型的出现为人工智能带来新一轮发展&#xff0c;相关理论也逐渐从纸面走向现实&#xff0c;影响着人们日常生活…

VPP 源码学习总结

当我们在VPP/plugins目录下注册了自己的node后&#xff0c; 肯定有一个node.func(), 那这个函数是如何执行到的呢&#xff1a; 1. 首先我们要看一下这个插件注册的时候做了什么&#xff0c; 假设node 如下&#xff1a; 编译成功后&#xff0c; 我们可以从函数vlib_plugin_earl…

ubuntu20.04开机运行java的sh脚本

用到了 rc.local 1、修改 /usr/lib/systemd/system/rc-local.service 在最下面添加 [Install] WantedBymulti-user.target 2、 系统没有 rc.local&#xff0c;需要手动创建 cd /etc vi rc.local在里面写入 /opt/start.sh chmod x /etc/rc.local # 添加可执行权限 chmod x…

三分钟设计自己的工厂!基于昇腾AI处理器昇思MindSpore打造的智能化工大模型为化工研发效率带来10+倍提升

前言&#xff1a;华为与大连化物所深度合作&#xff0c;联合推出智能化工大模型&#xff0c;AI赋能化工领域&#xff0c;拥抱科学创新&#xff0c;提供了数据驱动化工研发的新范式。 2024年3月22日&#xff0c;在北京国家会议中心召开的昇思人工智能框架峰会上发布了由华为AI4…

mysql的约束和表关系

根据查询的结果&#xff0c;复制出一个新表 create table newTable AS select * from oldTable; create table newPeople AS select * from day2_test.people; 约束 引入&#xff1a;如果某一列如id列&#xff0c;有重复的数据&#xff0c;无法准确定位&#xff0c;有的列有空…

【JVM】java内存区域

目录 一、运行时数据区域 1、方法区 2、堆 3、虚拟机栈 4、本地方法栈 5、程序计数器 6、运行时常量池 二、HotSpot虚拟机的对象 1、对象的创建 指针碰撞&#xff1a; 空闲列表&#xff1a; 2、对象的内存布局 对象头 实例数据 对齐填充 3、对象的访问定位 句…

SNETCracker--超级弱口令检查工具简介

一、简介 SNETCracker 超级弱口令检查工具是一款Windows平台的弱口令审计工具&#xff0c;支持批量多线程检查&#xff0c;可快速发现弱密码、弱口令账号&#xff0c;密码支持和用户名结合进行检查&#xff0c;大大提高成功率&#xff0c;支持自定义服务端口和字典。 二、SNE…

C++认知

如何成为一名合格的C/C开发者 C/C 的当前应用领域 C 的应用领域目前有三大类&#xff0c;第一类就是我们目前见到的各种桌面应用软件&#xff0c;尤其 Windows 桌面软件&#xff0c;如 QQ、安全类杀毒类软件&#xff08;如金山的安全卫士&#xff0c;已开源&#xff0c;其代码…

点燃营销力量!利用淘宝商品关键词搜索电商API接口引爆销售

随着电子商务的快速发展&#xff0c;利用API接口引爆销售已成为许多企业的关键策略。淘宝作为中国最大的电商平台&#xff0c;其商品关键词搜索API接口极具潜力。联讯数据将详细介绍淘宝商品关键词搜索电商API接口的功能与应用&#xff0c;并探讨如何通过该接口点燃营销力量&am…

队列的实现(c语言实现)

队列的定义 队列&#xff08;Queue&#xff09;是一种特殊的线性数据结构&#xff0c;它遵循先进先出&#xff08;FIFO&#xff0c;First In First Out&#xff09;的原则。这意味着最早被添加到队列中的元素将是最先被移除的元素。队列的主要操作包括入队&#xff08;enqueue…