【Pytorch笔记】6.Transforms

news2025/1/17 14:05:32

pytorch官方文档 - transforms

transforms需要使用计算机视觉工具包:torchvision。
torchvision.transforms:常用的图像预处理方法;
torchvision.datasets:常用数据集的dataset实现,如MNIST、CIFAR-10、ImageNet等;
torchvision.model:常用的模型预训练,如AlexNet、VGG、ResNet、GoogleNet等。

torchvision.transforms

常用的图像预处理方法,包括数据中心化、数据标准化、缩放、裁剪、旋转、翻转、填充、噪声添加、灰度变换、线性变换、仿射变换、亮度变换、饱和度变换、对比度变换等。

Geometry - 几何变换

torchvision.transforms.Resize()

功能:将给定图像缩放成指定的尺寸。

trans = transforms.Resize((32, 32))

意思就是把样本图像缩放成32x32的。如果里面的参数给的不是上面这样的(H, W)的格式,而是一个数的话,那么令原图像的较短边与该数匹配,按比例缩放。

torchvision.transforms.RandomCrop()

功能:将给定图像按照指定的尺寸随机裁剪。

trans = transforms.RandomCrop(size=10, padding=4)

size指裁剪大小。如果size=10,就是裁出10x10的图片;如果size=(15, 10),就是裁出15x10的图片。
padding指填充大小。如果padding=4,就是上下左右填充都是4;如果padding=(4,2),就是左右填充为4,上下填充为2;如果padding=(4,3,2,1),那么左填充为4,上填充为3,右填充为2,下填充为1。

torchvision.transforms.CenterCrop()

功能:将给定图像按照指定的尺寸在中心裁剪。

trans = transforms.CenterCrop(size=4)

size指裁剪大小。如果size=4,就是裁出4x4的图片;如果size=(4, 3),就是裁出4x3的图片。

torchvision.transforms.FiveCrop()

功能:将给定图像按照指定的尺寸在中心、四个角裁剪,返回五个裁剪出来的图。

trans = transforms.FiveCrop(size=4)

size指裁剪大小。如果size=4,就是裁出4x4的图片;如果size=(4, 3),就是裁出4x3的图片。

torchvision.transforms.TenCrop()

功能:将给定图像按照指定的尺寸在中心、四个角裁剪,并分别进行翻转,返回十个裁剪/翻转出来的图。

trans = transforms.TenCrop(size=4, vertical_flip=False)

size指裁剪大小。如果size=4,就是裁出4x4的图片;如果size=(4, 3),就是裁出4x3的图片。
vertical_flip为True,则翻转采用垂直翻转;False,则翻转采用水平翻转。

torchvision.transforms.Pad()

功能:将给定图像按照给定值进行边界填充。

trans = transforms.Pad(padding=4, fill=0, padding_mode='constant')

padding指填充大小。如果padding=4,就是上下左右填充都是4;如果padding=(4,2),就是左右填充为4,上下填充为2;如果padding=(4,3,2,1),那么左填充为4,上填充为3,右填充为2,下填充为1。
fill指填充内容,该参数当且仅当后面的padding_mode'constant'时有效,默认值为0。如果是一个长度为3的tuple,则分别用于填充图像的R,G,B层。用于tensor时仅支持一个数,用于PIL图像时仅支持一个数或一个长度为3的tuple。
padding_mode指填充方式,有以下取值:
'constant':用一个常值填充,填充的内容用fill参数传入。
'edge':边缘填充,使用图像最靠边界的元素的数值进行填充。
'reflect':镜像填充,以最外侧的元素为对称轴,将图像的内容对称填充进去。如原图像为[1,2,3,4]、padding=2时,填充后变成[3,2,1,2,3,4,3,2]。
'symmetric':对称填充,以边界为对称轴,将图像的内容对称填充进去。如原图像为[1,2,3,4]、padding=2时,填充后变成[2,1,1,2,3,4,4,3]。

torchvision.transforms.RandomRotation()

功能:将给定图像按照指定角度范围进行随机旋转。

trans = transforms.RandomRotation(degrees=(40, 90), 
								  interpolation=InterpolationMode.NEAREST,
								  expand=False,
								  center=None,
								  fill=0)

degrees指角度范围,如果degree=40,那么旋转角度的范围为(-40,40)
interpolation指插值方式,有两种取值:
InterpolationMode.NEAREST:就近插值、
InterpolationMode.BILINEAR:双线性插值;
expand指是否扩充输出图像的尺寸,如果为True,则输出图像会根据旋转后的结果使尺寸变大,如果为False,则输出图像的形状不变。
center指旋转中心,默认为None,以图片左上角为旋转中心。
fill指旋转后空白的地方的填充内容。

torchvision.transforms.RandomPerspective()

功能:将给定的图像按照给定参数进行透视变换(透视变换效果见下图)
在这里插入图片描述

trans = transforms.RandomPerspective(distortion_scale=0.5, 
									 p=0.5, 
									 interpolation=InterpolationMode.BILINEAR, 
									 fill=0)

distoration_scale指扭曲程度,范围是[0,1],默认为0.5;
p指被变换概率,默认为0.5;
interpolation指插值方式,有两种取值:
InterpolationMode.NEAREST:就近插值、
InterpolationMode.BILINEAR:双线性插值;
fill指旋转后空白的地方的填充内容。

torchvision.transforms.RandomHorizontalFlip()

功能:以指定概率水平翻转图像。

trans = transforms.RandomHorizontalFlip(p=0.5)

p指被变换概率,默认为0.5;

torchvision.transforms.RandomVerticalFlip()

功能:以指定概率垂直翻转图像。

trans = transforms.RandomVerticalFlip(p=0.5)

p指被变换概率,默认为0.5;

Color - 色彩变换

torchvision.transforms.ColorJitter()

功能:随机改变图像的亮度、对比度、饱和度和色调。

trans = transforms.ColorJitter(brightness=0.5, contrast=0.5, saturation=0.5, hue=0.5)

brightness指亮度:
如果是一个float,则亮度从[max(0, 1-brightness), 1+brightness]中均匀抽取,
如果是一个长度为2的tuple:float(min, max),则亮度从[min, max]中均匀抽取;
contrast指对比度:
如果是一个float,则对比度从[max(0, 1-contrast), 1+contrast]中均匀抽取,
如果是一个长度为2的tuple:float(min, max),则对比度从[min, max]中均匀抽取;
saturation指饱和度:
如果是一个float,则饱和度从[max(0, 1-saturation), 1+saturation]中均匀抽取,
如果是一个长度为2的tuple:float(min, max),则饱和度从[min, max]中均匀抽取;
hue指色调:
如果是一个float,则色调从[-hue, hue]中均匀抽取,其中 0 ≤ h u e ≤ 0.5 0\leq hue \leq 0.5 0hue0.5
如果是一个长度为2的tuple:float(min, max),则色调从[min, max]中均匀抽取,其中 − 0.5 ≤ m i n ≤ m a x ≤ 0.5 -0.5\leq min\leq max\leq 0.5 0.5minmax0.5

torchvision.transforms.Grayscale()

功能:将图像转为灰度图像。

trans = transforms.Grayscale(num_output_channels=1)

num_output_channels指输出图像的通道数,取值只能是1或3。
如果为1:返回的图像只有一个通道;
如果为3:返回的图像有3个通道,且r=g=b

torchvision.transforms.RandomGrayscale()

功能:以指定概率将图像转为灰度图像。

trans = transforms.RandomGrayscale(p=0.5)

p为转变图像的概率。

torchvision.transforms.GaussianBlur()

功能:使用随机的高斯模糊对图像进行模糊处理。

trans = transforms.GaussianBlur(kernel_size=2, sigma=(0.1, 2.0))

kernel_size指高斯核的大小;
sigma指用于创建内核进行模糊处理的标准偏差,如果是一个float则sigma固定;如果是长度为2的float元组,令其为float(min, max),并在[min, max]范围内均匀随机选取sigma。

torchvision.transforms.RandomInvert()

功能:以指定概率替换图片的颜色。

trans = transforms.RandomInvert(p=0.5)

p为改变颜色的概率。

transforms.RandomPosterize()

功能:以指定概率将图片海报化(减少通道中的比特数)。

trans = transforms.RandomPosterize(bits=4, p=0.5)

bits指每个通道保持的比特数,取值为0-8;
p为转化图像的概率。

transforms.RandomSolarize()

功能:以指定概率将图片高曝(Solarize该怎么翻译呢?)。

trans = transforms.RandomSolarize(threshold=128, p=0.5)

threshold指高曝的阈值。所谓高曝,就是将像素值在[0, threshold]映射到[threshold, 255]上。
p为转化图像的概率。

Composition - 变换组合

torchvision.transforms.Compose()

功能:将多个transforms变换封装成一个组合。

transforms.Compose([
    transforms.CenterCrop(10),
    transforms.PILToTensor(),
    transforms.ConvertImageDtype(torch.float),
])

参数就是包含很多transforms变换的list。

torchvision.transforms.RandomApply()

功能:以给定概率将transforms列表中的变换打乱。

transforms.RandonApply([
    transforms.CenterCrop(10),
    transforms.PILToTensor(),
    transforms.ConvertImageDtype(torch.float),
], p=3)

第一项可以是transforms的sequence,也可以是torch.nn.ModuleList;
第二项p是打乱的概率。

Miscellaneous - 杂项

torchvision.transforms.Normalize()

功能:对得到的tensor进行减均值除标准差处理。

trans = transforms.Normalize(mean=0, std=1, inplace=True)

mean指均值;
std指标准差;
inplace指是否替换原tensor,True为替换,False为不替换。

torchvision.transforms.RandomErasing()

功能:对得到的图像,以一定概率随机一个矩形区域进行擦除。

trans = transforms.RandomErasing(p=0.5, 
								 scale=(0.02, 0.33), 
								 ratio=(0.3, 3.3), 
								 value=0, 
								 inplace=False)

p指给定的概率;
scale指擦除区域面积占原图面积的比例范围;
ratio指擦除区域长宽比的范围;
value指擦除后填充的值,如果是一个int,那么全部用这个int来填充;如果是长度为3的int,则分别用于填充R、G、B三个通道;如果value='random',则随机填充。
inplace指是否替换原tensor,True为替换,False为不替换。

Conversion - 格式转换

torchvision.transforms.ToTensor()

功能:将PIL图像或ndarray转换成tensor并将值映射到[0,1]之间。
更具体地,将一个PIL图像或ndarray(形状是 H × W × C H\times W\times C H×W×C,元素范围在[0,255])转化成tensor(形状是 C × H × W C\times H\times W C×H×W,元素范围在[0,1])。前提是PIL图像属于L, LA, P, I, F, RGB, YCbCr, RGBA, CMYK, 1中的一种模式、ndarray的dtype=uint8。
其他情况下返回的tensor不会被映射到[0,1]之间。

trans = transforms.ToTensor()

torchvision.transforms.PILToTensor()

功能:将 H × W × C H\times W\times C H×W×C的PIL图像转换为 C × H × W C\times H\times W C×H×W的tensor。

trans = transforms.PILToTensor()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1064798.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于python编写的excel表格数据标记的exe文件

目录 一、需求: 二、思路: 三、工具 四、设计过程 (一)根据需要导入相关的图形界面库 (二)创建图形窗口 (三)标签设计 (四)方法按钮设计 &#xff0…

值得推荐的阿里巴巴Java开源项目

说明:以下都是项目中使用过的,后续将持续更新!!! 1、开源 Java 诊断工具 Arthas Arthas(阿尔萨斯)是阿里巴巴开源的 Java 诊断工具,深受开发者喜爱。 Arthas 采用命令行交互模式&…

「专题速递」JPEG AI、端到端图像编码的标准化及产品落地、深度学习

从最初的追随者到如今的领跑者,中国的超高清视频编解码技术已经走过20年的漫长征程。从开始制定不同的视频编解码标准,如H.264/265、AV1、VVC、AVS,再到积极地探索基于AI的视频编码技术。视频编解码——这一将视频数据高效压缩、传输和解码还…

软件项目和安全项目案例(承接软件和安全项目合作)

公司有专业的软件开发团队和安全研究团队,具备完善的安全测试、安全培训、安全开发、安全服务等安全解决方案,可以助力政企研发专业、高效、安全、稳定的软件产品,欢迎项目咨询、商务合作! 一、软件开发项目咨询 1.承接车载等终…

了解了spring mvc web容器中一个http请求的全过程,能给我们提升多少武力值

继上一篇文章什么,这年头还有人不知道404_cow__sky的博客-CSDN博客后,有些同学发现,学了之后有啥用,有什么实际场景可以用到吗?程序员就是这样,不习惯于纸上谈兵,给一个场景show me code才是最实…

免交互输入

here document 免交互 对文本内容进行操作&#xff1a; 标准输入的替代品。 语法格式 命令 <<标记 内容 标记 命令&#xff1a;linux 命令 注意事项&#xff1a; 1.标记可以使用的任意字符。(字母和数字&#xff0c;一般不适用特殊字符。以字母开EOF) 2.结尾的标记一…

PHP8中的魔术方法-PHP8知识详解

在PHP 8中&#xff0c;魔术方法是一种特殊的方法&#xff0c;它们以两个下划线&#xff08;__&#xff09;开头。魔术方法允许您定义类的行为&#xff0c;例如创建对象、调用其他方法或访问和修改类的属性。以下是一些常见的魔术方法&#xff1a; __construct(): 类的构造函数…

【LeetCode高频SQL50题-基础版】打卡第1天:第1~10题

文章目录 【LeetCode高频SQL50题-基础版】打卡第1天&#xff1a;第1~10题⛅前言 可回收且低脂的产品&#x1f512;题目&#x1f511;题解 寻找用户推荐人&#x1f512;题目&#x1f511;题解 大的国家&#x1f512;题目&#x1f511;题解 文章浏览I&#x1f512;题目&#x1f5…

【计算机组成 课程笔记】7.3 高速缓存 Cache

课程链接&#xff1a; 计算机组成_北京大学_中国大学MOOC(慕课) 7 - 5 - 705-高速缓存的工作原理&#xff08;16-00--&#xff09;_哔哩哔哩_bilibili 在【计算机组成 课程笔记】7.1 存储层次结构概况_Elaine_Bao的博客-CSDN博客中提到&#xff0c;因为CPU和内存的速度差距越来…

R语言12篇文章带您深入了解限制立方条图(Restricted cubic spline,RCS)

临床上&#xff0c;因变量和临床的结局有时候不是线性关系&#xff0c;而回归模型有一个重要的假设就是自变量和因变量呈线性关联&#xff0c;因此非线性关系模型用回归分析来拟合受到限制。因此&#xff0c;一个更好的解决方法是拟合自变量与因变量之间的非线性关系&#xff0…

SICP第三章 模块化,对象和状态

赋值和局部状态 我们可以用一个或几个状态变量刻画一个对象的状态&#xff0c;在他们之中维持有关这一对象的历史&#xff0c;即能够确定该对象当前行为的充分的信息 局部状态变量 过程 dispatch 以一个消息为输入&#xff0c;返回两个局部过程之一 引进赋值带来的利益

【Windows】Win11重置网络设置后WLAN消失

问题描述 Windows11重置网络设置后WLAN消失。 原因分析 WLAN相关服务未启动。 解决方案 Win r 打开运行 运行 services.msc 按名称排序&#xff0c;找到这两个服务 右键启动 右键打开属性&#xff0c;找到启动类型&#xff0c;改为自动 WLAN已找回

七、【套索工具组】

文章目录 套索工具多边形套索工具磁性套索工具 套索工具 如下图&#xff0c;以我们抠图为例&#xff0c;当我们选用套索工具选中一块区域后&#xff0c;然后按ShiftF5调出填充工具菜单&#xff0c;然后再选中内容识别&#xff0c;就可以去掉该区域&#xff1a; 那么如何做到加…

云盘文件批量分享脚本

前言 偶尔需要用就心血来潮做了下目前支持 百度网盘批量分享115网盘批量分享天翼云盘批量分享123盘批量分享(2023年10月05日新增)夸克网盘批量分享(2023年10月06日新增)蓝奏网盘批量分享(2023年10月06日新增)进度条展示复制到剪贴板下载分享链接分享信息自定义配置自定义提取码…

HDLbits: Edgedetect

module top_module (input clk,input [7:0] in,output [7:0] pedge );reg [7:0] in_old;always(posedge clk)beginin_old < in; end assign pedge < in & ~in_old; endmodule 对于边缘检测而言&#xff0c;若是0→1和1→0都检测则为in^in_old&#xf…

智能家电经营小程序商城的作用是什么

大小家电是人们生活所需&#xff0c;如冰箱、电脑、电视机、饮水机等&#xff0c;都有很高的市场需求度&#xff0c;传统人们购买往往是前往当地商场&#xff0c;而随着如今互联网电商深入&#xff0c;越来越多的用户选择线上消费&#xff0c;这也促进着传统家电经营商家需要转…

k8s-10 ingress-nginx 特性

TLS加密 创建证书 测试 auth认证 创建认证文件 rewrite重定向 进入域名 会自动重定向hostname.html 示例二&#xff1a; 测试 后面必须跟westos 这个关键字 canary金丝雀发布 基于header灰度 场景&#xff1a;版本的升级迭代&#xff0c;比如一个service 升级到另…

【Hello Algorithm】认识一些简单的递归

本篇博客介绍&#xff1a; 认识一些简单的递归 认识一些简单的递归 打印一个字符串全部的子序列打印一个字符串的全排列不申请额外的空间 逆序输出一个栈 我在刚刚学习C语言的时候写过一个汉诺塔问题 大家可以参考下我之前写的这篇博客 汉诺塔问题 其实这个问题也可以这么解决…

【RK3588】YOLO V5在瑞芯微板子上部署问题记录汇总

YOLO V5训练模型部署到瑞芯微的板子上面&#xff0c;官方是有给出案例和转过详情的。并且也提供了Python版本的推理代码&#xff0c;以及C语言的代码。 但是&#xff0c;对于转换过程中的细节&#xff0c;哪些需要改&#xff1f;怎么改&#xff1f;如何改&#xff0c;和为什么…

Altium Designer20.2.3安装详解

Altium Designer20.2.3是一个画PCB电路板的软件&#xff0c;今天有时间安装一下&#xff0c;接下来的一段时间就学习这个电路板的绘制了。特此记录下安装过程。 首先是下载软件&#xff0c;我直接放到我的网盘里面了。我把他分享出来吧&#xff01;希望能帮到更多的小伙伴&…