torch.nn.functional.grid_sample(F.grid_sample)函数的说明 3D空间中的点向图像投影的易错点

news2025/1/23 6:00:31

由于二者有一定共通之处,因此放在一篇文章内介绍。

1. 关于torch.nn.functional.grid_sample函数的说明(F.grid_sample)

  该函数的作用是在图像/体素空间中采样特征。

1.1 输入和输出:

变量名数据类型默认值含义备注
inputTensor-原始图像/体素空间的特征形状需为 ( B , C , H , W ) (B,C,H,W) (B,C,H,W) ( B , C , D , H , W ) (B,C,D,H,W) (B,C,D,H,W),分别表示在图像中采样特征和在3D体素空间中采样特征
gridTensor-采样图像/体素空间的归一化坐标形状需为 ( B , h , w , 2 ) (B,h,w,2) (B,h,w,2)(对应4维input的情况)或 ( B , d , h , w , 3 ) (B,d,h,w,3) (B,d,h,w,3)(对应5维input的情况),具体见1.2节
modestr‘bilinear’采样特征的插值方式可为’bilinear’(双线性插值)、‘nearest’(最近邻插值)、‘bicubic’(双三次插值)
padding_modestr‘zeros’图像/体素空间外侧填充方式可为’zeros’(零填充)、‘border’(边界值填充)或’reflection’(反射填充,详见官方介绍)
align_cornersboolFalse是否将像素看作点而非方块False表示将像素看作方块,而True表示将像素看作点(具体见1.2节)
返回值Tensor返回值采样得到的特征图形状为 ( B , C , h , w ) (B,C,h,w) (B,C,h,w)(对应4维input的情况)或 ( B , C , d , h , w ) (B,C,d,h,w) (B,C,d,h,w)(对应5维input的情况)

1.2 需要注意的地方

以4维输入(即从图像采样特征)为例,设图像的大小为 ( H , W ) (H,W) (H,W)

  • 当align_corner=False时,函数会将像素视为方块,并以图像左上角像素的左上角为原点建立坐标系(如下左图所示);否则函数会将像素视为点,以图像左上角像素中心)为原点建立坐标系(如下右图所示)。
    在这里插入图片描述
  • 参数grid的元素需主要分布在 [ − 1 , 1 ] [-1,1] [1,1]内,表示归一化采样坐标。其中 − 1 -1 1表示图像范围内的最小坐标,而 1 1 1表示图像范围内的最大坐标(如上图所示)。
  • 参数grid中的最后一维的顺序为 ( x , y ) (x,y) (x,y),但输入图像大小 ( H , W ) (H,W) (H,W)对应 ( y _ s i z e , x _ s i z e ) (y\_size,x\_size) (y_size,x_size)。例子如下:
a = torch.arange(12, dtype=torch.float).reshape(3,4).unsqueeze(0).unsqueeze(0)  # (1,1,3,4)
grid = torch.tensor([[[-0.25,-1.0], [1.0,-1.0]],
                     [[-1.0, 1.0], [1.0, 1.0]]]).unsqueeze(0)					# (1,2,2,2)
out = F.grid_sample(a, grid=grid, padding_mode='border')						# (1,1,2,2)
# 输出a:
# tensor([[[[ 0.,  1.,  2.,  3.],
#           [ 4.,  5.,  6.,  7.],
#           [ 8.,  9., 10., 11.]]]])
# 输出out:
# tensor([[[[ 1.,  3.],
#           [ 8., 11.]]]])
# 我们只关注采样的左上角元素,坐标为(-0.25,-1.0),对应上左图中的第一行第二个格子的顶部中心,
# 在双线性插值、边界值填充的情况下采样特征就是该像素的特征1。
  • 对于5维输入(即从体素空间采样特征)的情况,参数grid中的最后一维顺序为 ( x , y , z ) (x,y,z) (x,y,z),但输入体素空间大小 ( D , H , W ) (D,H,W) (D,H,W)对应 ( z _ s i z e , y _ s i z e , x _ s i z e ) (z\_size,y\_size,x\_size) (z_size,y_size,x_size)。例子如下:
a = torch.arange(12, dtype=torch.float).reshape(3,4).unsqueeze(0).unsqueeze(0)  # (1,1,3,4)
grid = torch.tensor([[[[-0.25, -1.0, -1.0], [1.0, -1.0, -1.0]],
                      [[ -1.0,  1.0,  1.0], [1.0,  1.0,  1.0]]]]).unsqueeze(0)	# (1,1,2,2,3)
out = F.grid_sample(a, grid=grid, padding_mode='border')						# (1,1,1,2,2)
# 输出a:
# tensor([[[[[ 0.,  1.,  2.,  3.],
#            [ 4.,  5.,  6.,  7.],
#            [ 8.,  9., 10., 11.]],		# 第一层
# 
#           [[12., 13., 14., 15.],
#            [16., 17., 18., 19.],
#            [20., 21., 22., 23.]]]]])	# 第二层
# 输出out:
# tensor([[[[[ 1.,  3.],
#            [20., 23.]]]]])
# 我们只关注采样的左上角元素,前两个维度的坐标为(-0.25,-1.0),对应上左图中的第一行第二个格子的顶部中心;
# 而第三个维度的坐标为-1.0,对应最上层的最上部(自行想象3D体素空间)。在双线性插值、边界值填充的情况下,
# 采样特征就是该体素(最上层、第一行第二个体素)的特征1。

2. 3D空间中的点向图像投影时的易错点

2.1 点向图像的投影

  设图像的内参矩阵( 3 × 4 3\times4 3×4)扩维为 4 × 4 4\times4 4×4后的矩阵为 I \textbf{I} I,相机坐标系中的点(3维)扩维到4维后的向量为 p = ( x , y , z , 1 ) T \textbf{p}=(x,y,z,1)^T p=(x,y,z,1)T,图像坐标系下的像素索引(可为小数)为 ( u , v ) (u,v) (u,v),深度为 d d d,则 ( u d , v d , d , 1 ) T = I ⋅ p (ud,vd,d,1)^T=\textbf{I}\cdot\textbf{p} (ud,vd,d,1)T=Ip

2.2 易错点:小数索引转换为整数索引(寻找对应的像素)

  下图所示为上述 ( u , v ) (u,v) (u,v)被定义的坐标系以及像素的整数索引。
在这里插入图片描述

可见,应该对小数索引进行floor()操作,以找到其对应像素的整数索引。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/43535.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

训练神经网络的各种优化算法【文末赠书】

正确的优化算法可以成倍地减少训练时间 许多人在训练神经网络时可能会使用优化器,而不知道该方法称为优化。优化器是用于更改神经网络属性(例如权重和学习率)以减少损失的算法或方法。 文章目录梯度下降随机梯度下降小批量梯度下降其它优化算…

C/C++指针之提高篇详解(二)

一、引言 C/C语言中引入了指针,使得程序能够直接访问内存地址,使得很多复杂的操作变得简单,同时也提高了程序的运行效率。指针即是地址,但是地址却是通过指针变量来存储的。这就好比我们的教室,每个教室都有一个房间号…

第3章 Tomcatservlet

1.BS与CS *CS:客户端服务器架构模式 优点:充分利用客户端机器的资源,减轻服务器的负荷 缺点:需要安装;升级维护成本较高 *BS:浏览器服务器架构模式 优点:客户端不需要安装,维护成本…

Zlibrary已死,找了一个替代品,找了一个替代品免费的电子书下载平台...

大家好,我是鸟哥。一个半路出家的程序员。 提到Zlibrary,想必大家都不陌生吧。全球最大的数字图书馆,截止被封前共收录了591万本书,7751万篇文章,并且还在不断的增加中,关键是可以免费下载。 反正我是很熟悉…

Rust之常用集合(二):字符串(String)

开发环境 Windows 10Rust 1.65.0VS Code 1.73.1 项目工程 这里继续沿用上次工程rust-demo 用字符串存储UTF-8编码的文本 我们在之前的章节中讨论了字符串,但现在我们将更深入地研究它们。新的Rust人会因为三个原因而陷入字符串:Rust倾向于暴露可能的错误&#x…

【季报分析】美团:真的很美

11月25日,港股盘后美团发布了2022年第三季度业绩报告。整体来看,财报数据还算不错,毕竟大部分指标都已经超预期,探员利用这两天假期,把美团的这份财报仔细过了一遍,当然探员也把2022年Q1、Q2的数据也进行了…

Linux代码调试----gdb使用介绍

目录 一、简介 二、gdb使用流程: (1)gdb的启动 (2)调试中查看源代码 (3)开始调试 一、简介 GDB 全称“GNU symbolic debugger”,是 Linux 下常用的程序调试器。发展至今&#xff…

[附源码]SSM计算机毕业设计校园超市进销存管理系统JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

【Node.js】第九章 数据库

目录 1. 数据库的基本概念 1.1 数据库的概念 1.2 数据库的分类 1.3 数据组织结构 2. MySQL使用介绍 2.1 安装MySQL和MySQL Workbench 2.2 MySQL的基本使用 2.3 使用SQL管理数据库 3. 在项目中使用MySQL 3.1 安装和配置MySQL模块 3.2 操作数据 1. 数据库的基本概念…

word怎么转pdf?word转pdf借助pdf软件即可搞定!

我们在办公的时候,会有word转pdf的办公需求,但是很多人都不清楚word转pdf的方法,那么word怎么转pdf呢?其实方法很简单,利用pdf软件来进行word转pdf的操作即可,如今,市面上pdf软件应接不暇&#…

五、Javascript 空间坐标[尺寸、滑动]

一、尺寸 1.视窗尺寸 document.documentElement.clientWidth&#xff1a;视窗宽度document.documentElement.clientHeight&#xff1a;视窗高度 2.各种尺寸 举例&#xff1a;<div id"gao"></div> 前提&#xff1a;var a document.getElementById(g…

多重共线性如何分析?

判断标准 常见的直观判断方法共有四个&#xff0c;如下&#xff1a; &#xff08;1&#xff09;某些自变量的相关系数值较大&#xff08;比如大于0.8&#xff09;等&#xff0c;可以利用pearson相关系数检验法一般是利用解释变量之间的线性相关程度判断&#xff0c;一般标准是…

Java常用类(二)

目录 JDK8之前的日期时间API java.lang.System类 java.util.Date类 两个构造器的使用 两个方法的使用 java.sql.Date类 涉及两个问题&#xff1a; java.text.SimpleDateFormat类 格式化&#xff1a;日期--->字符串 解析&#xff1a;字符串--->日期&#xff08;格…

基于TM的遥感数据的叶面积指数估算解决方案及或取途径

1、背景与技术路线 叶面积指数是重要的植被结构参数&#xff0c;反演叶面积指数是植被遥感的重要研究内容之一&#xff0c;其影响生 态系统的物质和能量循环&#xff0c;成为作物生长、路面过程、水文和生态等模型的输入参数或状态变量。今 年来&#xff0c;对也铭记指数的反演…

Spark系列之Spark的RDD详解

title: Spark系列 第五章 Spark 的RDD详解 5.1 RDD概述 ​ RDD 是 Spark 的基石&#xff0c;是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢&#xff1f; ​ Hadoop的MapReduce是一种基于数据集的工作模式&#xff0c;面向数据&#xff0c;这种工作模式一般是从…

Python_数据容器_集合set

一、集合set的定义 考虑使用集合的场景&#xff0c;通过已经学习的列表、元组、字符串三个数据容器特性来分析&#xff1a; 列表可以修改、支持重复元素且有序 元组、字符串、不可修改、支持重复元素且有序 局限就在于&#xff1a;它们支持重复元素 集合定义语法&#xff1…

KubeVirt with DPDK

发布于2022-11-25 15:52:32阅读 1020 Kubernetes优秀的架构设计&#xff0c;借助multus cni intel userspace cni 可以屏蔽了DPDK底层的复杂&#xff0c;让KubeVirt 支持DPDK变得比较容易。 因为 e2e验证 等原因&#xff0c;KubeVirt社区至今未加入对DPDK支持&#xff0c;本篇…

有用的CSS代码块

文章目录调试 DOM 元素的 border通用的网页样式调试 DOM 元素的 border 显示所有DOM元素的border&#xff0c;方便调试网页元素的相对布局。 * {outline: auto; }如何用javascript设置某个网页的style(复制以下代码到浏览器控制台执行即可)&#xff1f; // wuyujin1997 var …

PIC单片机5——串口 中断

//10M晶振 波特率9600 BRG8位波特率发生器 异步模式 #include "p18f458.h" #include "mydelay.h" #pragma config OSCHS,WDTOFF,LVPOFF,DEBUGON void PIC18F_High_isr(void);/*中断服务函数声明*/ void PIC18F_Low_isr(void); void usart_tx(unsigned ch…

基于javaweb房屋租赁管理系统的设计与实现

摘要 当今社会不管房屋出租、出售买卖是必不可少的&#xff0c;人们不管走到哪里都需要有一个温馨的家&#xff0c;有一个落脚之地&#xff0c;所以房源出租市场也是非常火爆&#xff01;不管是房源出租公司或者是个人都需要一套完整的管理系统来掌握整个市场信息。针对这一需求…