Simple-BEV的bilinear_sample 作为view_transformer的解析,核心是3D-2D关联点生成

news2025/3/28 7:34:36

文件路径models/view_transformers

父类 是class BiLinearSample(nn.Module)基于https://github.com/aharley/simple_bev。

函数解析

  • 函数bev_coord_to_feature_coord的功能

鸟瞰图3D坐标通过多相机(针孔/鱼眼)内外参投影图像特征平面,生成归一化采样坐标与有效掩码,实现多视角特征的空间对齐与融合筛选。
代码


    def bev_coord_to_feature_coord(self, features, block_idxs, extrin_camera_to_ego, intrinsic, dist, ida, dist_type='KB'):
    	...

首先:函数接收多个参数,包括特征、块索引、外参、内参、畸变参数等。
然后:处理不同相机类型(针孔和鱼眼)的索引
然后:生成3D点(通过gridcloud3d()函数实现,非均匀空间采样),将记忆坐标系中的点转换到自我车辆坐标系(get_bevgrid()matrix_mem_egocar)。并通过外参矩阵转换到相机坐标系。对于针孔相机,计算投影点,并进行畸变校正,然后将坐标转换到特征图的比例。对于鱼眼相机,处理类似,但使用了不同的畸变模型。
最后:合并两种相机的结果,并根据块索引屏蔽某些相机的特征。

这里面核心的是“对于针孔/鱼眼相机,计算投影点”。
首先,生成相机索引

pinhole_index = torch.cat([torch.arange(num_cams_pinhole) + self.num_cams * i for i in range(B)])
fisheye_index = torch.cat([torch.arange(num_cams_pinhole, num_cams_pinhole
                                  + num_cams_fisheye) + self.num_cams * i for i in range(B)])

操作演示,num_cams_pinhole有1个,num_cams_fisheye有4个,num_cams 是5个。
在这里插入图片描述
然后用pinhole_index 和fisheye_index 索引取get_bevgrid()生成的3D点。
然后用内外参数将3D点转换到图像2D点

        # 投影3D点到2D图谱 (原始图像尺寸是 2160x3840)
        外参逆矩阵 = 外参矩阵.inverse()
        2D图像的点 = (内参矩阵 @ 外参逆矩阵)@ 3D点  # 尺寸是(BN,4,K)
        2D图像的点 = 2D图像的点.transpose(2, 1)  #  尺寸是(BN, k, 4)
        2D深度检测Mark = (2D图像的点[:, :, 2] > 0.0).bool() # 投影点的深度(z坐标)是否为正值,排除位于相机后方的点(不可见)
        
        # (X, Y, Z, 1)-> (X/Z, Y/Z, 1, 1)
        2D图像的点 = 2D图像的点[0:2]/2D图像的点[2]
        # 增加一个维度
        2D图像的点 = torch.cat(2D图像的点,ones)
        # 通过 ida_pinhole(图像坐标系转移矩阵)将归一化坐标映射到图像像素坐标。该矩阵通常包含焦距和主点偏移,完成从相机坐标系到图像平面的投影。
        2D图像的点 = 图像坐标系转移矩阵 @ 2D图像的点
        # 缩放
        2D图像的点 = 2D图像的点/下采样系数

        # 滤除无效区域的Mark
        2D的X轴检测Mark = (2D图像的点> -0.5).bool() & (2D图像的点< float(宽度 - 0.5)).bool()
        2D的Y轴检测Mark = (2D图像的点> -0.5).bool() & (2D图像的点< float(宽度 - 0.5)).bool()
        有效性Mark = (2D深度检测Mark& 2D的X轴检测Mark & 2D的Y轴检测Mark)


对于鱼眼相机

3D相机的点 = 外参逆矩阵 @ 3D点  # 
内参矩阵的仿射部分 = 内参[:2,:2]  # (焦距和轴间缩放),用于将归一化坐标映射到图像平面
内参矩阵中的主点坐标 = 内参[0:2, 2](图像中心偏移),用于投影时的平移校正。
计算径向距离 =+ Y² 的平方根
入射角  = torch.atan2(3D相机的点, 计算径向距离)
径向畸变系数 = self.polyval(畸变系数, 入射角, Kannala-Brandt模型) # 根据入射角 theta 计算径向畸变系数 rho
归一化的3D点 = 3D相机的点 × rho ÷ 计算径向距离
2D鱼眼点 = (内参矩阵的仿射部分 @ 归一化的3D点) + 内参矩阵中的主点坐标

# 通过 ida_fisheye(图像坐标系转移矩阵)将归一化坐标映射到图像像素坐标。该矩阵通常包含焦距和主点偏移,完成从相机坐标系到图像平面的投影。
2D鱼眼点 = ida_fisheye @ 2D鱼眼点 # 从相机坐标系到图像平面的投影
2D鱼眼点 = 鱼眼点/下采样系数

# 和针孔相机一样
有效性Mark = (2D深度检测Mark& 2D的X轴检测Mark & 2D的Y轴检测Mark)

最后返回的是:有效性Mark

补充:Kannala-Brandt模型介绍–点击这里
在这里插入图片描述在这里插入图片描述

  • 函数gridcloud3d()功能是:

函数通过非均匀采样生成三维网格点云,每个网格位置对应一个点,但不同区域的点密度可能不同。具体来说:

  • 函数forward_kestrel(),功能是:

该函数通过多相机特征采样与体素聚合,将鸟瞰图特征映射到3D空间并压缩生成统一表征。

    def forward_kestrel(self, input):
        # 获得Neck传过来的特征
        features = input["bev_neck_features"]
        # features 复制Z次并在通道维度拼接
        features = torch.cat([features] * Z, 1)
			 # 特征尺寸调整
        features = features.reshape(self.num_cams * Z, -1, 60, 128)
        # 得到 unproject_image_to_mem() 计算的xyz_pix 和 有效性Mark
        xyz_pix , valid_mask= ...
			# 将2D特征映,通过xyz_pix ,利用GridSampleFuction映射函数,映射到3D特征
        trans_feats = self.GridSampleFuction().apply(features, xyz_pix, "bilinear",
                                                     "zeros", None)
        # 有效性Mark 删除
        values = trans_feats* valid_mask
        # 特征被重塑
        values = values.reshape(B, self.num_cams, -1, X, Y)
        # 通道相加
        feat_mem = torch.sum(values, dim=1)
        # 通过 conv_norm 压缩成鸟瞰图特征
        feat_bev = self.bev_z_compressor(feat_mem)
        return feat_bev

首先是:输入的features被复制Z次并在通道维度拼接,使用reshape将特征调整为(num_cams * Z, -1, 60, 128),这里num_cams可能代表相机数量,Z是体素深度层数。
然后:GridSampleFuction应用双线性采样,将特征映射到新的坐标,生成trans_feats。
然后:特征被重塑为(B, num_cams, -1, X, Y)。feat_mem 是将多个相机视角的3D特征沿相机数量维度(dim=1)求和后的融合特征,目的是整合不同视角的信息,得到feat_mem。
最后: 最后通过bev_z_compressor压缩成鸟瞰图特征feat_bev。

  • 函数unproject_image_to_mem(),功能是:得到xyz_pix, valid_mask,用于后续的GridSampleFuction采用。
    def unproject_image_to_mem(self, features, block_idxs, extrinsic, intrinsic, dist_mat, dist_type, ida_mat, X, Y, Z):
        BN, C, H, W = features.shape
        # get proj point on the feature map and then normalize to [-1, 1]
        xyz_feat, valid_mask = self.bev_coord_to_feature_coord(features, block_idxs, extrinsic, intrinsic, dist_mat, ida_mat, dist_type)
        x, y = xyz_feat[:, :, 0], xyz_feat[:, :, 1]
        x_norm, y_norm = self.normalize_grid2d(x, y, W, H)

        xyz_pix = torch.stack([x_norm, y_norm], axis=1)
        #import pdb; pdb.set_trace()
        xyz_pix = rearrange(xyz_pix, "n d (x y z) -> n (z d) x y", x=X, y=Y, z=Z)
        valid_mask = rearrange(valid_mask, "n (x y z) -> n z x y", x=X, y=Y, z=Z)
        return xyz_pix, valid_mask

首先通过 bev_coord_to_feature_coord()得到 2D点和有效性Mark
按照前述分析 2D 尺寸应该是类似(bn, k, 2),这里bn是批处理大小,k是栅格的数量(通过gridcloud3d()获得),2是xy坐标。
对2D点的x和y进行归一化到[-1,1],分别除以宽和高,组成新的 2D点。
最后,将三维空间中的点按高度(Z轴)分层,每层对应一个二维网格(X-Y平面)

问文心一言的问题:LSS(Lift-Splat-Shoot)和BEVDepth在3D点处理上有以下核心区别

回答:

LSS(Lift-Splat-Shoot)和BEVDepth在3D点处理上有以下核心区别:

LSS的3D点

  • 全体视锥体栅格:LSS将图像特征提升到整个相机视锥体对应的3D体素网格中,覆盖所有可能的深度层(如0-100米,按固定间隔分层)。
  • 概率分布:每个像素的特征会被分配到多个深度层,形成概率分布(通过深度预测或几何计算),而非单一深度值。
  • 目的:构建全局3D场景表示,适用于复杂场景理解(如多物体遮挡、非地面目标检测)。

BEVDepth的栅格

  • BEV平面聚焦:BEVDepth通常将特征投影到鸟瞰图(BEV)平面的栅格中(如地面区域),每个栅格对应一个位置,深度预测用于确定该位置是否存在有效特征。
  • 单一深度假设:每个栅格可能仅保留最可能的深度值(如通过深度网络预测),或基于几何投影选择有效层。
  • 目的:高效生成BEV空间特征,尤其适合自动驾驶中地面目标检测(如车辆、行人),减少计算冗余。

栅格点数量减少

  • LSS:在全体视锥体空间生成三维体素网格(如 100 层深度 × X×Y),覆盖整个相机视野的 3D 空间。
  • BEVDepth:将特征投影到二维 BEV 平面栅格(如地面区域),仅保留与地面感知相关的位置,深度维度被压缩为单层(通过深度预测或几何投影筛选)。
  • 结论:BEVDepth 的栅格点数量显著减少(从三维到二维),降低了显存占用和计算复杂度。

总结:

  • LSS的3D点是全体视锥体的分层栅格,强调3D空间的完整建模。
  • BEVDepth的栅格是BEV平面的深度预测结果,侧重地面区域的紧凑表示。
  • 两者均可结合使用(如BEVDepth可能用LSS作为 backbone),但核心差异在于对3D空间的覆盖范围和深度建模方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2321424.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

同一个局域网的话 如何访问另一台电脑的ip

在局域网内访问另一台电脑&#xff0c;可以通过以下几种常见的方法来实现&#xff1a; ‌直接通过IP地址访问‌&#xff1a; 首先&#xff0c;确保两台电脑都连接在同一个局域网内。获取目标电脑的IP地址&#xff0c;这可以通过在目标电脑上打开命令提示符&#xff08;Windows系…

基于SpringBoot的名著阅读网站

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏&#xff1a;…

Excel(实战):INDEX函数和MATCH函数、INDEX函数实战题

目录 经典用法两者嵌套查值题目解题分析 INDEX巧妙用法让数组公式&#xff0c;自动填充所有、有数据的行/列INDEX函数和SEQUENCE函数 经典用法两者嵌套查值 题目 根据左表查询这三个人的所有数据 解题分析 INDEX函数的参数&#xff1a;第1个参数是选定查找范围&#xff0c…

uniapp超简单ios截屏和上传app store构建版本方法

​ 假如使用windows开发ios的应用&#xff0c;上架的时候&#xff0c;你会发现&#xff0c;上架需要ios应用多种尺寸的ios设备的截图&#xff0c;和需要xcode等工具将打包好的ipa文件上传到app store的构建版本。 大部分情况下&#xff0c;我们的公司都没有这么多款ios设备来…

Netty源码—5.Pipeline和Handler一

大纲 1.Pipeline和Handler的作用和构成 2.ChannelHandler的分类 3.几个特殊的ChannelHandler 4.ChannelHandler的生命周期 5.ChannelPipeline的事件处理 6.关于ChannelPipeline的问题整理 7.ChannelPipeline主要包括三部分内容 8.ChannelPipeline的初始化 9.ChannelPi…

MySQL小练习

目录 一、单表查询 二、多表查询 一、单表查询 素材&#xff1a; 表名&#xff1a;worker-- 表中字段均为中文&#xff0c;比如 部门号 工资 职工号 参加工作 等 CREATE TABLE worker ( 部门号 int(11) NOT NULL, 职工号 int(11) NOT NULL, 工作时间 date NOT NULL, 工资 float…

Apache Hive:基于Hadoop的分布式数据仓库

Apache Hive 是一个基于 Apache Hadoop 构建的开源分布式数据仓库系统&#xff0c;支持使用 SQL 执行 PB 级大规模数据分析与查询。 主要功能 Apache Hive 提供的主要功能如下。 HiveServer2 HiveServer2 服务用于支持接收客户端连接和查询请求。 HiveServer2 支持多客户端…

检波、限幅、钳位电路

检波电路&#xff1a; 类似调制收音机信号&#xff1a;输入的基波和载波叠加成调制信号&#xff08;信号需要长距离里传输&#xff0c;频率要高&#xff0c;M级别的频率&#xff0c;所以要把低频信号叠在高频信号&#xff0c;才能把低频信号长距离传输&#xff0c;最后到达接收…

学习threejs,使用TextGeometry文本几何体

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录 一、&#x1f340;前言1.1 ☘️THREE.TextGeometry1.1.1 ☘…

Go红队开发—CLI框架(一)

CLI开发框架 命令行工具开发&#xff0c;主要是介绍开发用到的包&#xff0c;集成了一个框架&#xff0c;只要学会了基本每个人都能开发安全工具了。 该文章先学flags包&#xff0c;是比较经典的一个包&#xff0c;相比后面要学习的集成框架这个比较自由比较细化点&#xff0…

高效团队开发的工具与方法 引言

引言 在现代软件开发领域&#xff0c;团队协作的效率和质量直接决定了项目的成败。随着项目规模的扩大和技术复杂度的增加&#xff0c;如何实现高效团队开发成为每个开发团队必须面对的挑战。高效团队开发不仅仅是个人技术能力的简单叠加&#xff0c;更需要借助合适的工具和方…

【Java全栈进阶架构师实战:从设计模式到SpringCloudAlibaba,打造高可用系统】

&#x1f31f; 分享一个教程&#xff0c;助刚踏入IT行业、工作几年的老油条、或热爱学习的工作党们更上一层楼的&#xff01; &#x1f31f; ​适合人群&#xff1a;初中级Java开发者、求职面试备战者、技术提升党&#xff01; &#x1f4da; ​内容亮点&#xff1a; 1️⃣ ​…

[蓝桥杯 2023 省 A] 异或和之和

题目来自洛谷网站&#xff1a; 暴力思路&#xff1a; 先进性预处理&#xff0c;找到每个点位置的前缀异或和&#xff0c;在枚举区间。 暴力代码&#xff1a; #include<bits/stdc.h> #define int long long using namespace std; const int N 1e520;int n; int arr[N…

TDengine 3.3.2.0 集群报错 Post “http://buildkitsandbox:6041/rest/sql“

修复&#xff1a; vi /etc/hosts将buildkitsandbox映射为本机节点

vue数据重置

前言 大家在开发后台管理系统的过程中&#xff0c;一定会遇到一个表格的条件查询重置功能吧&#xff0c;如果说查询条件少&#xff0c;重置起来还算是比较简单&#xff0c;如果元素特别多呢&#xff0c;那玩意写起来可遭老罪喽&#xff0c;那今天就给大家整一个如何快速重置数…

git revert 用法实战:撤销一个 commit 或 merge

git revert 1 区别 • 常规的 commit &#xff08;使用 git commit 提交的 commit&#xff09; • merge commit 2 首先构建场景 master上的代码 dev开发分支上&#xff0c;添加一个a标签&#xff0c;并commit这次提交 切到master上&#xff0c;再次进行改动和提交 将de…

修形还是需要再研究一下

最近有不少小伙伴问到修形和蜗杆砂轮的问题&#xff0c;之前虽然研究过一段时间&#xff0c;但是由于时间问题放下了&#xff0c;最近想再捡起来。 之前计算的砂轮齿形是一整段的&#xff0c;但是似乎这种对于有些小伙伴来说不太容易接受&#xff0c;希望按照修形的区域进行分…

AI本地部署之dify

快捷目录 Windows 系统一、环境准备:首先windows 需要准备docker 环1. 安装Docker desktop2. 安装Docker3. 配置Docker 镜像路径4. 配置Docker 下载镜像源5. 重启Docker服务二、Dify 下载和安装1. Dify下载2. Dify 配置3. Dify 安装附件知识:4. Dify创建账号三、下载Ollama d…

安恒春招一面

《网安面试指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇网安资料库https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39…

Python应用指南:利用高德地图API获取POI数据(关键词版)

都说“为一杯奶茶愿意赴一座城”&#xff0c;曾经不知有多少年轻人为了一口茶颜悦色不惜跨越千里来到长沙打卡&#xff0c;而如今也有不少年轻人被传说中的“奶茶界的海底捞”所吸引&#xff0c;千里迢迢来到安徽只为尝一口卡旺卡奶茶。要说起来这卡旺卡奶茶&#xff0c;尽管这…