3D视觉PnP问题

news2025/1/23 7:52:03

文章目录

    • 背景和定义
    • 方法分类
    • 典型方法
      • P3P(角锥法)
      • DLT
      • 单应性矩阵分解
      • 迭代法
      • EPnP
      • 其他延伸
    • 总结

背景和定义

目前常用的pnp方法有很多,但是本人学习和查阅后发现比较零散,因此,在这里将所学习的方法按照理解分类和总结,并且着重提出实现过程中或者原理上需要注意的点。PnP是Perspective-n-Point的缩写,指在已知相机内参数的前提下,利用某角度下n个三维点与它们对应的图像点坐标,估算出此时拍摄位置的信息。

方法分类

PnP是一类3D-2D对应关系的问题,相似的还有2D-2D,3D-3D关系。
2D-2D关系比如两个视角下拍摄平面物体,根据两幅图像平面上的若干个对应的特征点估算出单应性变换关系;比如对极几何中,左、右相机视图中的点满足极线约束的关系,左图上的一点,利用基础矩阵能够计算出右图的匹配点所在的直线。
3D-3D关系是以三维空间中的坐标系变换为主,在点云拼接中会遇到,比如ICP等。
本文的3D-2D关系,根据背景中提及的,主要用于确定某的图像拍摄的角度,在定位中会经常遇到。
根据PnP原理的不同,按照我个人的理解,将这些方法分为两个大类:
Ⅰ类:通过3D-2D的投影矩阵,直接求解投影方程中的未知数,也就是位姿参数的矩阵
Ⅱ类:通过解算出3D点在相机坐标系下的坐标,结合3D点在世界坐标系的坐标,解算出坐标系转换关系,也就是位姿参数的矩阵

典型方法

P3P(角锥法)

P3P指利用3对3D-2D点来估计相机位姿,解决思路属于第Ⅱ类方法。整体思路为:已知物体点ABC在世界坐标系的坐标,通过他们在图像上的投影点abc,以及光心O构成的三角锥的几何关系,来得到ABC在相机坐标系下的坐标,由此计算出位姿转换矩阵。具体是:

  1. 已知a,b,c的图像坐标,计算ab, bc, ac的长度,因为相机的内参是已知的,那么图像点a,b,c在相机坐标系O下的坐标就能得到,由此得到oa, ob,oc的长度,在三角形oab,oac,obc中余弦定理计算∠aoc, ∠aob, ∠boc
    在这里插入图片描述
    在这里插入图片描述
  2. 在三角形AOB,AOC,BOC中,同样地能够写出余弦定理表达式,
    在这里插入图片描述方程组中,未知数为OA,OB,OC。这是已知AB、BC、AC长度和三个夹角,计算OA、OB、OC的长度的问题,进一步的吴消元法得到一元四次方程,最终得到4组解析解(详细过程可参见其他博客)。因此,需要第4个点对来验证合适解。解算出这三个量的长度后,又知道oa,ob,oc向量的方向,那么就能得到A,B,C在相机坐标下的坐标.
  3. 由ABC在相机坐标系和世界坐标系的坐标,计算转换矩阵(可参考点云对齐)
    在这里插入图片描述

小结:P3P应用时需注意:3个点不共线,实际是要N≥4

DLT

DLT(direct linear transform)属于第Ⅰ类方法。整体思路为:

  1. 根据投影矩阵化简得到关于外参矩阵的两个方程,投影矩阵为
    在这里插入图片描述
    将矩阵展开,并进一步约去第三项
    在这里插入图片描述
    方程组中未知数为 a 1 , a 2 , a 3 . . . a 12 a_1,a_2,a_3...a_{12} a1,a2,a3...a12共12个,由此可见,一对3D-2D点能够建立两个等式,那么至少需要6对这样的点才能解算出12个未知数。
  2. 将上面的等式写为矩阵形式,根据至少6对数据,构造“AX=0”形式的方程组,SVD(A)或SVD(ATA)=UWV^T来解算RT矩阵中的12个参数(具体可参见OpenCV内部函数cvFindExtrinsicCameraParams2解析(二))。由式子可以看出,系数矩阵中假如z=0,将会有3列系数都为0,该系数矩阵将不是满秩的矩阵,结果会不稳定,因此,数据不能共面;其次,系数矩阵中的数据来自于世界坐标和像平面坐标,但数据值差异很大时会导致矩阵内的元素差异很大,导致求解出问题,因此通常需要数据归一化处理,可参见多视图几何。
    在这里插入图片描述
  3. SVD解算V的最后一列向量得到RT参数没有尺度信息,需要进一步的处理才能得到满足单位正交特性的旋转矩阵
    在这里插入图片描述
    为了得到正解matR, 可以认为是寻找近似解
    在这里插入图片描述
    最优解为
    在这里插入图片描述
    那么尺度和平移量分别为
    在这里插入图片描述

小结:DLT应用时需注意:所有点不能共面,N≥6,要做数据归一化;SVD的结果还需要进一步分解才能估算得到最终的位姿矩阵

单应性矩阵分解

前面说PnP是3D-2D的问题,若3D点共面,将变为2D-2D问题,可以通过平面的单应性性质来估算位姿参数,重点是单应性矩阵如何分解为R,T。具体可参见另一篇博客Opencv外参估计cvFindExtrinsicCameraParams2原理解析(三),该方法属于第Ⅰ类方法。

  1. 两个平面上具有的2D-2D对应点,满足平面单应性关系,单应性矩阵有8个自由度,一对2D-2D点能构成两个方程组,至少需要4对点解算出单应性矩阵
    在这里插入图片描述
  2. 参考张正友的文献,假设世界坐标系在平面上,Z轴垂直于平面,那么平面上点的Z=0。根据投影方程表达为(ORB-SLAM中有Faugeras 的单应性矩阵分解方法, opencv也有实现函数,还未研究)
    在这里插入图片描述投影方程的输入和输出都是二维点,那么求解的单应性矩阵满足
    在这里插入图片描述
  3. 为了满足旋转矩阵列是单位向量性质,根据单应性矩阵的向量做单位化得到r1和r2向量
    在这里插入图片描述
  4. 为了满足旋转矩阵正交性质,r1和r2叉乘得到r3向量
    在这里插入图片描述
  5. 单应性矩阵与外参矩阵存在的系数关系,该系数折中的取
    在这里插入图片描述
  6. 平移向量为
    在这里插入图片描述

小结:应用时需注意:所有点需要共面,N≥4,重点是如何由单应性分解出旋转和平移量

迭代法

迭代法实现的思路与opencv标定时,对外参数进行初始值估计时使用的迭代法相同,重点在于求解6个外参数的偏导数,具体可参见我的博客外参数求偏导。该方法属于第Ⅰ类方法。
根据投影矩阵,建立投影点与真实点的残差,以最小化投影残差为目标,优化计算RT

在这里插入图片描述

小结:应用时需注意:需要较好的初始值,通常会在之前方法的基础上应用迭代法,所以N取决于初始值的方法

EPnP

E是efficient的缩写,高效性主要体现在第4步所阐述。该方法属于第Ⅱ类方法。整体思路为:

  1. 由世界坐标系的3D点得到四个控制点Cj(一个质心,三个主方向上的点),控制点建立质心坐标系,其他的点都能用该四个点加权表示。一个重要的结论是:无论在世界坐标系,还是相机坐标系,权重系数是不变的。那么只要能够求解出在相机坐标下这4个控制点的坐标,带入相同的权重系数,就能计算任意点在相机坐标系的位置,从而转换为3D-3D坐标系变换问题。
    在这里插入图片描述

  2. 为了求解这4个点的相机坐标系的位置,如下左图根据投影矩阵展开得到两个等式:已知数是内参数和权重系数,未知数是四个控制点的三维坐标(共12个未知数),因此至少要6对点来进行求解。
    在这里插入图片描述

  3. 对于上面形如AX=0的解,SVD分解A系数矩阵,V的最后一列是特征值最小的零空间向量,也就是方程的解。我们知道对于12个未知数的方程组,至少要6对点来能求解,原文之所以N在4到6也可以计算,个人认为是包含了一个隐含条件,那就是焦距足够大,下图是原文在随着焦距增大时,SVD最小的4个特征值是接近0的,因此能够用V最后1~4列的向量来加权表示AX=0的解。
    在这里插入图片描述

  4. 进一步用高斯牛顿迭代,对上述中“用V最后1~4列的向量来加权表示AX=0的解”中的权重计算最优解,细化求解相机坐标系下的控制点坐标。这里,EPNP的高效主要是算法复杂度为O(n),并且高斯牛顿迭代过程相对于传统的迭代法来说参数更少,至多4个权重系数,而迭代法为6个外参数,收敛更快。这也就是我对高效性的理解。
    在这里插入图片描述

  5. 由Pi在相机坐标系和世界坐标系的坐标,计算转换矩阵。

小结:应用时需注意: N≥4,但实际应用N≥6才算稳定

其他延伸

**延申1:**在未知相机内参数的情况下,诸多方法也能适用,但解算的稳定性不同,如UPnP(Uncalibrated PnP),求解过程与EPnP相似,只是在求解控制点在相机坐标系的坐标时,建立方程组将焦距也作为未知数
在这里插入图片描述
**延申2:**通常内参和外参都未知时,根据3D-2D点得到了内参外参组合的摄像机矩阵,需要进一步分解内参矩阵和外参矩阵,这里需要利用内参矩阵的上三角特点,利用RQ分解来得到内参K,外参R和t摄像机矩阵的分解

总结

最后是对上面所有提及方法的一个总结,通常使用平面标定板在进行相机标定时,会使用到单应性分解+迭代法的组合,我这里测试EPNP时发现在平面数据上结果偏差还是比较大的,后续有分析结果再更新。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/77730.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

体验了一下火爆全球的 ChatGPT,我惊呆了

这几天,要说编程圈最热的话题,莫过于OpenAI的ChatGPT,写小说,写代码,找BUG,写论文,画漫画,谱曲……简直没有它干不了的事。 趁着下班时间,我也光速注册体验了一下&#…

深度整理总结MySQL——事务专辑

事务前言什么是事务事务的特性事务的状态事务会引发什么问题?解决事物引发的问题手段事务日志Undo Log 日志简单介绍具体实现Buffer PoolBuffer Pool缓存什么?Redo Log日志为什么需要Redo Log?什么是 redo log?redo log要写入磁盘&#xff0…

保姆级教程:手把手教你使用 Keras 搭建神经网络

大家好,本文从0到1详细讲解两种基于Keras的建模方法: 基于Sequential的建模;快速方便,易上手 基于函数式API的建模;易于扩展,灵活性强 文章目录你会学到什么?技术提升导入内置数据集数据缩放和…

【GRU回归预测】基于卷积神经网络结合门控循环单元CNN-GRU实现数据多维输入单输出预测附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

ChatGPT强悍的编程能力,让我吓出一身冷汗!

最近有好几个人给我安利ChatGPT,说老刘快你去看看吧,这货实在太强了,搞不好我们程序员都失业了。刚开始我都是微微一笑,怎么可能?我之前的观点一直都是在我的有生之年,AI绝对不可能干掉程序员。但是安利的人…

一篇文章让你懂 io流

文件:就是保存数据的地方。文件流:文件在程序中是以流的形式来操作的。流:数据在数据源(文件)和程序(内存)之间经历的路径。输入流:数据从文件(磁盘)到Java程…

Spring-Cloud-Admin-06

前言 admin是用来监控各个服务的状况的,通过前台页面,可以查看我们各个服务的一个状态,是否在线,服务状况的一个框架。 服务端项目使用 admin有服务端和客户端,我们不需要每个服务都导入admin的客户端依赖,…

以太网 网络高可用性(链路聚合、LACP模式、静态手动模式)

2.9.0 以太网 网络高可用性(链路聚合、LACP模式、静态手动模式) 网络高可用性2.9.0 以太网 网络高可用性(链路聚合、LACP模式、静态手动模式)一、简介:1、单板可靠性:1.1、实现机柜式的可靠性提升&#xff…

Java#35(多线程扩展)

目录 一.定时器 定时器是一种控制任务延时调用, 或者周期调用的技术 1.Timer定时器(不推荐) 2.ScheduledExecutorService定时器(推荐) 二.并发与并行 三.线程状态 一.定时器 定时器是一种控制任务延时调用, 或者周期调用的技术 1.Timer定时器(不推荐) 代码示范: import …

Microsoft Store无法打开的解决办法【成功解决】

Microsoft Store无法打开解决办法我自己的解决办法其他Bug导致Microsoft Store无法打开的解决办法vpn代理问题使用TLS 1.2其他BUG解决方案成功解决之前我就有安装wsl的想法,但是他要求打开Microsoft Store,我尝试了各种办法,都不行。今天终于…

SpringCloud-全面详解(学习总结---从入门到深化)

​​​​​​​ 微服务架构进化论 单体应用阶段 (夫妻摊位) 在互联网发展的初期,用户数量少,一般网站的流量也很少,但硬 件成本较高。因此,一般的企业会将所有的功能都集成在一起开发 一个单体应用,然后将该单体应用…

Python代码加速100倍,针对Excel自动化处理的加速实战!

并发 vs 并行 说到并发编程,我们先来澄清一下并发 (Concurrency) 和 并行 ( Parallelism)这两个概念,因为这个两个概念的含义是不同的。 并行(Parallelism)指的就是在同一时刻,有两个或两个以上的任务的代码在处理器…

Spring Cloud Ribbon(负载均衡器)介绍及使用

目前主流的负载方案分为以下两种: 集中式负载均衡,在消费者和服务提供方中间使用独立的代理方式进行负载,有硬件的(比如 F5),也有软件的(比如 Nginx)。客户端自己做负载均衡&#x…

[附源码]Python计算机毕业设计SSM基于框架的秧苗以及农产品交易网站(程序+LW)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

命令设计模式

一、命令模式 1、定义 命令模式(Command Pattern)是对命令的封装,每一个命令都是一个操作,请求方发出请求要求执行一个操作,接收方收到请求并执行操作。属于行为型设计模式。 命令模式通过在请求与实现之间引入一个抽…

Spring注解开发

1、Spring注解开发 1 注解开发定义Bean对象【重点】 目的:xml配置Bean对象有些繁琐,使用注解简化Bean对象的定义 问题导入 问题1:使用什么标签进行Spring注解包扫描? 问题2:Component注解和Controller、Service、Re…

【指纹识别】指纹识别【含GUI Matlab源码 029期】

⛄一、指纹识别简介 指纹识别技术主要分三个步骤:指纹预处理、特征提取、指纹分类与匹配。 无论是指纹分类还是指纹匹配,都需要提取指纹的有效特征,而特征提取的性能很大程度上要依赖于指纹图像的质量。在实际应用中,由于采集条件和采集设备的因素,采集到的指纹图像…

IBRNet:基于IBR的NeRF

IBRNet: Learning Multi-View Image-Based Rendering 针对问题:使NeRF具有泛化能力 如何做:主要还是针对颜色和密度的预测进行改进(三维重建部分),和NeRF一样,使用的是volume rendering(渲染部…

Vulkan下多线程渲染设计

1 Vulkan 视角下的多线程渲染 首先我们需要从vulkan api的顶层框架上来看一下,它在哪些地方可以让我们并行。 Vulkan API的基本框架 Vulkan不同于Gles只有一个(不被API暴露出来的)单一链条的cmdbuffer处理,它最大的特点是允许多…

阿里巴巴内部:2022年全技术栈PPT分享(架构篇+算法篇+大数据)

我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心…