论文阅读:Distortion-Free Wide-Angle Portraits on Camera Phones

news2025/1/16 17:43:25

论文阅读:Distortion-Free Wide-Angle Portraits on Camera Phones

今天介绍一篇谷歌 2019 年的论文,是关于广角畸变校正的。

Abstract

广角摄影,可以带来不一样的摄影体验,因为广角的 FOV 更大,所以能将更多的内容拍摄进画面,在多人集体合影的时候,一般用广角可以将大家都拍到,但是广角摄影也有弊端,最显著的问题就是畸变,随着 FOV 的增加,画面边缘的人很容易发生变形,比如人头,身体被拉伸。这种畸变让画面边缘的人与真实的人差异很大。这篇论文就是为了解决广角摄影下的畸变问题的。给定一张广角下的人像照,文章中的算法是通过构建一个能量优化函数,将球极投影下的人脸区域与透视投影下的背景区域的位移 mesh 进行联合优化,从而达到一个畸变校正的目的。这篇文章里的算法最后应该是用到了谷歌的 Pixel 手机中了。

Introduction

文章中首先提到了畸变的几种成因, camera 成像是遵循透视投影规律的,透视成像投影的规律就是近大远小,同时视场边缘的成像随着入射角的增加,会产生更大的透视形变,这种形变是由透视投影的客观规律产生的,无法避免。此外镜头本身也会有光学畸变,这是属于光学像差的一种,FOV 越大的镜头,这种光学畸变也会越明显,光学畸变会导致直线弯曲,不过相比透视畸变,镜头的光学畸变有比较成熟的校正方法,比如经典的张正友校正法,通过标定棋盘格,可以估计出镜头的畸变参数,从而进行镜头的光学畸变校正。

不过,即使进行了镜头的光学畸变校正,成像的透视畸变依然存在,所以这篇文章主要是为了解决镜头的透视畸变问题,作者在文章中也提到,他们提出的方法也属于与内容相关的 warping 方法,这类方法之前也广泛地应用于各种图像的操作中,比如全景的拼接,广角的畸变校正,防抖等。本文主要聚焦于人脸区域的 warp,作者认为对于人像摄影来说,用户对人脸的形状是最敏感的。

Method

文章的方法,看起来流程比较简单,如下所示:

在这里插入图片描述

给定一张输入图片,首先是用一个分割模型,将人脸区域分割出来;然后将人脸区域进行球极投影;接着利用一个能量函数,将球极投影后的人脸区域 mesh 与背景区域的 mesh 进行优化,使得人脸区域与背景区域的 mesh 能够平滑过度,最终利用输出的 mesh 对全图进行 warp,这样就得到了校正后的图像。

Subject Mask Segmentation

人脸区域分割,这个已经非常成熟了,有很多的分割模型都可以做到这一点。这里就不多做介绍了。

Stereographic Projection

这篇文章对人脸区域的校正利用了一种称为 Stereographic Projection,也就是球极投影,球极投影是一种将 3D 物体投影到 2D 平面的投影方式,这种投影方式可以最大限度的保持物体的形状,不过代价就是会让直线变得弯曲,文章也给出了几种不同投影的例子

在这里插入图片描述

可以看到,对于一张有透视畸变的图像,人像的脸已经有明显的拉伸,通过 Stereographic projection 或者 Mercator projection,人脸得到比较好地校正,但是背景的直线已经产生了明显的弯曲,这就类似一种鱼和熊掌不可兼得的感觉,你想保证背景直线是直的,人脸区域会被拉伸,类似输入图;反过来,你想让人脸区域得到校正,背景直线又变得弯曲。所以文章作者想到了一种联合优化的方式,这个后面详细介绍,先来看看球极投影到底是个啥。

文章给出的球极投影的定义如下:

r u = r 0 tan ⁡ ( 0.5 arctan ⁡ ( r p f ) ) (1) r_u = r_0 \tan (0.5 \arctan(\frac{r_p}{f})) \tag{1} ru=r0tan(0.5arctan(frp))(1)

其中 f f f 是镜头的焦距, r u , r p r_u, r_p ru,rp 分别表示球极投影以及透视投影下以镜头中心作为参考的半径, r 0 r_0 r0 表示一个 scale 系数,保证两种投影下面图像边缘的所对应的半径是相等的

r 0 = d 2 tan ⁡ ( 0.5 arctan ⁡ ( d 2 f ) ) (2) r_0 = \frac{d}{2 \tan (0.5 \arctan(\frac{d}{2f}))} \tag{2} r0=2tan(0.5arctan(2fd))d(2)

其中, d = min ⁡ { W , H } d = \min\{W, H\} d=min{W,H},表示图像宽高中的较小值。

Mesh Placement

接下来介绍 mesh 的构建,mesh 可以看成是一个网格图,一个 mesh 包含一组网格点 { v i } \{ \mathbf{v}_i \} {vi} v i \mathbf{v}_i vi 是一个向量,表示网格点对应的二维坐标,假设输入图对应的 mesh 图是 { p i } \{ \mathbf{p}_i \} {pi},对输入图 mesh 上的每个网格点应用球极变换,可以得到一组新的网格点,以及一个新的 mesh, { u i } \{ \mathbf{u}_i \} {ui},这两个 mesh 对应网格点的坐标差,其实就是位移向量场,通过这个位移向量场,可以进行 warp,不过正如前面所说,如果直接 warp,人脸区域虽然得到了校正,但是背景会产生扭曲。当然,一种最直观的方法,就是将人脸区域的 mesh 与背景区域的 mesh 分开处理,人脸区域的 mesh 用球极投影下的 mesh,而背景区域依然用之前输入的 mesh。如下式所示:

w i = { 0 if p i ∉ face mask 1 if p i ∈ face mask (3) w_i = \begin{cases} 0 \quad \text{if} \quad \mathbf{p}_i \notin \text{face mask} \\ 1 \quad \text{if} \quad \mathbf{p}_i \in \text{face mask} \\ \end{cases} \tag{3} wi={0ifpi/face mask1ifpiface mask(3)

不过这种方式依然会有问题,文章也给出了示意图,这种直接粗暴地分成两部分的方式,也会到底非常明显的 artifacts

Local Face Undistortion

为了解决这个问题,文章作者提出了一种能量优化的方式,文章中构造了一个如下的能量优化函数:

v i ∗ = argmin v i E t ( v i ) (4) \mathbf{v_{i}^{*}} = \text{argmin}_{\mathbf{v_{i}}} E_t(\mathbf{v_{i}}) \tag{4} vi=argminviEt(vi)(4)

E t E_t Et 可以认为是几种不同的能量函数的加权和。

Face Objective Term

首先是人脸区域的能量项,每个人脸区域都构建一个能量项,所有人脸区域的能量项求和,可以得到整体的人脸区域的能量项

E f = ∑ k E s , k (5) E_f = \sum_{k} E_{s, k} \tag{5} Ef=kEs,k(5)

其中, k k k 表示输入图中人脸的编号,可以看到,这个能量项是对每个人脸区域单独构建的,有多少个人脸,就会构建多少个能量项,每个能量项的定义如下:

E s , k = ∑ i ∈ B k w i m i ∥ v i − ( S k u i + t k ) ∥ 2 2 + λ ( S k ) (6) E_{s,k} = \sum_{i\in\mathbf{B}_k} w_i m_i \left \| \mathbf{v}_i - (\mathbf{S_k \mathbf{u}_i + \mathbf{t}_k}) \right \|_{2}^{2} + \lambda(\mathbf{S}_k) \tag{6} Es,k=iBkwimivi(Skui+tk)22+λ(Sk)(6)

其中, w i w_i wi 表示公式 (3) 定义的权重, { u i } \{ \mathbf{u}_i \} {ui} 表示球极投影 mesh 上的网格点, { B k } \{ \mathbf{B}_k \} {Bk} 表示第 k 个人脸区域中的网格点,因为图像不同区域的畸变程度不同,需要校正的强度也就不同,所以上面的能量项还加了一个 m i m_i mi 来调整权重,这个 m_i 服从一个径向函数的分布

m i ∼ 1 1 + exp ⁡ ( ( − ( r − r a ) / r b ) ) m_i \sim \frac{1}{1 + \exp((-(r-r_a)/r_b))} mi1+exp(((rra)/rb))1

其中, r r r 表示输入图像中的半径, r a , r b r_a,r_b rarb 是两个超参,用来控制强度的,对于图像中心的点,保证 m i = 0.01 m_i = 0.01 mi=0.01,对于图像边缘的点,保证 m i = 1.0 m_i=1.0 mi=1.0。从公式 (6) 可以看出,虽然文章是用球极投影来解决人脸的畸变,但是最终优化的时候,并不是简单地直接用球极投影的网格点,而是用了一个仿射变换来拟合,

S k = [ a k b k − b k a k ] t k = [ t k 1 t k 2 ] (7) \mathbf{S}_k = \begin{bmatrix} a_k & b_k \\ -b_k & a_k \end{bmatrix} \quad \mathbf{t}_k = \begin{bmatrix} t_{k1} \\ t_{k2} \end{bmatrix} \tag{7} Sk=[akbkbkak]tk=[tk1tk2](7)

这个仿射变换,可以让每个人脸区域的球极投影有更大的自由度,在球极投影的基础上,进行适当的自适应调整。公式 (7) 中的 a k a_k ak 是一个缩放系数,文章作者加了一个正则项来控制这个系数:

λ ( S k ) = w s ∥ a k − s t ∥ 2 2 (8) \lambda(\mathbf{S}_k) = w_s \left \| a_k - s_t \right \|_{2}^{2} \tag{8} λ(Sk)=wsakst22(8)

文章中设置的 w s = 2000 , s t = 1 w_s = 2000, s_t = 1 ws=2000,st=1

Line-Bending Term

人脸区域的能量项介绍完了,下面看看背景区域的能量项,文章中设置了一个能量项来保证让直线等比缩放而不是扭曲:

E b = ∑ i ∑ j ∈ N ( i ) ∥ ( v i − v j ) × e i j ∥ 2 2 (9) E_{b} = \sum_{i} \sum_{j \in N(i)} \left \| (\mathbf{v}_i - \mathbf{v}_j) \times \mathbf{e}_{ij} \right \|_{2}^{2} \tag{9} Eb=ijN(i)(vivj)×eij22(9)

其中, e i j \mathbf{e}_{ij} eij 是沿着方向 p i − p j \mathbf{p}_i - \mathbf{p}_j pipj 的单位向量。 N ( i ) N(i) N(i) 表示网格点 i i i 的邻域

Regularization Term

最后,文章中引入了一个平滑的能量项,

E r = ∑ i ∑ j ∈ N ( i ) ∥ ( v i − v j ) ∥ 2 2 (10) E_{r} = \sum_{i} \sum_{j \in N(i)} \left \| (\mathbf{v}_i - \mathbf{v}_j) \right \|_{2}^{2} \tag{10} Er=ijN(i)(vivj)22(10)

Mesh Boundary Extension

文章中也提到,对于图像边缘的点,如果强制让其不移动的话,当人脸处于图像边缘的时候,会产生很明显的扭曲,为了解决这个问题,文章中采用网格扩展的方式,在原图的 mesh 基础上,往外扩展几个网格,同时让这些处于边界的网格点满足如下的约束:

{ v i , x = p i , x if p i ∈ left or right boundary v i , y = p i , y if p i ∈ top or bottom boundary (11) \begin{cases} v_{i,x} = p_{i,x} \quad \text{if} \quad \mathbf{p}_i \in \text{left or right boundary} \\ v_{i,y} = p_{i,y} \quad \text{if} \quad \mathbf{p}_i \in \text{top or bottom boundary} \\ \end{cases} \tag{11} {vi,x=pi,xifpileft or right boundaryvi,y=pi,yifpitop or bottom boundary(11)

这个约束保证了边界的点只会沿着边界移动,同时,为了减少 mesh warping 出现的未定义区域,文章中还利用了一个能量项,让原始 mesh 边缘的网格点尽量往外扩,而不是往内缩:

E a = E l + E r + E t + E b (12) E_a = E_l + E_r + E_t + E_b \tag{12} Ea=El+Er+Et+Eb(12)

{ E l = I ( v i , x > 0 ) ⋅ ∥ v i , x ∥ 2 2 , ∀ i ∈ ∂ l e f t E r = I ( v i , x < W ) ⋅ ∥ v i , x − W ∥ 2 2 , ∀ i ∈ ∂ r i g h t E t = I ( v i , y > 0 ) ⋅ ∥ v i , y ∥ 2 2 , ∀ i ∈ ∂ t o p E b = I ( v i , y < H ) ⋅ ∥ v i , y − H ∥ 2 2 , ∀ i ∈ ∂ b o t t o m (13) \begin{cases} E_l = \Bbb I(v_{i,x} > 0) \cdot \left \| v_{i,x} \right \|_{2}^{2}, \forall i\in \partial_{left} \\ E_r = \Bbb I(v_{i,x} < W) \cdot \left \| v_{i,x} -W \right \|_{2}^{2}, \forall i\in \partial_{right} \\ E_t = \Bbb I(v_{i,y} > 0) \cdot \left \| v_{i,y} \right \|_{2}^{2}, \forall i\in \partial_{top} \\ E_b = \Bbb I(v_{i,y} < H) \cdot \left \| v_{i,y} - H \right \|_{2}^{2}, \forall i\in \partial_{bottom} \\ \tag{13} \end{cases} El=I(vi,x>0)vi,x22,ileftEr=I(vi,x<W)vi,xW22,irightEt=I(vi,y>0)vi,y22,itopEb=I(vi,y<H)vi,yH22,ibottom(13)

Optimization

最后的能量函数,就是将前面定义的能量函数加权:

E t = λ f E f + λ b E b + λ r E r + λ a E a (14) E_t = \lambda_{f}E_f + \lambda_{b}E_b + \lambda_{r}E_r + \lambda_{a}E_a \tag{14} Et=λfEf+λbEb+λrEr+λaEa(14)

对应权重分别设为:4,2,0.5,4

为了加速优化,文章在初始化的时候,也做了一些 trick:

在这里插入图片描述

最后 warp 的时候,文章中将优化得到的 mesh 还做了一个类似归一化的操作:

v n , i = s g ( v i ∗ + t g ) t g = − v 0 ∗ \mathbf{v}_{n, i} = s_g(\mathbf{v}_{i}^{*} + \mathbf{t}_g) \quad \mathbf{t}_g = -\mathbf{v}_{0}^{*} vn,i=sg(vi+tg)tg=v0

最后的效果还是不错的,具体的样例可以看文章的 project 网站:

https://people.csail.mit.edu/yichangshih/wide_angle_portrait/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/967855.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

git ------ IDEA中建立本地/远程仓库及上传

目录 建立本地仓库 1. idea中选择创建本地仓库 选择目标文件 创建远程仓库 1.码云上进行库创建 将本地仓库数据提交到远程仓库 提交代码 推送到远程 建立本地仓库 1. idea中选择创建本地仓库 或 vsm中找下列2 即可 选择目标文件 成功后会出现以下标识 更新 提交 推…

YOLO目标检测——室内场景识别数据集下载分享

目标检测室内场景识别数据集可以广泛应用于各种需要对室内场景进行目标识别和跟踪的领域&#xff0c;包括安防监控、智能家居、物流仓储管理等 数据集点击下载&#xff1a; YOLO室内场景识别数据集&#xff08;一&#xff09;5950图片26类别.rar YOLO室内场景识别数据集&#…

基础算法--快速排序

快速排序 算法原理 1. 取一个元素p(第一个元素&#xff0c;最后一个元素&#xff0c;中间元素&#xff0c;随机 都可以)&#xff0c;使元素p归位。 2. 列表被p分成两部分&#xff0c;左边都比p小&#xff0c;右边都比p大。 3. 递归完成排序。 动态演示 python代码实现 import…

Code Snippet的使用

文章目录 前言Code Snippet:就是咱们在VS中敲的prop、propfull、ctol【构造器快捷键】、for等快捷键&#xff0c;然后按tab键自动生成代码1.VS自带的&#xff1a;prop、propfull、ctol【构造器快捷键】、for等快捷键&#xff0c;直接使用2.自定义Snippet&#xff1a; 巨人的肩膀…

深度学习入门教学——卷积神经网络CNN

目录 一、CNN简介 一、输入层 二、卷积层 三、池化层 四、全连接层 一、CNN简介 1、应用领域 检测任务 分类与检索 超分辨率重构 2、卷积网络与传统网咯的区别 传统神经网络和卷积神经网络都是用来提取特征的。神经网络&#xff1a; 可以将其看作是一个二维的。卷积神经…

力扣:随即指针138. 复制带随机指针的链表

复制带随机指针的链表 OJ链接 分析&#xff1a; 该题的大致题意就是有一个带随机指针的链表&#xff0c;复制这个链表但是不能指向原链表的节点&#xff0c;所以每一个节点都要复制一遍 大神思路&#xff1a; ps:我是学来的 上代码&#xff1a; struct Node* copyRandomList(s…

3D DRAM:突破内存瓶颈的新希望

DRAM&#xff0c;动态随机存储器&#xff0c;是一种在计算机、消费电子、通信等领域广泛应用的内存技术。它的主要特点是在同一周期内可以随机读取或写入单字节数据&#xff0c;使得其在各种计算应用中成为不可或缺的组件。 DRAM的发展历程充满了戏剧性和技术革新。最早的DRAM诞…

【5】openGL使用宏和函数进行错误检测

当我们编写openGL程序&#xff0c;没有报编译链接错误&#xff0c;但是运行结果是黑屏&#xff0c;这不是我们想要的。 openGL提供了glGetError 来检查错误&#xff0c;我们可以通过在运行时进行打断点查看glGetError返回值&#xff0c;得到的是一个十进制数&#xff0c;将其转…

Jenkins+maven+testng+htmlreport单元自动化测试

背景说明 为了可以在jenkins自动化运行单元测试的代码&#xff0c;所以使用maventestng的技术结合&#xff0c;达到手动或者定时去执行单元测试的代码&#xff0c;以便提高人工运行的自动化的效率。单元通过该方案也可以套用在httpclient框架去执行测试web api接口的自动化测试…

SILERGY(矽力杰)功率电子开关 SY6280AAC

SILERGY(矽力杰)功率电子开关 SY6280AAC Low Loss Power Distribution Switch SOT-5 Pacakge 2.4V ~ 5.5V (<6V) 0.6W Max. Current 2A Reverse blocking (no body diode) Programmable current limit ( Ilimits(A) 6800 / Rset(ohm). ) Application Circuit (Reco…

跳出Lambda表达式forEach()循环解决思路

背景 在一次需求开发时&#xff0c;发现使用Lambda的forEach()跳不出循环。如下示例代码&#xff0c;想在遍历满足条件时跳出循环。 public static void main(String[] args) {List<Integer> list Arrays.asList(1, 4, 5, 7, 9, 11);list.forEach(e -> {if (e % 2 …

质量属性案例-架构真题(二十一)

试题一 某电子商务公司升级会员与促销管理系统&#xff0c;向用户提交个性化服务&#xff0c;提高用户粘性。在项目建立之初&#xff0c;公司领导人一致认为目标是提升会员管理方式的灵活性&#xff0c;由于当前用户规模不大&#xff0c;用户简单&#xff0c;系统方面不需要做…

Python游戏开发-超级海盗!!!

开发环境配置 安装python环境后&#xff0c;下载pygame模块&#xff0c;使用如下命令 pip install pygame 注&#xff1a;该项目使用了一些新特性&#xff0c;使用3.10以上的版本 游戏项目介绍 游戏分为两个模块&#xff0c;分别是编辑模块和关卡模块&#xff0c;在编辑模…

Lesson5-2:OpenCV视频操作---视频追踪

学习目标 理解meanshift的原理知道camshift算法能够使用meanshift和Camshift进行目标追踪 1.meanshift 1.1原理 m e a n s h i f t meanshift meanshift算法的原理很简单。假设你有一堆点集&#xff0c;还有一个小的窗口&#xff0c;这个窗口可能是圆形的&#xff0c;现在你可…

CocosCreator3.8研究笔记(四)CocosCreator 脚本说明及使用(上)

在Cocos Creator中&#xff0c;脚本代码文件分为模块和插件两种方式&#xff1a; 模块一般就是项目的脚本&#xff0c;包含项目中创建的代码、引擎模块、第三方模块。 插件脚本&#xff0c;是指从 Cocos Creator 属性检查器中导入的插件&#xff0c;一般是引入第三方引入库文件…

PixelSNAIL论文代码学习(3)——自注意力机制的实现

文章目录 引言正文介绍自注意力机制的简单实现样例本文中的自注意力机制具体实现代码分析nn.nin函数的具体实现nn.causal_attention模块实现注意力模块实现代码完整实现代码使用pytorch实现因果注意力模块causal_atttention模块 问题 总结引用 引言 阅读了pixelSNAIL,很简短&a…

java八股文面试[多线程]——线程的状态

5种状态一般是针对传统的线程状态来说&#xff08;操作系统层面&#xff09; 6种状态&#xff1a;Java中给线程准备的 NEW&#xff1a;Thread对象被创建出来了&#xff0c;但是还没有执行start方法。 RUNNABLE&#xff1a;Thread对象调用了start方法&#xff0c;就为RUNNABLE状…

已解决“SyntaxError: invalid character in identifier“报错问题

本文摘要&#xff1a;本文已解决 Python FileNotFoundError 的相关报错问题&#xff0c;并总结提出了几种可用解决方案。同时结合人工智能GPT排除可能得隐患及错误。 &#x1f60e; 作者介绍&#xff1a;我是程序员洲洲&#xff0c;一个热爱写作的非著名程序员。CSDN全栈优质领…

Oracle数据库分页查询

方法一 方法二 方法一要比方法二效率要高很多&#xff0c;查询效率提高主要体现在WHERE ROWNUM < 40这个语句上。 这是由于CBO优化模式下&#xff0c;Oracle可以将外层的查询条件推到内层查询中&#xff0c;以提高内层查询的执行效率。方法一中&#xff0c;第二层的查询条件…

完善开发工具箱:免费开源社区版软件推荐

一、背景 工欲善其事必先利其器&#xff0c;在日常的IT工作中&#xff0c;好的工具软件是开发者日常工作中最重要的工具之一。然而&#xff0c;专业版的软件价格昂贵&#xff0c;对于小团队或个人开发者来说可能是一大负担。当然国内大家会普遍推荐使用破解版&#xff0c;小公…