阅读笔记 First Order Motion Model for Image Animation

news2024/11/24 5:49:18

文章解决的是图片动画的问题。假设有源图片和驱动视频,并且其中的物体是同一类的,文章的方法让源图片中的物体按照驱动视频中物体的动作而动。
文章的方法只需要一个同类物体的视频集,不需要而外的标注。

方法

该方法基于self-supervised策略。简单而言就是基于训练视频中的一帧图像和和学习到的动作表示,重建出训练视频。其中,动作表示是动作特定的关键点(motion-specific keypoint)和局部仿射变换(local affine transformations)。
在这里插入图片描述
框架图如上图所示,由两个部分组成,一个是运动估计模块,一个是图像生成模块。
运动估计模块的目的是估计从驱动视频的一帧 D ∈ R 3 × H × W \mathbf D \in \mathbb R^{3\times H \times W} DR3×H×W到源图片 S ∈ R 3 × H × W \mathbf S \in \mathbb R^{3\times H \times W} SR3×H×W的稠密运动场(dense motion field)。运动场 T S ← D : R 2 → R 2 \mathcal T_{\mathbf S \leftarrow \mathbf D}: \mathbb R^2 \rightarrow \mathbb R^2 TSD:R2R2 D \mathbf D D中每个像素位置映射到对应的 S \mathbf S S T S ← D \mathcal T_{\mathbf S \leftarrow \mathbf D} TSD也被称为反向光流(backward optical flow)。使用反向光流而不是正向光流,因为可以使用双线性采样以可微分的方式有效地实现后向扭曲。

仿射变换

在齐次坐标上,仿射变换可以用下面的式子表示:
[ y ⃗ 1 ] = [ B b ⃗   0 , … , 0 1 ] [ x ⃗ 1 ] {\begin{bmatrix}{\vec{y}}\\1\end{bmatrix}}= {\begin{bmatrix}B&{\vec {b}}\ \\0,\ldots ,0&1\end{bmatrix}} {\begin{bmatrix}{\vec {x}}\\1\end{bmatrix}} [y 1]=[B0,,0b  1][x 1]在2维图像上,仿射变换由矩阵 A ∈ R 2 × 3 \mathbf A \in \mathbb R^{2 \times 3} AR2×3表示。

运动估计

粗运动估计

粗运动估计预测关键点处的运动模式。
动作估计模块估计反向光流 T S ← D \mathcal T_{\mathbf S \leftarrow \mathbf D} TSD T S ← D \mathcal T_{\mathbf S \leftarrow \mathbf D} TSD用在关键点附近的一阶泰勒展开表示。

假设存在一个抽象参考帧 R \mathbf R R。这样,我们需要估计两个变换:从 R \mathbf R R S \mathbf S S T S ← R \mathcal T_{\mathbf S \leftarrow \mathbf R} TSR)和从 R \mathbf R R D \mathbf D D T D ← R \mathcal T_{\mathbf D \leftarrow \mathbf R} TDR)。抽象参考帧的好处是可以让我们独立的处理 D \mathbf D D S \mathbf S S
为了描述方便,用 X \mathbf X X表示 S \mathbf S S或者 D \mathbf D D,用 p 1 , ⋯   , p K p_1,\cdots,p_K p1,,pK表示抽象参考帧 R \mathbf R R上的关键点的坐标,用 z z z表示在其他帧上的点的坐标。我们估计在关键点 p 1 , ⋯   , p K p_1,\cdots,p_K p1,,pK周围的 T X ← R \mathcal T_{\mathbf X \leftarrow \mathbf R} TXR。具体而言,我们考虑 T X ← R \mathcal T_{\mathbf X \leftarrow \mathbf R} TXR在关键点 p 1 , ⋯   , p K p_1,\cdots,p_K p1,,pK的一阶泰勒展开:
T X ← R ( p ) = T X ← R ( p k ) + ( d T X ← R ( p ) d p ∣ p = p k ) ( p − p k ) + o ( ∥ p − p k ∥ ) \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)=\mathcal T_{\mathbf X \leftarrow \mathbf R}(p_k)+(\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_k})(p-p_k)+o(\|p-p_k\|) TXR(p)=TXR(pk)+(dpdTXR(p)p=pk)(ppk)+o(ppk)这是可以看做一个仿射变换 A X ← R k ∈ R 2 × 3 \mathbf A^k_{\mathbf X \leftarrow \mathbf R} \in \mathbb R^{2 \times 3} AXRkR2×3 T X ← R ( p k ) \mathcal T_{\mathbf X \leftarrow \mathbf R}(p_k) TXR(pk)是平移参数, d T X ← R ( p ) d p ∣ p = p k \frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_k} dpdTXR(p)p=pk是线性映射的参数。

T X ← R \mathcal T_{\mathbf X \leftarrow \mathbf R} TXR用其在K个关键点处的值和Jacobian表示。
T X ← R ( p ) ≈ { { T X ← R ( p 1 ) , d T X ← R ( p ) d p ∣ p = p 1 } , ⋯   , { T X ← R ( p K ) , d T X ← R ( p ) d p ∣ p = p K } } \mathcal T_{\mathbf X \leftarrow \mathbf R}(p) \approx \{\{ \mathcal T_{\mathbf X \leftarrow \mathbf R}(p_1),\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_1}\}, \cdots,\{ \mathcal T_{\mathbf X \leftarrow \mathbf R}(p_K),\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_K}\}\} TXR(p){{TXR(p1),dpdTXR(p)p=p1},,{TXR(pK),dpdTXR(p)p=pK}}
我们假设 T X ← R \mathcal T_{\mathbf X \leftarrow \mathbf R} TXR在每个关键点的局部是双射。则对于 T S ← D \mathcal T_{\mathbf S \leftarrow \mathbf D} TSD,我们有
T S ← D = T S ← R ∘ T D ← R − 1 \mathcal T_{\mathbf S \leftarrow \mathbf D}=\mathcal T_{\mathbf S \leftarrow \mathbf R} \circ \mathcal T^{-1}_{\mathbf D \leftarrow \mathbf R} TSD=TSRTDR1用一阶泰勒展开近似有
T S ← D ( z ) ≈ T S ← R ( p k ) + J k ( z − T D ← R ( p k ) ) J k = ( d T S ← R ( p ) d p ∣ p = p k ) ( d T D ← R ( p ) d p ∣ p = p k ) − 1 \mathcal T_{\mathbf S \leftarrow \mathbf D}(z) \approx \mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k) + J_k(z-\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k))\\ J_k=(\frac{d \mathcal T_{\mathbf S \leftarrow \mathbf R}(p)}{dp}|_{p=p_k})(\frac{d \mathcal T_{\mathbf D \leftarrow \mathbf R}(p)}{dp}|_{p=p_k})^{-1} TSD(z)TSR(pk)+Jk(zTDR(pk))Jk=(dpdTSR(p)p=pk)(dpdTDR(p)p=pk)1
T S ← R ( p k ) \mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k) TSR(pk) T D ← R ( p k ) \mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k) TDR(pk)用U-Net结构的关键点预测网络(keypoint predictor network)预测。每个关键点一个heatmap,总共预测K个heatmap。decoder的最后一层用softmax预测关键点置信图(keypoint confidence map),也就是关键点在每个像素位置的置信度,满足 ∑ z ∈ Z W k ( z ) = 1 \sum_{z \in \mathcal Z} \mathbf W^k(z)=1 zZWk(z)=1,其中 Z \mathcal Z Z表示所有的像素位置。
T S ← R ( p k ) \mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k) TSR(pk) T D ← R ( p k ) \mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k) TDR(pk)相当于仿射变换中的平移参数,用关键点置信图加权计算:
b k = ∑ z ∈ Z W k ( z ) z b^k = \sum_{z \in \mathcal Z} \mathbf W^k(z)z bk=zZWk(z)z
d T S ← R ( p ) d p ∣ p = p k \frac{d \mathcal T_{\mathbf S \leftarrow \mathbf R}(p)}{dp}|_{p=p_k} dpdTSR(p)p=pk d T D ← R ( p ) d p ∣ p = p k \frac{d \mathcal T_{\mathbf D \leftarrow \mathbf R}(p)}{dp}|_{p=p_k} dpdTDR(p)p=pk相当于仿射变换中的线性变换部分,他们作为仿射变换中剩下的4个参数用关键点预测网络的额外的4个通道估计,每个关键点4个估计图。用 P i j k ∈ R H × W P^k_{ij} \in \mathbb R^{H \times W} PijkRH×W表示其中一个通道的估计值,其中 i , j i,j i,j是仿射变换的坐标。线性变换的参数用关键点置信图加权融合:
B k [ i , j ] = ∑ z ∈ Z W k ( z ) P i j k ( z ) \mathbf B^k[i,j] = \sum_{z \in \mathcal Z} \mathbf W^k(z)P^k_{ij}(z) Bk[i,j]=zZWk(z)Pijk(z)

密集运动估计

密集运动估计预测整个图像每个像素点的运动模式 T ^ S ← D \hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D} T^SD

我们使用卷积网络从 K K K个关键点处的泰勒展开 T S ← D ( z ) \mathcal T_{\mathbf S \leftarrow \mathbf D}(z) TSD(z)和源图像帧 S \mathbf S S中估计 T ^ S ← D \hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D} T^SD
用关键点处的变换扭曲源图像帧 S \mathbf S S,可以得到 K K K个变换后的图像 S 1 , ⋯   , S K \mathbf S^1, \cdots, \mathbf S^K S1,,SK。另外,考虑额外的图像 S 0 = S \mathbf S^0 = \mathbf S S0=S作为背景。
对每一个关键点计算heatmap H k ( z ) \mathbf H_k(z) Hk(z)表示每个变换在哪发生。
H k ( z ) = e x p ( ( T D ← R ( p k ) − z ) 2 σ ) − e x p ( ( T S ← R ( p k ) − z ) 2 σ ) \mathbf H_k(z) = exp(\frac{(\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)-z)^2}{\sigma}) - exp(\frac{(\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k)-z)^2}{\sigma}) Hk(z)=exp(σ(TDR(pk)z)2)exp(σ(TSR(pk)z)2)
H k \mathbf H_k Hk S 0 , ⋯   , S K \mathbf S^0, \cdots, \mathbf S^K S0,,SK拼接起来用U-Net处理,我们估计 K + 1 K+1 K+1个掩码 M k , k = 0 , ⋯   , K \mathbf M_k, k = 0, \cdots, K Mk,k=0,,K 表示每个位置用哪个局部变换,满足 ∑ k = 0 K M k ( z ) = 1 \sum_{k=0}^K \mathbf M^k(z)=1 k=0KMk(z)=1。最后的密集运动场表示为:
T ^ S ← D ( z ) = M 0 z + ∑ k = 1 K M k ( T S ← R ( p k ) + J k ( z − T D ← R ( p k ) ) ) \hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D}(z) = \mathbf M_0z + \sum_{k=1}^K \mathbf M_k(\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k) + J_k(z-\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k))) T^SD(z)=M0z+k=1KMk(TSR(pk)+Jk(zTDR(pk)))
对于每一个像素点的位置如下计算:
O ( z ) = M 0 ( z ) z + ∑ k = 1 K M k ( z ) A S ← D k [ z 1 ] \mathbf O(z) = \mathbf M^0(z)z + \sum_{k=1}^K \mathbf M^k(z) \mathbf A^k_{\mathbf S \leftarrow \mathbf D} {\begin{bmatrix}{z}\\1\end{bmatrix}} O(z)=M0(z)z+k=1KMk(z)ASDk[z1]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/461759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt信号槽原理

Qt之信号槽原理 一.概述 所谓信号槽,实际就是观察者模式。当某个事件发生之后,比如,按钮检测到自己被点击了一下,它就会发出一个信号(signal)。这种发出是没有目的的,类似广播。如果有对象对这…

idea无效的目标版本和类文件具有错误的版本 61.0, 应为 52.0错误(测试有用,一次性解决问题)

SpringBoot己更新到3后,使用的JAVA版本最低要求JAVA17,如果低于这个版本就是报错: 问题一:类文件具有错误的版本 61.0, 应为 52.0。 解决就只有升级JAVA-sdk: 官方下载地址:JAVA20-17 官方推荐更好的sd…

MySQL 视图、函数和存储过程

MySQL 是一种流行的关系型数据库管理系统,其具有强大的功能和灵活性,使其成为了许多企业和个人喜爱的数据库选择。在 MySQL 中,视图、函数和存储过程是常见的数据库对象,它们都有助于提高数据的处理效率和可重用性。 一、视图 视…

UE5实现Runtime环境下绘制点功能

文章目录 1.实现目标2.实现过程2.1 C++实现2.2 蓝图调用3.参考资料1.实现目标 UE5在Runtime环境下基于PDI绘制点,GIF动态如下: 2.实现过程 UE常用的在运行时环境下绘制点方法主要有两种。一种是基于Mesh,即添加Sphere等StaticMesh来模拟显示绘制点;另一种是基于Primitive的…

用代码实现标签打印的三种方式

最近项目中要实现标签打印的功能,有几个条件 标签模板可以事先生成,用的是CodeSoft软件标签模板里面有二维码标签模板里面有一些变量,要求打印的时候自动填充产线电脑上没有安装CodeSoft,即便安装也不能使用,因为没有…

Java线程池及拒绝策略详解

前文提到线程的使用以及线程间通信方式,通常情况下我们通过new Thread或者new Runnable创建线程,这种情况下,需要开发者手动管理线程的创建和回收,线程对象没有复用,大量的线程对象创建与销毁会引起频繁GC,…

Unity入门(一)

Unity Unity是一套完善体系与编辑器的跨平台游戏开发工具,也可以称之为游戏引擎。游戏引擎是指一些编写好的可以重复利用的代码与开发游戏所用的各功能编辑器。 基于C#编程,易上手,高安全性独特的面向组件游戏开发思想让游戏开发更加简单易…

Maven 如何下载依赖包的源码包

使用Maven下载依赖包的时候, 默认是不会下载源码包的,但是有时候, 需要Debug代码,或是看看依赖项的源码的写法, 就需要下载源码包了。 这里以 Apache 的 commons-text 为例, 在Maven中添加如下依赖配置&am…

pwlink用作USB转TTL,进入HC-05的AT模式

不说废话的文章概括: 直接连接PWLINK与HC-05,无法进入AT模式,因为蓝牙模块的VCC只能接5V,不能接3.3V,而且PWLINK有两个VDD引脚,且两个VDD引脚初始默认输出电压都是3.3V,所以需要将3.3V改为5V的…

【JavaEE】网络通信中的一些基本概念及协议分层

博主简介:想进大厂的打工人博主主页:xyk:所属专栏: JavaEE初阶 互联网是怎么来的?很多先进技术,都是先军用,用了之后太香了才逐渐民用~~ 互联网也是如此,互联网之前,可以通过有线/无线&#xf…

单链表——“数据结构与算法”

各位CSDN的uu们你们好呀,今天,小雅兰的内容终于是我们心心念念的单链表啦,这一块呢,是一个很重要的部分,也是一个对目前的我来说,比较困难的部分,下面,就让我们进入单链表的世界吧 之…

【unity项目实战】3DRPG游戏开发04——导航、人物移动和鼠标指针图片替换

AI导航烘培 还不清楚怎么用的可以看我另一篇文章 零基础带你从小白到超神29——导航系统 将地形调成静态导航的 选中地形,设置为可行区域 点击烘培 可爬坡改为30度,就会发现坑就变为不可行区域了 选择所有的树,为不可行区域,点击烘培 给主角人物添加导航组件

Kafka3.0.0版本——生产者数据可靠性

目录 一、ACK应答原理1.1、应答级别1.1.1、acks 01.1.2、acks 11.1.3、acks -1(all) 1.2、问题思考 二、数据可靠性2.1、数据可靠性分析2.2、 数据完全可靠条件2.3、ACK应答级别可靠性总结 三、数据可靠性代码示例 一、ACK应答原理 1.1、应答级别 1…

一日一题:第十二题---模拟散列表(三种方法!!)

​作者:小妮无语 专栏:一日一题 🚶‍♀️✌️道阻且长,不要放弃✌️🏃‍♀️ 今天来给大家介绍的是简单的Hash表的应用 目录 关于哈希的知识点 题目描述(模拟散列表) 代码 1(拉链…

基于GPT-4的神仙插件Bito,亲测好用

基于GPT-4的神仙插件,无需魔法,目前免费 一、Bito 简介 最近发现一个可以有效提升coding效率的插件神器,截止当前(20230425)已有65k的下载量了! 类似与Cursor一样,可以使用AI辅助写代码,但是又解决Cursor没有语法提…

力扣刷题day35|416分割等和子集

416. 分割等和子集 力扣题目链接 给你一个 只包含正整数 的 非空 数组 nums 。请你判断是否可以将这个数组分割成两个子集,使得两个子集的元素和相等。 示例 1: 输入:nums [1,5,11,5] 输出:true 解释:数组可以分割…

keil设置程序起始地址及生成bin文件的方法

一.keil设置程序起始地址 1.1FLASH APP 的起始地址设置 随便打开一个之前的实例工程,点击 Options for Target→Target 选项卡 默认的条件下,图中 IROM1 的起始地址(Start)一般为 0X08000000,大小(Size&a…

通用el-table 修改样式

通用el-table 修改样式 el-table实现下图效果: <template><div class"contentbox"><el-table:data"tableData"height"310"style"width: 40%"highlight-current-rowcurrent-change"handleCurrentChange"&g…

利用Floodlight进行DDOS攻击防御实验笔记

Floodlight Floodlight是Apache授权并基于JAVA开发的企业级OpenFlow控制器&#xff0c;当前最新版本是1.2。 Floodlight OpenFlow Controller -ProjectFloodlight&#xff1a;http://www.projectfloodlight.org/floodlight/ 流表 把同一时间&#xff0c;经过同一网络中具有某种…

线程同步方式之二条件变量

Linux线程同步方法之二 条件变量 饥饿状态&#xff1a;由于线程A频繁地申请/释放锁&#xff0c;而导致其他线程无法访问临界资源的情况。 同步synchronized&#xff1a;在保证数据安全的前提下&#xff0c;让线程能够按照某种特定的顺序访问临界资源&#xff0c;从而有效避免…