CVPR 2024最佳论文:“神兵”的组合器 Generative Image Dynamics

news2024/10/6 2:57:13

CVPR 2024的最佳论文来自谷歌、美国·加州大学圣迭戈分校。两篇都来至于视频生成领域,可见今年外界对视频生成领域关注度很高。今天的这篇是“Generative Image Dynamics”,Google Research发布的。它的研究成果令人震惊,从单张RGB图像生成连续的视频,模拟自然界中物体的长时间运动轨迹,如树木、花朵、蜡烛等。先来看一段生成视频:

Generative Image Dynamics

这项开创性技术是对场景动力学的图像空间建模。目的是全面了解图像中的对象和元素在各种场景下的动态交互时行为。当然这项研究基本上是之前各种“神兵利器”的技术组合,所以随着时间轴一起来看看~

神兵1:Spectral Volume

自然界中的场景总是在运动,即使是看起来静止的场景也包含由于风、水流等自然节奏引起的微小振动。模拟这些运动对于视觉内容合成非常重要,因为缺乏运动或运动不真实会让图像显得怪异或不真实。

2015年的Image-Space Modal Bases for Plausible Manipulation of Objects in Video就上场了。这里会涉及到Spectral Volume的概念,具体就是将输入的视频提炼不同的振动模式。

Spectral Volume

而本次的研究首先从真实视频序列中提取的运动轨迹训练模型,这些轨迹的时域傅里叶变换就是频域中的“Spectral Volume”。

从左边的第一张图获取一行,然后进行动力学算法分解

具体的过程就是从输入图像中提取的每个像素点在未来时间的位移(运动轨迹)。上面的第一张图取了一行,然后取得这一行的每个像素点在视频中的运动轨迹(肯定对应一条曲线),然后对曲线进行离散傅里叶变换,得到不同频率成分的幅度和相位。

大白话:“可以想象一杯N种水果的混合果汁,通过离散的傅里叶变化可以分离给各种果汁”。一个像素T个时间点的运动轨迹,按照离散傅里叶变化,可以拆分成多条具有特定频率的复数组合。Spectral Volume是从视频中提取的每像素轨迹的时间傅里叶变换。

原本T个时间点,T个数据点,进行离散的傅里叶变化,在降低复杂度的同时也可以提炼不同的低频运动规律。因此这个方法在低频运动还有规律运动中的生成占据优势,也的确比较适合振荡动态的场景。

从真实视频中提取的X和Y 运动分量的平均功率谱可以看出,自然振荡运动主要由低频分量组成,因此使用前K=16个项,左图的红点。

右图是放大3.0 Hz下傅里叶项振幅的直方图,这些振幅经过按图像宽度和高度缩放,以及频率自适应归一化来避免系数集中在极值。

Spectral Volume中的每个具体的元素代表一个特定频率下的运动信息,包括:频率(运动的周期性特征)、幅度(在该频率下的运动强度)、相位(运动的初始位置或时间偏移)。

神兵2Latent Diffusion Model

上图中间部分就是属于Diffusion Model的方法,ξ是代表着Encoder,Zn代表着噪声。重复利用扩散模型<可以链接回去温习!>进行训练。值得注意的是中间红色部分是由2D spatial Layer和Attension Layer交叉组合而成,一个负责捕获空间特征,一个负责捕获不同空间位置之间的依赖和关系。

训练好的模型可以在频域利用中逐个频率生成Spectral Volume。生成的Spectral Volume可以进一步处理转换为“运动纹理”,即每个像素的长时间运动轨迹。

神兵3光流插值

最后利用基于图像的渲染技术,将预测的运动纹理应用于输入的RGB图像,生成连续的视频帧。这里首先使用在每个像素 F(p) =FFT−1(S(p)) 上应用的逆时间的FFT进而在时间域中生成运动纹理。由于前向扭曲可能导致空洞,并且多个源像素可以映射到相同的输出 2D 位置,因此采用2020年的Softmax Splatting for Video Frame Interpolation关于帧插值的工作中提出的特征金字塔softmax splatting策略。

在2020年的这篇文章中涉及到光影的概念。若图中的每个像素都看成一个主题,在视频中的移动就形成了光流。这个研究展示了一个帧插值框架。帧插值的目的是在两个给定的帧I0和I1之间生成中间帧It,以创建平滑的过渡。

以下是这个框架的工作流程:

  1. 首先估计这两个帧之间的双向光流。光流是一种测量两个帧之间物体运动的方法。图中绿色的方框和箭头表示光流估计过程。

  2. 特征金字塔提取:每个输入帧通过特征金字塔提取器,提取出多层次的特征。这一步骤在图中用蓝色虚线方框表示。

  3. Softmax Splatting:将提取的特征金字塔和光流信息前向传播到目标时间位置t∈(0,1)。使用Softmax Splatting实现端到端的训练,从而允许特征金字塔提取器学习到对图像合成重要的特征。这个过程在图中用灰色虚线方框表示。

  4. 最终经过变形的输入帧和特征金字塔被送入图像合成网络,生成插值结果帧It。

本次研究的生成效果在“微风”领域的确不赖。上图第一列为原图,取了一行作为对比观察点。第二列为这一行像素值在原始视频的震动效果,第三列开始时就是各种视频生成算法的震动效果。

当然目测还是最后一列(本次研究)更加的符合和贴近。最后总结一下,这个项目给读者的带来的启示是,读懂每种研究的核心点,通过创意组合和微创新,也能带来令人意想不到的收获~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1894515.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VIM介绍

VIM&#xff08;Vi IMproved&#xff09;是一种高度可配置的文本编辑器&#xff0c;用于有效地创建和更改任何类型的文本。它是从 vi 编辑器发展而来的&#xff0c;后者最初是 UNIX 系统上的一个文本编辑器。VIM 以其键盘驱动的界面和强大的文本处理能力而闻名&#xff0c;是许…

【pytorch14】感知机

单层感知机模型 对于单层的感知机&#xff0c;它的激活函数是一个sigmoid 对于符号的定义做一个规范化&#xff0c;输入层每一层进行一个编号 输入是第0层&#xff0c;上标0表示属于输入层&#xff0c;下标0到n表示一共有n个节点(这里严格来说应该是0~n-1&#xff0c;为了书写…

阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?

6 月 27 日&#xff0c;全球知名的开源平台 Hugging Face 的联合创始人兼首席执行官 Clem 在社交平台激动宣布&#xff0c;阿里 Qwen2-72B 成为了开源模型排行榜的王者。 这是一件大好事&#xff0c;说明了我们在大模型领域从先前的追赶&#xff0c;逐渐走向了领导&#xff0c;…

【 VIPKID-注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造成亏损无底洞 …

Redis 7.x 系列【17】四种持久化策略

有道无术&#xff0c;术尚可求&#xff0c;有术无道&#xff0c;止于术。 本系列Redis 版本 7.2.5 源码地址&#xff1a;https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 概述2. 案例演示2.1 无持久化2.2 RDB2.3 AOF2.4 混合模式2.4.1 方式一&#xff1a;…

初学Spring之自动装配 Bean

Bean 的作用域&#xff1a; 1.单例模式&#xff08;Spring 默认机制&#xff09; scope“singleton” 2.原型模式&#xff1a;每次从容器中 get 时&#xff0c;都会产生一个新对象 scope"prototype" 3. request、session、application&#xff0c;只能在 web 开…

不可变集合

目录 1.1 什么是不可变集合 1.2 不可变集合分类 1.3 不可变的list集合&#xff1a;list of 1.4 不可变的Set集合&#xff1a;set.of 1.5 不可变的Map集合 1.5.1&#xff1a;键值对个数小于等于10 1.5.2&#xff1a;键值对个数大于10 Map.ofEntries方法&#xff1a; copy…

JBoss JMXInvokerServlet 反序列化漏洞

漏洞原理&#xff1a; 这是经典的JBoss反序列化漏洞&#xff0c;JBoss在/invoker/JMXInvokerServlet请求中读取了用户传入的对象&#xff0c;然后我们利用Apache Commons Collections中的Gadget执行任意代码。 影响版本&#xff1a; JBoss Enterprise Application Platform 6…

如视“VR+AI”实力闪耀2024世界人工智能大会

7月4日&#xff0c;2024世界人工智能大会暨人工智能全球治理高级别会议&#xff08;以下简称为“WAIC 2024”&#xff09;在上海盛大开幕&#xff0c;本届大会由外交部、国家发展和改革委员会、教育部等部门共同主办&#xff0c;围绕“以共商促共享 以善治促善智”主题&#xf…

【虚拟机】虚拟机网络无法访问问题【已解决】

【虚拟机】虚拟机无法上网问题【已解决】 问题探究解决方法法1&#xff1a;查看相关“网络服务”是否处于正常启动状态法2&#xff1a;重启网络法3&#xff1a;重新安装VMWare法4&#xff1a;使用NAT模式&#xff0c;每次打开win7都没连上网的解决办法 问题探究 安装了很多个虚…

昇思MindSpore学习总结八——静态图加速

AI编译框架分为两种运行模式&#xff0c;分别是动态图模式以及静态图模式。MindSpore默认情况下是以动态图模式运行&#xff0c;但也支持手工切换为静态图模式。两种运行模式的详细介绍如下&#xff1a; 1、动态图模式 动态图的特点是计算图的构建和计算同时发生&#xff08;D…

vue模板语法v-html

模板语法v-html vue使用一种基于HTML的模板语法&#xff0c;使我们能够声明式的将其组件实例的数据绑定到呈现的DOM上&#xff0c;所有的vue模板都是语法层面的HTML&#xff0c;可以被符合规范的浏览器和HTML解释器解析。 一.文本插值 最基本的数据绑定形式是文本插值&#…

高二的他已通过NOI保送北大了,让我们一起了解他的信息学奥赛学习经历吧!!!

相信关注本号的各位&#xff0c;对于信息学奥赛已经不陌生了&#xff0c;部分同学也已经开始踏入信息学的旅程&#xff0c;但前路茫茫&#xff0c;让我们一起看看已经取得成就的同学的经历吧。 今天要介绍的这位同学&#xff0c;是来自深圳中学的高二某班的欧阳达晟同学&#x…

一、强化学习基本概念

一、强化学习基本概念 1.1 何为强化学习&#xff1f;1.2 强化学习的环境1.3 强化学习的目标1.4 强化学习的数据 1.1 何为强化学习&#xff1f; 强化学习(Reinforcement Learning, RL)是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指&#xff1a;机器在…

Spring AI之后,阿里推出Spring Cloud Alibaba AI,接入体验篇——Java也能方便用 AI

阿里推出Spring Cloud Alibaba AI&#xff0c;接入体验篇——Java也能方便用 AI 1.Spring AI2.Spring Cloud Alibaba AI3. 接入体验 1.Spring AI Spring AI 是 Spring 官方社区项目&#xff0c;旨在简化 Java AI 应用程序开发&#xff0c;让 Java 开发者像使用 Spring 开发普通…

安装Anaconda找不到旧版本怎么办?

标题Anaconda官网&#xff1a;https://www.anaconda.com/ 对于个人学习使用&#xff0c;不用下载最新版本&#xff0c;使用之前的版本相对还是比较稳定的。所以需要寻找旧版网址。 标题旧版网址&#xff1a;https://repo.anaconda.com/archive/ 里面多种版本选择 然后选择自…

解决前端登录成功之后,往后端发请求携带cookie问题

项目背景&#xff1a; 今天在做伙伴匹配系统&#xff1a; 我现在实现的功能是&#xff1a; 在我登录成功之后&#xff0c;就进入了主页&#xff08;默认页&#xff09;&#xff0c;在我访问用户页的时候产生的问题 首先说明一下这个Cookie的问题&#xff1a; 我们登录成功…

Django 定义模型执行迁移

1&#xff0c;创建应用 Test/app8 python manage.py startapp app8 2&#xff0c;注册应用 Test/Test/settings.py 3&#xff0c;配置路由 Test/Test/urls.py from django.contrib import admin from django.urls import path, includeurlpatterns [path(app8/, include(a…

SCI一区TOP|徒步优化算法(HOA)原理及实现【免费获取Matlab代码】

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献5.代码获取 1.背景 2024年&#xff0c;SO Oladejo受到徒步旅行启发&#xff0c;提出了徒步优化算法&#xff08;Hiking Optimization Algorithm, HOA&#xff09;。 2.算法原理 2.1算法思想 HOA灵感来自于…

机器人控制系列教程之Delta机器人动力学分析

动力学简介 机器人动力学分析是已知各运动构件的尺寸参数和惯性参数的情况下,求解末端运动状态与主驱动力矩之间的函数关系。 意义:对并联机器人动力学分析的意义体现在: 为伺服电机的选型提供理论依据;获得动力学参数为目标函数的最优问题做性能评价指标;为高精度控制提…