CVPR 2024最佳论文分享:生成图像动力学

news2024/11/23 1:15:30

CVPR 2024最佳论文分享:生成图像动力学

CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024 公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。

本文详细介绍了CVPR 2024最佳论文《Generative Image Dynamics》。该论文的第一作者为Zhengqi Li(李正奇)。论文提出了一种从单张RGB图像生成场景运动的方法,通过学习从实际视频序列中提取的运动轨迹,在傅里叶域中建模为频谱体积。使用条件扩散模型预测这些频谱体积,并通过图像基渲染模块将其转换为运动纹理,从而实现将静态图像转化为无缝循环视频或响应用户输入的动态交互模拟。论文展示了该方法在生成连续动画视频和模拟交互动态图像方面的应用,并在定量和定性实验中证明了其优越性。本文由黄星宇撰写,审校为邱雪和许东舟。论文地址:https://arxiv.org/pdf/2309.07906.

1. 研究背景及解决的问题

1.1 研究背景

自然界中的场景总是处于运动状态,即使是看似静止的场景也会由于风、水流、呼吸等自然节律产生细微的振动。模拟这种运动对于视觉内容合成至关重要,因为人类对运动的敏感性使得人类对没有运动的图像感受怪异或不自然。虽然人类可以轻松地解释或想象场景中的运动,但训练模型来学习或生成真实的场景运动却极其困难。在现实世界中观察到的运动是场景底层物理动力学的结果,例如,施加在物体上的力根据它们独特的物理属性(如质量、弹性等)做出响应,这些量很难大规模测量和捕捉。

1.2 解决的问题

研究解决了从单个静止图像生成逼真的长时间像素轨迹的问题。通过学习从真实视频序列中提取的运动轨迹,研究团队开发了一种频域的密集、长期运动表示方法(光谱体积)。该方法通过频率协调的扩散模型进行预测,能够生成覆盖整个视频的运动纹理,从而实现如下应用:

(1). 无缝循环视频生成:将静止图像转换为无缝循环的视频。

(2). 交互动态模拟:允许用户与图像中的对象进行交互,模拟对象在用户输入(如拖动和释放点)下的动态响应。

(3). 图像动画:将单个静止图像转换为动态视频,展示自然界中的振荡运动,例如树木在风中的摆动、花朵的摇曳等。

应用部分可以参考官网演示,官网网址:generative-dynamics.github.io.

2. 方法

主要目标是从单张图片生成包含树木、花朵或蜡烛火焰等振荡运动的视频序列。系统由两个模块组成:运动预测模块基于图像的渲染模块。首先,使用潜在扩散模型(LDM)预测输入图片的频谱体积,然后通过逆离散傅里叶变换将其转换为运动纹理。接着,利用神经图像基渲染技术将输入的RGB图像动画化。该方法在生成无缝循环动画和模拟交互动态方面有多种应用。

2.1 运动预测模块

运动预测模块通过潜在扩散模型(LDM)从单张输入图像预测出表示密集、长期像素运动的频谱体积。首先,模型对每个频率分量进行预测,并通过共享注意力模块协调不同频率的生成,确保运动的连贯性。训练过程中,采用频率自适应归一化技术,对傅里叶系数进行调整,防止高频分量过小而导致的生成误差。随后,模型通过迭代去噪,从高斯噪声逐步逼近真实的频谱体积。最后,通过逆离散傅里叶变换将预测的频谱体积转换为时间域的运动纹理,生成未来帧的像素运动轨迹。这一模块使得从静态图像生成逼真、连贯的动态视频成为可能。运动预测模块结构如图1所示。

图1 运动预测模块

2.2 基于图像的渲染模块

基于图像的渲染模块将运动预测模块生成的运动纹理转换为动画视频帧。首先,通过逆离散傅里叶变换将频谱体积转换为时间域的运动纹理,这些纹理描述了每个像素在未来时间步的位置变化。接着,模块对输入的RGB图像进行多尺度特征提取,生成一系列特征图。利用最大值点云映射策略,将特征图中的像素根据运动纹理映射到未来帧的位置。然后,通过图像合成网络对映射后的特征图进行细化和填充,生成无缝、逼真的动画帧。在生成无缝循环视频时,模块会应用运动指导,确保视频的起始帧和结束帧在位置和速度上保持一致。通过这一系列步骤,基于图像的渲染模块成功地将静态图像转化为动态视频,实现了逼真、连贯的动画效果。图像渲染模块结构如图2所示。

图2 图像渲染模块

3. 实验

实验方法包括收集3015个展示自然振荡运动的视频,并将其分为训练集和测试集。首先从视频中提取运动轨迹生成频谱体积,然后使用这些数据训练潜在扩散模型(LDM),该模型能够预测单张输入图像的频谱体积,并通过逆离散傅里叶变换将其转换为时间域的运动纹理,生成未来帧的像素运动轨迹。评估环节采用定量指标(如FID、KID、FVD、DT-FVD)和定性比较,全面评估生成视频的质量和时间一致性,并与现有方法(如Stochastic I2V、MCVD、Endo等)进行对比。实验结果显示,该方法在定量指标上表现出色,尤其在FID和DT-FVD等关键指标上取得最低误差,生成的视频在图像质量和时间一致性方面优于其他方法,如图3所示。定性评估通过时空X-t切片可视化,证明生成的视频动态更接近真实运动,显示出更少伪影和更自然的运动,如图4所示。此外,用户研究表明,大多数用户更偏好该方法生成的视频,认为其在现实感和运动连贯性上表现更优。这些结果验证了该方法在生成逼真、连贯视频动画方面的有效性和优越性,展示了其在视觉内容合成领域的巨大潜力。

图3 测试集定量比较

图4 不同方法生成的视频的X-t切片

4. 结论

论文提出了一种从单张静止图像建模自然振荡动态的新方法,图像空间运动先验通过频谱体积表示,这是一种每像素运动轨迹的频率表示。该方法在扩散模型预测中表现出高效和有效,并从真实世界视频集合中学习。通过基于图像的渲染模块,频谱体积用于动画未来的视频帧,生成逼真的动画,并显著优于之前的基线方法,可以支持多个下游应用,如创建无缝循环或互动的图像动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1873032.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

盘点7款适合团队使用的知识库工具

作为一名技术爱好者和企业管理者,我深知知识库工具在日常工作中的重要性。 无论是个人笔记管理还是企业知识共享,知识库工具都能极大地提升我们的工作效率和信息管理水平。 根据麦肯锡全球研究院报告显示,使用知识库工具可以帮助个人或者企…

JavaWeb-day28_HTML

今日内容 零、 复习昨日 一、HTML 零、 复习昨日 一、Web开发 前端三大件 HTML ,页面展现CSS , 样式JS (JavaScript) , 动起来 二、HTML 2.1 HTML概念 ​ 网页,是网站中的一个页面,通常是网页是构成网站的基本元素,是承载各种网站应用的平台…

普乐蛙景区9d电影体验馆商场影院娱乐设备旋转飞行影院

今天与大家聊聊VR娱乐新潮流,我们普乐蛙的新品——旋转飞行影院!裸眼7D环幕影院,话不多说上产品!我们通过亲身体验来给大家讲讲这款高性价比新品的亮点。 想象一下走上电动伸缩梯,坐进动感舱,舱门缓缓合上&…

RuoYi_Cloud本地搭建

目录 1.先进入若依官网下载源码 2.在git链接在idea本地打开 3.建立数据库 (1)创建一个ruoyi_cloud数据库,设定好账号密码 (2)建表 4.配置nacos (1)nacos官网下载2.0.x以上的版本 &#…

Java常量、变量、成员内部类

文章目录 1.常量2.变量3.成员内部类4.变动 1.常量 实例常量:只用final修饰,是某个具体类的实例 静态常量:finalstatic修饰,属于类,所有实例共享同一个类常量 2.变量 实例变量(成员变量):定义在类内部但在…

上海App开发测试需要注意的内容

在上海app开发中,测试发挥着至关重要的作用。及时、专业的对app进行测试,能够快速发现app存在的漏洞与问题,从而及时进行修正,确保app的顺利上线与发布。那么,在上海app开发测试的过程中,需要注意哪些内容呢…

1.驱动程序框架

驱动是用来控制和操作硬件的软件。 在linux下,一切皆文件。当我们write一个文件时,内核通过文件的file_operations结构体(include/linux/fs.h)来找到对应的驱动函数,最终调用的是存储介质(ssd,硬盘等)驱动提供的write函数(这中间…

米联客FDMA驱动OV5640摄像头—基于野火Zynq7020开发板

使用米联客的ddr3缓存方案 FDMA驱动OV5640摄像头在RGB888屏幕上显示。 总体BLOCK DESIGN框架图 RTC框架图 FDMA设置 FDMA控制器设置 帧选择IP设置 IP核封装及代码在工程文件中 参考 FDMA3.1数据缓存方案全网最细讲解,自创升级版,提供3套视频和音频缓存…

python案例-自动识别图片数字并进行填充,小键盘数字键练习工具轻松达到最高评级!ddddocr+pyauotgui

🌈所属专栏:【python】✨作者主页: Mr.Zwq✔️个人简介:一个正在努力学技术的Python领域创作者,擅长爬虫,逆向,全栈方向,专注基础和实战分享,欢迎咨询!您的点赞、关注、收藏、评论,是对我最大的激励和支持!!!🤩🥰😍 目录 前言 测试工具界面 代码完成思…

VMware Workstation环境下DNS的安装配置,并使用ubuntu来测试

需求说明: 某企业信息中心计划使用IP地址17216.11.0用于虚拟网络测试,注册域名为xyz.net.cn.并将172.16.11.2作为主域名的服务器(DNS服务器)的IP地址,将172.16.11.3分配给虚拟网络测试的DHCP服务器,将172.16.11.4分配给虚拟网络测试的web服务器,将172.16.11.5分配给FTP服务器…

python水仙花数 青少年编程电子学会python编程等级考试三级真题解析2022年3月

python水仙花数 2022年3月 python编程等级考试级编程题 一、题目要求 1、编程实现 明明请你帮忙寻找100-999之间的所有"水仙花数”,并统计个数。"水仙花数"是指一个三位数各位数字的立方和等于该数本身,例如:1531*1*15*5*53*3*3。要求输出结果如下所示: 153…

工业路由器与家用路由器的区别

在现代网络环境中,路由器扮演着至关重要的角色。无论是在家庭网络还是在工业网络,选择合适的路由器都至关重要。本文将从多个角度,对工业路由器与家用路由器进行详细比较,帮助您更好地理解二者的区别。 1、安全性 工业路由器&…

Spring学习02-[Spring容器核心技术IOC学习]

Spring容器核心技术IOC学习 什么是bean?如何配置bean?Component方式bean配合配置类的方式import导入方式实现ImportSelector类的方式-批量注册bean实现ImportBeanDefinitionRegistrar的方式 实例化bean推断构造函数使用实例工厂方法实例化----Bean的方式 使用工厂Bean。实例化…

你的编程小助手:Kimi!!【送源码】

从OpenAI发布AI大模型到现在已经快2年时间,中间随着新模型的不断出现,也让大家认识到了AI的强大之处,现在AI已经渗透到我们生活,工作的方方面面。 这期间国产大模型也在努力发展,不断完善,甚至一些大模型在…

【unity笔记】五、UI面板TextMeshPro 添加中文字体

Unity 中 TextMeshPro不支持中文字体,下面为解决方法: 准备字体文件,从Windows系统文件的Fonts文件夹里拖一个.ttf文件(C盘 > Windows > Fonts ) 准备字库文件,新建一个文本文件,命名为“字库”&…

【计算机毕业设计】079基于微信小程序网上商城设计

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

自研网关架构设计

网关项目 1. 了解网关网关横向对比为什么自研网关 2. 架构设计技术栈技术要点异步化设计使用缓存缓冲合理使用串行化吞吐量为王合适的工作线程 架构图 1. 了解网关 概念 访问数据、业务逻辑或功能的 “前门”负责处理接受和处理调用过程中的所有任务 类型 RESTful APl 使用…

数据结构_优先级队列(堆)

目录 一、优先级队列 1.1 堆 1.2 PriorityQueue接口 二、模拟实现优先级队列 2.1 初始化 2.2 创建大根堆 (向下调整) 2.3 堆的插入 2.4 堆的删除 2.5 堆排序 总结 一、优先级队列 优先级队列是一种特殊的队列,其出队顺序与入队顺序无关,而与优…

如何清空Comfyui的gpu缓存

由于我电脑上同时装了两个Comfyui作为我站点的绘图服务,一个是给正式服使用,一个是开发测试使用,在使用过程中经常会因为两个Comfyui服务跑图后没有自动释放显存导致爆显存。所以我需要让Comfyui跑完图之后可以自动释放显存。 我自己在网上找…

Python的Django部署uwsgi后自签名实现的HTTPS

通过SSL/TLS来加密和客户端的通信内容。提高网络安全性,但是会损耗部分的服务器资源。 HTTPS 的原理图。 web.key 是打死也不能给其他人的。一定要保存好。里面主要是私钥。是各种认证的根基。本地测试的话生成1024的即可,如果是生产环境推荐使用2048。…