每日最新AIGC进展(59):谷歌提出关键帧插值算法、谷歌研究院提出用实时游戏画面生成算法、中国科学院大学提出复杂场景图像生成算法

news2024/9/21 21:30:45

Diffusion Models专栏文章汇总:入门与实战

Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation

本研究提出了一种新颖的关键帧插值方法,旨在生成符合自然运动轨迹的连续视频片段。我们适应了已经训练好的图像到视频扩散模型,使其新模型能够在两个输入关键帧之间插值,从而输出一段流畅的视频。该方法的关键在于,充分利用现有模型已学到的运动统计信息,而无需从零开始进行细致的训练。我们的工作展示了如何将一个从单个输入图像生成前向运动视频的模型,通过精简的微调技术,转化为能够生成反向运动视频的版本。与传统方法相比,这种方法在生成合乎逻辑的运动视频方面实现了显著的性能提升,为图像到视频生成领域的研究开辟了新的方向。

该方法主要包括三个步骤:首先,针对某一输入图像进行轻量级反向运动微调,以使模型能够预测从该图像开始的反向运动视频;其次,在生成具有前向运动和反向运动的视频的过程中,确保两者之间存在一致性。为了实现这一点,我们设计了一个双向扩散采样过程,利用原始的前向扩散模型与微调后的反向模型。具体来说,模型通过旋转时间自注意力图,反转时间轴的运动关联。这一改进使得模型能够更好地理解如何在时间上从关键帧之间平滑过渡,并产生高质量的运动视频。此外,通过在扩散过程中融合前向预测与反向预测的噪声预测,确保生成的视频在时间上流畅且一致。

实验部分使用了两个高分辨率数据集进行验证:Davis数据集与Pexels数据集。我们从每个数据集中收集了一批关键帧对,并以此训练我们的模型。通过与现有的插值技术和基于扩散的方法进行比较,我们展示了所提出的模型在生成具有动态运动的视频时的优越性能,尤其是在处理时间间隔较大的关键帧时。研究结果表明,我们的模型在两个标准度量(FID和FVD)下均显著优于传统方法和同类技术。此外,在不同的输入条件下,我们的方法也展示了出色的适应能力,但在复杂运动(如非刚体运动)场景下仍存在一定局限性。

Diffusion Models Are Real-Time Game Engines

本文介绍了一种新型游戏引擎GameNGen,它完全基于神经网络模型,能够在复杂环境中实现实时交互模拟。GameNGen特别针对经典游戏《DOOM》进行了优化,能以每秒超过20帧的速度进行高质量的游戏互动。该模型通过两个阶段进行训练:首先,使用强化学习(RL)代理学习玩游戏并记录训练过程;其次,训练一个扩散模型来生成下一个游戏帧,基于过去帧和动作的序列来进行条件生成。研究表明,该模型在生成下一个帧时的峰值信噪比(PSNR)为29.4,接近有损JPEG压缩的性能。此外,参与评估的人工评分者在区分实际游戏和模拟视频时仅略高于随机猜测。

GameNGen的训练分为两个主要阶段。第一阶段涉及到创建一个强化学习代理,使其能够玩游戏并记录所有的游戏动作和观察数据。这个过程的目的是收集有代表性的游戏数据,这些数据会在第二阶段用作生成模型的训练集。在第二阶段中,采用预训练的扩散模型,可以生成游戏帧,而不再依赖文本条件。该生成模型通过将过去的帧和代理动作编码为潜在空间,在学习过程中进行条件生成。此外,为了减轻因自动回归生成引发的偏差,采用噪声增强技术来提高生成的稳定性和质量。最终,加入连接性强的多层网络以精细调节生成过程,将生成的游戏帧与真实帧的质量提升至可接受的水平。

在实验部分,通过使用人类评估者对生成的视频片段与实际游戏片段的比较,评估了GameNGen的效果。总共进行了多项测试,包括对画质、视频质量和人类识别准确性等多个指标的评估。研究团队采用PSNR和LPIPS指标衡量生成视频的质量,并发现生成质量与真实游戏相当。实验结果还表明,在自动回归模式下,尽管每一帧的质量随着时间的推移而下降,但整个生成过程依然保持相对稳定。通过不同数据集的记录和模型对比,验证了强化学习代理生成的数据优于随机策略的数据。总体而言,实验结果展示了GameNGen在长时间追踪游戏状态及生成高质量视频方面的潜力和有效性。

Draw Like an Artist: Complex Scene Generation with Diffusion Model via Composition, Painting, and Retouching

在此项研究中,作者提出了一种名为复杂扩散(Complex Diffusion, CxD)的训练自由的扩散框架,旨在解决复杂场景生成中的挑战。尽管文本转图像的扩散模型在图像质量上已经取得了显著的进展,但在处理涉及多个实体和复杂空间关系的复杂场景时,新开发的模型常常面临结构紊乱和对象关系不一致等问题。为了解决这一问题,研究团队给出了一个清晰的“复杂场景”定义,并基于这一定义提出一系列复杂性分解标准。CxD框架灵感源自艺术家的创作过程,划分为三个主要阶段:构图、绘画和修整。通过应用大型语言模型(LLM),该方法有效地将复杂提示拆解,从而改进了图像生成的一致性和多样性。

CxD的方法依据艺术创作的自然流程,将复杂场景的生成过程分为三个阶段。第一阶段是构图,此时使用LLM提取复杂提示中的实体和属性,并依据复杂性分解标准(CDC)来重新构建提示,确保项目间的空间布局合理。第二阶段是绘画,其中通过交叉注意力机制来处理生成的提示,确保每个对象在最终图像中的适当位置和关系。最后,在修整阶段,利用ControlNet模型对生成的图像进行细节增强和修正,以提升图像的清晰度和一致性。这一框架的创新之处在于采用了无训练的策略,与传统方法相比减少了额外的开销,同时保持了对复杂场景的高效处理能力。

为了验证所提出的CxD方法的有效性,研究团队进行了多项实验证明其在复杂场景生成中的卓越性能。通过与现有状态最先进的文本到图像模型进行对比,CxD展现了在生成高质量、语义一致和视觉多样性图像方面的显著优势。实验中,研究者对比了CxD与其他方法在复杂提示下图像生成的能力,指出CxD能有效处理包含多个实体、复杂空间关系及相互冲突的提示。在T2I-CompBench基准测试中,CxD达到新的领先表现,显示出其在物体关系处理和复杂场景生成任务中的独特优势,并且在大型模特应用中保持了良好的扩展性和一致性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2107205.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每日OJ_牛客_Emacs计算器(逆波兰表达式)

目录 牛客_Emacs计算器(逆波兰表达式) 解析代码 牛客_Emacs计算器(逆波兰表达式) Emacs计算器__牛客网 解析代码 逆波兰表达式(后缀表达式)求值,需要借助栈,思路: 循环输入,获取…

智能制造新纪元:3D协同平台引领前沿创新

随着市场的发展,我们的企业面临两个方面的挑战: 从业务和市场方面来看,为了在竞争中取得更大优势,我们需要以高质且低价的产品赢得消费者的信赖,同时必须有效控制成本、加速产品迭代,缩短产品上市周期&…

Orcad如何更改A4到A3纸,表格填充

1 可以直接从以有的A4纸转到A3 2 选择过滤 1 有电气属性的都选择不了 2 修改元器件名称,改了之后下面有横线

交换机堆叠配置

1.华为S系列交换机 维护宝典 https://support.huawei.com/enterprise/zh/doc/EDOC1100339648/d9b3a94b 2.堆叠方式有两种 2.1.专用堆叠卡 2.2.业务口堆叠-10G光口 主交换机(19,20口)对应备交换机(20,19口) 全新设…

OceanBase 4.x 存储引擎解析:如何让历史库场景成本降低50%+

据国际数据公司(IDC)的报告显示,预计到2025年,全球范围内每天将产生高达180ZB的庞大数据量,这一趋势预示着企业将面临着更加严峻的海量数据处理挑战。随着数据日渐庞大,一些存储系统会出现诸如存储空间扩展…

家用智能水表精度要求是多少?

家用智能水表的精度要求是为了确保水表能够准确计量用户的用水量,避免因计量误差导致的不公平收费或水资源浪费。根据国家标准和行业规范,家用智能水表的精度通常需要达到一定的技术指标,以确保其在不同流量条件下的测量准确性。 一、精度标…

喜讯-惟客数据成为中国信息协会数据要素专委会首批常务理事单位

近日,中国信息协会数据要素专业委员会成立大会暨数据资源开发利用及场景创新主题研讨会在贵阳顺利举行,WakeData惟客数据作为受邀企业出席此次活动,并通过资格审核,成为数据要素专委会首批常务理事单位。 中国信息协会数据要素专委…

Java项目: 基于SpringBoot+mysql学生宿舍管理系统(含源码+数据库+开题报告+毕业论文)

一、项目简介 本项目是一套基于SpringBootmysql学生宿舍管理系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作简单、功…

在线演示文稿应用PPTist本地化部署并实现无公网IP远程编辑PPT

文章目录 前言1. 本地安装PPTist2. PPTist 使用介绍3. 安装Cpolar内网穿透4. 配置公网地址5. 配置固定公网地址 前言 本文主要介绍如何在Windows系统环境本地部署开源在线演示文稿应用PPTist,并结合cpolar内网穿透工具实现随时随地远程访问与使用该项目。 PPTist …

CSS解析:盒模型

在网页上实现元素布局涉及很多技术。在复杂网站上,可能会用到浮动元素、绝对定位元素以及其他各种大小的元素,甚至也会使用较新的CSS特性,比如Flexbox或者网格布局。 在此之前我们要打好基础,深刻理解浏览器是如何设置元素的大小…

PHP一站式解决方案高级房产系统小程序源码

一站式解决方案,高级房产系统让房产管理更轻松 🏠【开篇:告别繁琐,迎接高效房产管理新时代】🏠 你是否还在为房产管理的繁琐流程而头疼?从房源录入、客户咨询到合同签订、售后服务,每一个环节…

828华为云征文|华为云Flexus X实例docker部署jdk21最新版jenkins搭建自己的devops服务器

828华为云征文|华为云Flexus X实例docker部署jdk21最新版jenkins搭建自己的devops服务器 华为云最近正在举办828 B2B企业节,Flexus X实例的促销力度非常大,特别适合那些对算力性能有高要求的小伙伴。如果你有自建MySQL、Redis、Nginx等服务的…

PHP智能匹配轻松预订自习室在线订座系统小程序源码

智能匹配,轻松预订——自习室在线订座系统 📚【开篇:告别排队,迎接智能学习新时代】📚 还在为找不到合适的自习室座位而烦恼吗?是不是每次去图书馆或自习室都要提前好久去排队占位?现在&#…

【计算机方向】IF:10.7,发展势头迅猛,中科院二区TOP神刊!

期刊解析 🚩本 期 期 刊 看 点 🚩 国人发文占比第一,审稿友好 影响因子高 自引率2.8% 今天小编带来计算机领域SCI快刊的解读! 如有相关领域作者有意投稿,可作为重点关注! 01 期刊信息✦ 期刊名称&am…

GPT-4o在加密货币情绪动态和行为模式应用

本文研究了加密货币相关讨论中的预测性陈述、希望言论和后悔检测行为,旨在通过少量学习和大语言模型(如GPT-4o)分析投资者的情绪动态和预测行为。该问题的研究难点包括:数据量有限、资源可用性不足、需要准确分类预测性陈述、希望…

Java基于微信小程序的家庭财务管理系统,附源码

博主介绍:✌Java徐师兄、7年大厂程序员经历。全网粉丝13w、csdn博客专家、掘金/华为云等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇🏻 不…

微深节能 环冷机卸灰小车定位远程控制系统 格雷母线

微深节能环冷机卸灰小车定位远程控制系统中的格雷母线是一种高精度位移测量系统,该系统在环冷机卸灰小车的定位与控制中发挥着关键作用。 一、系统组成 格雷母线系统主要由以下几个核心部分组成: 格雷母线:一种特殊的编码线缆,通常…

RAG挑战来袭:长上下文的LLMs会取代RAG系统吗?

2023年,上下文LLMs窗口一般在4K-8K左右。但是,截至 2024 年 7 月,LLMs上下文窗口超过 128K 的情况很常见。 例如,Claude 2 有一个 100K 的上下文窗口。Gemini 1.5 声称有 2M 的上下文,后来的 LongRoPE 声称将LLM上下文窗口扩展到 200 万个令牌之外。此外,Llama-3–8B-I…

天气预报爬虫

一、获取天气接口 主要通过nowapi注册用户之后,进入相应的接口,进行抓取报文。 二、wireshark抓取报文,解析cjson格式 Http的交互过程 1.建立TCP连接 2.发送HTTP请求报文 3.回复HTTP响应报文 4.断开TCP连接 CJSON的使用办法 1. JSON…

关键字驱动的测试模式和代码实例分享

什么是关键字驱动测试? 关键字驱动测试 (KDT) 是一种软件测试方法,使用业务术语(关键字)来描述测试用例,而不是使用编程语言。它通过将测试逻辑与测试数据分离,简化了测试流程,并允许非技术人员…