FIFO-Diffusion,一个无需额外训练即可生成长视频的框架。通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。

news2024/12/23 8:19:43

简单来讲,FIFO-Diffusion先通过一些模型如VideoCraft2、zeroscope、Opem-Sora Plan等与FIFO-Diffusion的组合生成短视频,然后取结尾的帧(也可以取多帧),再用这一帧的图片生成另一段短视频,然后拼接起来。FIFO-Diffusion对如何取帧、生成新视频的时候引用往前的多少帧,以及如何去噪加噪做了算法优化。

相关链接

论文:arxiv.org/abs/2405.11473

项目:jjihwan.github.io/projects/FIFO-Diffusion

代码:github.com/jjihwan/FIFO-Diffusion_public

论文阅读

FIFO-Diffusion:无需训练即可从文本生成无限视频

摘要

我们提出了一种基于预训练扩散模型的新颖推理技术,用于文本条件视频生成。我们的方法称为 FIFO-Diffusion,从概念上讲,无需训练即可生成无限长的视频。这是通过迭代执行对角去噪来实现的,该去噪同时处理队列中噪声级别不断增加的一系列连续帧;

我们的方法在头部将完全去噪的帧出队,同时在尾部将新的随机噪声帧入队。然而,对角去噪是一把双刃剑,因为靠近尾部的帧可以通过前向参考利用更干净的帧,但这种策略会导致训练和推理之间的差异。因此,我们引入潜在分区来减少训练与推理之间的差距,并引入前向降噪来利用前向引用的优势。

我们已经在现有的文本到视频生成基线上展示了所提出的方法的有希望的结果和有效性。

方法

f = 4对角去噪示意图。被实线包围的框架是 被虚线包围的帧是模型输入的去噪版本。去噪后 当随机噪声进入队列时,右上角完全去噪的实例被退出队列。

长视频生成的分块自回归方法与FIFO-Diffusion方法的比较。随机噪声(黑色)被迭代去噪到图像中模型的潜势(白色)。红色的盒子指出预训练中的去噪网络基本模型,绿框表示通过额外训练得到的预测网络。

上图为f = 4, n = 2时的潜在分区和前向去噪示意图。

  • (a)潜在分区将扩散过程划分为n个部分,以减少最大噪声水平差异。

  • (b)在(a)上lookahead denoings使所有框架都能用足够数量的以前框架来代替所有帧,而计算的计算是(a)的两倍。

实验

基于(a) Open-Sora计划的FIFO-Diffusion生成的长视频插图。(b) VideoCrafter2,(c)基于VideoCrafter2的多个提示。电话上的号码每个帧的左上角表示帧索引。

(a)森林里宁静的冬日景色。森林被一层厚厚的雪覆盖着,这……”

(b)“一个充满活力的水下场景,一个潜水者探索沉船,2K,逼真的。”

(c)“一只老虎在草原上行走→站立→休息,逼真,4k,高清”

“一个漂浮在太空中的宇航员,高质量,4K分辨率。”

不同基线结果比较

VideoCrafter2

视频生成的FIFO扩散与VideoCrafter2。左上角的数字每一帧表示帧索引。

VideoCrafter1

视频生成的FIFO扩散与VideoCrafter1。左上角的数字 每一帧表示帧索引。

zeroscope

用zeroscope的FIFO扩散产生的视频。

Open-Sora Plan

使用Open-Sora计划的fifo扩散生成的视频。

长视频生成方法比较

与其他长视频生成技术,Gen-L-Video, FreeNoise和LaVie SEINE。

(一)“一个充满活力的水下场景,一个潜水者探索沉船,2K,逼真的。”

(二)“宁静禅宗花园的全景,高品质,4K分辨率。”

结论

我们介绍了一种新颖的推理算法,即FIFO扩散,该算法允许从文本中生成无限长的视频,而无需在短视频片段上预测的视频扩散模型。 我们的方法是通过进行对角线降解来实现的,后者以第一次出局的方式处理潜在的噪声水平的增加。

在每一步中,一个完全去噪的实例被去排队,而一个新的随机实例被去排队噪音是排队的。虽然对角去噪具有关键的权衡,但我们提出了潜在分区克服其固有的局限性,前瞻性去噪,发挥其优势。 把它们结合在一起,FIFO-Diffusion成功地生成了高质量的长视频,展示了上下文一致性的精彩的场景和动态运动表达。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1688845.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CentOS-7安装教程

目录 安装 修改主机名 配置静态IP 镜像下载地址 https://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso VMware Workstation Pro下载 VMware Workstation Pro各版本下载(2024.5.5之后)(Windows与Linux安装包不限…

MilvusPlus向量数据库增强操作库

项目简介 🔥🔥🔥MilvusPlus(简称 MP)是一个 Milvus 的操作工具,旨在简化与 Milvus 向量数据库的交互,为开发者提供类似 MyBatis-Plus 注解和方法调用风格的直观 API,提高效率而生。 特性 无侵入…

【C++11】列表初始化,std::initializer_list和模版可变参数

一.列表初始化 一切对象都可以用大括号括起的列表来初始化。 //构造 Date d1(2024, 5, 24); Date d2{2024, 5, 24};//三个构造 new Date[3]{{2024, 5, 23}, {2024, 5, 24}, {2024, 5, 25}};//构造(隐式)拷贝构造 优化->一次构造 Date d3 {2024, 5, 24}; 二. std::initiali…

基于STM32实现智能空气质量监测系统

目录 文章主题环境准备智能空气质量监测系统基础代码示例:实现智能空气质量监测系统 配置传感器并读取数据数据处理与显示数据存储与传输应用场景:室内环境监测与空气质量控制问题解决方案与优化收尾与总结 1. 文章主题 文章主题 本教程将详细介绍如何…

AI视频智能分析技术:EasyCVR视频汇聚安防监控智能化方案

1、视频智能分析技术原理 视频智能分析技术是一项基于计算机图像视觉分析技术的创新解决方案。它利用先进的算法,将视频场景中的背景和目标进行有效分离,从而实现对目标的精准分析和追踪。 该技术可以对监控摄像头拍摄到的视频进行分析和识别&#xff0…

Java+Spring+ MySQL + MyCat云HIS有哪些优势?智慧医疗云(HIS)低成本与安全保障的完美结合

JavaSpring MySQL MyCat云HIS有哪些优势?智慧医疗云(HIS)低成本与安全保障的完美结合 云HIS的优点包括节省成本、便捷高效、稳妥安全等。通过云HIS,医疗机构无需在本地建立机房、购买服务器和应用软件,降低了硬件和人力成本。同时&#xff0…

OpenWrt改网桥模式(AP模式)

OpenWrt改网桥模式(AP模式) 点击“接口” 删掉所有 wan 接口 点击“设备”,配置“br-lan" 点击网桥接口,勾选所有接口 点击保存 添加新接口(不添加的话路由器自身系统没网) 返回 “网络” - “接…

AI大模型的口语练习APP

开发一个使用第三方大模型的口语练习APP涉及多个步骤,从需求分析到部署上线。以下是详细的开发流程和关键步骤,通过系统化的流程和合适的技术选型,可以有效地开发出一个功能丰富、用户体验良好的口语练习APP。北京木奇移动技术有限公司&#…

景源畅信电商:抖店需要的成本高吗?

在数字化时代的浪潮中,短视频平台迅速崛起,成为连接用户与商家的新桥梁。抖音作为其中的佼佼者,不仅改变了人们的娱乐方式,也催生了新型的电商模式——抖店。许多人好奇,入驻这样一个充满活力的平台,需要承…

C++ (week4):Linux基础

文章目录 零、Linux简介1.配置环境2.Linux历史3.Linux模型 一、vim二、Linux命令行 (shell命令)1.常用命令与快捷键(1)常用命令①man命令:查看帮助手册 (2)快捷键 2.用户子系统(1)Linux用户(2)用户命令 3.文件子系统命令(1)目录命令1.创建文件:mkdir2.删…

优于InstantID!中山大学提出ConsistentID:可以仅使用单个图像根据文本提示生成不同的个性化ID图像

给定一些输入ID的图像,ConsistentID可以仅使用单个图像根据文本提示生成不同的个性化ID图像。效果看起来也是非常不错。 相关链接 Code:https://github.com/JackAILab/ConsistentID Paper:https://ssugarwh.github.io/consistentid.github.io/arXiv.pd…

【openlayers系统学习】4.1渲染矢量瓦片、VectorTile 层

一、VectorTile 层 我们现在知道如何加载切片图像,并且已经看到了加载和渲染矢量数据的不同方法。但是,如果我们能够拥有快速传输到浏览器的切片,并且可以动态样式化,那该多好啊?这就是矢量切片的用途。OpenLayers 通…

ubuntu_概念

su(switch user) wget(Web Get) cd(change directory) dpkg(Debian Packager)为 “Debian” 专门开发的套件管理系统,方便软件的安装、更新及移除。 chmod(Change Mode)用于改变文件或目录的权限 ps(Process Status)进程状态 grep(Global Regular Expression Print)…

C++利用TinyXML读取XML文件

TinyXML是什么? TinyXML是一个轻量级的C XML解析器,它提供了一种简单的方法来解析和操作XML文档。TinyXML被设计为易于使用和集成到C项目中,并且非常适合处理小型XML文件。 以下是TinyXML的一些主要特点和优点: 轻量级: T…

李良济中医课堂走进老年大学,倪金山医生讲座守护老年人脊柱健康

5月21日,李良济中医课堂走进姑苏区老年大学,特别邀请倪金山医生,为老年朋友带来“脊柱健康”专题课。 中医课堂上,倪金山医生贴合老年人的身体健康,详细为老年朋友们分享脊柱对身体健康的重要性,如何预防脊…

[笔试训练](三十二)094:素数回文095:活动安排096:合唱团

目录 094:素数回文 095:活动安排 096:合唱团 094:素数回文 题目链接:素数回文_牛客题霸_牛客网 (nowcoder.com) 题目&#xff1a; 题解&#xff1a; 模拟题&#xff1a; 1.构造回文数 2.检测是否为素数 #include <iostream> #include <string> #include <c…

商品发布功能

文章目录 1.SPU和SKU介绍1.SPU2.SKU3.两者之间的关系 2.完成商品发布界面1.组件引入1.commoditylaunch.vue 引入到 src/views/modules/commodity下2.multiUpload.vue 引入到 src/components/upload/multiUpload.vue 2.创建菜单1.创建目录2.创建菜单&#xff0c;注意菜单路由要匹…

《艺术大观》知网艺术刊:可加急, 出刊上网快

《艺术大观》 《艺术大观》征文通知 《艺术大观》期刊诚邀学者、艺术家和文化工作者积极投稿&#xff0c;共同探索艺术领域的前沿问题&#xff0c;促进学术交流和艺术创作的发展。我们欢迎各类艺术形式的研究与评论&#xff0c;包括但不限于绘画、雕塑、音乐、舞蹈、戏剧、电…

Linux c开发线程锁和条件变量使用

#include <pthread.h> #include <stdio.h> #include <unistd.h>pthread_mutex_t mutex PTHREAD_MUTEX_INITIALIZER; pthread_cond_t cond PTHREAD_COND_INITIALIZER;void* thread_function(void* arg) {printf("线程等待唤醒,锁定互斥量...\n");…