超逼真AI生成电影来了!《泰坦尼克号》AI重生!浙大阿里发布MovieDreamer,纯AI生成电影引爆热议!

news2024/11/17 12:52:49

视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。

对此,浙大&阿里发布了一种新颖的分层框架MovieDreamer,它将自回归模型的优势与基于扩散的渲染相结合,开创了具有复杂情节发展和高视觉保真度的长时视频生成。

不仅实现了卓越的视觉和叙事质量,而且还有效地将生成内容的持续时间大大延长到当前能力之外。

相关链接

论文链接:https://arxiv.org/pdf/2407.16655

项目主页:https://aim-uofa.github.io/MovieDreamer/

github链接:https://github.com/aim-uofa/MovieDreamer

论文阅读

MovieDreamer:连贯长视觉序列的分层生成

摘要

视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。我们提出了 MovieDreamer,这是一种新颖的分层框架,它将自回归模型的优势与基于扩散的渲染相结合,开创了具有复杂情节发展和高视觉保真度的长时视频生成。我们的方法利用自回归模型实现全局叙事连贯性,预测视觉标记序列,然后通过扩散渲染将其转换为高质量的视频帧。这种方法类似于传统的电影制作过程,将复杂的故事分解为可管理的场景捕捉。此外,我们使用多模式脚本,通过详细的角色信息和视觉风格丰富场景描述,增强场景之间的连续性和角色身份。我们在各种电影类型中进行了广泛的实验,表明我们的方法不仅实现了卓越的视觉和叙事质量,而且还有效地将生成内容的持续时间大大延长到当前能力之外。

方法

MovieDreamer 的框架。我们的自回归模型将多模态脚本作为输入,并预测关键帧的标记。然后将这些标记渲染成图像,形成用于扩展视频生成的锚帧。我们的方法确保视觉叙事的长期连贯性和短期保真度,同时很好地保留角色的身份。

我们提出了一种用于生成扩展视频序列的新框架,该框架利用自回归模型的优势实现长期时间一致性,并利用扩散模型实现高质量图像渲染。我们的方法以多模态脚本为条件,以自回归方式预测关键帧标记,并使用这些帧作为锚点来生成全长视频。我们的方法提供了灵活性,可以支持零样本生成以及少样本场景,在这些场景中,生成结果需要遵循给定的风格。我们特别注意在多模态脚本设计、自回归训练和扩散渲染过程中保留角色的身份。

效果

故事结果

我们的 MovieDreamer 能够生成非常长的故事结果,并且能够很好地保存多个角色。

角色 ID 保存

MovieDreamer 能够以零镜头方式在长时间跨度内保留角色身份。

视频结果

MovieDreamer与现有的长视频生成方法正交,但从中受益。 现有的长视频生成方法通常侧重于以一张图片或文字作为输入来生成一段长视频,确保数十秒的高质量结果。然而,将它们扩展到生成几分钟的长视频需要极大的计算量,而生成几个小时的长视频则几乎是不可能的。我们从不同的角度解决了这个问题,即通过分层的方式生成长视频。具体来说,我们首先生成关键帧,这些关键帧作为生成长视频的锚帧。此外,我们的范式统一了长故事生成和长视频生成。首先,我们在生成内容的长度方面超越了现有的方法,无论是在故事生成还是视频生成方面,同时确保质量不会下降。其次,我们的生成质量也超过了目前最先进的方法,这在评估指标中得到了证明。最后,我们的方法非常灵活,允许使用一些目前高质量的闭源视频生成模型来创建具有丰富叙事的高质量长视频,同时很好地保留了多个角色的一致性。 MovieDreamer + Luma

与现有方法相比

首先,我们的生成范式可以生成丰富的叙事内容,在时长方面显著超越现有方法。我们生成的长内容并非简单的循环。其次,定量指标有力地证明了我们的方法在生成长内容的同时还能确保高质量的结果。

更多结果

结论

我们提出 MovieDreamer 来解决生成具有复杂叙事的长时视觉内容的挑战。该方法巧妙地结合了自回归和扩散的优点,并且能够生成长视频。此外,我们设计了多模式脚本,旨在在生成的序列中保持角色一致性。我们进一步引入了 ID 保留渲染,以更好地保留角色 ID,并支持由于上下文建模而进行的少量电影创作。这项工作可能为未来自动化长时视频制作的进步开辟令人兴奋的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1956005.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Kafka知识总结(选举机制+控制器+幂等性)

文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 选举机制 控制器(Broker)选举 控制器就是…

大模型算法面试题(十五)

本系列收纳各种大模型面试题及答案。 1、大模型LLM进行SFT如何对样本进行优化 大模型LLM(Language Model,语言模型)进行SFT(Structured Fine-Tuning,结构化微调)时,对样本的优化是提升模型性能…

从0开始搭建vue + flask 旅游景点数据分析系统(四):编写前端首页【数据驾驶舱】

本期我们编写数据驾驶舱页面(Dashboard)这个页面。主要任务是引入echarts 组件编写数据驾驶舱页面。 视频教程后续会更新在我的B站:https://space.bilibili.com/1583208775?spm_id_from666.25.0.0 推荐从教程第一集开始从零开始学习:https://blog.csdn…

PyCharm2024 专业版激活设置中文

PyCharm2024 专业版激活设置中文 官网下载最新版:https://www.jetbrains.com/zh-cn/pycharm/download 「hack-jet激活idea家族.zip」链接:https://pan.quark.cn/s/4929a884d8fe 激活步骤: 官网下载安装PyCharm ;测试使用的202…

HDMI的等长要求到底是多少?

四对差分走线对内误差最好做到 5mil 范围之内,对与对的差分误差最好控制在 10mil 范围之内。同时,对与对之间的间距要求做到 15mil,空间准许的情况下尽量拉开,减小串扰。 作者:凡亿教育 https://www.bilibili.com/rea…

VulnHub:doubletrouble1

靶机下载地址 trouble1 信息收集 主机发现 攻击机ip:192.168.31.218,扫描攻击机同网段存活ip。 nmap 192.168.31.0/24 -Pn -T4 确认目标机ip:192.168.31.174 端口扫描 nmap 192.168.31.174 -A -p- -T4 开放了22,80端口。 目录扫描 访…

小白学大模型:LLaMA-Factory 介绍与使用

最近这一两周看到不少互联网公司都已经开始秋招提前批了。 不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。 最近,我们又陆续整理了很多大厂的面试题,帮助一些球友…

Linux:进程信号(二.信号的保存与处理、递达、volatile关键字、SIGCHLD信号)

上次介绍了:(Linux:进程信号(一.认识信号、信号的产生及深层理解、Term与Core))[https://blog.csdn.net/qq_74415153/article/details/140624810] 文章目录 1.信号保存1.1递达、未决、阻塞等概念1.2再次理解信号产生与保存1.3信号…

ES6语法详解,面试必会,通俗易懂版

目录 Set的基本使用WeakSet 使用Set 和 WeakSet 区别内存泄漏示例:使用普通 Set 保存 DOM 节点如何避免这个内存泄漏MapWeakMap 的使用 Set的基本使用 在ES6之前,我们存储数据的结构主要有两种:数组、对象。 在ES6中新增了另外两种数据结构&a…

Pytorch深度学习快速入门(中)

Pytorch深度学习快速入门&#xff08;中&#xff09; 一、Containers&#xff08;神经网络的基本骨架&#xff09;&#xff08;一&#xff09;Module 的使用&#xff08;二&#xff09;Sequential 的使用<搭建小实战> 二、Convolution Layers&#xff08;卷积层&#xff…

加密货币赋能跨境电商:PayPal供应链金融服务如何引领行业新趋势

跨境电商行业近年来呈现出爆发式增长&#xff0c;随着全球化贸易壁垒的降低和数字经济的快速发展&#xff0c;越来越多的商家和消费者跨越国界进行交易。根据eMarketer的数据&#xff0c;全球跨境电商交易额在2023年已超过4万亿美元&#xff0c;并预计在未来几年内仍将保持两位…

Golang | Leetcode Golang题解之第301题删除无效的括号

题目&#xff1a; 题解&#xff1a; func checkValid(str string, lmask, rmask int, left, right []int) bool {cnt : 0pos1, pos2 : 0, 0for i : range str {if pos1 < len(left) && i left[pos1] {if lmask>>pos1&1 0 {cnt}pos1} else if pos2 <…

403 forbidden (13: Permission denied)

403 forbidden (13: Permission denied) 目录 403 forbidden (13: Permission denied) 【常见模块错误】 【解决方案】 欢迎来到我的主页&#xff0c;我是博主英杰&#xff0c;211科班出身&#xff0c;就职于医疗科技公司&#xff0c;热衷分享知识&#xff0c;武汉城市开发者…

手撕Leetcode个人笔记【第二周-数组-链表】

2. 两数相加 中等 给你两个 非空 的链表&#xff0c;表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的&#xff0c;并且每个节点只能存储 一位 数字。 请你将两个数相加&#xff0c;并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外&#xff0c;…

初识HTML文件,创建自己的第一个网页!

本文旨在初步介绍HTML&#xff08;超文本标记语言&#xff09;&#xff0c;帮助读者理解HTML中的相关术语及概念&#xff0c;并使读者在完成本文的阅读后可以快速上手编写一个属于自己的简易网页。 一、HTML介绍 HTML(全称HyperText Markup Language&#xff0c;超文本标记语言…

探索Python的进度条神器:tqdm

文章目录 探索Python的进度条神器&#xff1a;tqdm一、背二、tqdm简介三、安装tqdm四、tqdm的五个简单使用示例五、tqdm在不同场景下的应用六、常见问题及解决方案七、总结 探索Python的进度条神器&#xff1a;tqdm 一、背 景&#xff1a;为什么选择tqdm&#xff1f; 在Python…

扫雷游戏小程序

目录 一.文件 1.头文件 2.源文件 二.游戏界面和执行(test.c) 三.函数实现(void game部分,源文件game.c) 1.定义雷二维数组和展示二维数组 2.初始化地雷数组 3.初始化显示的数组 4.显示当前的情况 5.随机放置地雷 6.排雷 ps:深度优先遍历数组 四.结束 一.文件 1.头…

基于图卷积神经网络(GCN)的高光谱图像分类详细教程(含python代码)

目录 一、背景 二、基于卷积神经网络的代码实现 1、安装依赖库 2、建立图卷积神经网络 3、建立数据的边 4、训练模型 5、可视化 三、项目代码 一、背景 图卷积神经网络&#xff08;Graph Convolutional Networks, GCNs&#xff09;在高光谱图像分类中是一种有效的方法…

Unity + Hybridclr + Addressable + 微信小程序 热更新报错

报错时机&#xff1a; Generate All 怎么All 死活就是报错 生成微信小程序&#xff0c;并启动后 报错内容&#xff1a; MissingMethodException:AoT generic method notinstantiated in aot.assembly:Unity.ResourceManager:dll, 原因&#xff1a; Hybridclr 开发文档 解…

【人工智能】深度剖析:Midjourney与Stable Diffusion的全面对比

文章目录 &#x1f34a;1 如何选择合适的AI绘画工具1.1 个人需求选择1.2 比较工具特点1.3 社区和资源 &#x1f34a;2 Midjourney VS Stable Diffusion&#xff1a;深度对比与剖析 2.1 使用费用对比 2.2 使用便捷性与系统兼容性对比 2.3 开源与闭源对比 2.4 图片质量对比 2.5 上…