解读电影级视频生成模型 MovieFactory

news2025/1/12 1:34:39

 Diffusion Models视频生成-博客汇总

前言:MovieFactory是第一个全自动电影生成模型,可以根据用户输入的文本信息自动扩写剧本,并生成电影级视频。其中针对预训练的图像生成模型与视频模型之间的gap提出了微调方法非常值得借鉴。这篇博客详细解读一下这篇论文《MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images》

目录

贡献概述

方法详解

整体流程

文本扩展

空间微调

时间训练

音频生成

论文和代码

个人感悟


贡献概述

这是第一个全自动电影生成模型,我们的方法使用户能够使用简单的文本输入创建具有平滑转换的字幕电影,产生了仅限于单一质量场景的无声音视频。首先利用 ChatGPT 将用户提供的文本扩展为用于电影生成的详细顺序脚本。然后通过视觉生成和音频检索将脚本在视觉上和声学地带入生活。

通过两阶段过程扩展了预训练的文本到图像扩散模型的能力。第一阶段采用空间微调来弥合预训练图像模型和新的视频数据集之间的差距。第二阶段引入时间学习来捕获物体运动。在音频方面,利用复杂的检索模型来选择和对齐与电影情节和视觉内容相对应的音频元素。

作者自己总结的三点贡献:

  1. 提出了 MovieFactory,这是一个电影生成框架,允许用户通过简单地使用文本输入来创建高清 (3072×1280)、电影风格(超宽格式)和多场景电影以及伴随声音。
  2. 引入了一种两阶段训练策略来处理图像和视频数据集之间的视觉域转移。域感知归一化和额外的空间层使模型能够生成高质量的视觉内容,即使在对质量有限的视频数据集进行训练时。
  3. 展示了在大规模 AI 模型在自动生成电影领域的巨大潜力,为 AI 生成的内容引入了新颖且有前途的应用领域。

方法详解

整体流程

第一步:利用 ChatGPT 将输入文本扩展为顺序详细的脚本。

第二步:视频生成。第一阶段采用空间微调来弥合预训练图像模型和新的视频数据集之间的差距。第二阶段引入时间学习来捕获物体运动。

第三步:配音。用每个脚本检索一个电影片段的音频部分,组合所有并剪辑。

文本扩展

作者用chatgpt来写剧本,使用的prompt是:

"Write a sequence of prompts, using for movie generation for AI. Requirements: 1) each prompt only serves for one scene lasting for about 2 seconds; 2) each prompt contains clear subjects and detailed descriptions; 3) each prompt contains texts like "4K" and "high resolution" for leading high-quality generation; 4) the transition of each scene is very smooth; 5) no other character appears in this movie. The movie is about [User Input]"

空间微调

现有的大规模视频数据集在分辨率和视觉质量方面受到限制,还有的包含水印。而且预训练模型专门针对生成方形视觉内容进行了优化,因为它是在方形图像(高度:宽度=11)上训练的。尽管分辨率的微小调整对视觉内容和质量的影响可以忽略不计,但纵横比的显着变化(例如从 1:1 过渡到 2.35:1)可能会导致生成不稳定,其特征是内容重影和重复。Video LDM表明,使用低质量的视频数据来微调预先训练的层将不可避免地损害生成性能。

作者固定原始模型并插入额外的层以适应分布变化。在 U-Net 块中每个 Up 或 Down 块之前添加了一个修改后的 ResBlk 和注意力层。在修改后的 ResBlk 中添加了一个可学习的域感知归一化来指定和拟合不同的空间分布。

这种设计有两个优点:

        1)可以完全保留预训练中的整个知识,因此仍然可以生成不包含在视频数据集中的内容和场景;

        2)可以在新模块中拟合多个分布,解决了下一个时间训练中的分布外问题,同时保持同时生成高质量的图片的能力。

时间训练

使模型在模型能够在目标分布中生成图像后学习物体的运动。继之前的工作之后,我们在每个预训练的空间层之后添加时间层。具体来说在每个预训练的空间 ResBlk 之后添加了一个具有 1D 卷积的时间 ResBlk。类似地在每个空间注意力之后添加了一个时间注意力,它与空间注意力共享相同的超参数。与预训练的空间注意不同,在Video LDM的基础上,将sinusoidal embeddings添加到特征中作为时间序列的位置编码。

音频生成

不懂音频,略。

论文和代码

代码无

https://arxiv.org/abs/2306.07257

个人感悟

1、在用chatgpt进行剧本创作那里,我在其他modelscope agent看到过类似的功能,不过那里的实现使用了qwen微调后实现的。作者在本文中并没有写微调相关的部分。

2、空间微调那里,为什么不用lora或者直接用adapter呢?作者改了一个类似adapter思想的东西,让人感觉有点……多少也引用一下喂

3、解决等长宽比到不同长宽比的地方没有看到更详细的解释,也没代码,这块比较疑惑。如何在这两种不同长宽比的数据集上进行微调?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1498950.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2016年认证杯SPSSPRO杯数学建模C题(第一阶段)如何有效的抑制校园霸凌事件的发生解题全过程文档及程序

2016年认证杯SPSSPRO杯数学建模 C题 如何有效的抑制校园霸凌事件的发生 原题再现: 近年来,我国发生的多起校园霸凌事件在媒体的报道下引发了许多国人的关注。霸凌事件对学生身体和精神上的影响是极为严重而长远的,因此对于这些情况我们应该…

服务器通过impitool设置BMC共享lan实现远程管理

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、NC-SI是什么?二、ipmitool是什么三、查看是否支持ipmi设备四、安装ipmitool五、开始配置1.查看网卡状态2.设置运行模式3.设置静态地址 六、验证…

【机器学习】包裹式特征选择之基于遗传算法的特征选择

🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进…

u盘里文件损坏无法打开怎么恢复?这样操作更简单

U盘已经成为我们传输和存储数据的重要工具。然而有时候我们可能会遇到U盘里的文件损坏无法识别的情况,这无疑给我们的工作和学习带来了不小的困扰。 那么面对这种情况应该如何应对呢?本文将为你介绍个实用的恢复方法,帮助你轻松解决U盘文件损…

排序算法:插入排序和希尔排序

一、插入排序 1.基本原理 插入排序(英语:Insertion Sort)是一种简单直观的排序算法。它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。插入排序在实现上…

ResponseStatusException

目录 概述: 综合实例: 继承 ResponseStatusException-自定义异常类 继承 ResponseStatusException-自定义响应头信息 继承 ResponseStatusException-定制更多异常处理逻辑 继承 ResponseStatusException-根据异常发生的上下文动态改变 HTTP 状态码…

嵌入式培训3-7

1.在主函数定义字符数组&#xff0c;在自定义函数中实现字符串比较 int strcmp(char *s1, char *s2); 参数&#xff1a;两个字符串 返回值&#xff1a;s1-s2差 #include <stdio.h> #include <string.h> #include <stdlib.h> #include <math.h> int…

力扣面试经典150 —— 6-10题

力扣面试经典150题在 VScode 中安装 LeetCode 插件即可使用 VScode 刷题&#xff0c;安装 Debug LeetCode 插件可以免费 debug本文使用 python 语言解题&#xff0c;文中 “数组” 通常指 python 列表&#xff1b;文中 “指针” 通常指 python 列表索引 文章目录 6. [中等] 轮转…

Qt/C++音视频开发68-检查是否含有B帧/转码推流/拉流显示/监控拉流推流/海康大华宇视监控

一、前言 为什么需要判断视频文件是否含有B帧&#xff0c;这个在推流的时候很容易遇到这个问题&#xff0c;一般来说&#xff0c;没有B帧的视频文件&#xff0c;解码后的数据帧pts和dts都是顺序递增的&#xff0c;而有B帧的则未必&#xff0c;可能有些需要先解码后面显示&…

CentOS上安装MySQL 5.7和MySQL 8.0教程

&#x1f31f; 前言 欢迎来到我的技术小宇宙&#xff01;&#x1f30c; 这里不仅是我记录技术点滴的后花园&#xff0c;也是我分享学习心得和项目经验的乐园。&#x1f4da; 无论你是技术小白还是资深大牛&#xff0c;这里总有一些内容能触动你的好奇心。&#x1f50d; &#x…

全天候购药系统(微信小程序+web后台管理)

PurchaseApplet 全天候购药系统&#xff08;微信小程序web后台管理&#xff09; 传统线下购药方式存在无法全天候向用户提供购药服务&#xff0c;无法随时提供诊疗服务等问题。为此&#xff0c;运用软件工程开发规范&#xff0c;充分调研建立需求模型&#xff0c;编写开发文档…

智慧城市的前景:数字孪生技术在智慧城市中的应用前景

目录 一、引言 二、数字孪生技术及其在智慧城市中的应用概述 三、数字孪生技术在智慧城市中的应用前景 1、城市规划与仿真模拟 2、智能交通与出行服务 3、智慧环保与可持续发展 4、智慧公共服务与社会治理 5、智慧能源与绿色建筑 四、数字孪生技术在智慧城市中的挑战与…

稀疏数组实现

博文主要是自己学习的笔记&#xff0c;供自己以后复习使用&#xff0c; 参考的主要教程是B站的 尚硅谷数据结构和算法 稀疏数组(sparse array) 实际需求&#xff1a;五子棋程序中的存盘退出和续上盘的功能 问题分析&#xff1a; 如果直接用二维数组&#xff0c;很多值是默认…

hfish蜜罐搭建与使用

本次是对自己在学习蓝队过程中的一次对安全设备 hfish蜜罐的搭建和使用考核记录,距离之前已 经过去很久了,对之前在考核过程中的操作进行回顾和总结. 蜜罐在这里我进行免费分享 hfish-3.1.4-windows-amd64.zip官方版下载丨最新版下载丨绿色版下载丨APP下载-123云…

Java工作需求后端代码--实现树形结构

加油&#xff0c;新时代打工人&#xff01; 前端页面 带树形结构的表格 最近在新项目上加班加点&#xff0c;下面是个实现树形结构的数据表格。 需求&#xff1a; 在前端页面表格中展示成树形结构的数据。 技术&#xff1a; 后端&#xff1a;Java、Mybatis-Plus、HuTool树形的…

回南天的解决方案

广东的回南天还是那么湿&#xff0c;各种短视频在秀。 墙上流水 楼顶滴水 厕所镜子看不到人 出门滑行 衣服永远是湿的 湿度100%&#xff01; 那么这个让人难受的回南天&#xff0c;除关门关窗&#xff0c;还有没有更好的解决方案&#xff1f;&#xff1f;&#xff08;小…

ChatGPT提示技巧——零,一和少量示例提示

ChatGPT提示技巧——零&#xff0c;一和少量示例提示 ​ 零样本(zero-shot)、少样本(few-shot)和单样本(one-shot)提示是用于在最少或没有示例的情况下从ChatGPT生成文本的技巧。这些技巧用于当某个具体任务有限定数据的时候或者任务是新的并且没有很好的定义的时候。 提示格…

[HackMyVM]靶场 Run

kali:192.168.56.104 主机发现 arp-scan -l # arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:d2:e0:49, IPv4: 192.168.56.104 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.56.1 0a:00:27:00:00:05 (Un…

libevent源码解析:io事件(一)

文章目录 前言一、用例简单服务端实现参数设置 二、基本数据结构介绍三、源码分析event_base_newevent_newevent_addevent_base_dispatch 三、libevent和epoll中的事件标记epoll中的事件标记libevent中的事件标记libevent和epoll中事件标记的对应关系 总结 前言 libevent中对三…

libevent源码解析:定时器事件(三)

文章目录 前言一、用例小根堆管理定时器事件小根堆和链表管理定时器事件区别 二、基本数据结构介绍结构体成员分析小根堆和链表common_timeout图示 三、源码分析小根堆管理定时器事件event_newevent_addevent_dispatch 链表common_timeout管理定时器事件event_base_init_common…