MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

news2025/1/24 2:59:27

MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。使用 MinT 生成时间控制的多事件视频。给定一系列事件文本提示及其所需的开始和结束时间戳,MinT 可以合成具有一致主题和背景的平滑连接事件。此外,它可以灵活地控制每个事件的时间跨度。下图展示了连续手势、日常活动、面部表情和猫咪动作的结果

相关链接

  • 论文:http://arxiv.org/abs/2412.05263v1

  • 项目:https://mint-video.github.io/

摘要

现实世界的视频由一系列事件组成。使用现有的视频生成器生成具有精确时间控制的此类序列是不可行的,因为这些生成器依赖于一段文本作为输入。当使用单个提示生成多个事件时,这些方法通常会忽略某些事件或无法按正确的顺序排列它们。为了解决这一限制,我们提出了 MinT,这是一个具有时间控制的多事件视频生成器。我们的主要见解是将每个事件绑定到生成的视频中的特定时间段,这使模型可以一次关注一个事件。为了实现事件字幕和视频标记之间的时间感知交互,我们设计了一种基于时间的位置编码方法,称为 ReRoPE。这种编码有助于指导交叉注意操作。通过在时间基础数据上微调预先训练的视频扩散变换器,我们的方法可以生成具有平滑连接事件的连贯视频。在文献中,我们的模型首次提供了对生成视频中事件时间的控制。大量实验表明,MinT 的表现远远优于现有的开源模型。

方法

  • 模型采用了全局字幕、时间字幕列表和场景切换条件(可选)。每个时间字幕和场景切换都与视频中的时间跨度绑定。

  • 为了对基于时间的事件字幕进行条件化,我们在 DiT 块中引入了一个新的时间交叉注意层。

  • 论文设计了一种新颖的重新缩放旋转位置嵌入 (ReRoPE) 来指示视频标记与事件字幕和场景切换标记之间的时间对应关系(可选)。这使 MinT 能够控制事件的开始和结束时间以及镜头过渡时间。

结果

定性结果

这里我们展示了一些高分辨率视频(1024x576)。我们使用彩色边框和字幕来指示每个事件的时间段。我们首先在每个事件之前暂停播放视频,然后再次连续播放。您可以在此处找到更多 512x288 视频。

与 SOTA 模型的比较

现有的视频生成器难以生成连续事件。将其与 SOTA 开源模型 CogVideoX-5B 和 Mochi 1以及商业模型 Kling 1.5和 Gen3-Alpha 进行了比较。 将所有时间字幕连接到一个长提示,并运行它们的在线 API 来生成视频。 我们用于 SOTA 模型的提示可以在提示中找到。

现有模型经常会在结果中遗漏一些事件,或者合并多个事件并混淆它们的顺序。相比之下,MinT 可以按照所需的时间跨度无缝合成所有事件。有关 SOTA 模型行为的更多分析,请参阅论文附录 C.6。在此处 查看更多比较。

MinT 关于 OOD 提示的结果

MinT 针对主要描述以人为中心的事件的时间字幕视频进行了微调。然而,我们表明我们的模型仍然具有基础模型生成新概念的能力。在这里,我们展示了 MinT 以分布外提示为条件生成的视频

VBench 上的快速增强

我们利用 LLM 将简短提示扩展为详细的全局字幕和时间字幕,从而可以生成具有更丰富动作的更有趣视频。我们用于 LLM 的指令可以在提示中找到。在这里,我们使用原始简短提示(称为Short)和详细的全局字幕(称为Global)与我们的基础模型生成的视频进行比较。这允许普通用户使用我们的模型,而无需繁琐地指定事件和时间戳。

场景切换调节

长视频往往包含丰富的事件,但也伴随着许多场景切换。直接用它们训练视频生成器将导致生成结果中出现不想要的突然镜头转换。相反,我们建议在训练期间明确地根据场景切换时间戳来条件化模型。一旦模型学会了这种条件作用,我们就可以将它们设置为零,以在推理时生成无剪切的视频。 在这里,我们比较了用不同的场景切换条件生成的视频。我们在输入场景切换时间暂停视频(用青色边框突出显示)。我们的模型引入了所需的镜头转换,并且仍然可以保留主体身份和场景背景

事件时间跨度控制

我们展示了 MinT 对事件时间的细粒度控制。在每个示例中,我们将所有事件的开始和结束时间偏移特定值。因此,每行都显示了事件发生的顺利进展

结论

论文提出的MinT是一个具有事件时间控制的多事件视频生成框架。方法采用独特的位置编码方法来指导视频的时间动态,从而产生流畅连接的事件和一致的主题。借助 LLM论文进一步设计了一个提示增强器,可以从简单的提示中生成运动丰富的视频。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2262343.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言实验 结构体2

时间:2024.12.18 6-5 评委打分-t-CalcuScore 代码 // 定义结构体 struct Score {int id;char name[10];int value[17];double finalScore;int rank; };// 计算最终成绩 void CalcuScore(struct Score grade[], int n) {for (int i = 0; i < n; i++) {int max = grade[i].…

第6章 第一组重构

最常用到的重构就是用提炼函数&#xff08;106&#xff09;将代码提炼到函数中&#xff0c;或者用提炼变量&#xff08;119&#xff09;来提炼变量。既然重构的作用就是应对变化&#xff0c;你应该不会感到惊讶&#xff0c;我也经常使用这两个重构的反向重构——内联函数&#…

基于python对网页进行爬虫简单教程

python对网页进行爬虫 基于BeautifulSoup的爬虫—源码 """ 基于BeautifulSoup的爬虫### 一、BeautifulSoup简介1. Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱&#xff0c;通过解析文档为用户提供需要…

C语言中文件是什么?文件文本和二进制文件的区别

1、C语言中文件是什么&#xff1f; 我们对文件的概念已经非常熟悉了&#xff0c;比如常见的 Word 文档、txt 文件、源文件等。文件是数据源的一种&#xff0c;最主要的作用是保存数据。 在操作系统中&#xff0c;为了统一对各种硬件的操作&#xff0c;简化接口&#xff0c;不同…

vmware workstation pro上创建虚拟机

vmware workstation pro上创建虚拟机 下载vmware workstation pro软件安装后并运行点击主页&#xff0c;选择创建虚拟机 创建虚拟机成功后会出现如下界面 可以点击设置按钮删除不需要的硬件&#xff0c;也可以添加新的硬件设备&#xff0c;最终硬件信息如下图 至此虚拟机…

【数学建模】利用Matlab绘图(2)

一、Matlab中plot函数的基本用法 在matlab中&#xff0c;函数的基本用法主要包括以下几种 第一类&#xff1a; plot(X,Y,LineSpec) 第二类&#xff1a; plot(tbl,xvar,yvar) 1.1 第一类 1.1.1x-y坐标 x和y的选择取决于绘图所需的数据类型以及图像的类型。下表列出了几种…

ASP.NET Core - 依赖注入 自动批量注入

依赖注入配置变形 随着业务的增长&#xff0c;我们项目工作中的类型、服务越来越多&#xff0c;而每一个服务的依赖注入关系都需要在入口文件通过Service.Add{}方法去进行注册&#xff0c;这将是非常麻烦的&#xff0c;入口文件需要频繁改动&#xff0c;而且代码组织管理也会变…

Oracle 适配 OpenGauss 数据库差异语法汇总

背景 国产化进程中&#xff0c;需要将某项目的数据库从 Oracle 转为 OpenGauss &#xff0c;项目初期也是规划了适配不同数据库的&#xff0c;MyBatis 配置加载路径设计的是根据数据库类型加载指定文件夹的 xml 文件。 后面由于固定了数据库类型为 Oracle 后&#xff0c;只写…

Kubeadm+Containerd部署k8s(v1.28.2)集群(非高可用版)

Kubeadm+Containerd部署k8s(v1.28.2)集群(非高可用版) 文章目录 Kubeadm+Containerd部署k8s(v1.28.2)集群(非高可用版)一.环境准备1.服务器准备2.环境配置3.设置主机名4.修改国内镜像源地址5.配置时间同步6.配置内核转发及网桥过滤二.容器运行时Containerd安装(所有节点)…

[LeetCode-Python版]21. 合并两个有序链表(迭代+递归两种解法)

题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1&#xff1a; 输入&#xff1a;l1 [1,2,4], l2 [1,3,4] 输出&#xff1a;[1,1,2,3,4,4] 示例 2&#xff1a; 输入&#xff1a;l1 [], l2 [] 输出&#x…

MATLAB引用矩阵元素的几种方法

引用矩阵元素可以通过索引&#xff0c;也可以通过逻辑值 索引 通过引用元素在矩阵中的位置来提取元素&#xff0c;例如&#xff1a; - 逻辑值 通过某种逻辑运算来使得要提取的值变为逻辑 1 1 1&#xff0c;用 A ( ) A() A()提取即可&#xff0c; A A A为原矩阵的名称。 例如&…

sql 批量修改字段 的默认值

SELECT COLUMN_NAME, NUMERIC_PRECISION, NUMERIC_SCALE FROM information_schema.COLUMNS WHERE TABLE_SCHEMA financeproject AND TABLE_NAME finance_balance AND DATA_TYPE decimal; 查出的字段 excel 拼接 修改语句 ALTER TABLE finance_income MODIFY COLUMN yy…

CVE-2023-0562【春秋云镜】

目录 CVE-2023-0562漏洞概述漏洞利用方式影响范围修复建议安全编码示例靶标介绍 CVE-2023-0562 CVE-2023-0562 是一个针对银行储物柜管理系统的SQL注入漏洞。该漏洞影响了储物柜管理系统中处理用户输入的部分&#xff0c;攻击者可以利用此漏洞未经授权地访问数据库中的敏感信息…

vue el-dialog实现可拖拉

el-dialog实现拖拉&#xff0c;每次点击度居中显示&#xff0c;以下贴出代码具体实现&#xff0c;我是可以正常拖拉并且每次度显示在中间&#xff0c;效果还可以&#xff0c;需要的可以丢上去跑跑 组件部分&#xff1a; <el-dialog:visible.sync"dialogVisible"…

MySQL:库和表的操作

目录 一. 查看数据库 二. 创建数据库 三. 字符集和校验规则 四. 修改和删除数据库 4.1 数据库修改 4.2 数据库删除 五. 备份与恢复 5.1 备份 5.2 还原 5.3 注意事项 5.4 查看连接情况 六. 创建表 七. 查看表结构 八. 修改表 九. …

gitlab初始化+API批量操作

几年没接触gitlab了&#xff0c;新版本装完以后代码提交到默认的main分支&#xff0c;master不再是主分支 项目有几十个仓库&#xff0c;研发提交代码后仓库地址和之前的发生了变化 有几个点 需要注意 1、修改全局默认分支 2、关闭分支保护 上面修改了全局配置不会影响已经创…

Java集合(完整版)

集合框架 Collection集合 概念&#xff1a;对象的容器&#xff0c;定义了对多个对象进行操作的常用方法。可以实现数组的功能 和数组的区别&#xff1a; 数组的长度固定&#xff0c;集合长度不固定数组可以存储基本类型和引用类型&#xff0c;集合只能存储引用类型 Collec…

常耀斌:深度学习和大模型原理与实战(深度好文)

目录 机器学习 深度学习 Transformer大模型架构 人工神经元网络 卷积神经网络 深度学习是革命性的技术成果&#xff0c;有利推动了计算机视觉、自然语言处理、语音识别、强化学习和统计建模的快速发展。 深度学习在计算机视觉领域上&#xff0c;发展突飞猛进&#xff0c;…

不能通过 ip 直接访问 共享盘 解决方法

from base_config.config import OpenSMB, SMB import os, time, calendar, requests, decimal, platform, fs.smbfsinfo_dict SMB.EPDI_dict info_dict[host] (FS03,10.6.12.182) info_dict[direct_tcp] True# smb OpenSMB(info_dict)print(ok)# 根据 ip 查询电脑名 impor…

Mapbox-GL 的源码解读的一般步骤

Mapbox-GL 是一个非常优秀的二三维地理引擎&#xff0c;随着智能驾驶时代的到来&#xff0c;应用也会越来越广泛&#xff0c;关于mapbox-gl和其他地理引擎的详细对比&#xff08;比如CesiumJS&#xff09;&#xff0c;后续有时间会加更。地理首先理解 Mapbox-GL 的源码是一项复…