北京大学快手发布统一的图文视频生成大模型Video-LaVIT

news2025/2/6 3:06:36

随着多模态大语言模型(LLMs)的新发展,人们越来越关注如何将它们从图像-文本数据扩展到更具信息量的真实世界视频。与静态图像相比,视频为有效的大规模预训练带来了独特的挑战,因为需要对其时空动态进行建模。

针对视频与语言联合预训练的挑战,文章提出了高效的视频分解方法,将视频表示为关键帧和时间运动,并设计分词器适配LLM,实现视频、图像和文本的统一生成预训练。应用时,生成的标记被恢复为像素空间,用于创建视频内容。框架表现出对图像和视频内容的理解和生成能力,具有竞争力的性能。
 

分享几个网站

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

论文标题:
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

论文链接:
https://arxiv.org/pdf/2402.03161.pdf

项目链接:
https://video-lavit.github.io

视频理解的挑战:从静态图像到动态视频的转变

现有的多模态LLMs主要集中在图像-文本数据上,对于视频模态的适应性研究较少。视频理解的关键挑战在于如何有效地对视频的时空动态进行建模。传统的2D视觉编码器将视频帧单独编码,往往无法捕捉到视频内容中的时间运动信息,这些信息对于识别视频中的不同行为和事件至关重要。尽管最近的研究VideoPoet尝试通过3D视频编码器来处理视频生成,但其适用性受限于短视频片段,因为长序列的标记(例如,一个2.2秒的视频片段需要1280个标记)会导致计算资源的巨大消耗。

为了解决这些问题,本文提出了一种高效的视频表示方法,将视频分解为关键帧和时间运动,这种分解表示不仅减少了表示视频时空动态所需的标记数量,而且使模型能够继承现有图像LLM所学习的视觉知识,专注于建模时间信息,而无需从头开始学习。

图片

Video-LaVIT模型介绍

图片

1. 视频分解:关键帧与运动向量的提取

Video-LaVIT模型的核心在于将视频分解为关键帧和时间运动。视频通常被分为多个镜头,每个镜头内的视频帧往往存在大量的信息冗余。因此,将视频分解为交替的关键帧和运动向量,关键帧捕捉主要的视觉语义,而运动向量描述其对应关键帧随时间的动态演变。这种分解表示的好处在于,与使用3D编码器处理连续视频帧相比,单个关键帧和运动向量的组合需要更少的标记来表示视频的时空动态,这对于大规模预训练更为高效。

图片

2. 视频标记化:高效的视频内容表示

为了将连续的视频数据转换为紧凑的离散标记序列,Video-LaVIT设计了视频标记器。关键帧通过使用已建立的图像标记器进行处理,而时间运动的转换则通过设计一个时空运动编码器来实现。该编码器能够捕捉提取的运动向量中包含的随时间变化的上下文信息,从而显著提高LLMs理解视频中复杂动作的能力。

3. 视频去标记化:从离散标记到连续像素空间的映射

在推理阶段,LLMs生成的离散视频标记需要被精心恢复到原始的连续像素空间,以创建各种视频内容。Video-LaVIT的视频去标记器负责这一转换。考虑到直接从离散标记到高维视频空间的映射学习的挑战,采用了顺序解码策略,其中首先基于视觉标记恢复关键帧,然后通过将关键帧和运动标记作为条件来解码后续帧。这种策略在提高视频生成质量方面也得到了最近研究的验证。

多模态内容的联合自回归预训练

1. 图像理解任务的性能对比

在11个常用的图像和视频基准测试中,Video-LaVIT展示了其在多模态理解能力上的自然能力。特别是在图像理解方面,模型在八个广泛使用的图像问答和多模态基准测试中提供了最佳的整体性能。例如,在SQAI上,它比具有更高输入分辨率的LLaVA-1.5高出4.5%,同时在其他视频-语言模型上的表现也有超过3.5%的提升。这些优势在更全面的多模态基准测试中得到了进一步验证,其中该模型在四个基准测试中领先三个。

图片

2. 零样本视频问答的准确性

在三个常见的视频基准测试中,Video-LaVIT与多个最近的视频-语言模型进行了比较。在这三个基准测试中实现了最先进的准确性,并都展示了非常有竞争力的相对分数。例如,在MSVD-QA上,该方法超过了之前领先的模型Video-LLaVA 2.8%。通过明确建模时间动态与运动标记,尤其是在包含各种人类行为的ActivityNet-QA基准测试中,纳入运动信息有助于识别不同的动作。在MSRVTT-QA的相对分数方面,仅次于Video-LLaVA(差距0.2),再次确认了该方法的有效性。

图片

3. 文本到视频生成的竞争性能

通过统一的生成预训练,Video-LaVIT能够灵活地生成视频和图像。在文本到视频生成结果中,该模型在MSR-VTT和UCF-101上的表现显著优于大多数使用类似公共数据集训练的基线,并且与在更大专有数据上训练的模型高度竞争,例如在MSR-VTT上领先FVD。特别是与基于语言模型的文本到视频生成器相比,该方法一致超过CogVideo,同时超过了最近的同期工作VideoPoet,后者使用了更大的数据训练的3D视频分词器。这清楚地验证了分词器设计的优越性。

图片

图片

质量评估

1. 文本到图像生成的视觉质量

在图像理解方面,Video-LaVIT 在多个基准测试中表现出色。这一成果得益于其能够有效地利用从图像中学习到的视觉知识,并将其应用于视频内容的理解和生成。

2. 文本到视频生成的详细比较

在零样本视频问题回答方面,Video-LaVIT 在三个常用基准测试中均展现出最佳准确性。例如,使用GPT助手进行评估时,Video-LaVIT 在MSVD-QA基准测试中超越了之前领先的模型Video-LLaVA 2.8%的准确率。这一结果证明了Video-LaVIT 在理解视频内容方面的有效性。

3. 图像到视频生成的能力展示

在图像到视频的生成任务中,Video-LaVIT 展示了其强大的生成能力。通过将解耦的视觉-运动标记化和LLM预训练相结合,Video-LaVIT 能够生成具有自然和精细运动的视频片段。例如,在之前的研究中,与SVD的比较,Video-LaVIT 能够生成更复杂的动物运动,同时不违反物理规则。

图片

4. 长视频生成的时间一致性

Video-LaVIT 通过在解码连续视频片段时明确约束噪声,能够在长视频生成中提供高度的时间一致性。例如,在生成一个围绕“一艘在加勒比海水晶般清澈的水面上优雅航行的豪华游艇”的360度视频时,通过使用噪声约束,Video-LaVIT 能够改善不同片段之间的时间一致性。

图片

结论与展望

1. 模型潜力

Video-LaVIT的设计理念为未来的研究提供了新的方向:

  • 通过对视频进行高效的分解和重新组合,该模型能够在保持高效性的同时,捕捉到视频内容的丰富动态信息。这一点对于提升机器对现实世界动态场景的理解至关重要。

  • 该模型的成功也展示了大语言模型在多模态学习领域的巨大潜力,尤其是在处理更为复杂的视频数据时。

  • Video-LaVIT在无需特定任务微调的情况下,就能在多个基准测试中取得竞争性能,这进一步证明了其作为多模态通用模型的潜力。

2. 面临的挑战

尽管Video-LaVIT展现出了巨大的潜力,但在其发展道路上仍然存在一些挑战:

  • 尽管通过视频分解能够有效减少模型处理的数据量,但对于极长视频的处理仍然是一个挑战,因为模型的上下文窗口大小有限。

  • 运动向量的分辨率可能限制了模型在捕捉极其细微动作时的能力。此外,尽管Video-LaVIT在训练时的计算效率已经有所提高,但要将其扩展到网络规模的视频数据上,仍然需要进一步的优化。

  • 如何进一步提升模型在理解和生成长视频内容时的连贯性和一致性,也是未来研究需要关注的问题。

Video-LaVIT的出现为多模态人工智能领域的发展注入了新的活力,预示着未来在更加自然和直观的人机交互方式方面的巨大潜力。随着技术的进步和研究的深入,Video-LaVIT及其后续版本将在多模态人工智能领域扮演越来越重要的角色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1598771.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业微信对接金蝶KIS生成总账凭证

客户介绍: 某集团企业是一家致力于打造更全面的农产业链条,生产更高品质的农业产品的国际现代化农业公司。集团布局四川、贵州、广东、中国香港、澳大利亚等地,业务涉足大肥牛交易平台、超级牧场、肉牛养殖、蜂产业、饲草、智能化装备、有机…

多模态之ALBEF—先对齐后融合,利用动量蒸馏学习视觉语言模型表征,学习细节理解与论文详细阅读:Align before Fuse

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (ALBEF)在融合之前对齐:利用动量蒸馏进行视觉与语言表示学习 Paper: arxiv.org/pdf/2107.07651.pdf Github: https://github.com/salesforce/…

【计算机毕业设计】游戏售卖网站——后附源码

🎉**欢迎来到琛哥的技术世界!**🎉 📘 博主小档案: 琛哥,一名来自世界500强的资深程序猿,毕业于国内知名985高校。 🔧 技术专长: 琛哥在深度学习任务中展现出卓越的能力&a…

基于springboot实现房屋租赁管理系统设计项目【项目源码+论文说明】

基于springboot实现房屋租赁管理系统设计演示 摘要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对房屋租赁信息管理混乱&…

Linux应用开发笔记(五)网络编程(二)多线程编程

文章目录 前言一、线程和进程1. 进程(Process)2. 线程(Thread)3. 二者的比较 二、多线程和多进程三. 代码编写1. 相关函数pthread_create( )函数pthread_exit( )函数pthread_join( )函数 2. 线程同步3. 互斥量4. 条件变量5. 实验代…

微服务之分布式链路追踪

一、概述 1.1背景 在微服务框架中,一个由客户端发起的请求在后端系统中会经过多个不同的的服务节点调用来协同产生最后的请求结果,每一个前段请求都会形成一条复杂的分布式服务调用链路,链路中的任何一环出现高延时或错误都会引起整个请求最…

MyBatis操作数据库(3)

其它查询操作 #{}和${} MyBatis参数赋值有两种方式, 咱们前面使用了#{}进行赋值, 接下来来看两者的区别: #{}和${}的使用 1.先看Integer类型的参数: Select("select username, password, age, gender, phone from userinfo where id #{id}") UserInfo queryByI…

OSI七层网络攻击行为及防范手段

2020年3月3日,360安全大脑披露美国中央情报局攻击组织(APT-C-39)对我国大型互联网公司、政府部门及相关企业进行长达11年的网络攻击渗透,该组织所使用的网络武器和CIA“Vault7”项目中的网络武器完全吻合。如今随着互联网技术的蓬…

RocketMQ 事件驱动:云时代的事件驱动有啥不同?

作者:林清山(隆基) 前言: 从初代开源消息队列崛起,到 PC 互联网、移动互联网爆发式发展,再到如今 IoT、云计算、云原生引领了新的技术趋势,消息中间件的发展已经走过了 30 多个年头。 目前&a…

图片懒加载的三种方式

方法一:滚动监听 + scrollTop + offsetTop + innerHeight scrollTop:指网页元素被滚动条卷去的部分。 offsetTop:元素相对父元素的位置 innerHeight:当前浏览器窗口的大小。需要注意兼容性问题。 <!DOCTYPE html> <html lang="en"><head>&…

IDEA: Unable to resolve table ‘xxx‘

描述&#xff1a; 在 IDEA 连接到数据库后&#xff0c;SQL 语句提示 Unable to resolve table 表名&#xff0c;且其它字段也飘红报错。 解决&#xff1a; 右键点击数据库&#xff0c;选择 Tools -> Manage Shown Schemas... 勾选你所使用的数据库即可&#xff1a; 1、2、3…

软考 系统架构设计师系列知识点之大数据设计理论与实践(6)

接前一篇文章&#xff1a;软考 系统架构设计师系列知识点之大数据设计理论与实践&#xff08;5&#xff09; 所属章节&#xff1a; 第19章. 大数据架构设计理论与实践 第3节 Lambda架构 本文部分内容参考&#xff1a; Lambda架构 - 简书 特此致谢&#xff01; 19.3.3 Lambda…

【Ansible自动化运维】Ansible入门基础信息【安装配置、常用命令与模块】

介绍安装配置注意事项yum安装验证安装配置host配置主机清单配置主控端被控端 常用模块命令组成command模块shell模块copy模块script模块 日志信息最后 介绍 Ansible 是一个开源 IT 自动化引擎&#xff0c;可自动执行供应、配置管理、应用程序部署、编排和许多其他 IT 流程。它可…

深入浅出学习切片LOD——ArcGIS server模拟缓存切片(影像快显)

一、第一次实践 原理 免切片实现影像服务的模拟切片&#xff0c;主要原理是接收前端传过来的xyz(行列层级)以及切片方案&#xff0c;计算出该请求的切片的四至经纬度信息&#xff0c;通过mapserver的exportImage接口&#xff0c;传入每个模拟切片的四至经纬度信息得到图片返回…

小程序视频下载器

下载高手&#xff0c;让小程序视频下载变得前所未有的简单&#xff01;专为非编程专业人士设计&#xff0c;该工具免去了繁琐的抓包软件学习过程&#xff0c;无需深入研究Fiddler或Charles的配置。它优化了视频、图片和音频资源的下载&#xff0c;提供直观的操作界面&#xff0…

大世界基尼斯见证辉煌,云仓酒庄首届酒类培训新高度诞生

近日&#xff0c;一场规模盛大的酒类培训盛会&#xff0c;在云仓酒庄的精心组织下圆满落幕。此次培训活动以其卓着的成果和盛大的规模&#xff0c;创下了大世界基尼斯纪录&#xff0c;为酒类培训领域树立了新的标杆。这一成就的取得&#xff0c;背后是云仓酒庄团队无数的心血与…

修改taro-ui-vue3的tabs组件源码增加数字标签

需求&#xff1a;taro-ui-vue3的tabs组件上增加数字标记 步骤一&#xff1a;node_modules文件夹下找到taro-ui-vue3/lib/tabs/index.js 把173行的这一段替换成下面这段&#xff0c;然后写上样式 default: () > item.number ? [h(View, {class: at-tabs__item_in}, {defau…

linux应急响应基础命令

一、cpu使用率-top top -c -o %CPU -c 显示进程的命令行参数 -o 按照CPU占用从大到小排序二、用户信息 1、查看系统所有用户信息 [rootcentos7 ~]# cat /etc/passwd root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nol…

有道词典网页版接口分析与爬虫研究

说明&#xff1a;仅供学习使用&#xff0c;请勿用于非法用途&#xff0c;若有侵权&#xff0c;请联系博主删除 作者&#xff1a;zhu6201976 一、目标站点 有道词典网页版&#xff1a;网易有道 二、目标接口 url&#xff1a;https://dict.youdao.com/jsonapi_s?doctypejson&…

JUC专题——Java并发机制的底层实现原理

本文部分内容节选自《Java并发编程的艺术》 volatile 的应用 volatile 是轻量级的 synchronized, 它在多处理器开发中保证了共享变量的 “可见性”. 可见性的意思是当一个线程修改一个共享变量时, 另外一个线程能读到这个修改的值. 如果 volatile变量修饰符使用恰当的话, 它比…