【LLM多模态】文生视频综述From Sora What We Can See: A Survey of Text-to-Video Generation

news2024/11/16 12:02:18

note

  • 现在很多主流的文生视频应该还是Diffusion-based 基于扩散模型的方法
  • 这篇综述将现有研究按照三个维度进行分类:进化生成器(Evolutionary Generators)、卓越追求(Excellent Pursuit)、现实全景(Realistic Panorama)。

文章目录

  • note
  • 一、相关背景
    • 扩散模型
    • 论文简介
  • 二、三种大分类
    • 进化的生成器(Evolutionary Generators)
      • 1. GAN/VAE-Based
      • 2. Diffusion-based 基于扩散模型的方法
      • 3. Autoregressive-based 基于自回归的方法
    • 卓越追求(Excellent Pursuit)
    • 现实全景(Realistic Panorama)
  • 三、实验数据
  • Reference

一、相关背景

论文:From Sora What We Can See: A Survey of Text-to-Video Generation

在这里插入图片描述

扩散模型

待补充。

论文简介

Q: 这篇论文试图解决什么问题?
A: 这篇论文是关于文本到视频生成(Text-to-Video Generation, T2V)领域的综述,它试图解决的问题是如何全面理解并推进这一领域的研究和发展。具体来说,论文从以下几个方面展开:

  1. 技术概览:提供了文本到视频生成技术的基础知识和预备概念,帮助读者理解这一领域的技术背景。
  2. 文献分类:将现有的文献从三个维度进行分类:进化生成器(Evolutionary Generators)、卓越追求(Excellent Pursuit)和现实全景(Realistic Panorama),以系统地审视不同研究方向和方法。
  3. 数据集和评估指标:详细组织和介绍了在文本到视频生成领域广泛使用的数据集和评估指标,为研究者提供了基准和评价标准。
  4. 挑战与开放问题:识别并讨论了当前文本到视频生成领域面临的挑战和未解决的问题,如物体间的一致性运动、长时间视频生成的连贯性等。
  5. 未来研究方向:基于对现有研究和Sora模型的深入分析,提出了未来研究的潜在方向,为该领域的研究者提供了前瞻性的指导。
  6. Sora模型分析:特别关注了由OpenAI开发的Sora模型,这是一个具有分钟级世界模拟能力的视频生成模型,论文尝试从Sora的角度出发,探讨其在文本到视频生成方面的成就和遇到的障碍。

二、三种大分类

截止2024年年中的文生视频大模型:
在这里插入图片描述

进化的生成器(Evolutionary Generators)

1. GAN/VAE-Based

  1. GAN/VAE-Based: 基于生成对抗网络(GAN)和变分自编码器(VAE)的方法,如TGANs-C、IRC-GAN、GODIVA、Text2Filter等。

(1)基于VAE的方法 :

  • 初期创新:[55]提出结合 VAE 和递归注意机制的方法,以生成时间序列帧,并通过文本输入指导。
  • VQ-VAE 的引入:[56]提出 VQ-VAE 模型,通过向量量化结合离散和连续表示的优势,在生成高质量图像、视频和语音方面表现出色。[57]进一步基于 VQ-VAE,展示了预训练模型在下游视频生成任务中的微调能力及零样本能力。

(2)基于GAN的方法 :

  • TGANs-C:[60]提出了一种从文本字幕生成视频的方法,通过3D卷积和多组件损失函数,确保视频在时间上的连贯性和语义上的一致性。
  • 混合模型:[58]提出将 VAE 和 GAN 结合的模型,能够捕捉文本中的静态和动态属性,从而提升基于文本生成视频的复杂性和细致度。
  • 结合 LSTM 的创新:[59]将 GAN 与长短期记忆(LSTM)网络结合,提高了生成视频的视觉质量和语义连贯性,确保生成内容与文本描述的紧密对齐。

2. Diffusion-based 基于扩散模型的方法

在这里插入图片描述

  1. Diffusion-based: 基于扩散模型的方法,如DDPM、Make-A-Video、VideoCrafter1、ModelScopeT2V、DiT等。
  • 视频扩散模型(VDM) 是这一领域的重要突破,通过3D U-Net架构和时间注意机制提升了视频生成的时间连贯性和质量。类似地,MagicVideo 系列模型利用潜在扩散方法应对复杂时间动态和高计算成本,生成高质量的视频。
  • LVDM 模型引入层次化潜在视频扩散,实现长视频的高效生成,并减少计算需求。Show-1 和 PixelDance 结合像素和潜在空间技术确保高分辨率视频输出,而 SVD 利用时间卷积和注意层在潜在空间中高效捕捉时间动态。
  • Tune-A-Video 扩展了2D潜在扩散模型到时空领域,通过稀疏时空注意机制优化计算效率,实现视频生成的时间一致性。
  • VideoLCM 通过一致性蒸馏策略和DDIM求解器提高训练效率,VideoCrafter2 利用数据解耦策略显著提升了视频生成的视觉保真度和运动动态。
  • Make-A-Video 模型和 Imagen Video 采用文本生成图像技术,拓展至视频领域,结合时空超分辨率模型提升生成视频的质量和时间一致性。MotionDiffuse 提供文本驱动的动作生成,细粒度控制输出的多样性和真实性。Text2Video-Zero 专为零样本T2V生成设计,确保跨帧时间一致性。
  • NUWA-XL 利用“多层次扩散”架构生成极长视频,采用“粗到细”策略生成全局一致且细致的视频内容。

3. Autoregressive-based 基于自回归的方法

  1. Autoregressive-based: 基于自回归模型的方法,如NUWA、NUWA-Infinity、Phenaki、VideoGPT等。

  2. NUWA 系列

  • NUWA 采用3D变换器编码器-解码器框架,通过3D临近注意机制实现高质量图像和视频合成,展现了零样本能力。
  • NUWA-Infinity 引入创新的自回归与自回归框架,能够生成可变大小的高分辨率视觉效果,以灵活且高效的方式创建视觉内容。
  1. Phenaki
  • 采用C-ViViT编码器-解码器结构,实现从文本输入生成可变长度的视频,高效地将视频数据压缩成紧凑的令牌化表示,生成连贯且时间一致的视频。
  1. VideoGPT
  • 结合VQ-VAE和变换器架构,通过3D卷积和轴向注意力学习视频的降采样离散潜在表示,捕捉视频序列的复杂时间和空间动态。
  1. Large World Model (LWM)
  • 设计为处理长上下文序列的自回归变换器,融合视频和语言数据,并通过RingAttention机制高效处理大量令牌,最大化上下文意识。
  1. Genie
  • 生成性交互工具,利用时空(ST)变换器进行视频令牌化和动作模型的提取,自回归预测下一帧,生成可控和交互的视频环境。
  1. TATS
  • 设计用于生成长时视频,结合时间无关的VQGAN和时间敏感的变换器,确保视频质量和长时间依赖性的平衡,生成连贯的长视频。
  1. CogVideo
  • 继承CogView2预训练模型的文本-图像对齐知识,通过多帧率分层训练生成关键帧并插补中间帧,采用双通道注意机制和递归插值过程,生成详细且语义一致的视频。

卓越追求(Excellent Pursuit)

  1. Extended Duration: 研究如何生成更长时序的视频,例如Video LDM、Show-1、STUNet、MoCoGAN-HD、Text2Performer等。
  2. Superior Resolution: 专注于生成高分辨率视频的研究,如DAIN、CyclicGen、Softmax-Splatting、FLAVR等。
  3. Seamless Quality: 研究如何生成无缝质量的视频,提高视频的流畅性和观感。

现实全景(Realistic Panorama)

  1. Dynamic Motion: 研究如何处理视频中的动态运动,如LAMP、AnimateDiff、MotionLoRA、Lumiere、Dyson-VDM、ART•V、DynamiCrafter、PixelDance、MoVideo、MicroCinema、ConditionVideo、DreamVideo、TF-T2V、GPT4Motion、Text2Performer等。
  2. Complex Scene: 研究如何生成复杂的场景,如VideoDirectorGPT、FlowZero、VideoDrafter、SenceScape、NUWA-XL、MCVD等。

三、实验数据

在这里插入图片描述

数据集和评估指标(Datasets & Metrics)

  • 数据集包括但不限于:UCF-101、MSR-VTT、DideMo、YT-Tem-180M、WebVid2M、HD-VILA-100M、InternVid、HD-VG-130M、Youku-mPLUG、VAST-27M、Panda-70M、ActNet-200、Charades、Kinetics、ActivityNet、Charades-Ego、SS-V2、How2、HowTo100M、LSMDC、MAD等。
  • 评估指标包括:PSNR/SSIM、IS、FID、CLIP Score、Video IS、FVD/KVD、FCS等。

Reference

[1] From Sora What We Can See: A Survey of Text-to-Video Generation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2160004.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode讲解篇之75. 颜色分类

文章目录 题目描述题解思路题解代码 题目描述 题解思路 我们可以将最终结果看成连续的三个区间,第一个区间内全是0,第二个区间内全是1,第三个区间内全是2 ,其中这三个区间的长度都可以为0 我们可以将不断扩张 我们记录0区间的右…

滴滴开源项目分享来啦~

活动:参与开源项目,获得精美礼品 活动时间:2024年09月23-2024年10月23 活动详情请查看: ❤️🌟 Who is using XIAOJUSURVEY? Issue #64 didi/xiaoju-survey GitHub 活动奖品: ​ 不管你是…

基于单片机多点无线温度监控系统设计

本设计STC89C52RC单片机作为主控芯片,能够远程监控多个位置的温度变化。使用一个主机来接收和监控三个从机收集到的温度信息,利用DS18B20温度传感器采集温度信息,采用GL24S无线通讯模块将数据传输给主机进行接收,信息显示在主机连…

DesignMode__unity__抽象工厂模式在unity中的应用、用单例模式进行资源加载

目录 抽象工厂模式 思维导图 接口(抽象类) 工厂接口 抽象产品类 抽象武器接口 抽象人物接口 具体工厂和具体产品 具体工厂 (1)产品接口,生成具体人物 (2)武器接口,生成具体…

搜索引擎onesearch3实现解释和升级到Elasticsearch v8系列(五)-聚合

聚合 聚合基于Query结果的统计,执行过程是搜索的一部分,Onesearch支持0代码构建聚合,聚合目前完全在引擎层 0代码聚合 上图是聚合的配置,包括2个pdm文档聚合统计 termsOfExt term桶聚合,统计ext,如&…

JavaWeb——前端工程化(3/3):Vue项目开发流程(index.html、main.js和根组件之间的联系)

Vue项目开发流程 上篇我们介绍了工程化的 Vue 项目,将 Vue 项目启动起来并访问到了首页面。接下来,我们来分析如何访问到 Vue 项目的首页面,也就是 Vue 项目的开发流程。 现在访问的页面是 Vue 项目默认的首页 index.html,它是在…

Linux系统安装Julia语言并在VS Code中进行配置

Julia是一种专为科学计算而生的高级编程语言,具有开源、多平台、高性能的特点。Julia结合了动态语言的易用性与编译语言的速度,部分归功于其基于LLVM的JIT编译器,能够生成高效的本地代码。这使得Julia在许多情况下能够拥有与编译型语言&#…

56 mysql 用户权限相关的实现

前言 这里讨论 mysql 的权限相关处理 使用如下语句创建 tz_test 用户, 并赋予他 test_02 数据库的查询权限 create user tz_test% identified by tz_test; grant select on test_02.* to tz_test%; 查询目标数据表, 数据如下, tz_test_02 UPDATE command denied to user …

Centos 8安装VNC及多用户配置详细教程

Centos 8安装VNC及多用户配置详细教程 参考一、安装前准备二、安装三、创建新用户和设置VNC密码四、创建VNC系统服务文件五、多用户映射和配置VNC六、客户端用VNC Viewer登录 参考 1、参考1: VNC安装英文说明(英文说明有误且仅适合单用户)&a…

乌克兰因安全风险首次禁用Telegram

据BleepingComputer消息,乌克兰国家网络安全协调中心 (NCCC) 以国家安全为由,已下令限制在政府机构、军事单位和关键基础设施内使用 Telegram 消息应用程序。 这一消息通过NCCC的官方 Facebook 账号对外发布,在公告中乌…

java并发之并发理论

并发理论 Java 内存模型 Java 内存模型(即 Java Memory Model,简称 JMM)试图屏蔽各种硬件和操作系统的内存访问差异,以实现让 Java 程序在各种平台下都能达到一致的内存访问效果。 本身是一种抽象的概念,并不真实存在&…

【第十二章:Sentosa_DSML社区版-机器学习之回归】

目录 12.1 线性回归 12.2 决策树回归 12.3 梯度提升决策树回归 12.4 保序回归 12.5 XGBoost回归 12.6 随机森林回归 12.7 广义线性回归 12.8 LightGBM回归 12.9 因子分解机回归 12.10 AdaBoost回归 12.11 KNN回归 12.12 高斯过程回归 12.13 多层感知机回归 【第十…

vue Echart使用

一、在vue中使用Echarts 1.安装Echarts npm install echarts --save2.准备一个呈现图表的盒子 给盒子起名字是建议使用id选择器 这个盒子通常来说就是我们熟悉的 div &#xff0c;这个 div 决定了图表显示在哪里&#xff0c;盒子一定要指定宽和高 <div id"main&quo…

构建智能化直播美颜工具:视频美颜SDK的开发指南

本篇文章&#xff0c;笔者将为开发者提供一份详细的指南&#xff0c;帮助你从零开始构建智能化直播美颜工具&#xff0c;并了解视频美颜SDK的实现路径和优化策略。 一、视频美颜SDK的核心功能 视频美颜SDK主要功能是通过一系列图像处理算法&#xff0c;对主播的面部进行实时优…

安卓13删除下拉栏中的设置按钮 android13删除设置按钮

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析4.代码修改5.编译6.彩蛋1.前言 顶部导航栏下拉可以看到,底部这里有个设置按钮,点击可以进入设备的设置页面,这里我们将更改为删除,不同用户通过这个地方进入设置。也就是下面这个按钮。 2.问题分析…

[vulnhub] Hackademic.RTB1

第一次打靶机&#xff0c;思路看的红队笔记 https://www.vulnhub.com/entry/hackademic-rtb1,17/ 环境&#xff1a;kali Linux - 192.168.75.131&#xff0c;靶机 - 192.168.75.132 主机发现和端口扫描 扫描整个网络有哪台机子在线&#xff0c;不进行端口扫描 nmap -sP 192.16…

WordPress精选文章如何添加侧边栏和页面?

WordPress精选帖子是一项功能&#xff0c;可让用户在其网站主页或其他值得注意的部分突出显示特定帖子。这些精选帖子通常以视觉上独特的方式显示&#xff0c;例如以滑块、网格或轮播格式显示&#xff0c;以提高其可见性和对访问者的吸引力。 网站所有者可以手动选择他们想要推…

构建 Spring Data JPA 项目所需的依赖与配置

一、使用 Spring Boot Initializr 添加依赖的步骤&#xff08;IntelliJ IDEA 中的操作&#xff09; 打开 IntelliJ IDEA&#xff0c;选择 New Project > Spring Initializr。填写项目的 Group、Artifact、Project Metadata 等基础信息。选择 Maven Project&#xff0c;并选…

【第十六章:Sentosa_DSML社区版-机器学习之生存分析】

【第十六章&#xff1a;Sentosa_DSML社区版-机器学习之生存分析】 16.1 加速失效时间回归 1.算子介绍 加速失效时间回归模型Accelerated failure time (AFT)是一个监督型参数化的回归模型&#xff0c;它可以处理删失数据。它描述了一个生存时间的对数模型&#xff0c;所以它通…

【C语言从不挂科到高绩点】19-指针01【重点知识】

Hello!彦祖们,俺又回来了!!!,继续给大家分享 《C语言从不挂科到高绩点》课程!! 本节将为大家讲解C语言中非常重要的知识点-指针: 本套课程将会从0基础讲解C语言核心技术,适合人群: 大学中开设了C语言课程的同学想要专升本或者考研的同学想要考计算机等级证书的同学想…