市场主流 AI 视频生成技术的迭代路径

news2025/1/20 5:58:45

     AI视频生成技术的迭代路径经历了从GAN+VAE、Transformer、Diffusion Model到Sora采用的DiT架构(Transformer+Diffusion)等多个阶段,每个阶段的技术升级都在视频处理质量上带来了飞跃性的提升。这些技术进步不仅推动了AI视频生成领域的快速发展,也为未来的应用场景提供了更多的可能性和灵活性

1 GAN+VAE 阶段 (2016-2021)

    GAN 用于视频生成在 2016 年至 2021 年较为火热,代表模型如 Temporal Generative Adversarial Nets (TGAN) 和 MoCoGAN,它们通过不同的网络架构和训练方法来改进 GAN 在视频生成上的性能。此外,Dual Video Discriminator GAN (DVD-GAN) 通过使用空间和时间判别器的分解来提高视频生成的复杂性和保真度。

GAN 生成对抗网络运作原理

  • GAN (生成对抗网络): 这是最早用于视频生成的模型之一,其核心思想是训练一个生成器和一个判别器,通过对抗训练生成逼真的视频。
  • VAE (变分自编码器): VAE 是一种自编码器,可以将输入数据压缩成低维的潜在空间表示,并从潜在空间中解码生成新的数据。
  • GAN+VAE 融合: 将 GAN 和 VAE 结合,利用 GAN 生成高质量的图像,并利用 VAE 将图像解码成视频。

2 Transformer 阶段 (2018-2023)

Transformer 模型是一种基于注意力机制的深度学习模型,它在处理序列数据方面表现出色,尤其在自然语言处理领域取得了显著的成果。它完全基于注意力机制,不依赖于传统的循环神经网络(RNN)或卷积神经网络(CNN)。

2.1 优点

  • 并行处理序列中的所有元素:与传统的循环神经网络(RNN)相比,Transformer 模型能够并行处理序列中的所有元素,这大大提高了计算效率。RNN 模型需要按照序列的顺序进行计算,每个时间步的处理依赖于前一个时间步的输出,这限制了并行计算的可能性。
  • 可扩展性:Transformer 模型能够通过堆叠多个注意力层来增加模型的复杂度和容量,从而适应不同任务的需求。这种堆叠方式使得模型能够处理更长的序列,并学习更复杂的模式。
  • 泛化能力:Transformer 模型除了在语言任务中表现出色,还可以泛化到其他类型的序列建模任务,如图像处理、视频分析等。这种泛化能力使得模型能够应用于更广泛的领域,具有更高的实用性。
  • 预训练和微调:Transformer 模型通常先在大量数据上进行预训练,再针对特定任务进行微调,这使得模型能够快速适应新任务。预训练可以使得模型学习到通用的语言特征,微调则可以针对特定任务进行优化。
  • 适应长序列数据:Transformer 模型在处理诸如语音信号、长时间序列数据等任务时具有优势,因为它能够避免传统模型存在的梯度消失或梯度爆炸问题。这种特性使得模型能够处理更长的序列,并学习更复杂的模式。

2.2

  • 参数效率相对较低: 参数数量随输入序列长度的增加而增加,增加了训练时间和成本。
  • 对输入数据的敏感性较高: 模型依赖于输入数据的全局信息进行建模,在处理复杂任务时,对输入数据的细微变化可能会对模型的输出结果产生较大影响。
  • 难以处理时空动态变化: 模型基于自注意力机制的静态模型,无法捕捉到时空动态变化的信息,因此在处理视频、时空数据等具有动态变化特性的任务时,需要结合其他技术来提高模型的性能。

2.3 在视频生成中的应用

  • VideoGPT: 使用 VQ-VAE 和 Transformer 架构生成视频,能够适应动作条件,生成高保真度的视频。
  • NUWA 女娲: 采用 3D 变换器编码器-解码器框架,并使用 VQ-GAN 视觉标记 3D tokens,生成图像、视频以及视频预测。
  • CogVideo: 采用多帧率层次化训练策略和双通道注意力机制,生成高分辨率、高帧率、高一致性的视频。
  • Phenaki: 使用因果注意力机制生成可变长度视频,并使用预训练的 T5X 生成文本嵌入,生成视频。

3 扩散模型阶段 (2018-2023)

扩散模型是一种生成模型,它通过逐步添加噪声来破坏训练数据,然后通过逆向过程去噪来生成与训练数据相似的新数据。扩散模型可以分为三大类型:去噪扩散概率模型(DDPM)、基于噪声条件评分的生成模型(SGM)和随机微分方程(SDE)。尽管它们在数学框架上略有不同,但它们的核心思想是一致的,即通过添加和去除噪声来生成新的数据。

3.1 优点

  • 无需大量标注数据: 扩散模型可以使用未标记的数据进行训练,这使得它们在处理一些数据量较少的领域时具有优势。
  • 生成高质量的图像: 扩散模型能够生成高质量的图像,甚至能够生成逼真的图像。
  • 可扩展性: 扩散模型可以扩展到其他模态,例如文本、音频和视频。

3.2 缺点

  • 训练时间较长: 扩散模型的训练时间通常较长,因为它们需要添加和去除噪声。
  • 对计算资源要求高: 扩散模型的训练需要大量的计算资源,这使得它们在资源受限的环境中的应用受到限制。
  • 生成结果的多样性有限: 扩散模型生成的结果可能缺乏多样性,因为它们通常偏向于生成与训练数据相似的图像。

3.3 扩散模型在视频生成中的应用

  • Gen-1: 将潜在扩散模型扩展到视频生成,无需额外训练和预处理。
  • Gen-2: 允许使用任意起始帧,通过 I2V 方式生成视频,并支持运动画笔、相机控制等功能。

4 DiT 阶段 (2023-至今)

结合 Transformer 和扩散模型,在潜在空间中使用 Transformer 处理图像数据块,模拟数据的扩散过程以生成高质量的图像。

4.1 优点

  • 高效: DiT 模型在潜在空间而非像素空间中训练扩散模型,这提高了计算效率。
  • 灵活: DiT 模型可以使用不同的 Transformer 块变体来处理条件输入,例如噪声时间步长、类别标签等。
  • 可扩展: DiT 模型的性能随着模型大小和输入 token 数量的增加而提升。
  • 简化架构: DiT 模型证明了在扩散模型中,传统的 U-Net 架构并不是必需的,可以被 Transformer 替代。

4.2 DiT 在视频生成中的应用

  • WALT (Window Attention Latent Transformer): 使用 Transformer 架构,在共享潜在空间中联合压缩图像和视频,实现跨模态生成。
  • Sora: 基于 DiT 架构,生成视频质量高,可进行多种编辑和扩展操作。
  • 可灵: 采用 DiT 架构,生成视频效果优秀,可进行视频续写等操作。

更多内容详见2024生成式AI视频行业发展现状国内外龙头及未来发展方向分析报告

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1978793.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大载重无人机必备:适航证技术详解

随着无人机技术的飞速发展,大载重无人机在物流运输、农业植保、应急救援等领域展现出巨大潜力。然而,为确保这些无人机在空中运行的安全性与高效性,获取适航证成为不可或缺的关键步骤。本文将深入探讨大载重无人机适航证的必备要素&#xff0…

用phpstudy搭建MySQL数据库

使用环境:win11 使用软件:phpstudy 下载地址:小皮面板(phpstudy) - 让天下没有难配的服务器环境! MySQL数据库搭建步骤: 1、在小皮的设置界面检测 3306 端口,保障 3306 端口可用; 2、在小皮…

42 PCB布线叠层与阻抗介绍43 PCB布线过孔添加与设置44 差分对添加与设置45 布线间距规则与介绍

42 PCB布线叠层与阻抗介绍&&43 PCB布线过孔添加与设置&44 差分对添加与设置&&45 布线间距规则与介绍 第一部分 42 PCB布线叠层与阻抗介绍1 板子是怎么来的。2 四层板为例,做叠层和阻抗计算。 第二部分 43 PCB布线过孔添加与设置介绍PCBEdotor中…

STM32F28335实验:蜂鸣器实验

实验三个文档: 蜂鸣器驱动: 1.5KHZ-5KHZ之间,我们取5KHZ 也就是高低点平各100um,周期为200um的方波 LED1还是GPIO68管脚 蜂鸣器管脚GPIO6 蜂鸣器驱动: beep.c /** heep.c** Created on: 2024年8月4日* Au…

Studying-代码随想录训练营day54| 110.字符串接龙、105.有向图的完全可达性、106.岛屿的周长

第53天,图论04,加强广搜和深搜的理解练习💪(ง •_•)ง,编程语言:C 目录 110.字符串接龙 105.有向图的完全可达性 106.岛屿的周长 总结 110.字符串接龙 文档讲解:手撕字符串接龙 题目:110…

黑马Java零基础视频教程精华部分_12_面向对象进阶(4)_内部类

《黑马Java零基础视频教程精华部分》系列文章目录 黑马Java零基础视频教程精华部分_1_JDK、JRE、字面量、JAVA运算符 黑马Java零基础视频教程精华部分_2_顺序结构、分支结构、循环结构 黑马Java零基础视频教程精华部分_3_无限循环、跳转控制语句、数组、方法 黑马Java零基础视…

【九】Hadoop3.3.4HA高可用配置

文章目录 1.高可用基本原理1.NameNode 高可用性主备 NameNodeJournalNode 2.Zookeeper 协调3.Quorum Journal Manager (QJM)4.Failover 控制器5.元数据共享6.检查点机制7.切换过程 2.Hadoop高可用配置1.环境背景2.hdfs-site.xml基本配置高可用配置 3.core-site.xml基本配置代理…

【C++】模版:范式编程、函数模板、类模板

目录 一.范式编程 二.函数模板 1.概念与格式 2.原理 3.实例化 4.匹配规则 三.类模板 一.范式编程 在写C函数重载的时候,可能会写很多同一类的函数,例如交换函数: void Swap(int& left, int& right) {int temp left;left r…

推荐 3款电脑上不可或缺的神仙软件,一用就再也离不开

WinForGIFSicle WinForGIFSicle是一款基于GIFSicle的可视化批量GIF压缩工具,具有多种功能和特点。首先,它是一个小巧、免费且开源的软件,能够有效地压缩GIF动画文件。该工具支持按比例压缩和按压缩比压缩两种模式,用户可以根据需要…

MySQL-分库分表

目录 介绍 问题分析 拆分策略 垂直拆分 垂直分库 垂直分表 水平拆分 水平分库 水平分表 实现技术 MyCat 介绍 目录 结构 入门 配置 schema.xml schema标签 datanode标签 datahost标签 rule.xml server.xml system标签 user标签 分片 垂直拆分 水平拆…

【QT】绘图API

目录 绘图API核心类 第一步:重写paintEvent事件函数 第二步:创建QPainter 第三步:设置QPainter绘制的文字类型(非必须) 第四步:设置画笔属性(线条) 第五步:设置画…

【复旦微FM33 MCU 外设开发指南】总集篇

各位好,这里是冷凝雨。 本系列旨在为复旦微的MCU提供全面的开发指南 以FM33LC0xx(Arm M0)为例,与现有的其余MCU型号,如FM33LG0xx、FM33M0xx等有许多相同之处。 本系列将侧重寄存器开发,分享一些各外设使用的…

线上静态的前端、nginx环境基础、基于域名的虚拟主机、基于ip的访问、部署nfs

一、环境基础: 1.查看文件(不要注释及空行) [root17dns ~]# grep -Ev "#|^$" /usr/local/nginx/conf/nginx.conf 2.备份源文件: [root17dns ~]# cp /usr/local/nginx/conf/nginx.conf /usr/local/nginx/conf/nginx.con…

希尔排序, 插入排序, 冒泡排序, 选择排序【C++】

希尔排序&#xff0c; 插入排序&#xff0c; 冒泡排序&#xff0c; 选择排序 测试代码希尔排序选择排序冒泡排序插入排序 测试代码 #include <iostream> using namespace std;int main() {int arr[6] { 0 };int len sizeof(arr) / sizeof(int);for (int i 0; i < …

混合精度、异构计算——杂记

1、英伟达GPU架构 Figure 1 shows a full GA100 GPU with 128 SMs. The A100 is based on GA100 and has 108 SMs. SM是streaming multiprocessor的简写&#xff0c;4个处理单元组成一个SM&#xff0c;如Figure 2。 每个SM有64个INT32&#xff0c;64个FP32&#xff0c;32个F…

【Linux网络】网络层协议:IP

本篇博客整理了 TCP/IP 分层模型中网络层的 IP 协议&#xff0c;旨在让读者更加深入理解网络协议栈的设计和网络编程。 目录 一、网络层 二、IP 报头 1&#xff09;报头与有效载荷的分离 2&#xff09;有效载荷的上交 3&#xff09;源 IP 与目的 IP 4&#xff09;生存时间…

大模型学习笔记 - 大纲

LLM 大纲 LLM 大纲 1. LLM 模型架构 LLM 技术细节 - 注意力机制LLM 技术细节 - 位置编码 2. LLM 预训练3. LLM 指令微调 LLM 高效微调技术 4. LLM 人类对齐 LLM InstructGPTLLM PPO算法LLM DPO 算法 5. LLM 解码与部署6. LLM 模型LLaMA 系列7. LLM RAG 1. LLM 模型架构 大模…

奥特曼格斗进化0-3汉化版丨奈克瑟斯手机版,PC+安卓合集

今天小孩吵着要玩奈克瑟斯手机游戏&#xff0c;都是平时看那些游戏主播打这些游戏。 看着家里几千张奥特曼卡&#xff0c;脑壳就疼&#xff0c;索性还是闲鱼买了&#xff0c;因为我也没找到很全的。挨个找了个遍就不浪费时间了 百度网盘哈&#xff0c;也懒得转迅雷&#xff0c…

PXE——安装,配置,测试(rhel7环境下)

什么是PXE PXE&#xff08;Preboot eXecution Environment&#xff0c;预启动执行环境&#xff09;允许计算机在开机时从网络而非本地硬盘或其他存储设备启动。这种技术主要用于网络启动和自动化安装系统&#xff0c;尤其在需要为大量计算机同时安装操作系统的情况下非常有用。…

jupyter notebook安装

1.安装 pip install notebook 2.显示配置文件&#xff1a; jupyter notebook --generate-config 3.修改代码路径&#xff1a; 编辑配置文件C:\Users\a\.jupyterjupyter_notebook_config.py 4.运行 jupyter notebook 会自动弹出http://localhost:8888/tree