世界启动Ⅷ--AI视频制作-方案与创新

1.文本/图片生成视频顾名思义，就是输入一段文本描述/上传一张图片即可生成对应的视频。我们常见的Runway、Pika、NeverEnds、Pixverse、svd等都属于此类。比如runway的影视风格Pika的动漫风格NeverEnds的人像模特当然还有一些外延应用，例如最近比较火的阿里的“全民舞王”，底层基于Diffusion Model，再结合了Controlnet等其他技术，后文也会讲到。

2.视频到视频的生成通常分为风格迁移类型、视频内部的替换、局部重绘、视频AI高清化。如WonderStudio的人物CG替换：

DomoAI的视频风格转换涉及技术包括：视频序列帧生成和 Contorlnet 处理、视频风格迁移Lora、视频放大、面部修复等。

视频换脸常见的有Faceswap、DeepFacelab等。涉及技术包括：人脸检测、特征提取、人脸转换、优化等。

3.数字人类以Heygen和D-iD为代表，通过人脸检测Face detection、语音克隆TTS、口型同步Lip sync技术等组合实现。

4.视频编辑类型素材匹配可以根据你给定的主题或者需求，通过搜索现有素材拼接成一个完成的视频。我们平时剪辑最常用的剪映就是其中的一种，可以在线搜索素材匹配你的文本需求。

关键部分剪辑将长视频转化为所需的短视频，适用于访谈节目类。涉及技术可能包括使用OpenCV和TensorFlow来分析视频内容，识别关键片段，然后使用MoviePy来剪辑和组装这些片段，形成短视频。

视频高清化通过超分算法、降噪算法、以及插帧等功能共同实现视频质量的提升。

生成式AI视频技术大家可以感受到，上述AI视频的应用可谓是五花八门，但底层的技术不外乎以下3种：

GAN、Diffusion Model以及这两年在大模型领域大火的Transformer架构。

当然也包括变分自编码器（Variational Autoencoder, VAE）和Diffusion的前身DDPM（Denoising Diffusion Probabilistic Model），我们这里不详细展开，主要用通俗的语言介绍前面3种。

1.生成式对抗网络 GANGenerative adversarial networks

顾名思义，GAN包括一个生成器和一个判别器。生成器就像一个画家，根据文字描述尽力画出真实般的图像，而判别器就像一个鉴定师，努力分辨哪些画是真实的哪些是生成器画的。两者不断竞争，生成器变得越来越擅长画出逼真图像，判别器变得越来越聪明分辨真伪，最终实现较为逼真的图像生成。"是不是很像小时候老师拿着戒尺在旁边指导你学习"GAN也同时存在一些短板：失真：与扩散模型生成的图像相比，GAN往往有更多的伪影和失真。训练稳定性：GAN的训练过程涉及一个生成器和一个判别器的对抗过程，这可能导致训练不稳定和难以调优。相比之下，扩散模型的训练过程更加稳定，因为它们不依赖于对抗训练。多样性：相比于GAN，扩散模型在生成图像时能够展现出更高的多样性，这意味着它们能够产生更加丰富和多变的图像，而不会过分依赖于训练数据集中的特定模式。大约在2020年左右，扩散模型在学术界和工业界开始获得更多的关注，尤其是当它们在图像生成的各个方面表现出色时。但这并不意味着GAN已经完全过时，在风格迁移和超分方面也得到广泛的探索和应用。

2.扩散模型 Diffusion ModelDiffusion Models 的灵感来自 non-equilibrium thermodynamics （非平衡热力学）。

理论首先定义扩散步骤的马尔可夫链，以缓慢地将随机噪声添加到数据中，然后学习逆向扩散过程以从噪声中构造所需的数据样本。通俗地解释扩散模型的工作方式有点像雕刻家，从一块粗糙的石头（或者在我们的例子中是一张模糊、无序的图像）开始，逐渐细化和调整，直到形成一个精细的雕塑（即清晰、有意义的图像）。

目前我们熟知的Runway、Pika其实都是基于Diffusion模型的。但是其中细节又有所不同。对于这两个产品存在以下两种技术架构：Pika - Per Frame在“Per Frame”架构中，扩散模型针对视频中的每一帧单独处理，就像它们是独立的图片一样。

这种方法的优势在于它可以保证每一帧的图像质量。然而无法有效地捕捉视频中的时间连贯性和动态变化，因为每一帧都是独立处理的。因此会损失一定的精度，我们看到Pika早期生成视频有点“糊”可能也与此有关。

Runway - Per Clip“Per Clip”架构则是将整个视频片段作为一个单一的实体来处理。在这种方法中，扩散模型考虑了视频中帧与帧之间的时间关系和连贯性。其优势在于能够更好地捕捉和生成视频的时间动态，包括运动和行为的连贯性。更完整地保留了训练视频数据的精度。

然而，“Per Clip”方法可能需要更复杂的模型和更多的计算资源，因为它需要处理整个视频片段中的时间依赖性。

对比Pika的Per Frame架构，Per Clip更完整地保留了训练视频素材的信息，成本较高的同时天花板也相对较高。

由于扩散模型本身就是计算密集型的，所以在生成长视频时，这种计算负担会急剧增加，并且时间一致性也是对扩散模型一项不小的考验。而Transformer架构特别擅长处理长序列数据，这对于生成长视频来说是一个重要优势，它们能够更好地理解和维持视频内容在时间上的连贯性。

3.Transformer架构（LLM架构）在语言模型中，Transformer通过分析大量文本来学习语言的规则和结构，进而通过概率推演出后续文本。

当我们将这种架构应用于图像生成时，相比于扩散模型是从混乱中创造出秩序和意义，Transformer在图像生成中的应用类似于学习和模仿视觉世界的“语言”。例如，它会学习颜色、形状和对象如何在视觉上组合和交互，然后使用这些信息来生成新的图像。

Transformer架构有其独特优势，包括明确的密度建模和更稳定的训练过程。它们能够利用帧与帧之间的关联，生成连贯且自然的视频内容。

除此之外，diffusion Model目前最大的模型也就 7 到 8 个 billion 参数规模，但 transformer 模型最大可能已经达到 trillion 级，完全两个量级。

然而，自Transformer架构面临着计算资源、训练数据量和时间的挑战。相比于扩散模型，需要更多的模型参数，对计算资源和数据集的需求相对更高。

所以在早期算力以及数据量紧凑的时候Transformer架构生成视频/图像没有得到充分的探索和应用。

AI视频外延技术及应用“照片跳舞”——Animate anyone基于扩散模型+Controlnet相关等技术技术概述：网络从多帧噪声作为初始输入开始，采用基于Stable Diffusion (SD)设计的去噪UNet结构。和我们熟悉的Animatediff类似，再结合类似Controlnet的姿势控制和一致性优化等技术。

网络核心包括三个关键部分：

1、ReferenceNet，负责编码参考图像中角色的外观特征，确保视觉一致性。

2、Pose Guider，用于编码运动控制信号，实现角色动作的精确控制；

3、Temporal Layer，它处理时间序列信息，保证角色运动在连续帧之间的流畅性和自然性。

这三个组件的结合使网络能够生成在视觉上一致、动作上可控且时间上连贯的动画角色