【精华】AIGC之文生视频及实践应用

news2024/9/28 17:26:27

AIGC之文生视频及实践应用

(一)序言

从 Stable Diffusion 到 Midjourney,再到 DALL·E-2,文生图模型已经变得非常流行,并被更广泛的受众使用。随着对多模态模型的不断拓展以及生成式 AI 的研究,业内近期的工作试图通过在视频领域重用文本到图像的扩散模型,将其成功扩展到文本到视频的生成和编辑任务中,使得用户能够仅仅给出提示便能得到想要的完整视频。

早期的文生图方法依赖于基于模板的生成和特征匹配等方法。然而,这些方法生成逼真和多样化图像的能力有限。在 GAN 获得成功之后,还提出了其他几种基于深度学习的文生图方法。其中包括 StackGAN、AttnGAN 和 MirrorGAN,它们通过引入新的架构和增强机制进一步提高了图像质量和多样性。

后来,随着 Transformer 的进步,出现了新的文生图方法。例如,DALL·E-2 是一个 120 亿参数的变换器模型:首先,它生成图像令牌,然后将其与文本令牌组合,用于自回归模型的联合训练。之后,Parti 提出了一种生成具有多个对象的内容丰富的图像的方法。Make-a-Scene 则通过文生图生成的分割掩码实现控制机制。现在的方法建立在扩散模型的基础上,从而将文生图的合成质量提升到一个新的水平。GLIDE 通过添加无分类器引导改进了 DALL·E。后来,DALL·E-2 利用了对比模型 CLIP:通过扩散过程,从 CLIP 文本编码到图像编码的映射,以及获得 CLIP 解码器……

这些模型能够生成具有高质量的图像,因此研究者将目光对准了开发能够生成视频的文生图模型。然而,文生视频现在还是一个相对较新的研究方向。现有方法尝试利用自回归变换器和扩散过程进行生成

例如,NUWA 引入了一个 3D 变换器编码器-解码器框架,支持文本到图像和文本到视频的生成。Phenaki 引入了一个双向掩蔽变换器和因果关注机制,允许从文本提示序列生成任意长度的视频;CogVideo 则通过使用多帧速率分层训练策略来调整 CogView 2 文生图模型,以更好地对齐文本和视频剪辑;VDM 则联合训练图像和视频数据自然地扩展了文生图扩散模型。

前面展示的 Imagen Video 构建了一系列视频扩散模型,并利用空间和时间超分辨率模型生成高分辨率时间一致性视频。Make-A-Video 在文本到图像合成模型的基础上,以无监督的方式利用了视频数据。Gen-1 则是扩展了 Stable Diffusion 并提出了一种基于所需输出的视觉或文本描述的结构和内容引导的视频编辑方法。

​ 如今,越来越多的文生视频模型不断迭代,我们可以看到,2023 年似乎将要成为 “文生视频” 的一年。

(二)常见算法框架

(1)文本特征提取 + 文本特征到视频隐空间扩散模型 + 视频隐空间到视频视觉空间网络
  • 整体模型参数约17亿。支持英文输入。
  • 扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

(三)研究里程碑

时间所属机构描述体验地址
2022年9月29日Meta公布文生视频工具Make-A-Video,这个工具可以把文字生成视频,也可以将静态图片生成连续图片,然后将这些图片连接成一段视频。
2022年10月Google发布了两个文生视频工具——Imagen Video 与 Phenaki,前者主打视频品质,后者主要挑战视频长度。目前,Imagen Video 可以生成1280x768分辨率、每秒24帧的高清晰片段,而Phenaki可以实现“有故事、有长度”,它生成任意时间长度的视频能力来源于其新编解码器C-ViViT。
2023年2月6日Runway发布 Gen-1 模型,这个模型可以通过应用文本提示或者参考图像所指定的任意风格,将现有视频转换为新视频。今年的奥斯卡将7项大奖颁给了《瞬息全宇宙》,在影片的制作过程中,就采用了这家公司的技术。https://runwayml.com/
2023年3月21日Runway发布了Gen-2,更专注于从零开始生成视频。
2023年3月22日阿里达摩院在AI模型社区“魔搭”(ModelScope)悄悄放出 “文本生成视频大模型”,在开源模型平台低调对外测试;
2023年3月16日百度发布文心一言也提供文字生成视频功能。

(四)当前挑战

(1)要解决AI生成的图像没有闪烁感、更连贯;
(2)要解决时间效率与算力资源问题。
(3)可能被用来生成虚假、仇恨、露骨或有害的内容,信任与安全等问题也逐渐涌现。

目前将文本生成图像,在高端GPU上,每张图像渲染的时间大约为几秒到十几秒,视频如果按照每秒30帧计算,那么一秒钟的视频就需要几分钟的渲染时间,大大限制其适用场景。这需要硬件技术和算法共同进化解决。

美国麻省理工学院人工智能教授菲利普·伊索拉就表示,如果看到高分辨率的视频,人们很可能会相信它。 也有专家指出,随着人工智能语音匹配的出现,以及逐渐拥有改变和创建几乎触手可及的逼真视频的能力,伪造公众人物和社会大众的言行可能会造成不可估量的伤害。但是,“潘多拉的魔盒已经打开”,作为生成式 AI 的下一站,文生视频的技术需要不断改进,与此同时,依然需要警惕安全与伦理风险。

(五)最新研究进展

  • AI作画玩腻了?国产AI文生视频又来了,就是画风有点辣眼睛|封面天天见
  • AI大模型下一站:“文生视频”还有多远?|图像|AI|Meta
  • AIGC下一站:期待、警惕充斥着AI剪辑师的世界-钛媒体官方网站

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/429809.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

78-Linux_tcp服务器客户端编程流程

tcp服务器客户端编程流程一.c/s模型1.什么是c/s模型?2.c/s模型的逻辑二.TCP服务器端和TCP客户端的工作流程1.流程2.TCP三次握手3.TCP四次挥手一.c/s模型 1.什么是c/s模型? 答:(c/s)模型即(客户端/服务器端)模型 所有的客户都通过服务器端访问所需资源. 模型如图所示: 2.c…

Python样条插值和坐标映射

文章目录样条插值基本原理scipy实现坐标映射样条插值基本原理 由于数组本身是格点化了的,所以对数组的旋转、平移和缩放,并不像实数空间中那么简单。以一维的平移为例,现有三个点,坐标为0,1,2,值对应为a,b,c&#xff…

小黑子—多媒体技术与运用基础知识二:数字音频处理技术

多媒体技术与运用2.0多媒体系列第二章1. 音频处理概述1.1 什么是声音1.2 声音的基本参数1.3 人的听觉特性1.4 音频信号处理过程2.音频的数字化2.1 音频的采样2.2 音频的量化2.3 声道数2.3 音频的编码与压缩2.4 数字音频的质量3.音频文件格式及标准3.1 波形文件格式3.2 MPEG音频…

打造高效Android应用,从Hilt注入框架开始

概述 在 Android 开发中,注入解耦是一种设计模式,用于解决代码耦合的问题。通过使用注入技术,可以将应用程序中的不同部分解耦,从而使得代码更加灵活、易于维护和升级。 在 Android 中,注入解耦通常使用依赖注入&…

R -- 如何处理缺失数据

brief 识别缺失值 当传入向量,返回的是包含逻辑向量的等长向量。complete.cases()用来识别矩阵或者数据框有没有包含缺失值的行,若整行数据完整则返回TRUE,若行数据包含缺失值,不管几个缺失值则返回FALSE。 探索缺失值模式 列表图…

高速存储器

由于CPU和主存储器之间的速度上的不匹配限制了计算机系统的工作速度,为了提高CPU和主存之间的数据传输率,可以采用并行技术的存储器: 双端口存储器多模块交叉存储器 双端口存储器 同一个存储器具有两组相互独立的读写控制线路,…

Direct3D 12——灯光——聚光灯光

一个与聚光灯光源(spotlight)相近的现实实例是手电筒。从本质上来说,聚光灯由位置Q向方向d 照射出范围呈圆锥体的光。 一个聚光灯以位置Q向方向d发射出半顶角为Φmax 的圆锥体范围的光 其中,P为被照点的位置,Q是聚光…

基于html+css的盒子展示8

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

一文4000字使用JavaScript+Selenium玩转Web应用自动化测试

自动化测试 在软件开发过程中, 测试是功能验收的必要过程, 这个过程往往有测试人员参与, 提前编写测试用例, 然后再手动对测试用例进行测试, 测试用例都通过之后则可以认为该功能通过验收. 但是软件中多个功能之间往往存在关联或依赖关系, 某一个功能的新增或修改可能或影响到…

手把手教你搭建ROS阿克曼转向小车之(霍尔编码器数据读取与速度计算)

上一篇文章已经介绍了如何驱动直流有刷电机转动起来,这篇文章讲解如何获取编码器的计数值,并且计算出速度信息。在实际的运行中,随着机器的重量不一样,电机受到的阻力就会不一样,给定同样的PWM在不同载重的情况下速度会…

Alien Skin ExposureX8最新ps中文版调色滤镜插件

Exposure是用于创意照片编辑的最佳图像编辑器。Exposure结合了专业级照片调整,庞大的华丽照片外观库以及高效的设计,使其使用起来很愉悦。新的自动调整功能可简化您的工作流程,并使您进入创意区。 Alien Skin Exposure 拥有超过500种预设效果…

基于线性支持向量机的词嵌入文本分类torch案例

一、前言 简介线性支持向量机,并使用线性支持向量机实现文本分类, 输入文本通过词嵌入方法转换成浮点张量,给出torch案例 线性支持向量机(Linear Support Vector Machine,简称Linear SVM)是一种常用的分类算法,它通过一个超平面来…

TiDB实战篇-TiDB Cluster部署

简介 部署TiDB Cluster部署,熟系集群的基础操作。 集群规划 机器拓扑 3pd,3tikv,1tidb_server.1tiflash,监控。 192.168.66.10192.168.66.20192.168.66.21 pd_servers tikv_servers tidb_servers tiflash_servers pd_servers tikv_servers monitoring_servers…

MySQL中使用IN()查询到底走不走索引?

MySQL中使用IN()查询到底走不走索引? 看数据量 EXPLAIN SELECT * from users WHERE is_doctor in (0,1); 很明显没走索引,下面再看一个sql。 EXPLAIN SELECT * from users WHERE is_doctor in (2,1);又走索引了,所以…

Yolov5一些知识

1 Yolov5四种网络模型 Yolov5官方代码中,给出的目标检测网络中一共有4个版本,分别是Yolov5s、Yolov5m、Yolov5l、Yolov5x四个模型。 1.1Yolov5网络结构图 eg:Yolov5s 2.1 Yolov3&Yolov4网络结构图 2.1.1 Yolov3网络结构图 Yolov3的网络结构是…

Matlab论文插图绘制模板第86期—带置信区间的折线图

在之前的文章中,分享了很多Matlab折线图的绘制模板: 进一步,分享一种特殊的折线图:带置信区间的折线图。 先来看一下成品效果: 特别提示:本期内容『数据代码』已上传资源群中,加群的朋友请自行…

【C++技能树】快速文本匹配 --正则表达式介绍与C++正则表达式使用

Halo,这里是Ppeua。平时主要更新C语言,C,数据结构算法…感兴趣就关注我吧!你定不会失望。 0.正则表达式存在必要性 在日常生活,或者刷题过程中我们难免需要检测一段字符是否需要是否符合规定,或在一大段字符中寻找自己想要的信息…

Mysql 数据库介绍

数据库介绍 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,每个数据库都有一个或多个不同的API接口用于创建,访问,管理,搜索和复制所保存的数据。 我们也可以将数据存储在文件中&#xff0…

支持m2的主板换m2硬盘无法识别的问题,主板:七彩虹H410-T

记录一下我的电脑换m2硬盘遇到无法读取的问题,也给有同样问题的人留个参考,特别是七彩虹主板 主板:七彩虹H410-T 遇到的问题: m2 硬盘插上主板后,开机无法识别,打开我的电脑没有相应的盘,设备…

代码随想录---142. 环形链表 II

给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系统内部使用整…