AIGC - 视频生成模型的相关算法进展

news2024/11/15 9:18:51

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/135688206

视频生成技术确实是一个很有潜力的颠覆性技术领域,可以作为企业创新梯队的重点关注方向,最近发展很快,一直也有跟进这个方向的发展。

当前视频生成技术在哪些方面已突破,哪些方面还有卡点?,例如内容质量、一致性、视频长 度、清晰度、稳定性、复杂动作生成等。

视频生成技术,根据给定的文本、图像、视频等输入,自动生成符合描述的视频内容。视频生成技术在近年来取得了显著的进展,但也面临着一些挑战和限制。以下是一些视频生成技术的突破和卡点:

  • 内容质量:视频生成技术的一个重要目标是提高生成视频的内容质量,使其更逼真、清晰和细致。目前,Phenaki,MagicVideo等。这些技术主要利用了扩散模型(Diffusion model)的优势,通过逆向降噪推断来生成图像,同时利用Transformer模型来捕捉视频的时空动态。然而,内容质量的提高也需要更大的计算资源和数据量,这可能限制了视频生成技术的普及和应用。
  • 一致性:视频生成技术的另一个重要目标是保证生成视频的一致性,使其与输入的描述、风格和语义相匹配,同时在时间上保持流畅和连贯。目前,CogVideo能够根据中文文本描述生成视频,利用多帧率分层训练策略来对齐文本和视频剪辑。然而,一致性的保证也需要更复杂的模型设计和训练策略,例如如何处理输入的多样性、不确定性和歧义性,如何平衡生成视频的多样性和准确性,如何避免生成视频的模式崩溃(mode collapse)等。
  • 视频长度:视频生成技术的一个挑战是如何生成可变长度的视频,以满足不同的应用需求。目前,Phenaki能够根据一长串的文本描述生成长达2分钟的视频,利用C-ViViT模型来压缩视频的表示,同时在时间上保持自回归。然而,视频长度的增加也会带来更多的难度,例如如何保持视频的完整性和连贯性,如何避免视频的重复和冗余,如何处理视频的转场和剪辑等。
  • 清晰度:视频生成技术的一个挑战是如何提高生成视频的清晰度,使其更锐利和细腻。目前,MagicVideo能够生成1080p的视频,利用潜在扩散模型来提高视频的分辨率和细节。然而,清晰度的提高也会带来更多的问题,例如如何处理视频的噪声、模糊和失真,如何平衡视频的清晰度和自然度,如何适应不同的视频场景和风格等。
  • 稳定性:视频生成技术的一个挑战是如何提高生成视频的稳定性,使其更平滑和稳定。目前,Phenaki能够生成流畅的视频,利用时间上的因果注意力来捕捉视频的时空动态。然而,稳定性的提高也会带来更多的困难,例如如何处理视频的抖动、闪烁和断层,如何适应视频的快速和复杂的运动,如何避免视频的失真和失真等。
  • 复杂动作生成:视频生成技术的一个挑战是如何生成复杂的动作,使其更逼真和自然。目前,Phenaki能够根据文本描述生成人物的表情和姿态,利用预训练的文本生成图像模型来生成第一帧,然后利用C-ViViT模型来生成后续帧。然而,复杂动作的生成也需要更高的技术水平,例如如何处理视频的遮挡、遮挡和遮挡,如何生成视频的深度和透视,如何生成视频的光照和阴影等。

综上所述,视频生成技术在内容质量、一致性、视频长度、清晰度、稳定性和复杂动作生成等方面都取得了一些突破,但也还有一些卡点和难点。视频生成技术是一个前沿而有趣的研究领域,有着广阔的应用前景和挑战。

比较前沿的一些Paper:

  • Phenaki: Variable Length Video Generation from Open Domain Textual Descriptions

Phenaki

  • ViViT: A Video Vision Transformer

ViViT

  • MagicVideo: Efficient Video Generation With Latent Diffusion

MagicVideo

  • MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

MagicVideo-V2

  • Text2Performer: Text-Driven Human Video Generation

Text2Performer

  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

CogVideo

如果从自动化程度、效果等维度来划分视频生成的级别 (L1 到 L4,L1 就是从创意产生到 视频生成都是人工完成,效果真实,L2 是 ai 辅助素材匹配和抓取,叠加运镜效果,有 ppt 感,L3 是 ai 生成素材和视频,开始有比较逼真的效果,但仍有大动作等卡点,L4 是各环节 都是 ai 产生,效果极致),当前处于哪个阶段? L3 到 L4 需要多久,以及突破哪些技术卡点?

根据给出的视频生成的级别划分,我认为当前的视频生成技术大致处于L2到L3之间的阶段,即AI可以辅助视频制作的部分环节,例如素材匹配、抓取、剪辑、特效等,但还不能完全替代人工的创意和控制,也还不能生成高质量、高逼真、高连贯的视频内容。

要达到L4的级别,即AI可以完全自主地从创意到视频生成的各个环节,我认为还需要一定的时间和技术突破。具体来说,我觉得有以下几个方面的技术卡点:

  • 视频生成的可控性:目前的视频生成技术还不能很好地满足用户的个性化需求,例如生成任意长度、任意风格、任意场景的视频,或者对视频中的元素进行编辑和修改。要提高视频生成的可控性,需要提升模型对长文本的理解能力,以及对视频的分解和重组能力。
  • 视频生成的逼真度:目前的视频生成技术还不能很好地保证生成视频的质量和内容,例如生成的视频可能存在画面模糊、噪声、失真、跳帧等问题,或者视频中的物体、人物、动作、情节等不符合逻辑或常识。要提高视频生成的逼真度,需要提升模型对视频的细节和语义的捕捉能力,以及对视频的一致性和连贯性的保证能力。
  • 视频生成的效率:目前的视频生成技术还需要消耗大量的计算资源和数据,以及较长的训练和生成时间,这可能限制了视频生成的普及和应用。要提高视频生成的效率,需要提升模型的压缩和优化能力,以及对视频的编码和解码能力。

视频生成技术是一个前沿而有趣的研究领域,有着广阔的应用前景和挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1398426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用 FFmpeg 轻松调整视频的大小/缩放/更改分辨率

在此 FFmpeg 教程中,我们学习使用 FFmpeg 的命令行工具更改视频的分辨率(或调整视频的大小/缩放)。 更改视频的分辨率(也称为调整大小或缩放)是视频编辑、处理和压缩中非常常见的操作。对于 ABR 视频流尤其如此&#…

激光无人机打击系统——光束控制和指向系统

激光无人机(UAV)打击系统中的光束控制和指向系统通常包括以下几个关键组件和技术: 激光发射器:这是系统的核心,负责生成高能量的激光束。常用的激光类型包括固体激光器、化学激光器、光纤激光器等,选择取决…

组件(Component):可重用的元素

目标效果:点击粉色按钮后,出现一行“为什么非要点我?”的文字。 用组件的方式实现:首先单击项目文件夹01,然后右键弹窗中点击“添加新文件” 。 选择 QML File 文件: 文件名就叫Button,然后把代…

基于springboot+vue摄影分享管理系统

摘要 摄影分享管理系统是一款全栈应用,采用了Spring Boot和Vue.js作为技术基础。旨在为摄影爱好者提供便捷而强大的平台,用户可以在这里展示、分享和管理自己的摄影作品。系统具备完善的用户管理功能,包括注册、登录和个人信息编辑&#xff0…

css 3D立体动画效果怎么转这个骰子才能看到5

css 3D立体动画效果怎么转这个骰子才能看到5 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equ…

【C++】unordered_map,unordered_set模拟实现

unordered_map&#xff0c;unordered_set模拟实现 插入普通迭代器const迭代器unordered_map的[ ]接口实现查找修改哈希桶完整代码unordered_map完整代码unordered_set完整代码 喜欢的点赞&#xff0c;收藏&#xff0c;关注一下把&#xff01; 上一篇文章我们把unordered_map和u…

阿里云服务器怎么样?阿里云服务器优势、价格及常见问题

阿里云服务器ECS英文全程Elastic Compute Service&#xff0c;云服务器ECS是一种安全可靠、弹性可伸缩的云计算服务&#xff0c;阿里云提供多种云服务器ECS实例规格&#xff0c;如ECS经济型e实例、通用算力型u1、ECS计算型c7、通用型g7、GPU实例等&#xff0c;阿里云服务器网al…

中仕教育:三支一扶的优势有哪些?

"三支"指的是支农、支教、支医&#xff0c;"一扶"则是扶持基层。这是一项为了解决农村地区教育、医疗和农业发展问题&#xff0c;同时提供一定的就业保障的政策&#xff0c;大专学历即可报考。 "三支一扶"有哪些优势? 参与"三支一扶&quo…

《WebKit 技术内幕》之四(3): 资源加载和网络栈

3. 网络栈 3.1 WebKit的网络设施 WebKit的资源加载其实是交由各个移植来实现的&#xff0c;所以WebCore其实并没有什么特别的基础设施&#xff0c;每个移植的网络实现是非常不一样的。 从WebKit的代码结构中可以看出&#xff0c;网络部分代码的确比较少的&#xff0c;它们都在…

【Web】CTFSHOW 文件上传刷题记录(全)

期末考完终于可以好好学ctf了&#xff0c;先把这些该回顾的回顾完&#xff0c;直接rushjava&#xff01; 目录 web151 web152 web153 web154-155 web156-159 web160 web161 web162-163 web164 web165 web166 web167 web168 web169-170 web151 如果直接上传php文…

WordPress怎么去除jquery和CSS静态文件链接中的版本号?附2种方法

我们很多WordPress网站默认情况下所加载的jquery和CSS静态文件链接中都会带有相应的版本号&#xff0c;比如boke112百科使用的YIA主题&#xff0c;加载CSS文件时就会在链接地址后面加上?ver2.7&#xff0c;即是style.css?ver2.7 除了CSS文件会加上版本号外&#xff0c;加载主…

SpringCloud之Nacos的学习、快速上手

1、什么是Nacos Nacos是阿里的一个开源产品&#xff0c;是针对微服务架构中的服务发现、配置管理、服务治理的综合型解决方案&#xff0c;用来实现配置中心和服务注册中心。 Nacos 快速开始 2、安装运行nacos nacos下载地址 下载地址: https://github.com/alibaba/nacos/rel…

go语言(一)----声明变量

package mainimport ("fmt""time" )func main() {fmt.Print("hello go!")time.Sleep(1 * time.Second)}运行后&#xff0c;结果如下&#xff1a; 1、golang表达式中&#xff0c;加&#xff1b;和不加&#xff1b;都可以 2、函数的{和函数名一…

【C++ 记忆站】内联函数

文章目录 一、概念二、特性1、inline是一种以空间换时间的做法如果编译器将函数当成内联函数处理在编译阶段,会用函数体替换函数调用2、inline对于编译器而言只是一个建议若一个函数代码很长则编译器不会将它变成内联3、一般来说,函数代码在10行及以内时这时编译器会将它优化为…

将 SQL Server 2022 数据库备份到 MinIO

Microsoft 在将 S3 连接器和 Polybase 添加到 SQL Server 2022 时取得了重大飞跃。因此&#xff0c;企业可以利用他们保存到对象存储中的大量数据&#xff0c;并使用它来丰富 SQL Server 表。他们还可以利用对象存储来备份 SQL Server&#xff0c;这是开放性和云原生灵活性的又…

通达信主图指标修改为文华公式源码

最近有几位朋友说只用过通达信的软件&#xff0c;咨询有没有通达信指标&#xff0c;我做期货一直是用文华的软件&#xff0c;今天有一位炒股的朋友拿着通达信的指标源码让帮忙修改成文华的&#xff0c;经过他同意分享给大家。 这位朋友是用于辅助股票技术分析&#xff0c;建议做…

【llm 微调code-llama 训练自己的数据集 一个小案例】

这也是一个通用的方案&#xff0c;使用peft微调LLM。 准备自己的数据集 根据情况改就行了&#xff0c;jsonl格式&#xff0c;三个字段&#xff1a;context, answer, question import pandas as pd import random import jsondata pd.read_csv(dataset.csv) train_data data…

深度解析 Compose 的 Modifier 原理 -- DrawModifier

" Jetpack Compose - - Modifier 系列文章 " &#x1f4d1; 《 深入解析 Compose 的 Modifier 原理 - - Modifier、CombinedModifier 》 &#x1f4d1; 《 深度解析 Compose 的 Modifier 原理 - - Modifier.composed()、ComposedModifier 》 &#x1f4d1; 《 深入解…

牛客小白月赛86 解题报告 | 珂学家 | 最大子数组和变体 + lazy线段树动态区间树

前言 整体评价 终于回归小白月赛的内核了&#xff0c;希望以后也继续保持&#xff0c;_. A. 水盐平衡 思路: 模拟 题目保证没有浓度相等的情况 盐度 a/b&#xff0c; c/d 的比较关系 演变为 ad, bc 两者的大小关系 #include <bits/stdc.h>using namespace std;int …

【北京】买套二手房需要多少钱?

上次我们看了苏州和上海的二手房&#xff0c;这次我们一起来看下北京的二手房价格如何。 数据来源 数据来自贝壳二手房&#xff0c;每个区最多获取了3千条房源信息&#xff0c;数据共计4万条左右 对数据感兴趣的朋友&#xff0c;公众号后台发送北京二手房获取数据文件 各区房…