聊聊国内「类Sora模型」发展现状,和 Sora 的差距到底有多大?

news2024/11/24 9:45:03

2024 年 2 月 16 日。

就在谷歌发布他新一代的多模态大模型 Gemini 1.5 Pro 的同一天,OpenAI 带着新一代的文生视频模型 Sora 再次抓住了全世界人们的眼球

“颠覆”、“炸裂”、“变天”、“疯狂”,类似的形容词一夜之间簇拥在 Sora 周围,可能不同于 ChatGPT,我们还需要与其“促膝长谈”才能惊觉它的与众不同,Sora 几乎是以一种所见即所得的方法将震撼输入到我们的眼眶

如果说从文本到文本的一问一答,从输入到输出模型为我们提供与增加的信息量我们尚且可以想象的话,Sora 这样从文本到视频的输入输出可能只有用“创造”一词可以概括。

而同时,已经被 ChatGPT 的成功培养过的 AI 创业者投资者们马上看到了隐藏在这意为“天空”的四个字母组合下巨大的商业机遇,风口之下,转回自身,我们可能马上会想到:“伴随着 Sora 的出现,国内的 AI 企业呢?有无类似 Sora 的产品?有无相应的技术积累?有无快速组建团队跟进文生视频技术的能力?

那么今天,我们就对国内视频生成模型的现状来一次“工业大摸底”,看看当下国内的视频生成模型究竟如何到底怎样,与 Sora 差距几何又有无亮眼之处。我们整体介绍了国内包含字节、腾讯、百度、阿里以及两家创业企业的 9 个视频生成模型,整体汇总如下:

OK,在介绍国产模型之前,让我们先从 Sora 开始讲起……

OpenAI:Sora

事实上,就像大语言模型,文生视频并不是一个 OpenAI “独创”的领域,而是伴随着如文生图技术的进步与发展衍生出的,具有更高技术难度与复杂度的“子领域”。在 Sora 之前,我们就已经报道过不少关于文生视频的工作,简单列举几个譬如:

  • 谷歌重磅发布零样本视频生成模型!效果惊艳,赶超扩散模型?

  • 字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2

  • 短视频界的变革者:上海 AI lab 发布 Vlogger,几句话生成分钟级视频

  • 文生视频 Pika 1.0 全面开放测试!

  • AI自导自演的电视剧,每个角色都是一个大模型,斯坦福25人小镇精神续作

  • ……

可以看到,在视频生成领域,很早就有 Pika、Runway、Gen-2 等等珠玉在前,那么面对这么多视频生成的工作,为什么只有 Sora 成功破圈了呢?

面对这个问题,就让我们首先来快速过一下 Sora 的技术报告,文章题为《Video generation models as world simulators》,在开篇伊始,OpenAI 强调的反而不是其卓越的视频生成能力,而是其作为“世界模拟器”的潜力

这里其实划重点,区别于以往的视频生成工作,Sora 在生成高清精美的视频背后,事实上为 AGI 探索了一条“模拟真实世界模型”的技术进路,Sora 生成的视频惊人的展现了模型对“物理世界”这个抽象概念的理解,复述英伟达人工智能研究院 Jim Fan 的评论:“如果你还是把Sora当做DALLE那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。”

从技术架构的角度,目前大部分学者仍然是认为 Sora 展现的 World Simulators 功能仍然是很有 OpenAI 风格的参数量增加导致的“涌现”的结果。其实先不说是大模型,哪怕是最先进的仿真软件在建模物理世界这件事上都面临着极大的困难,从视频生成的角度,模型理解物理世界需要做到比如三维一致性,物体持久性,长距离连贯性等等,而这一切是如何从目前技术报告中公布的 VAE编码器 + ViT + 条件扩散 + DiT模块 + VAE解码器中得到似乎还是一个未解之谜。

而除了充满科幻色彩的“世界模拟器”,作为一个“文生视频大模型”,Sora 最突出也是最令人震撼的一点在于,它可以根据 Prompt 文字直接生成 60 秒的连贯视频,60 秒看似不长,但是在 Sora 出现以前,AI 生成视频的平均长度仅仅在 4 秒左右,而如果再给这个数字一个参照物,人均单日使用时长超 2.5 小时的抖音短视频的平均长度仅仅在 20-30 秒之间,对于商业电影,60 秒意味着 15 个镜头,对于优秀导演而言甚至足够叙述一个完整的故事。

此外,在视频时长这个可以被量化对比的指标以外,Sora 给人更直观的感受是其绝佳的“连贯性”,

不是面向阅读论文关注量化指标的审稿人而是面向大众,高清连贯的视频更能给人带来以最为直观的视觉冲击。

同时,Sora 的“逼真度”也着将视频生成上升到了一个新的高度,如下图所示,如果不是央视特殊标注“模型生成视频”,有几个人可以从这个眼睛中看到一丝破绽?

而除了这些最直观的颠覆以外,Sora 还带来了诸如更强的语义理解能力、对不同宽高比和分辨率的适应能力、优秀的视频扩展能力等等,也无怪于 Sora 横空出世就可以为视频生成带来“ChatGPT 时刻”。

OK,先入为主看完 Sora 实现的神奇功能,那么再让我们站在更高的视角带着批判的眼光看看过去半年内国产视频生成模型现状!

字节:MagicVideo-V2/PixelDance

在国内大厂中,视频生成领域布局最多的还是当属靠短视频发家致富的字节跳动,事实上在 Sora 面世前的一个月,字节其实刚刚推出了一款文生视频模型 MagicVideo-V2,通过将文生图像、图像生成视频、视频到视频和视频帧插值四大模型集成在一个框架内,使得 MagicVideo-V2 有能力生成高清、流畅与连贯的视频。

在论文中字节强调这是一款在视频高清度、润滑度、连贯性、文本语义还原等方面击败主流的如 Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion 等的先进文生视频模型

从官网(https://magicvideov2.github.io)的例子中来看,视频的清晰度、逼真程度与动作的连贯性其实都相当不错,举例来看,让 MagicVideo-V2 生成一只弹吉他的北极熊,视频高清度、文本语义还原程度与连贯性都相当不错

▲A polar bear is playing guitar

而再如希望生成不是卡通而是更加真实一点的视频,一个小男孩在公园小路上骑自行车,这里我们可以看到对比 Sora “以假乱真” 式的结果,MagicVideo-V2 则略显“卡通”,仍然有不真实的感觉存在,并且一些细节部位的处理的仍然不到位:

当然,前面说的不够逼真与略显卡通事实都无伤大雅,对比 Sora 真正让 MagicVideo-V2 一败涂地的还是视频时长,从上面的例子中也可以看出,MagicVideo-V2 生成的视频时长仍然在 3-4 秒之内,我们往往只能看到“图片”确实动起来了,但远没有 Sora 带给我们大片式的震撼。

除了最新的 MagicVideo-V2,去年 11 月字节也发布了一款文字 + 首帧指导(图片)+ 尾帧指导(图片)生成视频的工具 PixelDance。

区别于完全的文本到视频的转换,PixelDance 的模式是从指导图片+文本描述到视频的转换,尽管也是 GIF 画风,但是清晰度与流畅度已经可以让人眼前一亮,比如下面这段“铜雕夫妻接吻并旋转”

但是视频整体风格仍然有点“虚假”,认人物动作有时候也比较僵硬,比如下面这个“女孩慢慢转过头,微笑,头发”:

而除却上面这些三四秒的动画,也许是得益于有“图片”信息的辅助,在官网(https://makepixelsdance.github.io)中,PixelDance 令人惊喜的制造了一部“超越” Sora 的三分钟微电影:

不过从上面这部“电影”来看,动作不自然、转场僵硬,角色突然的形变等等这类问题数不胜数,还远远未达到“颠覆短视频业”的程度。

而其实事实上在去年 11 月 PixelDance 面世之初,也就是三四个月前,视频生成业界的观点还停留在:“生成有高度一致性且有丰富动态性的视频,让视频内容真正地动起来,是目前视频生成领域中的最大挑战”。而对比当时的观点与这些“旧模型”,Sora 带给人们的震撼可能也并不难以理解。

除了 MagicVideo-V2 与 PixelDance 以外,这两天抖音旗下的剪映也宣布文生图工具 Dreamina 即将上线文生视频的功能,并且正在内测,当下 Sora 热度未减,不知道 Dreamina 能否带给大家不同于 MagicVideo-V2 的惊喜,让我们一起期待。

腾讯:VideoCrafter2

非常有意思的是,在字节发布 MagicVideo-V2 仅仅一天后(1 月 17 日),国内大厂像玩起萝卜蹲式的推出自己的视频生成模型,前有腾讯的 VideoCrafter2,后有百度的 UniVG,先来说说腾讯的 VideoCrafter2。

顾名思义,VideoCrafter2 是与 PixelDance 同期发布的 VideoCrafter 的续作,先来简单看看这个 VideoCrafter 的“成片”,比如“宇航员骑马”:

效果其实与同期的几个模型大同小异,不过 VideoCrafter 在个性化视频生成与视频生成控制上做了文章,支持在一组特定的视频片段或图像中对模型进行微调以迁移视频风格与更深度的控制生成结果的能力

值得注意的是,VideoCrafter 使用的是被 Sora 用Diffusion Transformer(DiT)“扬弃” 了的 U-net 网络,而这一点在 VideoCrafter2 中也没有改变。而事实上,VideoCrafter2 的主要贡献集中在了“如何用低质量视频和高质量图像数据生成高质量视频”上(https://github.com/AILab-CVC/VideoCrafter)。

当然,对比原始的 VideoCrafter,VideoCrafter2 在视频清晰度与动态效果上也有极大的提升,比如“一个孩子兴奋地在有点生锈的秋千上荡秋千”

再如:“一位戴眼镜的年轻女子戴着粉红色的头带在公园慢跑”

整体来看视频的清晰度,流畅程度其实都可圈可点,这种在低质量数据中训练高质量视频的方法也非常有可取之处。不过遗憾的是,如果我们先入为主首先看过了 Sora 生成的视频,无论是从视频长度、动作质量,还是人物形变等等方面,总会令人感觉这二者仿佛不在一个维度进行竞争。

百度:UniVG

说完了腾讯的 VideoCrafter2,再来看看百度同天上线的 UniVG(https://univg-baidu.github.io),区别于腾讯主要在从低质量数据到高质量数据上做文章,百度 UniVG 的卖点主要在于“Unified-Model”,期望构建一种文字与图片任意组合输入的更加灵活的视频生成模型

从生成结果来看,UniVG 的清晰度非常令人惊喜,比如“一只猫正在吃胡萝卜”

“小女孩与鱼”

整体来看清晰度、真实性都相当不错,但可能最大的问题仍然在“太短了”,生成的视频仍然像是多张图片的“拼凑”,而似乎没有一个构建统一故事的可能。UniVG 生成效果的整体演示如下面的视频所示:

阿里:I2VGen-XL/EMO

再来看阿里,其实在 Sora 面世前的五个月,阿里就在其魔搭社区上线了视频生成大模型 I2VGen-XL(https://i2vgen-xl.github.io),区别于文字生成视频,阿里 I2VGen-XL 的主要方向是图像生成视频,同样是基于 Latent Diffusion Models(LDM),阿里与腾讯一样也使用的是 U-net 网络,而在模型架构以外,I2VGen-XL 在数据集上也下了功夫,收集了约 3500 万单镜头文本-视频对与 60 亿文本-图像对优化模型。

从视频生成效果来看,I2VGen-XL 也确实对的起“High-Quality”的评价。比如输入一张这样的猫咪图片:

I2VGen-XL 生成的视频效果是这样的:

输入三只狼:

I2VGen-XL 也能让他们“跑起来”:

其实 I2VGen-XL 在问世之初也被冠以“里程碑”的名号,在视频的动作丰富度,还原度,流畅度等等方面也都做到了当时最佳,然而 I2VGen-XL 也仍然只是让图片“动了起来”,也远未达到 Sora “World Simulators”级别的震撼

除了 I2VGen-XL,也就是在最近几天,阿里又推出了其图片+声音生成视频的 EMO 框架 (Emote Portrait Alive,EMO)。相比 I2VGen-XL,不得不说阿里这个 EMO 要更为好玩一点:

如上图所示,对一张图片任意输入一段音频,就可以让蒙娜丽莎讲话,让赫本开口唱歌:

这里还有一个和 Sora 的小小联动,输入一个 Sora 生成的虚拟决策,再加一段 OpenAI 首席技术官 Mira Murari 接受访谈的音频,就可以惟妙惟肖的以假乱真:

除了单纯的从图像到视频,EMO 更令人惊喜的功能在于无论输入音频的长度如何,EMO 都可以生成相应时长的视频,并且保持角色的个性与特征。而从上面的视频中也可以看到,这次由 EMO 生成的视频超越了之前几家“GIF”的特征,面部表情和头部姿态都可以保持长时间的生动与稳定,也有大佬揪住细节甚至发现 EMO 生成的视频耳朵、眉毛与喉咙的还原度都非常之高:

创业公司:HiDream/PixVerse……

除了这些大厂巨头,国内也有不少创业公司在发力视频生成这一领域,比较有代表的有智象未来(HiDream.ai)的 HiDream 与爱诗科技的 PixVerse。这两款应用都可以方便的在线体验:

HiDream:https://hidreamai.com/ PixVerse:https://app.pixverse.ai/

先来看 HiDream,HiDream 可以直接通过微信进行登录,输入一段文字 HiDream 可以在一两分钟内生成出对应的视频,比如我们以“一只弹吉他的北极熊”进行测试:

HiDream 可以生成出 4 秒左右的视频,视频清晰度,动作流畅度也都相当不错

再来看 PixVerse,在输入提示词,选择各种风格之后,PixVerse 在几分钟内也可以生成对应的视频,不过其指令遵循能力似乎并不太能得到信赖,同样以 “一只弹吉他的北极熊” 为输入,当风格勾选“现实”时,PixVerse 生成了一个女生在弹吉他而没有北极熊的影子,而当风格勾选“动画”时,PixVerse 却生成了两只北极熊

其生成的视频质量如下所示,可以明显看出一些细节的处理仍然不到位:

Sora 之后

放在一个更大的视角,综合来看国产的视频生成模型与 Sora 的对比,尽管这些模型问世时都或多或少的为我们带来了惊喜,在论文与技术报告中宣称超越了各种 benchmark,在没有 Sora 的对比之前,或许我们都可以一个个赞美与表扬过去这里有创新那里有亮点

但是一旦当我们先行看过 Sora,再去审视这些年龄仅仅比 Sora 大一两月与两三月的模型,我们就会看到其实它们与我们想象中的,也是 OpenAI 带给我们的“真正变革”相距甚远。英国近代史大师艾瑞克·霍布斯鲍姆如此评价工业革命:“一旦工业化进程开始,变革就成为了常态”,而目光转向我们现在经历的这场 AI 革命,我们却总是发现国产模型在“常态的变革”中,完成最多的似乎又总是一些“小修小补”的工作,而一次又一次与里程碑式的进步失之交臂。

在国内一家又一家自诩或被人们称为“中国的 OpenAI”的公司中,在所谓“中美平分 AI 的半壁江山”的论调下,我们似乎总是在进行“赶超战略”,但是就像谷歌在发布它的 Gemini 1.5 Pro 当天 Sora 横空出世那样,如此继续在歌舞升平中“常态化变革”至“长期性平庸”,我们总会一次又一次的看着 ChatGPT、Sora 这样的技术不断重复着他们出现、我们追赶、他们打压、我们落后的循环

我们需要看到,在我们认为“视频生成最大的挑战在于‘让视频内容动起来’”时,Sora 瞄准的是视频生成背后的“世界模拟器”的功能,我们的视频生成模型与 Sora 的差距可能也不仅仅是我的 4 秒它的 60 秒。也许只有当我们的企业我们的创新不是单单瞄准一个领域圈定的范围画好的边界去集中力量办大事,而是抱着对“智能”而非“智能应用”真正的“好奇”去指导我们想象智能的边界,探索的未知的可能,我们才有可能不再紧随其后,而是弯道超车吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1489213.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅谈一个CTF中xss小案例

一、案例代码 二、解释 X-XSS-Protection: 0:关闭XSS防护 之后get传参,替换过滤为空,通过过滤保护输出到img src里面 三、正常去做无法通过 因为这道题出的不严谨所以反引号也是可以绕过的 正常考察我们的点不在这里,正常考察…

LSA头部结构简述

LSA(Link State Advertisement)是一种用于路由协议头部结构,用于在网络中传递路由信息。 LSA头部结构包含以下几个字段: 1、LSA类型(LSA Type):指示LSA的类型,不同类型的LSA用于传递…

怎么压缩成mp4视频?

在数字化时代,视频已经成为我们日常生活中不可或缺的一部分。然而,有时候我们可能会遇到视频文件太大的问题,不便于传输、存储或分享。那么,如何将视频压缩成MP4格式,以减小文件大小呢?本文将为您介绍几种简…

某大型制造企业数字化转型规划方案(附下载)

目录 一、项目背景和目标 二、业务现状 1. 总体应用现状 2. 各模块业务问题 2.1 设计 2.2 仿真 2.3 制造 2.4 服务 2.5 管理 三、业务需求及预期效果 1. 总体业务需求 2. 各模块业务需求 2.1 设计 2.2 仿真 2.3 制造 2.4 服务 2.5 管理 四、…

四年一段旅途,一个起点,一个机会

不得不感慨一下,现在的年轻人、大学生实在是太厉害了 最近加入了一个社群,是一名大三学生创建的,他短短一年间,就创建了一个数千人的社群,还运营的几十个副业社群,一年的时间变现100W,这些成绩…

嵌入式学习第二十四天!(进程间通信:消息队列、共享内存、信号灯)

进程间的通信: 消息队列、共享内存、信号灯: 1. IPC对象:内存文件 1. ipcs: 查看系统中的消息队列,共享内存、信号灯的信息 2. ipcrm: 删除消息队列、共享内存、信号灯 ipcrm -Q/-M/-S key ipcrm -q/-m/-s…

Jmeter系列(4) 线程属性详解

线程属性 线程组是配置压测策略的一个重要环节线程组决定了测试执行的请求数量 线程数 在这里线程数相当于一个虚拟用户每个线程数大约占内存1M特别注意⚠️ 单台机器最大线程数不要超过1000,不然可能会造成内存溢出 Ramp-Up时间 所有线程在多长时间内全部启动…

S7-1200PLC脉冲轴位置控制功能块优化(完整SCL源代码)

博途PLC 位置控制功能块常用应用,可以参考下面文章链接: 1、博途PLC脉冲轴绝对定位往复运动控制 https://rxxw-control.blog.csdn.net/article/details/135768878https://rxxw-control.blog.csdn.net/article/details/1357688782、脉冲轴位置控制功能块…

自测-5 Shuffling Machine(python版本)

文章预览: 题目翻译算法python代码oj反馈结果 题目 翻译 shuffle是用于随机化一副扑克牌的过程。由于标准的洗牌技术被认为是薄弱的,并且为了避免员工通过不适当的洗牌与赌徒合作的“内部工作”,许多赌场使用了自动洗牌机。你的任务是模拟一…

【LeetCode:225. 用队列实现栈 + 栈 | 队列】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

HTML5:七天学会基础动画网页5

CSS3渐变 (可以给背景颜色设置一个渐变的效果) 线性渐变:Linear Gradients(从直线上向远处见面) 语法: background:linear-gradient(direction,color-stop1,color-stop2…); direction:方向 to left, to right, 90deg 径向渐变:Radial …

HM_2019在面积不变情况下编辑网格

首先,应该保存其形状,计算他的面积。让面积不变作为一个约束,然后进行网格的形变。

HTML5:七天学会基础动画网页7

CSS3高级特效 2D转换方法 移动:translate() 旋转:rotate() 缩放:scale() 倾斜:skew() 属性:transform 作用:对元素进行移动,旋转,缩放,倾斜。 2D移动 设定元素从当前位置移动到给定位置(x,y) 方法 说明 translate(x,y) 2D转换 沿X轴和Y轴移…

什么是张量?如何理解张量?

一、张量概念 张量(tensor)是一个多维数组,它是向量(一维数组)和矩阵(二维数组)的推广。在数学和物理学中,张量是一种广泛应用的概念,用来描述物理量在空间中的分布和变…

VMware之VSAN

VMware VSAN特点 聚合了虚拟化管理程序的极其简单的存储软件 1、完全式:全都是固态硬盘 2、混合式存储解决方案: →磁盘(硬盘) →基于闪存的磁盘(固态硬盘) 3、横向扩展体系: 增加主机数量 4、…

uniapp实现进度条组件

首先&#xff0c;在uniapp项目中创建一个自定义组件&#xff0c;可以命名为Progress.vue。在Progress.vue中&#xff0c;编写如下代码&#xff1a; <template><view class"progress"><view class"progress-bar" :style"{width: progr…

水牛社软件是真的吗?

软件是真的&#xff0c;不过毕竟是为了赚钱或者获取资源而买的&#xff0c;所以大部分只关心能赚多少钱吧 说实话&#xff0c;我用了2年了&#xff0c;一些独立的项目还有群&#xff0c;有一月挣几千上万的&#xff0c;有一月赚几百的 软件是一个集合体&#xff0c;不是像很多…

Html基础标签以及属性和用法

HTML基础 超文本标记语言&#xff08;英语&#xff1a;HyperText Markup Language&#xff0c;简称&#xff1a;HTML&#xff09;是一种用于创建网页的标准标记语言。 您可以使用 HTML 来建立自己的 WEB 站点&#xff0c;HTML 运行在浏览器上&#xff0c;由浏览器来解析。 HTM…

考研英语语法(句子成分)

目录 1.主句的成分&#xff1a; 2.化妆后句子的成分&#xff1a; 3.句子的基本结构&#xff1a; 4.句子成分表 5.复杂句型总结 1.并列句&#xff08;是由并列连词连接两个或两个以上的句子&#xff0c;用逗号隔开&#xff09; 2.名词性从句&#xff08;名词在句中充当成…

【Vue】探究 Vue 2 与 Vue 3 生命周期:变化与延续

&#x1f497;&#x1f497;&#x1f497;欢迎来到我的博客&#xff0c;你将找到有关如何使用技术解决问题的文章&#xff0c;也会找到某个技术的学习路线。无论你是何种职业&#xff0c;我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章&#xff0c;也欢…