openAI发布视频生成模型Sora,意味着人类距离AI模拟世界又近了一步,流浪地球2中数字人女儿也是对未来科技发展的一个缩影。
作为最具有代表性的大模型公司,openAI的任何一个产品都具有一定的价值,代表着AI的前沿发展方向。
博主今天较为仔细地阅读了openAI的Sora技术报告,参考开源资料对其中的技术进行了一定的总结,将感悟与各位在此进行分享:
Video generation models as world simulators
Sora的中文为空的意思,延伸含义是无穷尽。为2.15发布的一款视频处理的通用大模型。
技术报告中主要交代了训练模型的数据处理方法以及一些功能的评估和介绍。
之前的模型对于视频的处理的功能都比较狭窄。Sora作为通用的视频数据处理大模型,能够处理尺寸不一的视频,生成分辨率比较高的视频。
Turning visual data into patches
Sora在互联网范围上的数据进行训练,使用了patches这个概念,博主的理解是将视频划分成每一帧的图片,然后将图片用像素点进行表示,每一个视频的所有图片组成的这样一个数据结构就叫做patches,可以理解为视频的一种机器表示,只有对训练数据进行表示,模型才能将之进一步处理。
用上图的编码器将图片变成高维度后再解压成低维度(低维度是按照时空进行组合的)。
Video compression network
使用以上产生的训练数据进行训练,必须得再训练一个解码器将产生的视频表示再转化成视频。
Spacetime latent patches
对训练数据的归一化是通过将包的尺寸转换成合适的网来完成的
Scaling transformers for video generation
Sora是一个diffusion model,能够根据描述进行文生图。Transformer在文生图任务上有不俗的表现:
当训练资源增加时,效果能变得更好。所以这也是美丽国用计算资源来限制我国科技发展的一个重要原因
Variable durations, resolutions, aspect ratios
不同于原始的一类输入数据对应一个模型,openAI团队发现将不同尺寸的视频作为训练数据能够具备一定优势:
长宽比例不同的视频能够使用一个模型输出出来
如此保持训练数据的原始能够使得模型产生的视频是完整的(构图更加符合自然)
Language understanding
使用了GPT和DALL·E去分别进行提示词扩展和图生文的描述产生,后者是该公司的另一个产品,想要详细了解可以观看另一篇论文。
Prompting with images and videos
还能用图片和视频作为输入进行其他处理,如拼接、循环等
以下就是该模型的一些具体功能,多种功能也体现其通用性:
Animating DALL·E images
能够以图片和提示词产生视频:将静态图片转换成视频
A Shiba Inu dog wearing a beret and black turtleneck.
Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.
An image of a realistic cloud that spells “SORA”.
In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.
Extending generated videos
视频拓展
Video-to-video editing
切换视频场景
Connecting videos
视频拼接
Image generation capabilities
文生图,最高2049×2048分辨率
Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field
Vibrant coral reef teeming with colorful fish and sea creatures
Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details
A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2
Emerging simulation capabilities
一些新出现的模拟性能优势:
3D consistency.更加符合3D空间构图
Long-range coherence and object permanence. 长距离一致性和流畅
Interacting with the world. 表现出一些物体与世界的交互性,因此也体现了其对AI虚拟世界的重大潜力。
Simulating digital worlds. 自动控制游戏,模拟机器行为
Discussion
作为一个模拟器Sora还是存在局限性的,比如对于一些如玻璃打碎等行为不能很好地模拟,吃东西有时不能正确地表现,并且在测试中展现出一些不流畅性等,总而言之还是存在问题的。
国内阿里魔搭社区的爱好者对其模型架构做了一个猜想:
总结:该技术报告展现了数据表示、功能、优势、存在的缺陷,没有交代模型具体架构和具体的训练数据,毕竟这也是AI顶尖团队的商业机密,作为一个黑箱模型的代表,Sora对各行各业又是一个冲击。
觉得有用的话欢迎给个一键三连哦!
关注无神一起学AI!欢迎评论区留言探讨!