跟无神学AI之一文读尽Sora

news2024/11/26 8:45:29

openAI发布视频生成模型Sora,意味着人类距离AI模拟世界又近了一步,流浪地球2中数字人女儿也是对未来科技发展的一个缩影。

作为最具有代表性的大模型公司,openAI的任何一个产品都具有一定的价值,代表着AI的前沿发展方向。

博主今天较为仔细地阅读了openAI的Sora技术报告,参考开源资料对其中的技术进行了一定的总结,将感悟与各位在此进行分享:

Video generation models as world simulators

Sora的中文为空的意思,延伸含义是无穷尽。为2.15发布的一款视频处理的通用大模型。

技术报告中主要交代了训练模型的数据处理方法以及一些功能的评估和介绍。

之前的模型对于视频的处理的功能都比较狭窄。Sora作为通用的视频数据处理大模型,能够处理尺寸不一的视频,生成分辨率比较高的视频。

Turning visual data into patches

Sora在互联网范围上的数据进行训练,使用了patches这个概念,博主的理解是将视频划分成每一帧的图片,然后将图片用像素点进行表示,每一个视频的所有图片组成的这样一个数据结构就叫做patches,可以理解为视频的一种机器表示,只有对训练数据进行表示,模型才能将之进一步处理。

Figure Patches

 

用上图的编码器将图片变成高维度后再解压成低维度(低维度是按照时空进行组合的)。

Video compression network

使用以上产生的训练数据进行训练,必须得再训练一个解码器将产生的视频表示再转化成视频。

Spacetime latent patches

对训练数据的归一化是通过将包的尺寸转换成合适的网来完成的

Scaling transformers for video generation

Sora是一个diffusion model,能够根据描述进行文生图。Transformer在文生图任务上有不俗的表现:

Figure Diffusion

 

当训练资源增加时,效果能变得更好。所以这也是美丽国用计算资源来限制我国科技发展的一个重要原因

Variable durations, resolutions, aspect ratios

不同于原始的一类输入数据对应一个模型,openAI团队发现将不同尺寸的视频作为训练数据能够具备一定优势:

长宽比例不同的视频能够使用一个模型输出出来

如此保持训练数据的原始能够使得模型产生的视频是完整的(构图更加符合自然)

Language understanding

使用了GPT和DALL·E去分别进行提示词扩展和图生文的描述产生,后者是该公司的另一个产品,想要详细了解可以观看另一篇论文。

Prompting with images and videos

还能用图片和视频作为输入进行其他处理,如拼接、循环等

以下就是该模型的一些具体功能,多种功能也体现其通用性:

Animating DALL·E images

能够以图片和提示词产生视频:将静态图片转换成视频

A Shiba Inu dog wearing a beret and black turtleneck.

Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

An image of a realistic cloud that spells “SORA”.

In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.

Extending generated videos

视频拓展

Video-to-video editing

切换视频场景

Connecting videos

视频拼接

Image generation capabilities

文生图,最高2049×2048分辨率

Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field

Vibrant coral reef teeming with colorful fish and sea creatures

Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details

A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2

Emerging simulation capabilities

一些新出现的模拟性能优势:

3D consistency.更加符合3D空间构图

Long-range coherence and object permanence. 长距离一致性和流畅

Interacting with the world. 表现出一些物体与世界的交互性,因此也体现了其对AI虚拟世界的重大潜力。

Simulating digital worlds. 自动控制游戏,模拟机器行为

Discussion

作为一个模拟器Sora还是存在局限性的,比如对于一些如玻璃打碎等行为不能很好地模拟,吃东西有时不能正确地表现,并且在测试中展现出一些不流畅性等,总而言之还是存在问题的。

国内阿里魔搭社区的爱好者对其模型架构做了一个猜想:

总结:该技术报告展现了数据表示、功能、优势、存在的缺陷,没有交代模型具体架构和具体的训练数据,毕竟这也是AI顶尖团队的商业机密,作为一个黑箱模型的代表,Sora对各行各业又是一个冲击。

觉得有用的话欢迎给个一键三连哦!

关注无神一起学AI!欢迎评论区留言探讨!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1456868.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

人工智能算法:推动未来的技术引擎

随着科技的飞速进步,人工智能(AI)已经渗透到我们生活的方方面面,从智能家居到自动驾驶汽车,再到医疗和金融等领域,AI算法的应用正日益广泛。本文将带你深入了解人工智能算法的魅力、种类以及未来趋势,探讨它们如何推动…

林浩然与杨凌云的Java世界奇遇记:垃圾回收大冒险

林浩然与杨凌云的Java世界奇遇记:垃圾回收大冒险 The Java Adventure Chronicles of Lin Haoran and Yang Lingyun: Garbage Collection Odyssey 在一个充满0和1代码森林的世界里,住着两位勇敢的程序员侠侣——林浩然和杨凌云。林浩然是个身怀Java绝技的…

解决 jenkins 插件下载失败问题 配置 jenkins 插件中心为国内镜像地址

从 jenkins 官网上下载的 jenkins,在安装的过程中,会有安装插件一环: 第一个为默认安装,第二个为手动 选择默认安装之后,会遇到: 安装插件失败,或者卡在安装插件这个地方非常久,久…

C++项目 -- 高并发内存池(五)释放内存过程

C项目 – 高并发内存池(五)释放内存过程 文章目录 C项目 -- 高并发内存池(五)释放内存过程一、Thread Cache释放内存1.完善FreeList功能2.Thread Cache释放内存 二、Central Cache释放内存三、Page Cache释放内存四、释放内存过程…

电脑开机需要输PIN码?教教你如何取消(Win10/Win11通用教程)

目录 方法一: 取消设置 方法二: 注:此系统为Win 11 方法一: 1.更改为本地用户 win键点击头像选择更改账户设置 在Microsof账户选择更改为本地登录 切换选择下一步,输入当前的账户密码 就能来到创建页面&#xff…

数据库所在服务器磁盘满了怎么办?

大家好,我是G探险者。 给大家拜个晚年哈,节后上班第一天,打开电脑,发现数据库服务器连不上了。 幸亏,节后第一天上班的人不太多,领导还没来,我一番鼓捣解决了这个问题。 所以做个总结&#xff0…

如何应对Android面试官->实战高级UI,用自定义View画一条锦鲤(下)

前言 上一章我们用自定义View绘制了一条小鱼,本章我们让这条小鱼游动起来; 涉及的知识点 小鱼的原地摆动 实现小鱼的摆动,我们可以通过属性动画 ValueAnimator 来实现,这里先简单介绍下属性动画 属性动画(ValueAnima…

生成对抗网络----GAN

系列文章目录 文章目录 系列文章目录前言一、基本构成二、应用领域三、基本原理四、如何训练GAN 前言 一、基本构成 GAN (Generative Adversarial Network) : 通过两个神经网络,即生成器(Generator)和判别器(Discriminator&#…

6.s081 学习实验记录(九)lock parallelism

文章目录 一、Memory allocator简介提示实验代码实验结果 二、Buffer cache简介提示实验代码实验结果 该实验将重构某些代码以提高并发度。 首先切换到lock分支: git fetchgit checkout lockmake clean 一、Memory allocator 简介 user/kalloctest 这个程序会对…

企事业单位 | 公司办公终端、电脑文件数据\资料防泄密软件系统——防止核心数据资料外泄!

天锐绿盾是一款专门设计用于防止公司文件数据泄露的软件。 PC端:https://isite.baidu.com/site/wjz012xr/2eae091d-1b97-4276-90bc-6757c5dfedee 以下是该软件的几个关键特点: 文件加密:天锐绿盾使用先进的加密技术,对存储在电脑…

SpringIOC之support模块SimpleThreadScope

博主介绍:✌全网粉丝5W,全栈开发工程师,从事多年软件开发,在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战,博主也曾写过优秀论文,查重率极低,在这方面有丰富的经验…

Dubbo框架admin搭建

Dubbo服务监控平台,dubbo-admin是图形化的服务管理界面,从服务注册中心获取所有的提供者和消费者的配置。 dubbo-admin是前后端分离的项目,前端使用Vue,后端使用springboot。因此,前端需要nodejs环境,后端需…

上百份信任印记,见证我们与客户共赴的数智化征程

回看2023,这注定是不平凡的一年! 全国经济加快复苏,中国作为世界经济增长的压舱石,以5.2%的GDP增长成为全球经济发展的稳定力量。 国务院印发《数字中国建设整体布局规划》,从政府到央国企,从行业领头羊到…

【Git】上传本地文件到Git(以Windows环境为例)

Git 的下载参考:Git 安装及配置 一、Git 上传的整体流程 1、工作区 > 本地仓库 将本地文件上传到Git,需要先上传到本地仓库,然后再上传到远程仓库。要上传文件到本地仓库,不是直接拷贝进去的,而是需要通过命令一步…

LLM应用开发与落地:chroma的近似搜索问题

背景 最近开始测试一个游戏客户的RAG模块,发现一个向量数据库中大家容易忽略的一个点:近邻搜索算法。一开始我们选择的是chroma作为向量数据库,因为chroma的用户接口和设计非常简单,而我偏向于简单。创建collection时设置的距离计…

stable-video-diffusion 图生视频模型diffusers使用案例

T4卡16g运行: 参考:https://huggingface.co/docs/diffusers/main/en/using-diffusers/text-img2vid 案例用的google colab T4显卡运行 安装包:pip install diffusers accelerate 代码 import torch from diffusers import StableVideoDiffusionPipeline from diffusers.uti…

SPSSAU【文本分析】|我的项目

文本分析之我的项目 SPSSAU提供文本分析模块,其单独针对文本数据进行研究和分析使用,其包括词云分析、文本情感分析、文本聚类分析、社会网络关系分析、LDA主题分析、新词发现和我的词库等功能。使用SPSSAU进行文本分析时,涉及下述内容。分别…

【刷刷刷,爽!】leetcode198. 打家劫舍

题目如上! 这是一道非常非常标准的初级动规题。属于走楼梯的进阶版。所以我们尝试把他变成走楼梯。 怎么变?或者说是怎么看成走楼梯。 答案是!!!! 看最后一个数。 往往会最有灵感。 比如示例1中[1,2,3,4]&a…

docker 服务的启动命令

Docker 服务的启动命令主要涉及 Docker Daemon 的启动和管理。Docker Daemon 是在后台运行的服务进程,负责管理 Docker 容器的创建、运行、停止等操作。根据你使用的操作系统,启动 Docker 服务的命令可能有所不同。 对于 Linux 系统 使用 systemctl (适…

【二十四】【C++】多态

多态的基本概念 多态是一种允许使用相同的接口来访问不同的底层形式(类型)的对象的能力。C中的多态主要通过以下两种方式实现: 编译时多态(静态多态):通过函数重载和运算符重载实现。 运行时多态&#x…