Sora的原理,中国小学生游戏在践行

news2025/1/12 8:07:56

大家龙年好呀,春节假期和家人出去浪了,旅行期间,几乎没刷社交媒体信息。等我17号回到家仔细看手机,Sora的消息铺面而来,什么“新革命”、“划时代”、“新纪元”······说的挺神呼。

任何新事物出现,讨论热烈是好事,但仁者见仁、智者见智。真实情况如何,还是要去看看产品的技术原理。

OpenAI已在官网发布了Sora的技术文档,发布一周后的今天,鹅厂研究院翻译了这篇技术文档。(咱就是说,同样是研究机构,有些在创新引领,有些沦为翻译搬运工还不标注来源,挺戏谑啊~)

昨天晚上我认真看过Sora的技术文档后,突然启发我回忆起童年玩过的一款游戏,相信大部分国人都玩过。以下内容只是个人见解,不喜勿喷,欢迎评论区探讨~

与Sora原理相似的中国小学生游戏

先简介一下这款小学生游戏原理,方便后面模仿理解Sora原理。

假设一个班上有6个小学生,A、B、C、D、E、F。每个人分到6张纸,同一个人分到的纸颜色相同。让6个小学生分别独自在自己分到的纸上写主语、谓语、宾语、时间副词、地点副词、形容词的词组,如图所示:

然后,把A、B、C、D、E、F小学生写的纸条都折成相同大小的阄,按颜色分成6堆。

接下来,让A学生依次在黄色阄、蓝色阄、绿色阄、灰色阄·······、紫色阄中分别抽一张。每次抽取后都不放回,36张阄组成的场景共有720种。其中:
               既可以组成简短的场景片刻,比如“饥饿的小明晚上在房间吃鸡腿”;

       

              也可以组成滑稽的动态场景,比如“1940年,狗子在书房激烈的玩粑粑”;
              还可以组成一个有时间跨度(durations)的场景系列。比如:
                                “饥饿的小明晚上在房间吃鸡腿,(想到了)
                                马冬梅昨天在餐厅开心的喝奶茶,(与此同时),
                                 小明家安静的猫正在痛苦的拉粑粑。小明看作业(中)写(着),
                                      上世纪狗子在院里谨慎的看家······“

有孩子的可以尝试带家里的小学生玩一玩上述游戏,有助于启蒙汉语语法结构、英语语法结构,当然,也可以用这个游戏为高年级孩子形象讲解,大模型的token是什么。

还没当父母的有志青年们,请继续往下看,上述的游戏和Sora原理的共通之处。

Sora技术原理中的关键--patch

上述游戏的每个阄,就相当于Sora中的patch。只不过,上述游戏的阄是二维平面文字,patch是带像素空间的三维立体数据包。根据技术文档介绍,Sora是一个扩散模型,它接受输入的噪声包( noisy patches),然后被训练去预测原始的“干净”包。

OpenAI在Sora的技术文档里,用大语言模型的token类比了patch在文字生成视频中的过程,并放出了Sora的三维patch解码器模型,如下图所示:

同样,咱们上述抓阄游戏有同样的过程,如下图所示:

就说这原理像不像吧?大道无形啊!!!

当然,咱们的抓阄游戏比较粗糙,但是Sora刚开始训练生出的视频画面也很抽象啊。随着训练量的增加,Sora的扩散转换器生成的视频样本越来越清晰。如下图所示:

小狗视频从左往右依次是初始训练、4倍训练、32倍训练。

类似地,咱们上述介绍的抓阄游戏,只以6个要素(6种颜色的纸条)来描述场景。如果我们要素增加,比如“小明吃鸡腿”这个动作,我们加上,“小明第一口花了0.05秒咬到鸡腿上的皮,然后用了0.1秒咬到鸡腿上的肉,直到0.2秒时吃到第一口鸡腿肉,并开始用牙齿咀嚼······”,以此类推,“饥饿的小明晚上在房间吃鸡腿”这个场景,高低可以整出10分钟视频。(至少,我一般需要十几分钟能吃完一个鸡腿😂)

所以,咱们上述抓阄游戏,把每个小学生的抓阄结果连成一句话后,让DALL·E 2、DALL·E 3根据文字生成图片,然后再根据一定的逻辑把成百上千的图片一帧一帧的连起来,就可以形成一个视频雏形。毕竟,连OpenAI也在Sora的技术文档里写道,“

因为视频本质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。通过基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,只需在适当大小网格中安排随机初始化的包,以此控制生成视频的大小和分辨率。

那么,问题来了:

既然我们的小学生早已在游戏中模拟“文生视频”的原理,

为什么我们没有创造出Sora此类产品?

PS: Sora的技术文档的内容详实,更多细节将在之后更新~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1459602.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AS-V1000 视频监控平台产品介绍:客户端功能介绍(四)

目 录 一、引言 1.1 AS-V1000视频监控平台介绍 1.2平台服务器配置说明 二、软件概述 2.1 客户端软件用途 2.2 客户端功能 三、客户端功能说明 3.1告警管理 3.1.1告警联动 (1)告警联动显示 (2)告警联动处理 3…

unity学习(31)——跳转到角色选择界面(打勾?手滑挂错脚本)

There are 2 audio listeners in the scene. Please ensure there is always exactly one audio listener in the scene. 是因为后来创建了一个camera,因为camera中自带一个组件Audio Listener。所以有两个camera就有两个audio listener导致报错。 一个简单的解决…

C++(18)——适配器概念以及stack、queue、优先队列的模拟实现

上篇文章中,给出了对于模拟实现中功能的补全,本篇文章将优先介绍一个新的容器之后引入什么是适配器,以及适配器的使用方法,再通过适配器的思想来完成对于,、优先级队列_的实现。 目录 1. deque: 1.1 什么是deque&…

【嵌入式-Keil】keil代码提示快捷键

CTRL空格 如果没有提示,可能跟输入法的快捷键冲突, 右键->设置->按键->勾掉第一个就行了 再按CTRL空格就有提示了 参考:串口发送&串口发送接收

SAP PP学习笔记02 - PP中配置品目Master时的顺序

配置品目Master的时候,最佳实践是要遵循什么顺序呢? 一般而言是如下顺序 - 新规物料类型(或利用现有类型也可以) - 设定料号范围 - 设定物料状态(比如准备好之前,要先锁住,等准备好了之后再…

CTFshow web(SQL注入176-179)

web176 没啥好说的,直接上万能密码: 1 or usernameflag 当然了还有别的方法: 1 union Select 1,2,group_concat(password) from ctfshow_user where username flag -- web177 没啥好说的,直接上万能密码: 1 or user…

《VitePress 简易速速上手小册》第1章:VitePress 入门(2024 最新版)

文章目录 1.1 VitePress 简介与架构1.1.1 基础知识点解析1.1.2 重点案例:企业文档站点1.1.3 拓展案例 1:个人博客1.1.4 拓展案例 2:产品展示网站 1.2 安装与初次运行1.2.1 基础知识点解析1.2.2 重点案例:公司内部知识分享平台1.2.…

关于VIT(Vision Transformer)的架构记录

在VIT模型设计中,尽可能地紧密遵循原始的Transformer模型(Vaswani等人,2017年)。这种刻意简化的设置的一个优势是,可扩展的NLP Transformer架构及其高效的实现几乎可以即插即用。 图:模型概述。我们将图像分…

MySQL在OpenEuler中的安装及数据库的备份

MySQL在OpenEuler中的安装 MySQL以二进制形式进行安装 1.获取软件包 (在进行获取时,检查网络是否通畅) wget -c https://mirrors.aliyun.com/mysql/MySQL-8.0/mysql-8.0.28-linux-glibc2.12-x86_64.tar.xz2.创建用户组和用户 groupadd -g…

图片怎么变成透明背景?分享这些变透明的方法

很多从事编辑和图片设计的同行在日常工作中经常需要处理图片的背景色。为了更好地进行设计和编辑,将图片的背景色替换成透明是非常必要的。然而,对于一些新手来说,使用专业的图像处理软件可能有些困难。不过,现在有很多在线的图像…

大厂的数据质量中心系统设计

日常工作中,数据开发上线完一个任务后并不是就可以高枕无忧,时常因上游链路数据异常或者自身处理逻辑的 BUG 导致产出的数据结果不可信。而问题发现可经历较长周期(尤其离线场景),往往是业务方通过上层数据报表发现数据…

网页布局之浮动

一,传统网页布局的三种方式 普通流(标准流)、浮动、定位。 二,标准流(普通流/文档流) 即为标签按照规定好的默认方式排列。 1.块级元素会独占一行,从上向下顺序排列。 常用元素:…

多进程-day3

1、使用多进程完成两个文件的拷贝&#xff0c;父进程拷贝前一半&#xff0c;子进程拷贝后一半&#xff0c;父进程回收子进程的资源 #include <myhead.h> int main(int argc, const char *argv[]) {FILE *fp1NULL;FILE *fp2NULL;if((fp1fopen("./simple.txt",&…

如何使用CloakQuest3r获取受安全服务保护的网站真实IP地址

关于CloakQuest3r CloakQuest3r是一款功能强大的纯Python工具&#xff0c;该工具可以帮助广大研究人员获取和查看受Cloudflare和其他安全服务商保护的网站真实IP地址。 Cloudflare是一种广泛采用的网络安全和性能增强服务&#xff0c;而CloakQuest3r的核心任务就是准确识别隐…

Uibot (RPA设计软件)智能识别信息+微信群发助手(升级版)———课后练习2

解决痛点&#xff1a; Excel如何计算两个日期之间相差月数 方法&#xff1a; 1、首先打开要进行操作的Excel表格。 2、打开后选中要计算相差月数的单元格。 3、然后输入公式&#xff1a;DATEDIF(A2,B2,"m")&#xff0c;输入完成后点击回车键。 4、在弹出的窗口中&a…

[经验] 玄殿社区qq堂4.2 #笔记#媒体

玄殿社区qq堂4.2 1、玄殿 玄殿&#xff0c;位于中国北京市的紫禁城内&#xff0c;是明清两代帝王祭天的场所。玄殿前殿为皇帝向神明祭拜的地方&#xff0c;中殿为祭天的主要场所&#xff0c;后殿为宋代遗址。玄殿规模庞大&#xff0c;身为中国传统建筑的代表之一&#xff0c;…

python+selenium 定位到元素,无法点击的解决方法

今天小编就为大家分享一篇pythonselenium 定位到元素,无法点击的解决方法&#xff0c;具有很好的参考价值&#xff0c;希望对大家有所帮助。一起跟随小编过来看看吧 selenium.common.exceptions.WebDriverException: Message: Element is not clickable at point (234.75, 22)…

JS基础(语法结构变量数据类型运算符流程控制)

JS基础(语法结构/变量/数据类型/运算符/流程控制) 目录 JS基础(语法结构/变量/数据类型/运算符/流程控制)什么是js&#xff1f;注释语法语法结构引入方式【1】script标签内部直接书写js代码【2】script标签src属性引入外部js代码 JS基础数据类型变量与常量变量的定义常量的定义…

2000-2022各省产业结构高级化合理化指数(含原始数据、计算过程+计算结果)

2000-2022各省产业结构高级化合理化指数&#xff08;含原始数据、计算过程计算结果&#xff09; 1、时间&#xff1a;2000-2022年 2、指标&#xff1a;国内生产总值、第一产业增加值、第二产业增加值、第三产业增加值、总就业人数、第一产业就业人数、第二产业就业人数、第三…

Maven的初步认识

Maven 1,Maven 简介 Maven是Apache软件基金会的一个开源项目,是一个优秀的项目构建工具,他用来帮助开发者管理项目中的jar包以及jar之间的依赖关系,完成项目的编译,测试,打包发布等工作. Maven中的概念 pom(Project Object Model 项目对象模型) maven 管理项目的根目录下 都…