Sora一出 哪里又要裁员了?

news2024/12/23 9:57:26

        

        上班前夕迎来大新闻,那就是Sora了,Sora是什么,有什么牛逼之处,怎么实现的,我们跟着官方文档透露出来的一点点信息,简单的捋一捋。

一、Sora是什么

        官方给出的定义是:世界模拟器。这很明显有夸大的成分,实际一点来说Sora就是OpenAI用GPT的能力将视频文本对齐,通过将多个高分辨率视频素材进行降维处理,然后密集训练,最后大力出奇迹,达到你想看什么就生成什么视频的效果。

二、Sora为什么受追捧

        第一个牛逼之处是持久。虽然文生视频已不是新鲜事,但相比于Sora,此前的文生视频大模型所能生成的视频时间很短。比如去年Pika Labs发布的Pika 1.0曾轰动一时,但只能生成3秒以内的视频。而Sora生成的视频足足1分钟,基本达到了实际使用的要求,毕竟某音上很多小姐姐的视频还达不到1分钟。

        第二就是连贯。视频内容的语义连贯性已经非常完美,前景、背景的镜头感和融合程度非常好,甚至连光影、物理碰撞都有模有样。它已经很好的模拟了真实世界中的物理规则,已经不是不是文生图这样的小玩意儿了,来看个例子吧。

title_0

三、训练过程

        关于算法的信息,作者只公布了一点点信息,任何细节都没有透露,我们只能根据只言片语大概得还原一下训练过程。

1.把图像数据转化为 patches(也许可以翻译成面片),patches是从LLM里面得到的灵感,相当于LLM中的token,作者使用Visual Patches来统一不同尺寸的视频。因为视频就是图片帧序列,Visual Patches的的维度应该和视频帧数相关。

2.为了统一不通过尺度和时长的视频,作者训练了一个视频压缩网络,将视频压缩成统一且低纬度的特征表示。

3.将2中的特征送入一个diffusion transformer模型(具体结构未知)中进行编解码,编码阶段得到类似Transformer中token的Spacetime latent patches(时空隐补丁?实在不会翻译),解码阶段生成“干净的”patches。既然是diffusion 模型,编解码的过程中可定会掺入提示词的token和随机马赛克。

四、视频数据

1.使用大分辨率视频进行训练:第一个好处:抽样的灵活性,Sora可以采样宽屏1920x1080p视频,垂直1080x1920视频以及介于两者之间的所有视频。所有的尺寸都使用相同的模型。

sampling_0

sampling_2

2.使用完整的视频进行训练:作者发现这样可以改善构图,使视频的语义更统一,传统做法是将最视频进行随机的裁剪成正方形或者矩形,这样有可能丢掉很多内容,是语义不完整,像下面着这样,左面的是传统的财裁剪方式,右面是作者使用的方式。

sampling_3

sampling_4

五、文本数据

1.训练了一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本字幕。作者发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。

2.利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。这使得Sora能够准确地按照用户提示生成高质量的视频。

        关于模型和数据的介绍官方只放出这么多,其实也没有什么颠覆性的创新,也许是​压箱底的东西没有拿出来?但从这些信息来看,只能用四个字来形容​:力大砖飞

六、还能做什么

        除了文本生成视频,Sora还有很多玩法:

        (1)图片+prompt生成视频

prompting_1

        (2)扩展视频:Sora还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从一个生成的视频片段开始向后扩展的。因此,这四个视频的开始都不同,但四个视频的结局都是一样的。

extend_1

extend_2

extend_4

        (3)编辑视频:根据prompt修改视频的内容

base

0

        (4)拼接视频:Sora可以在两个输入视频之间进行插帧,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中,中间的视频在左边和右边对应的视频之间插入。

a0

a1

a2

七、涌现的能力

        除此之外Sora还有许多有趣的突发能力,类似于“涌现”。

        比如Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

simulation_0

        Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如,模型可以保存人物、动物和物体,即使它们被遮挡或离开了框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。

simulation_2

        Sora有时可以用简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。

simulation_5

        Sora还能够模拟人工过程,比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。

simulation_6

八、写在最后

        其实Sora还有很多不足,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。就连官方也给出了“自黑”视频。

        但我认为国人的重点不应该放在Sora生成的视频好或者不好,也不用提多少行业会被颠覆。而是应该冷静思考一下,为什么别人家的公司在这么短的时间内能做出如此震惊世界的产品。

        确实我们在很多领域正以肉眼可见的速度追赶世界一流水平,包括各类顶会也越来越多国人的身影。这是好事,但在我看来,我们在人工智能领域与世界顶尖水平的差距确实越来越远了,无论软件还是硬件。

        努力吧!希望下次引爆朋友圈的是我们自己的公司,而不是盯着别人的东西土嗨。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1457900.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构:动态内存分配+内存分区+宏+结构体

一、作业 1.定义一个学生结构体&#xff0c;包含结构体成员&#xff1a;身高&#xff0c;姓名&#xff0c;成绩&#xff1b;定义一个结构体数组有7个成员&#xff0c;要求终端输入结构体成员的值&#xff0c;根据学生成绩&#xff0c;进行冒泡排序。 #include <stdio.h>…

Qt C++春晚刘谦魔术约瑟夫环问题的模拟程序

什么是约瑟夫环问题&#xff1f; 约瑟夫问题是个有名的问题&#xff1a;N个人围成一圈&#xff0c;从第一个开始报数&#xff0c;第M个将被杀掉&#xff0c;最后剩下一个&#xff0c;其余人都将被杀掉。例如N6&#xff0c;M5&#xff0c;被杀掉的顺序是&#xff1a;5&#xff…

如何利用Idea创建一个Servlet项目(新手向)

&#x1f495;"Echo"&#x1f495; 作者&#xff1a;Mylvzi 文章主要内容&#xff1a;如何利用Idea创建一个Servlet项目(新手向) Servlet是tomcat的api,利用Servlet进行webapp开发很方便,本文将介绍如何通过Idea创建一个Servlet项目(一共分为七步,这可能是我们写过的…

备战蓝桥杯---动态规划(应用1)

话不多说&#xff0c;直接看题&#xff1a; 首先我们考虑暴力&#xff0c;用二维前缀和即可&#xff0c;复杂度为o(n^4). 其实&#xff0c;我们不妨枚举任意2行&#xff0c;枚举以这个为边界的最大矩阵。 我们把其中的每一列前缀和维护出来&#xff0c;相当于把一个矩阵压缩成…

观察者模式和发布订阅模式的区别

从下图中可以看出&#xff0c;观察者模式中观察者和目标直接进行交互&#xff0c;而发布订阅模式中统一由调度中心进行处理&#xff0c;订阅者和发布者互不干扰。这样一方面实现了解耦&#xff0c;还有就是可以实现更细粒度的一些控制。比如发布者发布了很多消息&#xff0c;但…

【Vue3】搭建Pinia环境及其基本使用

下载 npm i pinia引入并注册 App.vue import { createApp } from vue import { createPinia } from pinia import App from ./App.vue // 1. 引入 import { createPinia } from piniaconst app createApp(App) // 2. 创建 const pinia createPinia() // 3. 注册 app.use(p…

python----面向对象

这里写目录标题 面向对象思想类类的定义类名的定义类的构造函数的定义类的属性类的方法定义 继承语法关于构造函数问题 文件操作绝对路径相对路径pycharm获取绝对路径和相对路径文件读写读文件open&#xff08;&#xff09;read&#xff08;&#xff09;readline&#xff08;&a…

2021年CSP-J认证 CCF信息学奥赛中小学初级组 第一轮真题-单项选择题解析

2021年 中小学信息学奥赛CSP-J真题解析 1、以下不属于面向对象程序设计语言的是 A、c B、python C、java D、c 答案&#xff1a;D 考点分析&#xff1a;主要考查编程语言&#xff0c;ABC都是面向对象语言&#xff0c;D选项c语言是面向过程语言&#xff0c;答案D 2、以下奖…

202427读书笔记|《猫的自信:治愈系生活哲学绘本》——吸猫指南书,感受猫咪的柔软慵懒与治愈

202427读书笔记|《猫的自信&#xff1a;治愈系生活哲学绘本》——吸猫指南书&#xff0c;感受猫咪的柔软慵懒与治愈 《猫的自信&#xff1a;治愈系生活哲学绘本》作者林行瑞&#xff0c;治愈系小漫画绘本&#xff0c;10分钟可以读完的一本书&#xff0c;线条明媚&#xff0c;自…

SQL注入工具之SQLmap入门操作

了解SQLmap 基础操作 SQLmap是一款自动化的SQL注入工具&#xff0c;可以用于检测和利用SQL注入漏洞。 以下是SQLmap的入门操作步骤&#xff1a; 1.下载SQLmap&#xff1a;可以从官方网站&#xff08;https://sqlmap.org/&#xff09;下载最新版本的SQLmap。 2.打开终端&#…

CDP和Chrome

CDP和Chrome CDP和WebDriver Protocol WebDriver和 Chrome DevTools Protocol&#xff08;CDP&#xff09; 是用于自动化浏览器的两个主要协议&#xff0c;大多数的浏览器自动化工具都是基于上述其中之一来实现的。可以通过这两种形式来和浏览器交互&#xff0c;通过代码来控…

使用maven集成spring在测试的时候报出了如下的异常:version 60

使用maven集成spring在测试的时候报出了如下的异常&#xff1a; Caused by: java.lang.IllegalArgumentException: Unsupported class file major version 60 解决&#xff1a;

MAC M1安装vmware和centos7虚拟机并配置静态ip

一、下载vmware和centos7镜像 1、VMWare Fusion 官网的下载地址是&#xff1a;下载地址 下载好之后注册需要秘钥&#xff0c;在官网注册后使用免费的个人秘钥 2、centos7 下载地址&#xff1a; https://biosyxh.cn:5001/sharing/pAlcCGNJf 二、虚拟机安装 直接将下…

比特币正在蚕食黄金

号外&#xff1a;教链内参2.19《内参&#xff1a;蹭热点、骗流量、割韭菜》 众所周知&#xff0c;自从美国SEC批准比特币现货ETF登陆美股市场之后&#xff0c;打开了美国金融市场泛滥的流动性向比特币流入的大门。只用了短短的30个交易日&#xff0c;比特币ETF就从零膨胀到了近…

基于RBAC的权限管理的理论实现和权限管理的实现

权限管理的理论 首先需要两个页面支持&#xff0c;分别是角色管理和员工管理&#xff0c;其中角色管理对应的是角色和权限的配合&#xff0c;员工管理则是将登录的员工账号和员工所处的角色进行对应&#xff0c;即通过新增角色这个概念&#xff0c;让权限和员工并不直接关联&a…

Ubuntu18.04有线连接后,无法设置ip地址以及显示网口设置

前提&#xff1a;首先测试过网线是完全没问题的 桌面端找不到设置网口 终端输入&#xff1a; ifconfig 没有找到网口设置和对应IP 然后查询网口驱动是否正常安装&#xff0c;输入&#xff1a; lspci | grep Ethernet 有输出说明网口驱动正常安装 然后查询电脑的ip地址&am…

2023年全球软件开发大会(QCon北京站2023)2月:核心内容与学习收获(附大会核心PPT下载)

本次峰会是一个汇集了最新技术趋势、最佳实践和创新思维的盛会。对于从事软件开发和相关领域的专业人士来说&#xff0c;参加这样的大会将有助于他们了解行业动态、提升技能水平、拓展职业视野&#xff0c;并与同行建立联系和合作。 本次峰会包含&#xff1a;AI基础架构、DevO…

Stable Diffusion 绘画入门教程(webui)-lora

通过前边的文章&#xff0c;相信大家已经能够自己产出好看的小姐姐或者小哥哥了&#x1f923; 不知道有没有发现每次生成的脸、身材、衣服、环境、风格等等可能都会有所差异&#xff0c;那么如果这个问题不解决&#xff0c;实用性将大大降低&#xff0c;因此lora诞生了。 文章…

人工智能_普通服务器CPU_安装清华开源人工智能AI大模型ChatGlm-6B_001---人工智能工作笔记0096

使用centos安装,注意安装之前,保证系统可以联网,然后执行yum update 先去更新一下系统,可以省掉很多麻烦 20240219_150031 这里我们使用centos系统吧,使用习惯了. ChatGlm首先需要一台个人计算机,或者服务器, 要的算力,训练最多,微调次之,推理需要算力最少 其实很多都支持C…

SpringBoot常见问题

1 引言 Spring Boot是一个基于Spring框架的快速开发脚手架&#xff0c;它简化了Spring应用的初始化和搭建过程&#xff0c;提供了众多便利的功能和特性&#xff0c;比如自动配置、嵌入式Tomcat等&#xff0c;让开发人员可以更加专注于业务逻辑的实现。   Spring Boot还提供了…