Sora--首个大型视频生成模型

news2024/11/18 2:31:46

Sora--首个大型视频生成模型

      • 胡锡进于2024年2月20日认为:台当局怂了
    • 新的改变
    • 世界模拟器
    • 视觉数据转换
    • 视频压缩
    • 时空补丁(Spacetime Laten Patches)
    • 视频生成扩展变压器
    • 算法和模型架构
      • 结语

胡锡进于2024年2月20日认为:台当局怂了

 **TU商兴** 认为:不是怂了就可以的,台当局又不是小孩子

新的改变

对比现在文生视频的一流团队RUNWAY 、PIKA、SVD的生成效果,简直是造成了跨时代的碾压震撼效果!Runway 和Pika目前生成的视频时长都较短只有几秒,需要通过不断的拼接。
而且画面稳定性不强,如果需要呈现好的效果,需要创作者本身有非常强的视频剪辑及相关基础。而SORA这次最逆天的是,通过非常简单的文字描述,就可以生成画面稳定,理解能力强的长视频!Sora本次展示的是技术思路不同所带来的完全碾压。从关注二维像素的变化,变成关注语义理解的变化,从视频画面的生成,变成故事逻辑的生成。
在这里插入图片描述
之前无论是Runway、Pika、SVD等等文生图、文生视频都是在二维平面上对图像进行调整和组合,但是Sora的视频,显示它能像人一样理解一些基础的物理规律,这是 OpenAl利用它的大语言模型优势进行的超强语义理解,是真正层面的世界模型。只有实现对现实世界的理解和对真实世界的模拟,这样产生的图像和视频才是更加真实的效果。这次Sora带来的震撼或许不仅仅是影视行业,而是未来可能扩展到其他行业,视频展示的是对真实世界物理规律的再现!

英伟达的高级科学家Jim Fan认为 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 引擎。可以把 Sora 看作是一种可学习的模拟器,或者说是一个能模拟现实世界的“世界模型”。这种方法可以让 Sora 更好地理解和模拟现实世界的物理现象。

世界模拟器

OpenAI目前开发的Sora视频生成模型技术,将完全超越现有的视频生生成模型,如Runway和Pika。这项技术的核心是一个创新的“世界模拟器”,它是一个基于文本条件的扩散模型,通过从大量的视频中学习,这些视频涵盖了不同的时长、宽高比和分辨率。这个模拟器的训练过程涉及吸收和处理海量的视觉数据,使其能够根据文本描述生成相应的视频内容。例如,当输入“太空人的冒险故事,他戴着一顶红色羊毛编织的摩托车头盔”这样的描述时,模型能够理解含义,并且生成与之相符的视频画面。

该模型还具备生成视频的灵活性和多样性,支持不同的时长和分辨率设置,其最大输出规格可达1920*1080的分辨率和30帧/秒的帧率。

在这里插入图片描述

视觉数据转换

简单来说,OpenAI在视觉数据处理领域,将视觉数据转换为“patch”这一个个单元体,它可以将图像和视频帧分割成“补丁”状的小块。这些“补丁”作为视觉模型的基本输入单元,使得模型能够学习和理解如何表示以及重建视觉场景。在此基础上,模型能够在特定条件,如文本描述的引导下,生成新的图像或视频内容。

在这里插入图片描述
这种处理方式与大型语言模型中的“token”概念相似,token是文本数据的基本处理单元。在语言模型中,文本被分解为较小的片段以实现语言的理解和生成。同样地,视觉模型的训练过程涉及将不同类型的视频和图片转换成patch,作为模型输入的基本单位。这个过程可以理解成首先将视频压缩到一个较低维的潜在空间,然后将视频转换为patch,并进一步分解为“spacetime patches”(时空补丁)。

视频压缩

研究者开发出一种专门的视频压缩网络。该网络的核心是一个经过训练的神经网络,其设计宗旨在于降低视觉数据的多维度复杂性。而所谓的“降低维度”,指的是将数据从高维空间——例如原始视频数据,包含了海量的像素信息——转换到低维空间。这一过程的目的是对数据进行简化,提取关键特征,同时减少后续处理所需的计算资源。
这个神经网络接受原始视频作为输入,并输出一个在时间和空间上都经过压缩的潜在表示(latent representation)。时间上的压缩意味着减少了表示视频动态变化所需的信息量;空间上的压缩则意味着减少了表示视频中每一帧图像所需的信息量。在这个压缩的潜在空间中,Sora模型首先进行训练,学习如何理解和控制这种形式的数据。经过训练,Sora能够在这个潜在空间内生成新的视频数据。

在这里插入图片描述
为了将Sora生成的潜在表示转换回原始的像素空间,研究者还训练了一个解码器模型。

解码器的作用是将压缩的视频数据还原成可以直接观看的视频格式。

时空补丁(Spacetime Laten Patches)

在视频数据压缩完成后,接下来的关键步骤是提取一系列的“Spacetime Latent Patches”,这些Patches包含了视频在特定时间和空间范围内的信息。这些Patches在transformer模型中扮演的角色类似于自然语言处理中的单词token。这种方法不仅适用于视频数据,也适用于图形数据,使得不同分辨率、时间和宽高比的视频和图像能够作为Sora模型的训练集。
在模型推理,即生成新的视频内容时,可以通过在适当大小的网格中排列随机初始化的Patches来控制生成视频的大小。这个过程类似于在自然语言处理中,模型根据给定的token生成新的文本内容。通过这种方式,Sora模型能够根据需要生成不同大小和格式的视频,为视频生成和编辑提供了更大的灵活性和多样性。

视频生成扩展变压器

Sora模型的根基是建立在Transformer架构之上的扩散模型。

该模型通过接收输入的噪声Patches和文本提示等调节信息,能够有效地预测出“干净”的Patch。
在这里插入图片描述
这种架构在大型语言模型、计算机视觉和图像生成等领域都有着广泛的应用。在训练过程中,使用固定的种子和输入,随着计算量的增加,生成样本的质量会显著提高。这种训练方式使得Sora模型能够逐步学习并优化其生成能力,从而在处理视频和图像数据时,能够输出更加精细和逼真的结果。

##数据和训练

Sora通过分析和理解大量包含物理互动的视频,学习到了物理规律的表现形式。例如,它可以观察到苹果从树上落下来的视频,学习到重力的效应;看到球在地面上滚动的视频,理解到惯性和摩擦力如何影响物体的运动。通过这些观察,Sora能够生成新的视频,其中的物体和人物遵循现实世界的物理规律。

算法和模型架构

Sora使用的算法和模型架构(如扩散模型和变换器)使其能够在视频生成过程中考虑时间和空间的连续性。
在这里插入图片描述
这意味着它不仅能够理解单个画面中物体的位置和状态,还能够理解这些物体随时间如何变化和移动。

这种时空连续性的理解是让生成的视频看起来符合物理规律的关键

结语

Sora通过分析大量的视频数据、学习物理规律的表现,并利用先进的算法理解和模拟时空连续性,从而能够生成看起来符合物理规律的视频。

这一过程涉及到复杂的计算和大量的数据处理,最终使得Sora生成的视频在视觉上既真实又符合逻辑。

AGI的未来或许真的不远了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1462463.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[服务器-数据库]MongoDBv7.0.4不支持ipv6访问

文章目录 MongoDBv7.0.4不支持ipv6访问错误描述问题分析错误原因解决方式 MongoDBv7.0.4不支持ipv6访问 错误描述 报错如下描述 Cannot connect to MongoDB.No suitable servers found: serverSelectionTimeoutMS expired: [failed to resolve 2408]问题分析 首先确定其是…

最长回文子串------Manacher算法

​​​​​​​目录 一、问题 ​二、Manacher算法基本思想 三、manacher算法对称性中的计算 四、manacher算法代码 最长回文子串------Manacher算法 一、问题 最长连续回文子序列(longest continuous palindrome subsequence,LCPS),给定序列A&#xff0…

【深度学习:对象跟踪】对象跟踪完整指南 [教程]

【深度学习:对象跟踪】对象跟踪完整指南 [教程] 什么是计算机视觉中的对象跟踪?对象跟踪有哪些不同类型?图像跟踪视频跟踪单目标跟踪多对象跟踪 计算机视觉中对象跟踪的用例监测零售自动驾驶汽车医疗保健 对象跟踪方法步骤 1:目标…

Flink双流(join)

一、介绍 Join大体分类只有两种:Window Join和Interval Join Window Join有可以根据Window的类型细分出3种:Tumbling(滚动) Window Join、Sliding(滑动) Window Join、Session(会话) Widnow Join。 🌸Window 类型的join都是利用window的机制…

mac 安装H3C iNode + accessClient mac版

一、下载安装 官网下载地址 https://www.h3c.com/cn/Service/Document_Software/Software_Download/IP_Management/ 可以使用文末参考博文中的账号 yx800 密码 01230123登录下载 选择版本 下载 下载 H3C_iNode_PC_7.3_E0626.zip 文件后,解压下载到的PC端压缩包…

linux单机巡检脚本并发送邮箱的巡检报告

#!/bin/bash # Author: HanWei # Date: 2020-03-16 09:56:57 # Last Modified by: HanWei # Last Modified time: 2020-03-16 11:06:31 # E-mail: han_wei_95163.com #!/bin/bash #安装mail yum -y install mailx#主机信息每日巡检IPADDR$(ifconfig eth0|grep inet addr|aw…

2023数据要素市场十大关键词

2023数据要素市场十大关键词 导读 2023年即将过去。一年之前,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)正式对外发布,为数据要素市场的建设举旗定向。 图片 2023年是“数据二十条…

python自动化接口测试

前几天,同组姐妹说想要对接口那些异常值进行测试,能否有自动化测试的方法。仔细想了一下,工具还挺多,大概分析了一下: 1、soapui:可以对接口参数进行异常值参数化,可以加断言,一般我们会加http…

Zabbix 6.2.1 安装

目录 1、监控介绍 监控的重要性 网站的可用性 监控范畴 如何监控 2、Zabbix 介绍 zabbix 简介 zabbix 主要功能 zabbix 监控范畴 Zabbix 监控组件 zabbix 常见进程 zabbix agentd 工作模式 zabbix 环境监控中概念 3、搭建LNMP 拓扑规划 安装MySQL 安装 Nginx …

【Vulkan Tutorials 01】【环境搭建】三角形例子

Development Environment(开发环境) 1. 安装Vulkan SDK 官网 2. 安装cmake和minGW 2.1 cmake 官网 双击可执行文件,然后直接安装,注意环境变量选择设置,否则需要自己操作。 2.2 minGW 官网 下载如下图所示&am…

Qt应用-天气预报实例

本文讲解Qt实现天气预报实例。 实现的功能 网络实时获取和显示6天的天气参数并绘制温度趋势曲线; 测试当前网络连接情况; 获得当前的IP地址的行政位置信息; 设计界面如下: 创建保存天气数据的类 #ifndef WEATHERDATA_H #define WEATHERDATA_H #include <QString>…

如何使用ArcGIS Pro生成等高线

无论在制图还是规划中&#xff0c;经常会使用到等高线&#xff0c;大多数情况下&#xff0c;从网上获取的高程数据都是DEM文件&#xff0c;我们可以通过ArcGIS Pro来生成等高线&#xff0c;这里为大家介绍一下生成方法&#xff0c;希望能对你有所帮助。 数据来源 教程所使用的…

【转载】企业资产收集与脆弱性检查工具

简介 云图极速版是针对拥有攻击面管理需求的用户打造的 SaaS 应用&#xff0c;致力于协助用户管理互联网资产攻击面的 SaaS 化订阅服务产品。可实现对备案域名、子域名、IP、端口、服务、网站、漏洞、安全风险等场景进行周期性监控&#xff0c;支持多维度分析攻击面。利用可视化…

下一代自动化爬虫神器--playwright,所见即所得,配合逆向不要太香!!!

文章目录 1.Playwright介绍2.与 Selenium 和 pyppeteer 相比&#xff0c;Playwright 具有以下几个区别和优势3.在爬虫中使用 Playwright 的好处4.环境安装5.屏幕录制6.保留记录cookie信息7.playwright代码编写详解1.第一个Playwright脚本&#xff08;1&#xff09;同步模式&…

小米标准模组+MCU 快速上手开发(二)——之模组串口调试

小米标准模组MCU 开发笔记之固件调试 背景技术名词简介● 小米IoT开发者平台● 小米IoT 模组● 固件● OTA● CRC32 固件双串口调试● MHCWB6S-IB 模组资料下载● MHCWB6S-IB 模组管脚图● 上电调试 背景 小米标准模组MCU的开发过程中&#xff0c;由于部分官方资料较为古早&am…

解决MobaXterm网络错误连接超时问题

报错页面&#xff1a; 报错原因&#xff1a; ①网络断开了 ②网络端口&#xff0c;端口号改变 解决办法&#xff1a; ①重新连接网络按R ②固定端口号 第一步&#xff1a;编辑------>虚拟机网络编辑器&#xff08;我的Linux在虚拟机里&#xff09; 第二步&#xff1a;用…

【触想智能】工业平板知识分享|选购工业平板电脑需要注意的7大事项

工业平板电脑是一种将显示器、工控主板、触摸屏和其他电子设备整合在一起的电子产品。它广泛应用于工业控制和自动化领域。 在购买工业平板电脑时&#xff0c;需要考虑一些关键性因素&#xff0c;以确保工业平板电脑是安全可靠、运行稳定的。那么我们在购买工业平板电脑的时候&…

js设计模式:计算属性模式

作用: 将对象中的某些值与其他值进行关联,根据其他值来计算该值的结果 vue中的计算属性就是很经典的例子 示例: let nowDate 2023const wjtInfo {brithDate:1995,get age(){return nowDate-this.brithDate}}console.log(wjtInfo.age,wjt年龄)nowDate 1console.log(wjtInf…

5 原型模式 Prototype

1.模式定义: 指原型实例指定创建对象的种类&#xff0c;并且通过拷贝这些原型创建新的对象 2.应用场景&#xff1a; 当代码不应该依赖于需要复制的对象的具体类时&#xff0c;请使用Prototype模式。 Spring源码中的应用 org.springframework.beans.factory.support.AbstractB…

飞天使-k8s知识点24-kubernetes实操9-数据存储2配置存储

文章目录 高级存储pvc生命周期 配置存储secret 高级存储 前面已经学习了使用NFS提供存储&#xff0c;此时就要求用户会搭建NFS系统&#xff0c;并且会在yaml配置nfs。由于kubernetes支持的存储系统有很多&#xff0c;要求客户全都掌握&#xff0c;显然不现实。为了能够屏蔽底层…