大模型之SORA技术学习

news2024/9/22 9:50:46

文章目录

  • sora的技术原理
  • 文字生成视频过程
  • sora的技术优势
    • 量大质优的视频预训练库
    • 算力多,采样步骤多,更精细。
    • GPT解释力更强,提示词(Prompt)表现更好
  • 使用场景
  • 参考

Sora改变AI认知方式,开启走向【世界模拟器】的史诗级的漫漫征途,才是未来暴风眼,真正的重点。

Sora并没有理解整个世界和诸多物理细节,常识及定律,而是根据GPT语义解释能力、丰富的联想和丰富度,基于海量的视频库,抄写视频片段并猜视频下一帧,并使用Diffusion、GAN(对抗式生成网络技术)将多个视频片段混合在一起,产生稳定且连续的短视频。

Yann LeCun(ACM图灵奖得主,纽约大学教授。Meta首席人工智能科学家)针对Sora的评论。大意是:

让我在这里澄清一个巨大的误解。从提示文字,生成看起来相当逼真的视频,并不意味着,这个系统理解物理世界。生成一个视频,和基于世界模型的因果预测,大不相同。目前这种生成式的方向,代价高昂,可能还有更好的法子。
在这里插入图片描述

sora的技术原理

结合了 Diffusion model(扩散模型)和 Transformer 技术,以确保视频内容与文本描述紧密相连
Sora的官方技术报告详见:
Sora官方的技术报告:Video generation models as world simulators

  1. 主要功能和目标
    • 目前,Sora 的主要功能是将文本输入转换成视频输出。这包括但不限于将故事、说明或命令转化为相应的视频。
    • Sora 的目标是创建一个能够理解复杂文本描述并将其转化为高质量视频内容的系统。
    • 官方的声明指出,Sora 的最终目标是向一个“通用物理世界模拟器”的方向迈进,即成为一个能够模拟真实世界的复杂互动和动态环境的强大工具。
  2. 训练流程包括以下步骤:
    • 收集视频数据与标注信息。
    • 训练图片字幕模型。
    • 利用 GPT-4 丰富视频描述。
    • 切分视频为 Patches。
    • 应用视频压缩模型。
    • 在潜在空间中处理视频数据。
    • 应用扩散模型与 Transformer 进行训练。
    • 最终恢复高清视频。
  3. 核心模块
    • Transformer 结构:这是一种深度学习模型的架构,最初用于自然语言处理,现在被广泛应用于各种领域,包括 Sora 的几个组件。
    • Diffusion model:用于逐步去除视频中的噪声,从而生成清晰的图像场景。

文字生成视频过程

  • 提供一段文字:依靠GPT语义解释能力、丰富的联想和丰富度,产生针对视频内容详细的描述。如文本是:“散步在夜晚东京街道上”,GPT发挥想象力,联想出一堆词和关联“高楼”、“繁华夜景”等等。它联想力越丰富,Sora能关联到的时空碎块就越多越准。
  • Diffusion:作为一个画师,根据关键词特征值对应的可能性概率,在海量视频库到处翻,看看抄哪一个碎块比较像,看哪个像,就猜对应的下一笔要落在什么地方。重复很多步
  • 通过Diffusion和Transformer共同联想,死记硬背,从巨大视频库里生拉硬拽,配合GAN(对抗式生成网络技术),把这些一张张碎块拼成图,再拼接成一个序列,每秒播放几十张,视频就出来了
    在这里插入图片描述

sora的技术优势

Sora实际上对于Pika等,只是量变,都是差不多的技术和原理,没有质变。但几乎达到了近似质变的效果了。原因在于:

量大质优的视频预训练库

大力出奇迹,是OpenAI的基因。

到底花了多少钱在高质量的视频素材上,搜集了多少的视频库,只有OpenAI自己知道。但可以肯定的是,远远不是Pika等创业团队所能比的。

记得多,才能抄的好,混得妙。

甚至,现在的视频量已经不能满足OpenAI的需求了。已经被爆料,OpenAI的视频库,大量使用了UE5生成的视频来做补充和训练。我们看到的赛车那个视频就是。

Pika、Runway、Stable Video和Sora有时候会撞车:都使用了同一个素材加到库中。那么使用一样类似的关键词,可能就能调出一模一样的元素。

算力多,采样步骤多,更精细。

不同采样和计算步骤后,通过同一个视频库“猜”的步骤越多,加的东西越细,效果越好。做32倍运算的效果,就明显好于4倍的效果。
还是大力出奇迹,OpenAI不变的配方和味道。

那么请问,Pika等创业公司能有多少张GPU卡呢?
Sora能土豪的用32倍,1080p,渲染1分钟的视频。创业公司能用多少,4倍,360p,4-8秒,已经足够把钱烧光了…
画面精致度怎么比?时长怎么比?不公平。

Diffusion的不稳定性通病,在Pika等产品中已经表现无疑。
Sora和他们完全不在一个层次上,稳定性很好。已经不能完全用数据和算力来解释了。一定是采用了GAN(对抗式生成网络技术)这个增强连续性的技术。

生成的视频效果比较见下图:
在这里插入图片描述

GPT解释力更强,提示词(Prompt)表现更好

对一段提示词或提示句子,GPT能展开的联想和丰富度,是决定了Sora抄什么,能猜多准的。
OpenAI的GPT能力天下第一,开源模型无能撼动。
所以,不幸的是,Pika等创业公司大多还是要依靠OpenAI的GPT能力

那么,问题来了,亲儿子能用的,一定胜过外部客户能用到的深度和广度
第二个点,就是外部公司的视频库和GPT联想能力不能首尾配对;但是Sora可以啊,GPT是自家的,视频库也是自家的,两者直接****关联的精准度以及调取的效率,完全是外部客户不能比的。

使用场景

  • 生成创意素材。通过剪辑和局部使用,做出自己的成品。对于自媒体行业是一大利好。
  • 生成概念片和内部讨论稿,极大的加快创意沟通的效率。
  • 利用它的连续性,结合一些3D工具,快速建模。已经有人在做了,但效果还待改进。推荐大家看看B站UP主设计师的AI工具箱的Sora建模实践, 调试的好,是个路子。

参考

3原理+1揭秘,将Sora拉下神坛

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1487850.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

拉线位移编码器出现问题从哪里下手找原因

拉线位移编码器出现问题从哪里下手找原因 1、如果因接线错误导致位移编码器无信号或输出信号波动较大时,应按照说明书检查信号线是否连接正确。 2、拉线位移编码器的供电电压为5V,如果供电电压过低或过高也会引起信号线的传输,应检查输入电…

leetcode - 2095. Delete the Middle Node of a Linked List

Description You are given the head of a linked list. Delete the middle node, and return the head of the modified linked list. The middle node of a linked list of size n is the ⌊n / 2⌋th node from the start using 0-based indexing, where ⌊x⌋ denotes th…

【小白友好】LeetCode 打家劫舍 III

https://leetcode.cn/problems/house-robber-iii/description/ 前言 建议还是先看看动态规划的基础题再看这个。动态规划是不刷题,自己100%想不出来的。 基础题: 最大子数组和乘积最大子数组最长递增子序列 最大升序子数组和 小白想法 现在我们想遍…

使用query请求数据出现500的报错

我在写项目的时候遇到了一个问题,就是在存商品id的时候我将它使用了JSON.stringify的格式转换了!!!于是便爆出了500这个错误!!! 我将JSON.stringify的格式去除之后,它就正常显示了&…

Linux - 进程控制

1、进程创建 1.1、fork函数初识 在linux中fork函数时非常重要的函数&#xff0c;它从已存在进程中创建一个新进程。新进程为子进程&#xff0c;而原进程为父进程&#xff1b; #include <unistd.h> pid_t fork(void); 返回值&#xff1a;自进程中返回0&#xff0c;父进…

java常见的8种数据结构

一、线性结构&#xff1a;数组、链表、哈希表&#xff1b;队列、栈 1.数组&#xff1a; 数组是有序元素的序列&#xff0c;在内存中的分配是连续的&#xff0c;数组会为存储的元素都分配一个下标&#xff08;索引&#xff09;&#xff0c;此下标是一个自增连续的&#xff0c;访…

万村乐数字乡村系统开源代码:革命性引领,助推乡村振兴新篇章

如今&#xff0c;国际社会普遍认为信息化、数字化已是重大且不可逆转的发展趋势&#xff0c;如何让广大农村地区充分分享到这个发展带来的红利&#xff0c;从而提升农村的经济活力&#xff0c;确保村民生活质量不断优化&#xff0c;已然成为我们需要认真研究并积极解决的重大议…

美国法院命令NSO集团将其间谍软件代码交给WhatsApp

Techreport网站消息&#xff0c;近日&#xff0c;美国法院下令要求以色列间谍软件开发商NSO集团将其Pegasus间谍软件的代码交给WhatsApp。 2019年&#xff0c;NSO集团利用WhatsApp的安全漏洞对1400名用户进行了为期两周的监视。同年&#xff0c;WhatsApp向该公司提起了法律诉讼…

k8s初始化错误

报错详情&#xff1a; you can check the kubelet logs for further clues by running: ‘journalctl -u kubelet’ Alternatively, there might be issues with your Kubernetes configuration files or maybe the necessary ports are not opened. Check the status of …

应用方案丨D317大电流可调稳压电路

1、 概述&#xff1a; D317是一款三端可调正稳压器集成电路&#xff0c;其输出电压范围是1.2V至37V&#xff0c;负载电流最大为1.5A。它的使用非常简单&#xff0c;仅需两个外接电阻来设置输出电压。此外&#xff0c;它的电压线性度和负载调整率也比标准的固定稳压器好。D317内…

通过联合部署DDoS高防和WAF提升网站防护能力

如果您的网站遭受的攻击既有流量型攻击&#xff0c;又混杂精巧的Web应用层攻击时&#xff08;例如SQL注入、跨站脚本攻击、命令注入等&#xff09;时&#xff0c;推荐您组合使用阿里云DDoS高防和Web 应用防火墙 WAF&#xff08;Web Application Firewall&#xff09;&#xff0…

【MySQL】事务管理 -- 详解

一、前言 CURD 不加控制&#xff0c;会有什么问题&#xff1f; CURD 满足什么属性&#xff0c;能解决上述问题&#xff1f; 买票的过程得是原子的。买票应该不能受互相的影响。买完票应该要永久有效。买前和买后都要是确定的状态。 什么是事务&#xff1f; 事务就是一组 DML…

2024-03-03 c++

&#x1f338; MFC进度条控件 | Progress Control 1。新建MFC项目&#xff08;基于对话框、静态库&#xff09; 2。添加控件&#xff0c;删除初始的3个多余控件 加1个progress control&#xff0c;修改其marquee为true&#xff0c;添加变量&#xff1a;变量名为test_progress。…

乡村教师的待遇会比城里的好吗

每次提到乡村教师&#xff0c;我们总会联想到那些坚守在偏远山区的教育工作者&#xff0c;他们默默无闻&#xff0c;为了乡村的孩子们奉献着自己的青春和热血。那么&#xff0c;乡村教师的待遇究竟如何呢&#xff1f;是否真的如外界所传闻的那般&#xff0c;比城里的教师还要好…

ip https证书360元买一年送一月

随着互联网的发展&#xff0c;不论是用户还是开发者&#xff0c;都越来越重视互联网环境的安全性。IP https证书是一种网络安全协议&#xff0c;用于保护网络通信的安全性和机密性。IP https数字证书是CA认证机构为只有公网IP地址&#xff0c;没有域名的站点颁发的数字证书&…

华为HarmnyOS TypeScript基础语法快速入门

华为HarmnyOS TypeScript基础语法快速入门 一、JavaScript、TypeScript、ArkTS二、TypeScript基础语法1. 基础类型2. 条件语句3. 函数4. 类5. 模块6. 迭代器 一、JavaScript、TypeScript、ArkTS ArkTS是HarmonyOS优选的主力应用开发语言。它在TypeScript&#xff08;简称TS&am…

信钰证券:四川黄金超50亿元解禁,紫金矿业等解禁股东浮盈超200%

本周A股限售股解禁规划不到400亿元&#xff0c;环比下降。 除掉新上市公司&#xff0c;本周共有43家公司限售股解禁&#xff0c;解禁数量28.91亿股&#xff0c;以最新收盘价计算&#xff08;下同&#xff09;&#xff0c;解禁市值387.66亿元。 其间&#xff0c;解禁市值超越1…

MASS/MM17批量复制物料描述

需求&#xff1a; 批量将日文环境中的物料描述复制到英文环境。 实现&#xff1a; 1.将日文环境下的物料描述下载至本地excel。 2.新建EXCEL&#xff0c;添加如下标题列&#xff0c;并将第一步下载下来的内容粘贴至对应的列&#xff0c;MANDT改为实际要更新的客户端&#xf…

基于Python的单词抽取测试工具

一、引言 在语言学习的过程中&#xff0c;单词量的多少是衡量一个人英语水平的重要指标。而如何快速扩充词汇量&#xff0c;掌握单词的汉语意思是重多师生的痛点和难点。为了帮助学习者有效地扩展词汇&#xff0c;巩固学习成果&#xff0c;我们在ChatGPT-4.0的帮助下&#xff…