大模型之二十二 OpenAI sora

news2024/11/28 20:54:47

2024年2月15日在中国新年还没过完的时候,OpenAI 发布的Sora,这是AI视频生成领域的‘Midjourney时刻’,Sora将Diffusion模型和Transformer模型相结合,在视觉领域实现了大语言模型类似的突破,这将类似于ChatGPT一样,将在视觉生成领域带来一次重大的技术和商业革命。

Sora是一个通过文字来生成视频的AI大模型,Sora有重要四点突破:

  • 1.将视频生成从5-15秒,提升到了1分钟,这个长度已经足够支持短视频创作需求,从OpenAI的技术报告看,视频时长是可以更长的;在保真度、稳定度、文字理解上都做到了STOA。
  • 2.可以生成多个镜头,并且各个镜头具有角色和视觉风格的一致性;
  • 3.除了文字prompt生成视频,也支持视频到视频编辑,也能够连贯拼接不同类型的视频;
  • 4.产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形;

虽然OpenAI的技术报告中并没有模型和训练技术细节,但是从参考文献看,主要是Google和Meta的技术文档,更多的是现有技术的整合和优化,Sora的秘诀也是Scaling Law,当模型足够大的时候,就会产生智能涌现的能力。
在这里插入图片描述
上面图片中展示的大模型训练的暴力美学在2020年已经发表[paper],为什么继文本之后,视频创作领域还是OpenAI拿到第一个果子呢?源于信念,对于scaling law的执念,英伟达和OpenAI都将其称为世界模型,这是由数据驱动的世界模型,其影响力不亚于英国的工业革命、美国的信息革命,对scaling law的执念将决定谁将是下一个世界霸主,对AGI基础技术的突破,留给中国的时间并不多了。

回到正文上来,AI视频生成的技术路线主要经历了RNN、GAN、自回归模型和扩散模型四个阶段,而Sora融合了Diffusion和自回归模型的双重特性,Diffusion Transformer架构由加利福尼亚伯克利分校和纽约大学的两位教授于2023年提出paper。

OpenAI训练该模型的思路是用一种patch(视频补丁)作为视频数据来训练视频模型的方式
在这里插入图片描述
从上图可以看到,和文本的Embedding思想非常相似,首先通过Embedding的方式将人类理解的文本和图像分别转成Token和patch,Token是大语言模型统一了代码、数学、各种自然语言等,属于文本领域的最小可识别单位,path统一了图像和视频,属于可识别最小单位,图中每一个灰色小框就是一个path,其最后一列是一个在时间和空间上都被压缩了的潜在表示(latent representation),这一好处是可以直接对不同尺寸、像素的原始视频进行path化,Sora就是在这个压缩的潜在空间上进行训练,并随后生成视频。

和大语言模型一样,还需要将机器语言转为人类可以理解的文本语言,在文本领域这是通过Attention之后网络层(解码层)实现的,在Sora输出视频时同样需要解码器。
在这里插入图片描述
解码器的作用是将机器理解的视频信息,即潜在表示,映射成人类可以理解的像素空间,OpenAI表示,过去图像和视频的生成方法通常会将视频调整大小、裁剪或者修剪为标准尺寸,但这会损失视频的生成质量,而patch化就不会,这使得Sora的采样灵活性比较高,并且使得构图和取景更准确。

在语言理解层面,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量,为此OpenAI应用了DALLE3中引入的re-captioning 技术,首先训练一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。

最后,也不是吹捧sora,当然Sora也有一些缺点,生成的视频也存在一些违法物理原理、因果关系、时间推移上逻辑关系的一些问题。不过这并不影响将其定性为人类AGI领域的“核弹级”突破。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1455962.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Python笔记-设计模式】工厂模式

一、说明 (一) 解决问题 提供了一种方式,在不指定具体类将要创建的情况下,将类的实例化操作延迟到子类中完成。可以实现客户端代码与具体类实现之间的解耦,使得系统更加灵活、可扩展和可维护。 (二) 使用场景 希望复用现有对象来节省系统…

怎样连接局域网?

局域网(Local Area Network,缩写为LAN)是建立在小范围内的计算机网络,用于连接同一建筑物或者办公场所内的设备。连接局域网可以实现设备之间的信息共享和远程通信。本文将介绍如何连接局域网,并介绍了天联组网天联的使…

unity学习(15)——服务器组装(1)

1.新建好的c#项目如下: 文件夹中内容如下: 此时已经可以通过vs2022打开.sln文件,就可以打开项目了。 2.我们把逆向后(主程序)的内容的代码粘贴过去。有些逆向功底,很快可以定位到,服务器的入口…

强国有我社会实践公益活动在合肥市庐阳区开展

2月18日是开工第一天,阳光灿烂、春光明媚。合肥市四十五中2022级星辰(5)班部分同学在监护人的陪伴下来到庐阳区双岗街道万小店社区残疾人工作站,和工作站兄弟姐妹们共同开展“强国复兴有我”社会实践公益活动。合肥市庐阳区为民社…

基于JavaWeb开发的小区车辆登记系统计算机毕设[附源码]

基于JavaWeb开发的小区车辆登记系统计算机毕设[附源码] 🍅 作者主页 央顺技术团队 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 文末获取源码联系方式 📝 🍅 查看下方微信号获取联系方式 承接各种定制系统…

C++ bfs反向建图(六十)【第七篇】

今天我们来学习一下bfs反向建图 1.bfs的反向建图 我们之前在图上求最短路都是求从起点出发到每个点的最短路,不过有时候我们也会遇到让求每个点到终点的最短路的问题,此时我们可以怎么做呢? 如果从每个点出发,用 BFS 搜索到终点…

基于JavaWeb开发的羽毛球管理系统计算机毕业设计[附源码]

基于JavaWeb开发的羽毛球管理系统计算机毕业设计[附源码] 🍅 作者主页 央顺技术团队 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 文末获取源码联系方式 📝 🍅 查看下方微信号获取联系方式 承接各种定制系…

Linux环境安装Maven(详细图文)

目录 摘要 一、准备工作 1.检查当前环境是否安装maven 2.下载maven ​3.上传maven压缩包 4.解压maven包 5.移动到/usr/local目录下方便管理 6.配置maven环境变量 7.刷新配置文件 8.配置maven镜像仓库 9.验证是否成功 摘要 笔者Linux环境为:Ubuntu 22.04 …

C#上位机与三菱PLC的通信07--使用第3方通讯库读写数据

1、通讯库介绍 mcprotocol 是一个基于 Node.js 的三菱 PLC MC 协议通信库,具有以下特点: 支持多种三菱 PLC MC 协议的设备,如 FX3U、Q03UDECPU、QJ71E71 等。 支持多种功能码和数据类型,如读取线圈(M)、…

Yii2项目使用composer异常记录

问题描述 在yii2项目中,使用require命令安装依赖时,出现如下错误提示 该提示意思是:composer运行时,执行了yiisoft/yii2-composer目录下的插件,但是该插件使用的API版本是1.0,但是当前的cmposer版本提供的…

【JVM篇】什么是类加载器,有哪些常见的类加载器

文章目录 🍔什么是类加载器🛸有哪些常见的类加载器 🍔什么是类加载器 负责在类加载过程中,将字节码信息以流的方式获取并加载到内存当中 🛸有哪些常见的类加载器 启动类加载器 启动类加载器是有Hotspot虚拟机通过的类…

一文了解Web3.0真实社交先驱ERA

Web2时代,少数科技巨头垄断了全球近60亿人口的网络社交数据,并用之为自己牟利,用户无法掌控个人数据,打破该局面逐渐成为共识,于是,不少人看到了Web3社交赛道蕴含的巨大机遇,标榜着去中心化和抗…

官网域名SSL证书的重要性

什么是SSL证书? SSL(安全套接层)证书是一种加密技术,用于确保在用户浏览网站时,其数据传输经过安全通道,不能被第三方窃取或篡改。通过SSL证书,网站可以建立安全连接,保障用户与网站…

阿里云学生300元无门槛代金券领取入口,2024更新

阿里云300元无门槛代金券怎么领取?300元无门槛代金券是指阿里云的「云工开物」高校计划,学生完成实名认证即可领取300元无门槛优惠券,活动入口 aliyunbaike.com/go/university 活动的打开后,如下图: 阿里云学生代金券…

【自然语言处理】:实验4布置,预训练语言模型实现与应用

清华大学驭风计划 因为篇幅原因实验答案分开上传,自然语言处理专栏持续更新中,期待的小伙伴敬请关注 有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~ 案例简介 2018年,Google提出了预训练语言模型BE…

甲醇汽车产量不断增加 行业发展面临一定困难和挑战

甲醇汽车产量不断增加 行业发展面临一定困难和挑战 甲醇汽车是指以甲醇作为主要或者唯一燃料的汽车。与传统汽车相比,甲醇汽车具有节能减排、使用成本低、有害气体排放量少等优点,能够有效缓解能源紧缺及环境污染问题。 从上游市场来看,甲醇…

策略联动配置

策略联动简介 定义 策略联动是通过在网关设备上统一管理用户的访问策略并且在网关设备和认证接入设备执行用户的访问策略,来解决大型园区策略强度与复杂度之间矛盾的一种解决方案。 目的 传统网络中,在接入层部署NAC认证,使得认证接入设备…

在ChatGPT时代,出国留学如何避免掉入学术不端重灾区?

近日,哈佛校长克洛迪娜盖伊在校园“反犹风波”中因立场问题被迫辞职。此外,哈佛大学相关调查委员会还发现盖伊在学术论文中存在错误引用资料来源等问题。对于种种学术不端行为,留学生如何防范?在ChatGPT时代,出国留学如…

ktutil编写生成keytab文件的脚本、通过keytab文件认证用户

文章目录 1. 生成keytab文件脚本2. 通过keytab文件认证3. 查看认证的用户4. 失效认证的用户 1. 生成keytab文件脚本 生成keytab文件的脚本 vim generate_kb.sh #!/usr/bin/bash ktutil <<EOF add_entry -password -p $1 -k 1 -e arcfour-hmac $2 write_kt $3 EOF示例&am…

项目管理工具YouTrack v2023.3全新发布——支持一系列AI辅助功能

YouTrack 是一款项目管理工具&#xff0c;其中包含可以简化您的工作并在任何团队项目中提高生产力的功能。从软件开发和 DevOps 到人力资源和市场营销&#xff0c;各种团队都可以使用 YouTrack 的功能轻松跟踪和协作处理任何规模的项目。 YouTrack v2023.3正式版下载 具体更新…