新王炸:文生视频Sora模型发布,能否引爆AI芯片热潮

news2024/11/20 3:24:18

前言

前方高能预警,Sora来袭!

浅析Sora的技术亮点

语言模型中构建关键词联系

视频素材分解为时空碎片

扩散模型DiT

Not for play, But change world!

OpenAI的宏大目标

未来已来,只是尚未流行

Sora的成本与OpenAI的7万亿美金豪赌

算力,未来在何方?

最后

参考文献


前言

在人工智能的历史长河中,每一次技术的飞跃都伴随着社会生产力的巨大变革。自2015年以来,深度学习技术的突破性进展,尤其是在自然语言处理、图像识别和机器学习等领域的成功应用,已经彻底改变了我们对机器智能的认识和期待。这些技术的进步不仅仅是理论上的突破,更是实际应用的革命,它们正在逐步渗透到我们生活的方方面面,从自动驾驶到智能家居,从数据分析到内容创作。在这样的背景下,OPENAI最近发布的Sora模型无疑是又一次令人瞩目的里程碑。Sora模型基于扩散模型,能够将简单的文本描述转换成为高质量的视频内容。这种能力不仅仅是技术上的创新,更是对视频制作、媒体传播乃至整个娱乐产业的挑战和机遇。

前方高能预警,Sora来袭!

首先,让我们先来感受一下Sora的魔力。

一位戴着尖顶帽,身披绣有白色星星的蓝色长袍的巫师正在施法,他的一只手射出闪电,另一只手中拿着一本旧书。

在一间拥有电影级灯光设置的充满托斯卡纳乡村风情的厨房里,一位擅长利用社交媒体的奶奶,正在教你制作美味的自制诺奇面。

我们将带你进行一次未来城市的街头巡览,在这里,高科技与自然和谐共处,展现出一种独特的赛博朋克风格。
这座城市洁净无瑕,到处可见的是先进的未来式有轨电车、绚丽的喷泉、巨型的全息投影以及四处巡逻的机器人。
想象一下,一个来自未来的人类导游正带领一群好奇的外星访客,向他们展示人类极致创造力的结晶——这座无与伦比、充满魅力的未来城市。

此外,Sora还能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。

需要知道的是,以前的AI视频,都单镜头生成的。 

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
这是一部电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,用35毫米胶片拍摄,色彩鲜艳。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
「雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。」

Sora根据这个提示所呈现的,便是东京在冬日里梦幻的一幕。

无人机的镜头跟随一对悠闲散步的情侣穿梭在街道上,左侧是车辆在河岸路上行驶的声音,右侧是顾客在一排小店之间穿梭的景象。

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.
动画场景特写了一个毛茸茸的矮个子怪物跪在融化的红烛旁。美术风格是3D和现实的,重点是照明和纹理。这幅画的气氛是一种惊奇和好奇,因为怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮的感觉,好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。

Prompt: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.
一个华丽的珊瑚礁纸工艺品世界,到处都是五颜六色的鱼和海洋生物。

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.
一列火车穿越东京郊区时,窗户上反射出的迷人景象。

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
在雪地草原上,几只巨大的羊毛猛犸象缓缓前行,它们长长的毛皮在微风中轻轻飘扬。远处是雪覆盖的树木和雄伟的雪山,午后的阳光穿透薄云,给这个场景增添了一抹温暖的光彩。低角度的拍摄令这些庞大的毛茸茸动物显得尤为壮观,景深效果引人入胜。

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
无人机从空中俯瞰大苏尔加雷角海滩附近的崎岖悬崖,海浪冲击着岩石,形成白色的浪尖,落日的金色光辉照亮了岩石海岸。远处有一个小岛上立着灯塔,悬崖边缘覆盖着绿色植被。从道路到海滩的陡峭下降和悬崖边缘凸出的景象,展现了海岸的原始美丽和太平洋海岸公路的崎岖风景。

Prompt: Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.
蓝色时刻下的圣托里尼岛航拍视图,展现了白色基克拉迪建筑和蓝色圆顶的绝美建筑。火山口的景色令人叹为观止,灯光营造出一种美丽而宁静的氛围。

Prompt: A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.
一位20多岁的年轻人坐在天空中的一朵云上,沉浸在书本中。

Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.
一群活泼的金毛寻回犬小狗在银白色的雪地上嬉戏,它们好奇的小脑袋时而从雪地中探出,被雪花点缀,萌态十足。

Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.
在意大利布拉诺一排排鲜艳的彩色建筑中,一只可爱的斑点狗正通过窗户好奇地望向外面。与此同时,街道上人来人往,有的步行,有的骑行。

Prompt: Tiltshift of a construction site filled with workers, equipment, and heavy machinery.
一幅充满工人、设备和重型机械的建筑工地的移轴摄影。

Prompt: A petri dish with a bamboo forest growing within it that has tiny red pandas running around
在一个培养皿中,生长着一片竹林,其中小熊猫们在欢快地奔跑。

Prompt: A cartoon kangaroo disco dances.
一只卡通袋鼠正在迪斯科舞池中跳舞。

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
在一杯咖啡中,两艘海盗船展开了激烈的战斗,超写实的近景视频。

当然也有一些诡异的输出。

好在,它还并不完美。

否则,虚拟和现实的界限,还能区分得清吗?

浅析Sora的技术亮点

在Open AI给出的技术报告【1】中,笔者挖出了两点Sora的技术要点,分享如下:
1-视觉数据基建----时空碎片(Spacetime Patches)
以chatGPT为例,大语言模型首先通过Embedding将人类语言“编码”,然后通过注意力机制Attention提取各种丰富的知识和结构,以加权的形式学习并建立“关键词”之间的联系,最后再“反编码”,以人类的语言输出返回结果。

语言模型中构建关键词联系


语言模型中构建关键词联系

与LLM-NLP思路一致,Sora的第一步是针对视觉数据的建模:首先将视频压缩到一个低维的潜在空间,然后将其分解为时空碎片,这些“碎片”的集合作为Sora吃进的“语料”。这里的“碎片”-Patches,等同于语言模型中的Tokens,它帮助Sora获得了自然语言处理特性。

视频素材分解为时空碎片


视频素材分解为时空碎片

进一步,Sora团队构建了“智能字幕“模型DALL.E3,其建立起了Patches到Tokens之间的联系,实现了文本与视频的互译。使得GPT丰富的文本数据被有效的应用于Sora的训练,这极大地促进了Sora的诞生。


其次,由于Patches高度可扩展的表示特性,使得Sora能够应用于广泛的图像和视频编辑任务(图像就是厚度为1的视频,分辨率、形状等属性变换都可以体现为Patches的排列组合)。
2-反向学习----扩散模型(Diffusion Transformers--DiT)【2】


扩散模型是一种深度生成模型,其基本思想就是通过一个可逆的过程,将结构化数据(如图片)逐步转化为无结构的噪声数据,然后再逆向这个过程,从噪声中恢复出原始数据或生成新的数据实例。简而言之,就是让模型从图像的模糊还原中学习图像生成。

在这里插入图片描述

而DiT相对于传统的扩散模型做出了如下改进:
 使用Transformer替换U-Net,使得模型能够更好的处理长距离依赖性;
 验证了Transformer架构在扩散模型上的可扩展性,随着模型计算复杂度的上升,生成质量稳步提升。
 使用Latent diffusion取代pixel diffusion,降低了模型计算量。

扩散模型DiT


扩散模型DiT

在Sora的技术报告中,OpenAI 称Sora摒弃了“其他文生视频模型调整视频大小、裁剪或修剪到标准大小的通常做法”,以可变时长、分辨率与长宽比来训练视频生成,从而获得了重要优势。
从报告中展示的成果来看,Sora在视频生成上展现出了强大的涌现能力:人和景物在三维空间移动的一致性;长程时间相关性与对象持久性,如事物被遮挡后重现;事物与周边世界的互动性等等。

Not for play, But change world!

OpenAI在Sora的技术报告中毫不吝惜夸赞的言词,并对Sora的潜力充满期待。他们认为持续扩大视频模型的规模,将可以用来模拟整个物理和数字世界。这一愿景深深地震撼了笔者本人!

OpenAI的宏大目标


OpenAI的宏大目标

伴随着笔者对知乎、csdn、facebook的疯狂查阅,有另一种声音愈发强烈。原本笔者只是惊讶于Sora视频的丝滑,清晰与文本生成的简易。而更多的大佬,纷纷指出,Sora视频毫无违和感,没错!就是毫无违和感,它所展现的光影效果与碰撞遮挡,太真实了!Sora对于图像与视频的处理仅仅是其能力的表象,真相是,Sora是真的在理解地球物理世界的规律,而且取得了巨大的进展。

在这里插入图片描述


未来已来,只是尚未流行

“Sora 是一个数据驱动的物理引擎!“NVIDIA研究科学家Jim Fan在Twitter上发文。
“Sora不讲武德,一句话就有连续的视频,毁灭吧,计算机图形学!毁灭吧,游戏引擎!“计算机图形学学者谭剑如是说。
“去他喵的物理公式,宇宙的终极是概率!“
……
红衣教主周鸿祎曾表示:一旦人工智能接上摄像头,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI(通用人工智能)真的不远了,不是10年、20年的问题,可能一两年很快就可以实现。
而当下,Sora突破了,它实现了机器对这个世界的感知、观察和交互的能力,也就是说真正的给人工智能补上了眼睛。不难想象,在AI如此尽力的发展下,元宇宙般的梦幻世界仿佛近在咫尺。

img

AI在疯狂汲取人类文明与客观世界的知识

Sora的成本与OpenAI的7万亿美金豪赌

“很少有人提到 Sora 视频生成的成本。用 Sora 生成 1 分钟的视频估计需要几十美金,比RunwayML的Gen2(大约一分钟10美金)还贵,而很多人会选择性的忽略成本。比如 GPT-4 支持128K上下文的时候,很少有人提到用一次128K上下文需要1.28美金。今天 Gemini 1.5说支持10M上下文了,却并没有人知道这10M上下文的成本是多少。视频生成如果成本高达一分钟几十美金,那就只能受限于专业的影片和游戏制作人,没法用来生成抖音短视频。这就是为什么OpenAI要搞7万亿美金来造芯片。很多人觉得Sam Altman疯了,但我觉得他看到了AI真正的瓶颈——算力。“ ----知乎作者-李博杰


这样的判断很快迎来了资本市场的认证。继2月15日Sora爆炸问世后一周,全世界的投资人,都把目光投向了全球芯片巨头——英伟达。截至当地时间2月22日收盘,英伟达报785.38美元,涨16.4%,创历史新高,市值逼近2万亿美元,成为微软、苹果之后第三高。其市值一夜增长2733亿美元(约合人民币2万亿元)。相当于增加了一整个Netflix或一整个Adobe,约等于一个茅台三个宁德时代!皮衣刀客黄仁勋身家超越中国首富、农夫山泉创始人钟睒睒,升至全球富豪榜第 21 位。


不得不说“淘金的还没起飞,但卖铲子的倒是真的起飞了,哈哈哈哈!”

在这里插入图片描述

黄仁勋眺望未来

算力,未来在何方?

正所谓:哪里有需求,哪里就有市场!Sora的火爆与NVIDIA的成功又再一次印证了人工智能的影响力及其发展的紧迫性,这促使着“国产算力替代”又再一次回到了发展舞台的中心。过去的时间里,在中美博弈,芯片法案的压力下,催生出了一系列AI芯片独角兽,大家也都在各自的技术路线上奋起直追。这包括全志科技多目异构视觉芯片“V853”,云天励飞多芯粒集成CV加速单元“DeepEdge10”,清华大学的智能驾驶计算芯片“惊蛰R1”,时识科技“感算一体”动态视觉SoC“Speck”,以及知存科技的“存算一体”AI视觉芯片“WTM8系列”。与此同时,芯片架构设计、芯片验证以及编译工具链开发等AI芯片岗也引发了新一轮的人才需求热潮。


值得一提的是,在新一轮算力攻坚赛中,突破传统冯·诺依曼架构的范式探索成为主要方向之一。而“存算一体”架构打破了存算分离的壁垒,减少了数据的搬运,它就如同“在家办公”的新型工作模式,消除了数据“往返通勤“的能量消耗、时间延迟,并且节约了“办公场所”的运营成本,因而具备高能效比。加上“存算一体”架构对于工艺制程的“弱依赖”性(14nm展现4nm数字电路表现性能),使其成为了AI算力的重要发展方向。

在这里插入图片描述

Intel Lab 的大规模存算核拓扑规则【3】

从存算一体技术发展来看:
规模正在几何扩增。上图是2024年英特尔实验室新鲜出炉的存算一体架构大规模扩展拓扑图,可以清晰的看到64核拓扑,笔者印象2023年底的时候,4核才刚进入使用。


精度正在更进一步。从4比特到8比特到10比特。最新消息,AI芯片公司TetraMem及其合作伙伴,继2023年3月突破11比特后,于今年2月23日又在《科学》上发表重大突破:以忆阻器为核心的全新架构,突破实现任意高精度模拟计算【4】。


按照存算架构相对于传统数字电路10倍的能效表现,只能说其作为超大模型的支持潜力在逐渐被挖掘,属于它的时代即将到来。

最后

可以预见的是,AI的成长会以不可思议的速度多向发展,AI的成长基石:数据、算力、能源将会成为社会发展的重要引擎。笔者在此热烈邀请大家共同关注,共同学习,共同迎接美好的明天!

参考文献

【1】Technical report of Sora: Video generation models as world simulators (openai.com)
【2】Scalable Diffusion Models with Transformers:https://doi.org/10.48550/arXiv.2212.09748
【3】Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model:https://doi.org/10.48550/arXiv.2309.11000
【4】Programming memristor arrays with arbitrarily high precision for analog computing:https://www.science.org/doi/10.1126/science.adi9405

【5】另外,找到了一篇Sora的技术详解,有兴趣的朋友请见:最强文生视频模型 SORA 技术路线解读 (yuque.com)  

https://bbs.csdn.net/topics/618126472

【6】存内计算社区·文生视频Sora模型发布,是否引爆AI芯片热潮 :https://bbs.csdn.net/topics/618126472

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1478479.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GPT-SoVITS音色克隆-模型训练步骤

GPT-SoVITS音色克隆-模型训练步骤 GPT-SoVITS模型源码一个简单的TTS后端项目 基于模型部署和训练教程,语雀 模型部署和训练教程 启动模型训练的主页面 1. 切到模型路径 /psycheEpic/GPT-SoVITS进入Python虚拟环境,并挂起执行python脚本 conda activ…

nginx使用详解--缓存使用

Nginx 是一个功能强大的 Web 服务器和反向代理服务器,它可以用于实现静态内容的缓存,缓存可以分为客户端缓存和服务端缓存。 客户端缓存 客户端缓存指的是浏览器缓存, 浏览器缓存是最快的缓存, 因为它直接从本地获取(但有可能需要发送一个协商缓存的请…

leetcode:1974. 使用特殊打字机键入单词的最少时间(python3解法)

难度:简单 有一个特殊打字机,它由一个 圆盘 和一个 指针 组成, 圆盘上标有小写英文字母 a 到 z。只有 当指针指向某个字母时,它才能被键入。指针 初始时 指向字符 a 。 每一秒钟,你可以执行以下操作之一: 将…

算法基础(三)(模拟)

1.模拟算法介绍: 模拟算法通过模拟实际情况来解决问题,一般容易理解但是实现起来比较复杂,有很多需要注意的细节,或者是一些所谓很“麻烦”的东西。模拟题一般不涉及太难的算法,一般就是由较多的简单但是不好处理的部…

RT-Thread+ENV+MDK+STM32CubeMX适配

前言 (1)如果有嵌入式企业需要招聘湖南区域日常实习生,任何区域的暑假Linux驱动/单片机/RTOS的实习岗位,可C站直接私聊,或者邮件:zhangyixu02gmail.com,此消息至2025年1月1日前均有效 &#xff…

T - SQL使用事务 及 在Winform使用事务

事务适用场景 1 事务使用在存储过程中,直接在数据库中进行编写 2 事务使用在Winfrom项目中 SQl:使用事务转账操作的实例 一般都会找一个变量记录错误的个数,error记录上一句sql的错误和错误编号 declare errornum int 0 -- 定义…

el-table 指定表格合并行与单元格,以及表头合并单元格

1&#xff1a;页面html <template><div class"container"><div class"flex-end"><el-button type"primary" click"allEndBtn">批量办结</el-button><el-button type"primary" click"…

【第十天】C++函数对象/仿函数、谓词、适配器及常见algorithm算法

一、函数对象 重载了函数调用运算符()的类 实例化的对象叫函数对象&#xff0c;也叫仿函数。 如果函数对象 有一个参数 叫&#xff1a;一元函数对象/仿函数如果函数对象 有二个参数 叫&#xff1a;二元函数对象/仿函数如果函数对象 有三个及以上参数 叫&#xff1a;多元函数对…

Java设计模式 | 七大原则之合成复用原则

基本介绍 合成复用原则&#xff08;Composite Reuse Principle&#xff09;尽量使用合成/聚合的方式&#xff0c;而不是使用继承 设计原则核心思想总结 找出应用中可能需要变化之处&#xff0c;把他们独立出来&#xff0c;不要和那些不需要变化的代码混在一起针对接口编程&…

Ubuntu系统下DPDK环境搭建

目录 一.虚拟机配置1.添加一个网卡(桥接模式)2.修改网卡类型3.修改网卡名称4.重启虚拟机5.查看网卡信息6.dpdk配置内存巨型页 三 DPDK源代码下载和编译1.下载源代码2.解压源代码3.安装编译环境4.编译5.设置dpdk的环境变量6.禁止多队列网卡7.加载igb_uio模块8.网卡绑定9.验证测试…

Docker 入门笔记

课程地址 容器技术概述 docker能做什么&#xff1a;将应用程序代码和依赖打包为一个镜像&#xff0c;作为交付介质&#xff0c;在各种环境中部署 相比于虚拟机&#xff0c;docker 只虚拟出一个隔离的程序运行环境&#xff0c;其需要则资源大大减少 容器内的程序就好像直接运…

安装 docker 可视化工具 portainer

portainer 官方网站 https://www.portainer.io/ 一、portainer 介绍 Portainer是一款开源的容器管理平台&#xff0c;它提供了一个直观易用的Web界面&#xff0c;帮助用户管理Docker容器集群、镜像、卷等资源。Portainer 支持多种 Docker 环境&#xff0c;包括本地Docker、Sw…

EXTJS实现自定义表格

宽度自适应 width: 100%, 高度自适应 height: 100% 同时设置表格所处页面高度100% html,body,#griddemo{height: 100%;} 自定义显示的文本内容 Ext.onReady(function () {Ext.QuickTips.init()function sexText(val) {if (val 0) {return <span style"color:green…

20240229作业

1.编写链表&#xff0c;链表里面随便搞点数据&#xff0c;使用 fprintf 将链表中所有的数据&#xff0c;保存到文件中&#xff0c;使用 fscanf 读取文件中的数据&#xff0c;写入链表中 #include <stdio.h> #include <stdlib.h>// 定义链表节点结构体 struct List…

Linux系统安装使用nginx

1.编译安装Nginx服务 (1)关闭防火墙&#xff0c;将安装nginx所需要软件包传到/opt目录下 systemctl stop firewalld systemctl disable firewalld setenforce 0 将压缩包传入到/opt目录下 cd /opt wget http://nginx.org/download/nginx-1.18.0.tar.gz (2). 安装依赖…

小红书的几种赚钱方式解读

小红书的七种变现方式&#xff1a; 1.通过小红书蒲公英平台接广告&#xff0c;粉丝数量大于1000的用户可以开通。单条笔记的广告费用从几百元到几十万不等。 2.开设小红书专栏&#xff0c;粉丝数量大于1万的用户可以开通。 3.进行私域变现&#xff0c;将小红书的咨询引导到微信…

解决内嵌帆软报表出现重定向问题

最近收到反馈&#xff0c;某些程序的前端通过iframe标签内嵌finebi帆软报表时&#xff0c;出现一系列问题。 问题1: 如下图所示&#xff0c;单点登录(单点登录地址schema是https)后service地址的schema协议是http, 浏览器内核的安全策略不允许http访问https。 解决方案&#xf…

HTTP笔记(五)

个人学习笔记&#xff08;整理不易&#xff0c;有帮助点个赞&#xff09; 笔记目录&#xff1a;学习笔记目录_pytest和unittest、airtest_weixin_42717928的博客-CSDN博客 目录 一&#xff1a;HTTP报文首部 &#xff08;1&#xff09;HTTP请求报文 &#xff08;2&#xff09…

基于深度学习的水稻病害检测系统(含UI界面、yolov8、Python代码、数据集)

项目介绍 项目中所用到的算法模型和数据集等信息如下&#xff1a; 算法模型&#xff1a;     yolov8 yolov8主要包含以下几种创新&#xff1a;         1. 可以任意更换主干结构&#xff0c;支持几百种网络主干。 数据集&#xff1a;     网上下载的数据集&#x…

用户增长6步法

什么是用户增长&#xff1f; 通过痛点、产品、渠道、内容、技术、数据等要素实现用户的获取、激活、留存、变现、推荐&#xff0c;用户增长包含了产品出现前的用户增长、产品生产周期内的用户增长、产品生命周期外的用户增长三个阶段。 用户增长6步法&#xff1a;方法、模型和…