OpenAI 全新发布文生视频模型 Sora,功能有多强大?

news2025/1/20 1:40:13

卷疯了卷疯了,短短十几小时内,OpenAI和谷歌接连发布核弹级成果。

国内还没睡的人们,经历了过山车般的疯狂一晚。

就在刚刚,OpenAI突然发布首款文生视频模型——Sora。简单来说就是,AI视频要变天了!

PS:目前 openai 官方还未开放 sora 灰度,不过根据文生图模型 DALL·E 案例,一定是先给 ChatGPT Plus 付费用户使用,需要注册或者升级 GPT Plus 可以看这个教程: 升级 ChatGPT Plus 的教程 ,一分钟完成升级

它不仅能够根据文字指令创造出既逼真又充满想象力的场景,而且生成长达1分钟的超长视频,还是一镜到底那种。

60秒的一镜到底,视频中的女主角、背景人物,都达到了惊人的一致性,各种镜头随意切换,人物都是保持了神一般的稳定性。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black [leather jacket](https://www.zhihu.com/search?q=leather jacket&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={“sourceType”%3A"answer"%2C"sourceId"%3A"3397590223"}), a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

OpenAI究竟是怎么做到的?根据官网介绍,「通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。」

显然,这个王炸级技术有着革命般的意义,连都沉迷到不能自拔!

他不仅疯狂发推安利,而且还亲自下场为网友生成视频:你们随意来prompt,我一一输出。

动图封面

一位戴着尖顶帽,身披绣有白色星星的蓝色长袍的巫师正在施法,他的一只手射出闪电,另一只手中拿着一本旧书。

动图封面

在一间拥有电影级灯光设置的充满托斯卡纳乡村风情的厨房里,一位擅长利用社交媒体的奶奶,正在教你制作美味的自制诺奇面。

动图封面

我们将带你进行一次未来城市的街头巡览,在这里,高科技与自然和谐共处,展现出一种独特的赛博朋克风格。
这座城市洁净无瑕,到处可见的是先进的未来式有轨电车、绚丽的喷泉、巨型的全息投影以及四处巡逻的机器人。
想象一下,一个来自未来的人类导游正带领一群好奇的外星访客,向他们展示人类极致创造力的结晶——这座无与伦比、充满魅力的未来城市。

多项技术破纪录

借助于对语言的深刻理解,Sora能够准确地理解用户指令中所表达的需求,把握这些元素在现实世界中的表现形式。

也因此,Sora创造出的角色,能够表达丰富的情感!

它所制作出的复杂场景,不仅可以包括多个角色,还有特定的动作类型,以及对对象和背景的精确细节描绘。

看,下图中人物的瞳孔、睫毛、皮肤纹理,都逼真到看不出一丝破绽,完全没有AI味儿。

从此,视频和现实究竟还有什么差别?!

动图封面

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

此外,Sora还能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。

要知道,以前的AI视频,都单镜头生成的。

而这次OpenAI能在多角度的镜头切换中,就能实现对象的一致性,这不得不说是个奇迹!

这种级别的多镜头一致性,是Gen 2和Pika都完全无法企及的……

动图封面

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

举个例子:「雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。」

Sora根据这个提示所呈现的,便是东京在冬日里梦幻的一幕。

无人机的镜头跟随一对悠闲散步的情侣穿梭在街道上,左侧是车辆在河岸路上行驶的声音,右侧是顾客在一排小店之间穿梭的景象。

动图封面

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

可以说,Sora的效果已经领先到了恐怖的级别,完全跳出了用冷兵器短兵相接的时代,其他AI视频被彻底干趴。

世界模型

最最最可怕的一点来了,Sora身上,竟已经有了世界模型的雏形?

通过观察大量数据,它竟然学会了许多关于世界的物理规律。

下面这个片段太令人印象深刻了:prompt中描绘了「一个短毛绒怪物跪在一支红蜡烛旁的动画场景」,同时描述了怪物的动作和视频的氛围。

随后,Sora就创造了一个类似皮克斯作品的生物,它似乎融合了Furby、Gremlin和《怪兽公司》中Sully的DNA。

让人震惊的是,Sora对于毛发纹理物理特性的理解,准确得令人惊掉下巴!

想当初,在《怪兽公司》上映时,皮克斯为了创造出怪物在移动时超级复杂的毛发纹理,可是费了好大一番功夫,技术团队直接连肝几个月。

而这一点,Sora轻而易举地就实现了,而且从没有人教过它!

「它学会了关于 3D 几何形状和一致性的知识,」项目的研究科学家Tim Brooks表示。

「这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。」

动图封面

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

得益于DALL·E 3所使用的扩散模型,以及GPT-4的Transformer引擎,Sora不仅能够生成满足特定要求的视频,而且能够展示出对电影拍摄语法的自发理解。

这种能力体现在它对讲故事的独特才能上。

例如,在一个以「色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界」为主题的视频中,项目研究员Bill Peebles指出,Sora通过其摄影角度和拍摄时机,成功地推进了故事的发展。

「视频中实际上发生了多次镜头转换——这些镜头并非后期拼接而成,而是模型一气呵成地生成的,」他解释道。「我们并没有特别指令它这么做,它却能自动完成。」

动图封面

Prompt: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.

不过,当前的模型并不完美。它在模拟复杂场景的物理效果上可能会遇到难题,有时也难以准确理解特定情境下的因果关系。比如,某人吃掉饼干的一部分后,饼干可能看起来仍然完整无损。
PS:目前 openai 官方还未开放 sora 灰度,不过根据文生图模型 DALL·E 案例,一定是先给 ChatGPT Plus 付费用户使用,需要注册或者升级 GPT Plus 可以看这个教程: 升级 ChatGPT Plus 的教程 ,一分钟完成升级
动图封面

动图封面

此外,模型在处理空间细节,如区分左右时可能会出错,也可能在描述随时间变化的事件,如特定的摄影机动作轨迹时,表现不够精确。

动图封面

动图封面

好在,它还并不完美。

否则,虚拟和现实的界限,还能区分得清吗?

动图封面

这不是现实?

但是无可否认的是,可怕的事实已经就在面前:一个已经能够理解和模拟现实世界的模型,也就意味着AGI已经不远了。

技术介绍

Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。

Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。

通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。

与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。

OpenAI把视频和图像分解为较小的数据单元——「patches」,每个「patches」相当于GPT中的一个「token」。

这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer,覆盖了不同的持续时间、分辨率和纵横比。

Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。

除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora为理解和模拟现实世界的模型奠定了基础,对此OpenAI认为这是实现通用人工智能(AGI)的重要步骤。

作品欣赏

一列火车穿越东京郊区时,窗户上反射出的迷人景象。

动图封面

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

在雪地草原上,几只巨大的羊毛猛犸象缓缓前行,它们长长的毛皮在微风中轻轻飘扬。远处是雪覆盖的树木和雄伟的雪山,午后的阳光穿透薄云,给这个场景增添了一抹温暖的光彩。低角度的拍摄令这些庞大的毛茸茸动物显得尤为壮观,景深效果引人入胜。

动图封面

Prompt: Several giant wooly mammoths approach treading through a [snowy meadow](https://www.zhihu.com/search?q=snowy meadow&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={“sourceType”%3A"answer"%2C"sourceId"%3A"3397590223"}), their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

无人机从空中俯瞰大苏尔加雷角海滩附近的崎岖悬崖,海浪冲击着岩石,形成白色的浪尖,落日的金色光辉照亮了岩石海岸。远处有一个小岛上立着灯塔,悬崖边缘覆盖着绿色植被。从道路到海滩的陡峭下降和悬崖边缘凸出的景象,展现了海岸的原始美丽和太平洋海岸公路的崎岖风景。

动图封面

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

蓝色时刻下的圣托里尼岛航拍视图,展现了白色基克拉迪建筑和蓝色圆顶的绝美建筑。火山口的景色令人叹为观止,灯光营造出一种美丽而宁静的氛围。

动图封面

Prompt: Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.

一位20多岁的年轻人坐在天空中的一朵云上,沉浸在书本中。

动图封面

Prompt: A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.

一群活泼的金毛寻回犬小狗在银白色的雪地上嬉戏,它们好奇的小脑袋时而从雪地中探出,被雪花点缀,萌态十足。

动图封面

Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

在意大利布拉诺一排排鲜艳的彩色建筑中,一只可爱的斑点狗正通过窗户好奇地望向外面。与此同时,街道上人来人往,有的步行,有的骑行。

动图封面

Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

一幅充满工人、设备和重型机械的建筑工地的移轴摄影。

动图封面

Prompt: Tiltshift of a construction site filled with workers, equipment, and heavy machinery.

在一个培养皿中,生长着一片竹林,其中小熊猫们在欢快地奔跑。

动图封面

Prompt: A petri dish with a bamboo forest growing within it that has tiny red pandas running around.

一只卡通袋鼠正在迪斯科舞池中跳舞。

动图封面

Prompt: A cartoon kangaroo disco dances.

在一杯咖啡中,两艘海盗船展开了激烈的战斗,超写实的近景视频。

动图封面

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

PS:目前 openai 官方还未开放 sora 灰度,不过根据文生图模型 DALL·E 案例,一定是先给 ChatGPT Plus 付费用户使用,需要注册或者升级 GPT Plus 可以看这个教程: 升级 ChatGPT Plus 的教程 ,一分钟完成升级

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1469862.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《高效使用Redis》- 由面试题“Redis是否为单线程”引发的思考

由面试题“Redis是否为单线程”引发的思考 很多人都遇到过这么一道面试题:Redis是单线程还是多线程?这个问题既简单又复杂。说他简单是因为大多数人都知道Redis是单线程,说复杂是因为这个答案其实并不准确。 难道Redis不是单线程&#xff1f…

Linux进程【补充】

文章目录 进程概念task_struct 进程创建forkvfork写时拷贝 进程状态僵尸进程孤儿进程守护进程 进程地址空间是什么为什么怎么做 进程概念 进程是一个程序的执行实例或者是担当系统资源分配的实体。当一个程序运行时,被从硬盘加载到内存中,操作系统为每个…

你真的了解@Async吗?

你真的了解Async吗? 使用场景: 开发中会碰到一些耗时较长或者不需要立即得到执行结果的逻辑,比如消息推送、商品同步等都可以使用异步方法,这时我们可以用到Async。但是直接使用 Async 会有风险,当我们没有指定线程池…

政安晨【示例演绎虚拟世界开发】(一):Cocos Creator 的 Hello World

政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: AI虚拟世界大讲堂 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正。 前言 Cocos Creator是一款非常强大的游戏开发引擎,它有着优秀…

李宏毅2023机器学习作业1--homework1——python语法

# 定义list del_col del_col [0, 38, 39, 46, 51, 56, 57, 64, 69, 74, 75, 82, 87] # 删除raw_x_train中del_col的列,axis为1代表删除列 raw_x_train np.delete(raw_x_train, del_col, axis1) # numpy数组增删查改方法 # 定义列表get_col get_col [35, 36, 37,…

sql语法中所有的条件字段都可以用函数来加工

SELECTt_test.age FROMt_testINNER JOIN t_test_copy1 ON SUBSTR( t_test.age, 1, 4 ) t_test_copy1.idd

加速Python代码的秘密武器,探索Cython的秘密

首先和大家明确一下这个Cython单词的读法,这个单词Cython以前我也不知道怎么读,老后面要用到这个包的时候,老是不清楚读法,才去搜了下,这个单词是读"赛森",就是前面的cy是读"赛"&#…

C语言每日一题(61)盛最多水的容器

题目链接 力扣 11 盛最多水的容器 题目描述 给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水…

IDEA安装配置以及安装配置Maven

IEDA官方下载地址,有专业版(收费,破解),社区版(免费) 下载 IntelliJ IDEA – 领先的 Java 和 Kotlin IDE 安装配置Maven 1.解压apache-maven-3.6.3-bin.zip,安装maven到D盘softwar…

高校隔离宿舍管理系统

高校隔离宿舍管理系统 获取源码——》公主号:计算机专业毕设大全

堆排序、快速排序和归并排序

堆排序、快速排序和归并排序是所有排序中最重要的三个排序,也是难度最大的三个排序;所以本文单独拿这三个排序来讲解 目录 一、堆排序 1.建堆 2.堆排序 二、快速排序 1.思想解析 2.Hoare版找基准 3.挖坑法找基准 4.快速排序的优化 5.快速排序非…

Java中PDF文件传输有哪些方法?

专栏集锦,大佬们可以收藏以备不时之需: Spring Cloud 专栏:http://t.csdnimg.cn/WDmJ9 Python 专栏:http://t.csdnimg.cn/hMwPR Redis 专栏:http://t.csdnimg.cn/Qq0Xc TensorFlow 专栏:http://t.csdni…

Type-C连接器笔记

一、Type-C的介绍 Type-C是一种全新的USB接口形式,由USB Implementers Forum(USB-IF)制定,并在2014年获得苹果、谷歌、英特尔、微软等厂商支持后开始普及。它是一种通用串行总线(USB)的硬件接口规范&#x…

python学习26

前言:相信看到这篇文章的小伙伴都或多或少有一些编程基础,懂得一些linux的基本命令了吧,本篇文章将带领大家服务器如何部署一个使用django框架开发的一个网站进行云服务器端的部署。 文章使用到的的工具 Python:一种编程语言&…

软考37-上午题-【数据库】-数据模型、数据库的三级模式和二级映像

一、考情简介 上午题:6分——6道选择题 下午题:15分——一道分析题 E-R图、关系模式:下午考试必考!!!(编制也要考!) 二、数据模型 数据模型是对现实世界数据特征的抽象…

信息抽取(UIE):使用自然语言处理技术提升证券投资决策效率

一、引言 在当今快速变化的证券市场中,信息的价值不言而喻。作为一名资深项目经理,我曾领导一个关键项目,旨在通过先进的信息抽取技术,从海量的文本数据中提取关键事件,如企业并购、新产品发布以及政策环境的变动。这些…

[SUCTF 2019]EasySQL1 题目分析与详解

一、题目介绍 1、题目来源: BUUCTF网站,网址:https://buuoj.cn/challenges 2、题目描述: 通过以上信息,拿到flag。 二、解题思路 首先打开靶机,尝试输入1查看回显,回显如图所示:…

细说python3中sort和sorted

sort和sorted的区别 虽然python3中sort()和sorted()都可以用来排序,但二者有以下两个最主要的区别: sort只能应用在列表list上,而sorted可以对所有可迭代的对象进行排序的操作 sort方法会在原list上直接进行排序,不会创建新的l…

Vue3(pinia) 整合 SpringWebsocket链接url动态传参

前言: 👏作者简介:我是笑霸final,一名热爱技术的在校学生。 📝个人主页:个人主页1 || 笑霸final的主页2 📕系列专栏:java专栏 📧如果文章知识点有错误的地方,…

【Vuforia+Unity】AR06-空间环境识别功能(AreaTargets)

Vuforia原理:把被识别的物体转成图、立体图、柱形图,3D模型、环境模型,然后模型生成Vuforia数据库-导入Unity-参考模型位置开始摆放数字内容,然后参考模型自动隐藏-发布APP-识别生活中实物-数字内容叠加上去! 不论你是否曾有过相关经验,只要跟随本文的步骤,你就可以成功…