Sora震撼发布:让你成为导演的时代终于到来!

news2025/1/16 7:56:19

关注【云原生百宝箱】公众号,获取更多云原生消息

OpenAI重磅发布了他们的视频生成大模型Sora,该模型可支持长达一分钟的高质量视频内容的生成,又着实又令人震惊了一把。

图片

OpenAI朝着突破人类想象力的界限又迈出了一步,我相信你至少曾经想过,“如果我能成为一名导演,我会拍一部关于XX的电影”。虽然没有人能让时间倒流,但 OpenAI 几年来已经让我们快进未来。从DALL-E 2开始,继而成功的ChatGPT,再到多种GPT模型,以及现在新推出的文本转视频模型Sora,OpenAI不断创新并拓展AI技术的可能性

你可能会说:这算啥,AI视频又不是新东西,之前不是有runway和pika吗?

但这次真的不太一样,sora的能力超过我们的想象,sora产出的视频效果大家可以去官网看看:https://openai.com/sora。

看完你会知道sora究竟有多强,之于我,是达到了震撼的效果

只需要三个词来总结Sora,那就是“60s超长长度”、“单视频多角度镜头”和“世界模型”。

---节选自《Sora王炸出现,一夜之间很多创业公司凉凉…AGI从10年缩短到1年》

Sora是什么?

Sora,是一个文本转视频模型。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。

Sora理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要现实世界交互的问题。

Sora[1]是 OpenAI 的突破性技术,可将文本转换为视频,本质上就像一根魔杖,将你的故事或描述以动态图像的形式呈现出来。

它可以为各种场景创建视觉效果,从日常场景到富有想象力的奇幻场景。尽管 Sora 是一个开创性的工具,但它仍在不断完善,以更准确地理解和可视化复杂的概念。OpenAI 致力于增强 Sora 的能力并确保其负责任的使用。

Sora的效果

AI想象中的龙年春节,红旗招展人山人海。

有紧跟舞龙队伍抬头好奇观望的儿童,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。

图片

雨后东京街头,潮湿地面反射霓虹灯光影效果堪比RTX ON。

图片

行驶中的列车窗外偶遇遮挡,车内人物倒影短暂出现非常惊艳。

图片

也可以来一段好莱坞大片质感的电影预告片:

图片

竖屏超近景视角下,这只蜥蜴细节拉满:

图片

Sora除了能够根据直接根据提示词成一分钟的视频,还支持:

1)通过提示词让图片动起来

2)在时间维度上向前和向后扩展生成的视频

3)视频到视频的编辑,通过给定一个视频,然后通过给定一定的提示词就可以实现视频内容的编辑

4)视频连接融合,这个有点类似视频差值融合,输入两个完全不同主题的视频,视频可以生成无缝的过渡

                           ---节选自《OpenAI 的Sora其实是个物理世界模拟器》

云原生百宝箱

行万里路,此处相逢,共话云原生之道。 偶逗趣事,明月清风,与君同坐。

Sora给谁用的?

Sora 专为想要从文本创建逼真且富有想象力的视频的用户而设计。它针对的是需要能够为各种目的(例如讲故事、娱乐、教育或内容创建)生成复杂场景、角色和动作的个人或组织。

👉从文本脚本创建电影预告片、短片、动画和纪录片。Sora 可以帮助电影制作人和故事讲述者将他们的想法和概念形象化,并创建引人注目的原创视频。Sora 还可以根据观众的喜好和兴趣帮助他们发现新的有趣的内容。

👉使用新元素增强现有视频,例如添加特效、更改背景或插入新角色。Sora 可以帮助视频编辑和制作人改进和修改他们的视频,并增加更多的多样性和创造力。Sora 还可以根据观众的反馈和输入,帮助他们欣赏更加个性化和互动的视频。

👉根据文本摘要生成教育视频,例如解释科学概念、历史事件或文化现象。Sora 可以帮助教育工作者和学习者创建和访问信息丰富且引人入胜的视频,从而增强他们的理解和记忆。

Sora 还可以根据观众的好奇心和问题,帮助他们探索和了解更多不同的主题和主题。

👉为社交媒体创建个性化视频,例如生日祝福、旅行日记或模因。Sora 可以帮助社交媒体用户和影响者创建和分享独特且有趣的视频,以表达他们的个性和情感。Sora 还可以根据观众的喜好和评论,帮助他们与朋友和关注者建立联系并互动。

👉从文字描述中形象化想法、场景和梦想,例如设计产品、想象未来或探索幻想世界。Sora 可以帮助设计师和创新者创建和测试他们的原型和愿景,并获得反馈和建议。Sora还可以帮助观众根据他们的想象力和创造力来体验和享受不同的现实和可能性。

Sora使用了什么研究?

Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。具体来说,它使用 DALL·E 3 中的重述技术,该技术涉及为视觉训练数据生成高度描述性的标题。Sora 是一种扩散模型,它使用类似于 GPT 模型的Transformer架构,并将视频和图像表示为称为补丁的较小单元的集合。这种方法允许一次性生成整个视频或扩展生成的视频以使其更长。

Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。

Sora是如何工作的,简单地说……

图片

👉Sora 基于深度神经网络,这是一种机器学习模型,可以从数据中学习并执行复杂的任务。Sora 使用从中学习到的大型视频数据集,涵盖各种主题、风格和流派。

Sora分析文本提示并提取相关关键词,例如主题、动作、地点、时间和心情。然后,它从数据集中搜索与关键字匹配的最合适的视频,并将它们混合在一起以创建新视频。

图片

扩散模型: Sora 从看起来像静态噪声的视频开始,逐渐消除噪声以创建清晰的视频。可以将其想象为从一张模糊的图片开始,然后慢慢使其变得更加清晰。

生成视频: Sora 可以一次创建整个视频或使现有视频更长。它可以跟踪视频中多个帧中发生的情况,因此即使某些内容暂时看不见,它仍然知道它在那里。

该模型面临的最大挑战可能是保持拍摄对象的一致性,即使它离开了画面。任何使用过 DALL-E 模型并尝试创建保持不变的角色的人都知道,当角色不断变化且看起来永远不一样时,这是多么困难。因此,制作一个不仅能将文本转换为视频,还能保持角色一致的模型,是一个全新的成就水平。

Transformer架构: Sora 使用一种称为Transformer的特殊结构,类似于 GPT 模型(AI 语言)中使用的结构。这使得它能够处理大量数据并制作高质量的视频。

补丁和令牌:视频和图像被分解为称为补丁的小块,类似于语言人工智能中单词被分解为令牌的方式。这有助于 Sora 从各种视频和图像中学习。

基于过去的研究: Sora 使用 DALL·E 和 GPT 等早期模型的技术。例如,它使用DALL·E 3中的方法来创建详细的训练描述,以便在制作视频时可以更好地理解和遵循文本说明。

从文本或图像创建视频: Sora 可以根据书面说明制作视频,使静态图像栩栩如生,或添加到现有视频中。它注重小细节,使动画准确。

OpenAI 让我们初步了解了它的功能,它们看起来非常有前途。

除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地动画图像的内容并关注小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。请参阅Sora技术报告[2]了解更多信息。

Sora 是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现 AGI 的重要里程碑。

关注【云原生百宝箱】公众号,获取更多云原生消息

行万里路,此处相逢,共话云原生之道。 偶逗趣事,明月清风,与君同坐。

当前模型还有不足

当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。

该模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

Sora安全吗

Sora 正在与red 成员(错误信息、仇恨内容和偏见等领域的领域专家)合作,他们将以对抗性方式测试该模型。

例如,在 OpenAI 产品中,我们的文本分类器将检查并拒绝违反我们的使用政策的文本输入提示,例如请求极端暴力、性内容、仇恨图像、名人肖像或他人 IP 的文本输入提示。我们还开发了强大的图像分类器,用于检查生成的每个视频的帧,以帮助确保它在向用户显示之前符合我们的使用政策。

Sora 的挑战和局限性

Sora并不完美,它仍然面临一些挑战和限制。他们之中有一些是:

  • • Sora 不是公开可用的,只有一小部分研究人员和创意专业人士可以访问它以进行反馈和测试。

  • • OpenAI 尚未宣布何时或如何向公众发布 Sora,也没有宣布定价和许可模式。

  • • Sora 受 OpenAI 服务条款的约束,该条款禁止使用该模型创建涉及“极端暴力、性内容、仇恨图像、名人肖像或他人知识产权”的内容。OpenAI 还监控 Sora 的使用情况,并保留在检测到任何违规或滥用行为时撤销访问或修改输出的权利。

  • • Sora 可能会生成不准确、不适当或有害的内容,例如歪曲事实、侵犯隐私或宣扬偏见

  • • Sora 还可能生成与现实无法区分的内容,这可能会带来道德和社会风险,例如传播错误信息、操纵情绪或削弱信任。

  • • Sora 可能无法处理复杂或模糊的提示,例如涉及多个句子、逻辑推理或抽象概念的提示。Sora 也可能无法生成连贯或一致的视频,例如那些需要时间连续性、因果关系或叙事结构的视频。

引用链接

[1] Sora: https://openai.com/sora#research
[2] Sora技术报告: https://openai.com/research/video-generation-models-as-world-simulators

- END -

推荐阅读

  • 叮,你收到一份来自CNCF的云原生景观简介

  • 要魔改Kubernetes,我们可以从哪里扩展

  • 问题排查太烦心,试试GPT的超能力

  • Copa:无需重建镜像,直接修补容器漏洞

  • 玩转K8s网络:16张图带你从小白到专家

  • 1000节点集群,5秒搭建好

  • 流量何处来又往何处去,这次一目了然

  • Kubernetes CNI 插件选型和应用场景探讨

  • 块/文件/对象存储难统一管理,试试这个集大成者

  • GPU越来越难买,如何提高利用率

  • 监控外部服务太复杂?ServiceMonitor 和 PrometheusRule有妙招

  • 容器快了,却不安全了,Rootless 安排上

  • 还在Jenkins点点,快来体验Tekton的灵活自动化

  • 懒人福音:LazyDocker轻松驾驭容器,操作高效省心

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1458911.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决npm淘宝镜像到期问题

1 背景 由于node安装插件是从国外服务器下载,如果没有“特殊手法”,就可能会遇到下载速度慢、或其它异常问题。 所以如果npm的服务器在中国就好了,于是我们乐于分享的淘宝团队干了这事。你可以用此只读的淘宝服务代替官方版本,且…

Keepalived实现Nginx的高可用集群案例

服务器规划: serverb(nginx2):192.168.233.144 serverc(客户端):192.168.233.140 serverd(nginx1):192.168.233.141 结构图: serverd(nginx1): # 安装nginx yum install nginx -y# 进入nginx配置目录 cd /e…

你真的了解—————NumPy吗

🌈个人主页:小田爱学编程 🔥 系列专栏:opencv 🏆🏆关注博主,随时获取更多关于IT的优质内容!🏆🏆 😀欢迎来到小田代码世界~ 😁 喜欢的…

DS:循环队列的实现

创作不易,给个三连吧!! 一、前言 对于循环队列,博主也是源自于一道力扣的OJ题 力扣:循环队列的设置 后来我在网上查过,这个循环队列是有自己的应用场景的!!并不是出题者为了出题…

软件工具安装遇到bug、报错不知道怎么解决?看这里!

前言 本文举例了几个常见的软件工具使用问题,文末会提供一些我自己整理和使用的工具资料 。 "在追逐零 Bug 的路上,我们不断学习、改进,更加坚定自己的技术信念。让我们相信,每一个 Bug 都是我们成长的机会。" 一、VM…

全面解读视频生成模型Sora

2024年2月15日,OpenAI在其官网发布了《Video generation models as world simulators》的报告,该报告提出了作为世界模拟器的视频生成模型Sora。 OpenAI对Sora介绍如下: We explore large-scale training of generative models on video dat…

【Simulink系列】——动态系统仿真 之 连续系统线性连续系统

声明:本系列博客参考有关专业书籍,截图均为自己实操,仅供交流学习! 一、连续系统定义 连续系统输出在时间上连续变化,而非间隔采样取值,满足以下条件: ①输出连续变化,变化的间隔…

解锁文档处理新境界:ONLYOFFICE编辑功能为开发者带来新机遇

引言 ONLYOFFICE最新发布的文档8.0版本带来了一系列引人注目的功能和优化,为用户提供了更强大、更高效的在线编辑体验。这次更新涵盖了多个方面,包括PDF表单、RTL支持、单变量求解、图表向导以及插件界面设计更新等。这些新功能不仅提升了文档处理的便利…

免费下载的指纹浏览器推荐,有效保护您的隐私安全

在这个数字化快速发展的时代,我们每天都在网上留下无数的足迹。无论是在线购物、社交媒体互动还是处理跨境电商事务,我们的每一次点击都可能被跟踪,我们的个人信息和隐私正处于风险之中。在网络世界中,一个简单的浏览器指纹就能暴…

智慧社区管理系统:构建未来的生活模式

在这个信息化、智能化的时代,我们期待的不再是简单的居住空间,而是一个集安全、便捷、舒适、环保于一体的智能化社区。为此,我们推出了全新的智慧社区管理系统,旨在将先进的科技力量引入社区管理,为居民提供更优质的生…

Python UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa4 in position 49

0x00 错误 UnicodeDecodeError: gbk codec cant decode byte 0xa4 in position 49: illegal multibyte sequence 这个错误出现的场景是这样的: 我把一个在 Mac 电脑生成的 .txt 文件 拷贝到了 Windows 电脑上 在读取 .txt 文件内容时 出现了这个错误 应该是 编…

视频监控需求八问:视频智能分析/视频汇聚平台EasyCVR有何特性?

最近TSINGSEE青犀视频在与业内伙伴进行项目合作的过程中,针对安防监控可视化视频管理系统EasyCVR视频融合平台在电信运营商项目中的应用,进行了多方面的项目需求沟通。今天我们就该项目沟通为案例,来具体了解一下用户关心度较高的关于视频智能…

运行jar时提示缺少依赖的类

供应商丢过来一个jar,是用Java写的Windows桌面程序,运行jar时提示缺少依赖的类,一看就是打包没带依赖的库,下面是解决方法: 1、解压缩jar,查看 META-INF 目录下的 MANIFEST.MF,看看都引用了哪些…

十、图像像素点的与、或、非、异或操作

项目功能实现&#xff1a;对图片像素点进行与或非操作 按照之前的博文结构来&#xff0c;这里就不在赘述了 在OpenCV中&#xff0c;颜色是(B,G,R)通道排列 一、头文件 yuhuofei.h 定义一个YUHUOFEI类&#xff0c;里面声明了一个yuhuofei方法 #pragma once#include<openc…

盲盒小程序开发,线上盲盒平台的发展潜力

盲盒的出现给大众带来了全新的消费体验&#xff0c;目前&#xff0c;盲盒经济也是席卷了当代年轻人&#xff0c;一种新的商业模式就此出现。盲盒的玩法、种类也在不断创新进化&#xff0c;成为了吸引大众的消费形式。 当然&#xff0c;在当下盲盒稳步发展时期&#xff0c;也要…

国标GB28181视频监控平台EasyGBS为什么视频播放一会儿就无法播放了?

视频监控国标GB28181平台EasyGBS是基于安防行业标准协议国标GB28181协议接入的安防监控视频平台&#xff0c;平台可以支持多路设备同时接入&#xff0c;实现视频流的接入、转码、处理、分发等功能&#xff0c;可对外分发RTSP、RTMP、FLV、HLS、WebRTC等格式的视频流。国标GB281…

数据分析案例-2023年TOP100国外电影数据可视化

&#x1f935;‍♂️ 个人主页&#xff1a;艾派森的个人主页 ✍&#x1f3fb;作者简介&#xff1a;Python学习者 &#x1f40b; 希望大家多多支持&#xff0c;我们一起进步&#xff01;&#x1f604; 如果文章对你有帮助的话&#xff0c; 欢迎评论 &#x1f4ac;点赞&#x1f4…

C/C++ BM11 链表相加(二)

文章目录 前言题目解决方案一1.1 思路阐述1.2 源码 总结 前言 这道题使用链表来实现加法运算&#xff0c;主要是涉及到数据对位以及加法进位的处理。 题目 假设链表中每一个节点的值都在 0 - 9 之间&#xff0c;那么链表整体就可以代表一个整数。 给定两个这种链表&#xff0…

【Docker】集群容器监控和统计 Portainer基本用法

Portainer是一款轻量级的应用&#xff0c;它提供了图形化界面&#xff0c;用川于方便地管理Docker环境&#xff0c;包括单机环境和集群环境。 主要功能&#xff1a;实现集群容器的监控和统计 下载安装 官网&#xff1a;https://www.portainer.io 文档&#xff1a;https://do…

短剧App:引领移动娱乐新潮流

随着科技的飞速发展&#xff0c;人们对于娱乐的需求也在不断变化。近年来&#xff0c;短剧App逐渐崭露头角&#xff0c;成为了移动娱乐的新宠。本文将探讨短剧App的发展趋势、市场现状、用户需求以及开发过程中的关键因素。 一、短剧App的发展趋势 短剧App以其简短、精悍的特…