OpenAI 发布文生视频大模型 Sora,AI 视频要变天了,视频创作重新洗牌!AGI 还远吗?

news2025/3/15 3:54:58

一、一觉醒来,AI 视频已变天

早上一觉醒来,群里和朋友圈又被刷屏了。

今年开年 AI 界最大的震撼事件:OpenAI 发布了他们的文生视频大模型 Sora。

OpenAI 文生视频大模型 Sora 的横空出世,预示着 AI 视频要变天了,视频创作领域要重新洗牌!

啥都不说,先来感受一番:

OpenAI Sora 生成视频

再来看看其他由 Sora 生成的视频:

OpenAI Sora 示例视频 big-sur

你还能辨得出真假吗?

OpenAI Sora 示例视频 Kangroo

更多视频效果,大家可以去 OpenAI 的官网浏览。

传送门:https://openai.com/sora

看了 OpenAI 官网 Sora 做出的视频效果,说 Sora 目前是 「AI 视频领域的地表最强」,应该没有人反对吧。

二、OpenAI Sora 有哪些技术突破

一)视频时长的突破

之前更新了一个 AI 视频工具的系列专栏,有的小伙伴私信找我说,为什么推荐的这些 AI 视频工具,都只能生成几秒的视频呀。

确实,在 OpenAI 的 Sora 横空出世之前,AI 视频工具还没有突破视频时长的限制。基本都只能生成几秒的视频。

如果想通过 AI 视频工具生成视频,来做自媒体或其他用途,需要多次生成,再用一些剪辑、特效工具加工后,才能出片。

而 Sora 的出现,突破了 AI 视频领域的这一限制,可以直接生成长达一分钟的视频。

提到时长,瞬间觉得 Pika、Runway 等 AI 视频工具不香了。

二)世界模型

除了视频时长有突破外,Sora 模型不仅了解用户在提示词中要求的内容,还了解这些东西「在物理世界中的存在方式」。

之前听过卡兹克大佬一个关于 AI 视频的分享,在分享中,也提到了「物理规律」这个概念。

比如一拳抡到一个怪物的头上,它是有一个物体的交互的,整个视频的呈现,都是要符合物理世界的规律。

但在 Sora 之前的 AI 视频工具中,这块并没有突破。

而这块如果没有突破,AI 生成的视频,是很难应用到影视或者工业这块的。

但 Sora 的出现,让我们看到了可能性。

比如官网上的这个示例视频,枕头和被子的凹陷,都呈现得非常真实。

OpenAI Sora 官方示例视频 cat-on-bed

Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

提示词:一只猫叫醒熟睡的主人要求吃早餐。主人试图无视猫,但猫尝试了新的策略,最后主人从枕头下掏出一个秘密的零食藏匿处,让猫多呆一会儿。

三)单视频多角度镜头

另外,Sora 还可以在单个生成的视频中创建多个角度的镜头,且「一致性」和「稳定性」强得惊人。

这在之前的 AI 视频工具中,是远远达不到的。

可以看官网的视频示例。

三、OpenAI Sora 目前有哪些缺陷

虽然 OpenAI 的 Sora 已经在技术上有了很大突破,但依然存在一些缺陷。

比如,它可能难以准确地模拟复杂场景的物理现象,也可能无法理解因果关系的具体实例。

官方也举了一个例子。

比如,一个人可能咬了一口饼干,但是之后,饼干上可能没有咬痕。

除此之外,该模型还可能混淆提示的空间细节。

例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,比如遵循特定的相机轨迹。

四、OpenAI Sora 技术实现

Sora 是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。

Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过让模型一次看到许多帧,解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。

与 GPT 模型类似,Sora 使用 transformer 架构,释放出卓越的扩展性能。

将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁都类似于 GPT 中的一个 token。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变压器,跨越不同的持续时间、分辨率和纵横比。

Sora建立在 DALL·E 和 GPT 模型上。它使用了 DALL·E 3,涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本说明。

除了能够仅根据文本说明生成视频外,Sora 模型还能够获取现有的静止图像并从中生成视频,从而准确无误地对图像内容进行动画处理,并注重小细节。

该模型还可以拍摄现有视频并对其进行扩展或填充缺失的帧。

更多技术细节,请参考:

https://openai.com/research/video-generation-models-as-world-simulators

一觉醒来,Sora 已颠覆 AI 视频领域,视频、影视、广告等行业将重新洗牌,AGI 还远吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1453412.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

概率基础——二项分布

概率基础——二项分布 介绍 在统计学中,二项分布是一种离散型概率分布,它描述了在一系列独立同分布的伯努利试验中成功的次数。这里我们以抛硬币为例,将一个硬币抛掷 n n n次,每次抛掷结果为正面向上的概率为 p p p,…

鸿蒙开发系列教程(二十四)--List 列表操作(3)

列表编辑 1、新增列表项 定义列表项数据结构和初始化列表数据,构建列表整体布局和列表项。 提供新增列表项入口,即给新增按钮添加点击事件。 响应用户确定新增事件,更新列表数据。 2、删除列表项 列表的删除功能一般进入编辑模式后才可…

《Go 简易速速上手小册》第9章:数据库交互(2024 最新版)

文章目录 9.1 连接数据库 - Go 语言的海底宝藏之门9.1.1 基础知识讲解安装数据库驱动数据库连接 9.1.2 重点案例:用户信息管理系统准备数据库Go 代码实现连接数据库添加新用户查询用户信息用户登录验证主函数 9.1.3 拓展案例 1:批量添加用户准备数据库Go…

【IIS中绑定SSL证书】

下载SSL证书: 打开服务器IIS: 点击导入 在IIS中新增网站:

Sentinel注解@SentinelResource详解

Sentinel注解SentinelResource详解 熔断 针对访问超过限制【sentinel中配置的限制】的资源,通过java代码配置,返回一个自定义的结果,需要用到 SentinelResource 注解的 blockHandlerClass 和 blockHandler 属性。 blockHandlerClass&#…

防御保护--内容安全过滤

目录 文件过滤 内容过滤技术 邮件过滤技术 应用行为控制技术 DNS过滤 URL过滤 防火墙 ---- 四层会话追踪技术 入侵防御 ---- 应用层深度检测技术 深度包检测深度流检测 随着以上俩种的成熟与完善,提出了所谓的内容安全过滤 当然上网行为确实需要治理&…

反转链表【基础算法精讲 06】

视频地址 反转链表【基础算法精讲 06】_哔哩哔哩_bilibili 概念 链表的每一个结点都包含节点值 和1指向下一个结点的next指针 , 链表的最后一个结点指向空; 206 . 反转链表 用cur记录当前遍历到的结点 , 用pre表示下一个结点 , 用nxt表示cur的下一个…

Windows 编译 yangfengzzz/fluid-engine-OpenVDB

我想将 OpenVDB 接入 doyubkim 的流体引擎 https://github.com/doyubkim/fluid-engine-dev 然后搜到已经有人做过这件事了 https://github.com/yangfengzzz/fluid-engine-OpenVDB Windows 编译 yangfengzzz/fluid-engine-OpenVDB 但是我是 windows,所以想要编译…

代码随想录算法训练营第三二天 | 买卖股票、跳跃游戏

目录 买卖股票的最佳时机II跳跃游戏跳跃游戏ii LeetCode 122.买卖股票的最佳时机II LeetCode 55. 跳跃游戏 LeetCode 45.跳跃游戏II 买卖股票的最佳时机II 只有一只股票! 当前只有买股票或者卖股票的操作。 最终利润是可以分解的:把利润分解为每天为…

【机器学习】机器学习常见算法详解第4篇:KNN算法计算过程(已分享,附代码)

本系列文章md笔记(已分享)主要讨论机器学习算法相关知识。机器学习算法文章笔记以算法、案例为驱动的学习,伴随浅显易懂的数学知识,让大家掌握机器学习常见算法原理,应用Scikit-learn实现机器学习算法的应用&#xff0…

Vue练习1:组件开发1(头像组件)

样式预览 注释代码 <template><div class"img-box":style"{ //动态style必须为对象width: size rem,height: size rem}"><imgclass"avatar-img":src"url" //动态url/></div> </templ…

【ARM架构】ARMv8-A 系统中的安全架构概述

一个安全或可信的操作系统保护着系统中敏感的信息&#xff0c;例如&#xff0c;可以保护用户存储的密码&#xff0c;信用卡等认证信息免受攻击。 安全由以下原则定义&#xff1a; 保密性&#xff1a;保护设备上的敏感信息&#xff0c;防止未经授权的访问。有以下几种方法可以做…

算法详解:滑动窗口-- 最大连续1的个数 III

题目来源:力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 本期讲解滑动窗口经典例题,我会从三个点开始讲解题目1.题目解析2.算法原理 3.编写代码 1.题目解析 这道题目理解起来还是比较简单的,我们简单分析一下,也就是给定一个数组,数组是由1和0组成…

PLC-Recorder的延伸分析功能说明

目录 一、缘起 二、如何从PLC-Recorder获取数据 1、在线获取 2、全自主打开数据文件 3、延伸分析 三、设置方法 四、效果展示 一、缘起 在各个行业&#xff0c;在不同的场景中&#xff0c;朋友们拿到数据后&#xff0c;想做的事情五花八门&#xff0c;有做宏观分析的、…

ABC341 A-G

Toyota Programming Contest 2024#2&#xff08;AtCoder Beginner Contest 341&#xff09; - AtCoder B读不懂题卡了&#xff0c;F读假题卡了&#xff0c;开题开慢了rank了 A - Print 341 题意&#xff1a; 打印一串交替出现的包含N个0&#xff0c;N1个1的01串 代码&…

OpenCV-40 绘制直方图

一、使用matplotlib画直方图 可以利用matplotlib把OpenCV统计得到的直方图绘制出来 示例代码如下&#xff1a; import cv2 import matplotlib.pyplot as pltlena cv2.imread("beautiful women.png") # 变为黑白图片 gray cv2.cvtColor(lena, cv2.COLOR_BGR2GRAY…

视觉设计师的项目评审复盘攻略:如何提升设计质量与效率

视觉设计师的角色是至关重要的&#xff0c;以确保设计项目满足预期的质量和结果。作为一名视觉设计师&#xff0c;有必要进行定期的项目审查&#xff0c;以确保项目在正轨上进行&#xff0c;并尽早解决任何问题。在本文中我们将讨论可视化设计人员如何做好项目评审&#xff0c;…

HarmonyOS—@State装饰器:组件内状态

State装饰的变量&#xff0c;或称为状态变量&#xff0c;一旦变量拥有了状态属性&#xff0c;就和自定义组件的渲染绑定起来。当状态改变时&#xff0c;UI会发生对应的渲染改变。 在状态变量相关装饰器中&#xff0c;State是最基础的&#xff0c;使变量拥有状态属性的装饰器&a…

永久禁止windows自动更新方法

文章目录 前言一、打开本地组策略编辑器二、禁用windows更新总结 前言 每次打开电脑&#xff0c;右下角就会弹出设备更新提示&#xff0c;看着令人烦恼&#xff0c;并且更新可能导致电脑设置发生改变甚至是卡顿&#xff0c;所以为了自己方便于是出了禁用电脑更新的办法&#x…

「算法」二分查找1:理论细节

&#x1f387;个人主页&#xff1a;Ice_Sugar_7 &#x1f387;所属专栏&#xff1a;算法详解 &#x1f387;欢迎点赞收藏加关注哦&#xff01; 二分查找算法简介 这个算法的特点就是&#xff1a;细节多&#xff0c;出错率高&#xff0c;很容易就写成死循环有模板&#xff0c;但…