作者:苍何,前大厂高级 Java 工程师,阿里云专家博主,CSDN 2023 年 实力新星,土木转码,现任部门技术 leader,专注于互联网技术分享,职场经验分享。
🔥热门文章推荐:
- (1)对程序员来说,技术能力和业务逻辑哪个更重要?
- (2)搭建GitHub免费个人网站(详细教程)
- (3)itchat实现微信聊天机器人
- (4)嗖嗖移动业务大厅(源码下载+注释全 值得收藏)
大家好,我是苍何。今天看到 OpenAI 发布了 Sora,到处都在飞传,我去了解了下,好家伙,直接炸开,惊艳的无话可说!!!Sora 是一种文字生成视频的技术,从演示看,效果还是相当不错的,和真实世界拍出来的基本无区别。
当然,你可能会说,这算啥,AI视频又不是什么新东西,但这次真的不一样,它的能力超过我们的想象,就连刘润、周鸿伟等大佬都纷纷坐不坐了,均来为这次的发布发声。
我们可以用三个词来总结 Sora,那就是“60s超长长度”,“单视频多角度镜头”,和“世界模型”。
Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。
ps:
目前文生成视频技术,能做到一分钟的很少很少,基本没有。所以 Sora 还是很强的。
如今,仅有官方邀请的人员才可使用。官方还授予了一些视觉艺术家、设计师和电影制作人访问权限,目的是获取他们的反馈,了解如何改进模型,以便对创意专业人士更有益。
官方正尽早分享研究进展,目的是开始与非OpenAI成员合作并获取他们的反馈,同时让公众了解即将推出的AI功能。
让我们先来看下效果:
提示词:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。
Sora 是一款能够生成复杂场景的先进模型,它不仅能创造出多个角色和特定类型的动作,还能精确描绘主题和背景的细节。这个模型深刻理解用户的需求,并且知道这些元素在真实世界中是如何存在的。
通过对语言的深入理解,Sora 能够精确解读用户的指令,并创造出充满生动情感的引人入胜的角色。它甚至能在同一个视频中切换不同的镜头,以确保角色和视觉风格的一致性。
不过,Sora 也有它的局限性。它在模拟复杂场景的物理特性时可能会遇到困难,有时也难以理解具体的因果关系。比如,一个角色吃饼干的动作可能不会在饼干上留下咬痕。此外,它在处理空间细节(如区分左右)和描述随时间变化的事件(比如特定的相机移动轨迹)时也可能遇到挑战。
在将 Sora 引入 OpenAI 产品线之前,官方将采取多项安全措施。正与专门处理错误信息、仇恨内容和偏见等问题的红队专家合作,进行对抗性测试。
官方也在开发工具来识别误导性内容,例如构建分类器以判断视频是否由 Sora 生成,并计划在未来的产品中加入 C2PA 元数据,以增强内容的透明度。
为了确保技术安全可靠,借鉴了在开发 DALL·E 3 时的经验,同样的方法也将应用于 Sora。例如,一旦产品面市,将使用文本分类器来过滤掉违反使用政策的请求,比如那些包含极端暴力、色情内容、仇恨图像、名人肖像或侵犯他人知识产权的内容。官方还开发了强大的图像分类器,对生成视频的每一帧进行审查,确保展示给用户的内容符合标准。
openai 还计划与全球的政策制定者、教育工作者和艺术家合作,了解他们的关切,并探索这项技术的积极应用场景。虽然已经进行了广泛的研究和测试,但认识到,无法完全预测人们会如何利用或滥用这项技术。这就是为什么 openai 认为,从实际使用中不断学习和改进,是确保人工智能系统越来越安全的关键。
提示词:无人机视角,海浪拍打着大苏尔加雷角海滩崎岖的悬崖。汹涌澎湃的蓝色海水掀起白色的波浪,而夕阳的金色光芒照亮了岩石海岸。远处有一个带灯塔的小岛,绿色的灌木丛覆盖着悬崖的边缘。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖的边缘突出在海面上。这张照片捕捉到了海岸的原始美景和太平洋海岸公路崎岖的景观。
Sora 底层技术:
给官方的文档做了下简单翻译
Sora 是一种先进的视频生成技术,它开始时使用的视频看起来就像是静态的噪声。然后,它通过多个步骤逐步去除这些噪声,最终将视频转变得清晰起来。
这项技术能够一次性生成完整的视频,或者将已生成的视频延长,使其更加丰富多彩。Sora 通过同时处理许多视频帧,巧妙解决了保持视频中主题连续性的挑战,即使这个主题暂时从画面中消失也能够保持一致。
就像 GPT 技术一样,Sora 采用了一种叫做transformer的架构,这使得它的处理能力大大增强。
我们把视频和图片分解成了很多小块,叫做“补丁”,每一个“补丁”就像是 GPT 中的一个“字”。通过这种方式统一数据表示,我们能在更广泛的视觉数据上进行训练,覆盖不同的时长、分辨率和比例。
Sora 是基于 DALL·E 和 GPT 模型发展而来的。特别是,它用到了 DALL·E 3 的技术,这项技术能为视觉内容生成非常详细的描述。因此,Sora 能够更准确地根据用户的文本描述生成视频。
不仅如此,Sora 还能够接收静态图片,并根据这些图片生成视频,精确地将图片内容动态化,同时注重细节。它甚至能够对现有的视频进行扩展,或者填补缺失的帧。想要了解更多信息,请查看我们的技术报告。
Sora 是我们向理解和模拟现实世界迈出的一大步。我们相信,这种能力将成为实现人工通用智能(AGI)的一个关键里程碑。🚀
体验地址:
https://openai.com/sora
目前还没开放,关注苍何,待开放后,将会第一时间体验。如果你对 AI 感兴趣,或者想通过 AI 提效搞钱,欢迎你加入我的免费星球:https://t.zsxq.com/1771Yxf33
创作不易,如果本文对你有帮助,欢迎点赞、收藏加关注,你的支持和鼓励,是我创作的最大动力。