Sora简介与其对新媒体短视频行业的影响

news2024/10/5 13:00:00

Sora简介

官网:https://openai.com/sora

当大家还在沉浸在GPT各种大语言模型的时候,OpenAI 悄无声息地发布了文生视频(text-to-video,简称 t2v)模型 Sora,这又是一个对AI冲击很大的突破了。Sora可以根据文本描述生成长达 60 秒的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。是不是惊呆了,简单来说,就是给它一段文字,可以生成一段十分真实的视频,未来看到的视频有可能不是真人拍摄的,大概率是通过Sora或者其他模型生成的短视频。本文也是蹭着这个新风口,稍微了解了一下什么是Sora,接下来简单其生成视频的效果、原理以及对短视频行业的影响。

Sora生成视频

首先,直接看Sora生成的视频效果是,接下来使用两个例子,看看最终视频效果是怎样的。

例子1:镜头跟随在一辆带黑色车顶行李架的白色复古SUV后面,它在陡峭的山坡上加速行驶在一条被松树包围的陡峭土路上,轮胎上的灰尘飞溅,阳光照射在SUV上,在土路上加速行驶,给现场投下温暖的光芒。土路缓缓向远处弯曲,看不到其他汽车或车辆。路两边的树都是红木,到处都是成片的绿色植物。从后面可以看到这辆车轻松地沿着弯道行驶,看起来就像是在崎岖的地形上行驶。土路本身被陡峭的山丘和山脉包围,上面是晴朗的蓝天和稀疏的云层。

例子2:正对着意大利布拉诺的彩色建筑。一个可爱的小狗透过窗户在一楼的一栋楼里看,许多人沿着建筑物前的运河街道散步和骑自行车。

如果不说这是Sora大模型生成的,这些视频如此真实,而且十分细腻,能看得出这仅仅是上述一段文字生成的吗?

Sora原理

Runway、Stable Diffusion 是基于扩散模型(Diffusion Model),扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

文本模型像 GPT-4 则是 Transformer 模型。Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后解码的时候从数字向量还原出文本。

Sora 则是一个融合了两者的 Diffusion Transformer 模型。通过 Transformer 的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

Sora其实是在大型语言模型基础上,通这些模型在互联网规模的数据上进行训练来获得通才能力。Sora是一个扩散模型给定输入噪声补丁(以及文本提示等调节信息),它被训练来预测原始的“干净”补丁。重要的是,Sora 是一个扩散_变压器_。Transformer 在各个领域都表现出了卓越的扩展特性,包括语言建模、计算机视觉,图像生成。

请在此添加图片描述

下面,我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。

请在此添加图片描述

短视频传统制作方式

传统短视频拍摄,会根据文案剧本,人物视频还需要挑选演员,挑选场景,后续还需要剪辑等操作。我之前用过剪映,虽然可以减少部分工作量,他也有图文生成视频的,但是成果十分僵硬,有种图片拼接的效果。所以对于传统短视制作方式,有以下要求:

  1. 文案策划:在制作短视频之前,需要先进行文案策划,确定视频的主题、内容、风格和目标受众。这一步骤需要考虑到单个视频的影响以及整个账户的发展方向与风格呈现。
  2. 画面拍摄:在策划完成后,可以进行画面拍摄。这一步骤需要根据文案策划的内容,选择合适的拍摄地点、拍摄角度和拍摄手法,确保视频画面能够有效地传达信息。
  3. 后期制作:拍摄完成后,需要进行后期制作,包括剪辑、配音、特效、音乐等。这一步骤需要根据文案策划和视频画面,进行合理的剪辑和特效处理,使视频更具吸引力和表现力。
  4. 发布与推广:制作完成后,将短视频发布到合适的平台上,并进行推广,以吸引更多的观众

Sora对短视频的影响

只要用过Sora模型文生视频的功能,就会知道他的强大之处,有了Sora其实对于短视频拍摄和剪辑影响挺大的,总结了有如下影响:

  1. 内容创作效率。 Sora的文生视频AI模型可以帮助创作者快速生成视频内容,降低创作门槛。这使得更多的创作者可以参与到短视频制作中,提高了内容的多样性。
  2. 生产效率。 Sora可以根据用户的输入生成具有个性化特点的视频,这有助于提高短视频的吸引力。同时,Sora还可以根据用户的喜好和兴趣推荐相关视频,提高用户的观看时长和粘性。
  3. 内容多样性。 Sora可以生成各种类型的短视频,如娱乐、教育、科技等,丰富了短视频的内容多样性。
  4. 创作者竞争。 Sora的普及可能会加剧创作者之间的竞争,使得创作者需要更加关注内容质量、创意和个性化,以吸引观众。

不过官网也说了Sora也有缺点,Sora 目前作为模拟器(simulator)表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互过程(例如吃食物)也不总是能正确预测。

参考文献:

https://openai.com/research/video-generation-models-as-world-simulators

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1798280.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

域内攻击 -----> Kerberoasting

在域中,能拿到账户信息得攻击基本上有四个 域内用户枚举域内密码喷洒KerberoastingAS-REP Roasting 对于AS-REP Roasting,我们下一篇文章讲,而前两个,请参考我以前域内横向移动得文章。 那么我们今天就来聊聊Kerberoasting 1.S…

KOL+UGC:解锁品牌内容营销新策略,增强用户参与与互动

在当今数字化时代,品牌与受众之间的互动性和参与感变得至关重要。其中,KOL和UGC(用户生成内容)的结合,为品牌创造了一种全新的内容创作模式。这种模式不仅增强了内容的吸引力,还极大地提升了品牌与受众之间…

Vue3+vite+Tailwindcss 构建自适应页面 暗黑 高亮 主题(带源码)

资源tailwind css:Tailwind CSS Templates - Tailwind UITailwind CSS Templates - Tailwind UITailwind CSS Templates - Tailwind UI 1、安装tailwindcss npm install -D tailwindcss postcss autoprefixer2、安装配置: npx tailwindcss init -p 运…

商城项目【尚品汇】07分布式锁-2 Redisson篇

文章目录 1 Redisson功能介绍2 Redisson在Springboot中快速入门(代码)2.1 导入依赖2.2 Redisson配置2.3 将自定义锁setnx换成Redisson实现(可重入锁) 3 可重入锁原理3.1 自定义分布式锁setnx为什么不可以重入3.2 redisson为什么可…

perccli查看磁盘和Raid卡

1、安装 source /etc/profile chmod 755 /usr/sbin/perccli2、磁盘 perccli /c0 show all3、raid卡 cc perccli /c0 show cc 4、raid卡 pr perccli /c0 show patrolread

【前端Vue】——初识Vue.js

💻博主现有专栏: C51单片机(STC89C516),c语言,c,离散数学,算法设计与分析,数据结构,Python,Java基础,MySQL,linux&#xf…

漏洞挖掘 | 记一次信息泄露到登入后台

这次是项目上遇到的一个洞,打开页面是一个红红的登录页面 这里就不放图了,浓浓的红色气息~ 老样子抓登录包 虽然是明文传输但是爆破弱口令无果 f12大法,审计源代码,在其中一个js文件中发现了这个接口 拼接URL进行访问 感觉有点东…

前端构建新玩法 Vite 上手与思考

# Vite 的定义 Vite 是面向现代浏览器的一个更轻、更快的 Web 应用开发工具,核心基于 ECMAScript 标准原生模块系统(ES Modules)实现。 表象功能上看,Vite 可以取代基于 Webpack 的 vue-cli 或者 cra 的集成式开发工具&#xff0c…

MAX7219(模拟SPI)驱动灯环的简单应用

文章目录 一、MAX7219是什么?二、使用步骤1.硬件1.1 引脚说明1.2 应用电路1.2.1 驱动数码管1.2.2 驱动点阵 2.软件2.1 时序2.2 寄存器2.2.1 掉电寄存器2.2.2 译码模式寄存器2.2.3 亮度寄存器2.2.4 扫描寄存器2.2.5 显示测试寄存器 2.3 初始化2.4 控制左侧灯环特定位…

支付平台界面感知评估

目标: 了解本地用户在本地语言下对产品用户界面 (UI) 的感受和体验: 界面的目的是否对本地用户清晰,并且是否符合本地文化和国家标准;界面中的文本是否正确显示,是否存在语法、拼写或其他错误,包括品牌一致…

Vue3【九】reactive 创建对象类型的响应式数据

Vue3【九】reactive 创建对象类型的响应式数据 reactive() 定义对象类型的响应式数据&#xff0c;可以任何类型的对象 默认开启对象的深度响应绑定 不能创建基本类型的响应式数据 案例截图 案例目录结构 案例代码 Person <template><div class"person">…

IC-Light:图像打光控制和背景融合生产力工具,最全ComfyUI操作指南

IC-Light&#xff1a;图像打光控制和背景融合ComfyUI操作指南 IC-Ligh简介 IC-Light是一款由Controlnet作者lllyasviel创作的最新作品&#xff0c;用于实现操控图像光照效果的项目。当前该项目已经发布了两种类型的模型&#xff1a;文本条件模型和背景条件模型。这两款模型都…

linux驱动学习(七)之混杂设备

需要板子一起学习的可以这里购买&#xff08;含资料&#xff09;&#xff1a;点击跳转 一、混杂设备 混杂设备也叫杂项设备&#xff0c;是对普通的字符设备(struct cdev)的一种封装,设计目的就是为了简化字符设备驱动设计的流程。具有以下特点&#xff1a; 1) 主设备号为10&a…

鸿蒙轻内核M核源码分析系列十七(2) 异常钩子函数的注册操作

本文中所涉及的源码&#xff0c;以OpenHarmony LiteOS-M内核为例&#xff0c;均可以在开源站点https://gitee.com/openharmony/kernel_liteos_m 获取。鸿蒙轻内核异常钩子模块代码主要在components\exchook目录下。异常钩子函数的注册、解注册、异常钩子类型定义在utils\los_de…

【Spring框架全系列】SpringBoot_3种配置文件_yml语法_多环境开发配置_配置文件分类(详细)

文章目录 1.三种配置文件2. yaml语法2.1 yaml语法规则2.2 yaml数组数据2.3 yaml数据读取 3. 多环境开发配置3.1 多环境启动配置3.2 多环境启动命令格式3.3 多环境开发控制 4. 配置文件分类 1.三种配置文件 问题导入 框架常见的配置文件有哪几种形式&#xff1f; 比如&#xf…

Perfectly Clear WorkBench v4 解锁版安装教程 (图像修复增强工具)

前言 Perfectly Clear WorkBench 是一款图像修复工具&#xff0c;可以帮助用户对自己的图片素材进行修复&#xff0c;很多的照片因为拍摄问题&#xff0c;或者设备限制&#xff0c;会导致拍摄效果不好&#xff0c;使用这款软件可以进行一定程度的修复&#xff0c;当拍摄时亮度…

RK3588推理RetinaFace出现问题

RK3588推理RetinaFace出现问题 在RK3588上测试RockChip提供的RetinaFace模型时&#xff0c;出现下面的问题 $ python RetinaFace_pic.py done --> Init runtime environment I RKNN: [02:27:16.501] RKNN Runtime Information: librknnrt version: 1.5.2 (c6b7b351a2023…

图片转pdf在线网站,图片转pdf在线网址,工具软件

在现代办公和学习环境中&#xff0c;图片转PDF的操作已变得日益重要。无论是为了存档、分享还是打印&#xff0c;将图片转换为PDF格式都能带来诸多便利。本文将详细介绍几种常用的图片转PDF方法。 打开 “轻云pdf处理官网” &#xff0c;上传图片。 图片上传完成后&#xff0…

C++STL---stack queue知识汇总

前言 C将stack和queue划归到了Containers中&#xff0c;但严格的说这并不准确&#xff0c;stack和queue实际上已经不再是容器了&#xff0c;而是属于容器适配器&#xff0c;适配器做的功能是转换&#xff0c;即&#xff1a;它不是直接实现的&#xff0c;而是由其他容器封装转换…

SOLIDWORKS认证考试的目的

在当今日益发展的工程设计和制造领域&#xff0c;SOLIDWORKS作为一款功能强大的三维CAD设计软件&#xff0c;已经得到了广泛的认可和应用。为了评估和提升用户在使用SOLIDWORKS软件时的专业技能和能力&#xff0c;SOLIDWORKS公司推出了认证考试项目。本文将深入探讨SOLIDWORKS认…