Sora学习

Sora学习

news2025/1/30 16:25:56

openai 12天的发布会

remix:对视频处理

可以改变视频的元素和内容，打开一扇门的例子（打开门是太空，打开门是丛林）

recut:重新生成或者重新剪辑，给一个视频前后做扩展

storyboard:可以对每一帧进行剪辑和生成新的

loop:视频头尾剪辑生成一个无限循环的视频，不停翻卷的海浪

blend:合并两个视频，视频转换很自然，比如雪花变成树叶

style preset：定义一个style，能把视频都变成这个style.以前可能每个style都要训练一个模型，现在只需要给出prompt,就可以得到想要的效果，简化了视频制作的速度

sora价格 20刀每个月50个视频和200刀每个月500个视频（不在意时间的时候，可以无限生成视频）

快手的可灵kling反响也不错

meta10月份也放了movie gen的论文，腾讯12月出了混元video论文内容非常详实，效果也都不错

12.9 sora才来，一周之后google 出了自家的Veo2视频生成模型，反响也很好。

Veo2（deepmind.google/technologies/veo/veo-2/）

Pika runway 即梦 minimax视频生成混元

=================

（openai.com/index/sora-system-card/）中：

所有的东西都变成token然后输入到模型，这样就比较容易训练了。对于视频，是把视频patches先放到一个压缩成低维度latent space,然后在latent space中，把表示成时空的patches.

sora大概用了三种数据，一个是公开的数据，一个是通过合作伙伴得到的私有数据，一个是内部使用的数据。

=================

meta:movie gen2024.10是一系列底座模型用来生成高质量的视频，可以和音频同步。基于用户做成personalized video.多个模型创新和简化.首先看下数据，他们用的数据对于video来说是1一亿左右的量级，对于图像来说更多。原始数据是4s到2min，数据各种各样，有人和自然。经过clip-prompt后得到4s-16s长，这样比较好。图9中有数据清洗的详细过程。视频的分辨率过滤，长视频或者宽视频比例等

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2284663.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

观察者模式和订阅发布模式

观察者模式和订阅发布模式

有人把观察者模式等同于发布订阅模式，也有人认为这两种模式存在差异，本质上就是调度的方法不同。相比较，发布订阅将发布者和观察者之间解耦。（发布订阅有调度中心处理）

阅读更多...

16【中文编程10年内或将占领国内应用市场】

16【中文编程10年内或将占领国内应用市场】

这同样是一篇较为犀利的文章，看过我分析辩论性文章的都知道，角度犀利，与大多数人观点不同，这是因为大多数人赞同的观点，我觉得我也没必要再去探讨了回归正题，在大多数人眼中中文编程的代表就是易语言&…

阅读更多...

Niagara学习笔记

Niagara学习笔记

橙色发射器 , 绿色粒子, 红色渲染器 Emitter State 发射器状态 Life Cycle Mode（生命周期模式） 选择Self就是发射器自身管理生命周期 Loop Behavior 决定粒子发射次数一次（Once）：发射器只播放一次多次&#…

阅读更多...

Linux(NTP配置)

Linux(NTP配置)

后面也会持续更新，学到新东西会在其中补充。建议按顺序食用，欢迎批评或者交流！ 缺什么东西欢迎评论！我都会及时修改的！ NTP环境搭建服务端客户端192.168.111.10192.168.111.11Linux MySQL5.7 3.10.0-1160.el7.x86_…

阅读更多...

具身智能体俯视全局的导航策略！TopV-Nav: 解锁多模态语言模型在零样本目标导航中的顶视空间推理潜力

具身智能体俯视全局的导航策略！TopV-Nav: 解锁多模态语言模型在零样本目标导航中的顶视空间推理潜力

作者：Linqing Zhong, Chen Gao, Zihan Ding, Yue Liao, Si Liu 单位：北京航空航天大学，新加坡国立大学，香港中文大学多模态实验室论文标题：TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM …

阅读更多...

可以称之为“yyds”的物联网开源框架有哪几个？

可以称之为“yyds”的物联网开源框架有哪几个？

有了物联网的发展，我们的生活似乎也变得更加“鲜活”、有趣、便捷，包具有科技感的。在物联网（IoT）领域中，也有许多优秀的开源框架支持设备连接、数据处理、云服务等，成为被用户们广泛认可的存在。以下给大家…

阅读更多...

智能调度体系与自动驾驶技术优化运输配送效率的研究——兼论开源AI智能名片2+1链动模式S2B2C商城小程序的应用潜力

智能调度体系与自动驾驶技术优化运输配送效率的研究——兼论开源AI智能名片2+1链动模式S2B2C商城小程序的应用潜力

摘要：随着全球化和数字化进程的加速，消费者需求日益呈现出碎片化和个性化的趋势，这对物流运输行业提出了前所未有的挑战。传统的物流调度体系与调度方式已难以满足当前复杂多变的物流需求，因此，物流企业必须积极引入大…

阅读更多...

图漾相机-ROS2-SDK-Ubuntu版本编译(新版本)

图漾相机-ROS2-SDK-Ubuntu版本编译(新版本)

官网编译文档链接： https://doc.percipio.xyz/cam/latest/getstarted/sdk-ros2-compile.html 国内gitee下载SDK链接： https://gitee.com/percipioxyz 国外github下载SDK链接： https://github.com/percipioxyz 1.Camport ROS2 SDK 介绍 1.1 …

阅读更多...

【Samba】Ubuntu20.04 Windows 共享文件夹

【Samba】Ubuntu20.04 Windows 共享文件夹

【Samba】Ubuntu20.04 Windows 共享文件夹前言整体思路检查 Ubuntu 端和 Windows 网络通信是否正常创建共享文件夹安装并配置 Samba 服务器安装 Samba 服务器创建 Samba 用户编辑 Samba 配置文件重启 Samba 服务器在 Windows 端访问 Ubuntu 的共享文件夹前言本文基于 Ub…

阅读更多...

RAG是否被取代（缓存增强生成-CAG）吗？

RAG是否被取代（缓存增强生成-CAG）吗？

引言： 本文深入研究一种名为缓存增强生成（CAG）的新技术如何工作并减少/消除检索增强生成（RAG）弱点和瓶颈。 LLMs 可以根据输入给他的信息给出对应的输出，但是这样的工作方式很快就不能满足应用的需要: 因…

阅读更多...

[MySQL]MySQL数据库的介绍和库相关操作

[MySQL]MySQL数据库的介绍和库相关操作

目录一、数据库介绍 1.什么是数据库 2.为什么使用数据库 3.数据库的操作运行逻辑 4.MySQL架构 5.SQL语句的分类二、数据库的操作 1.数据库的连接 2.数据库的操作创建数据库查看数据库显示数据库的创建语句删除数据库修改数据库 3.字符集和校验集查看系…

阅读更多...

LLM幻觉（Hallucination）缓解技术综述与展望

LLM幻觉（Hallucination）缓解技术综述与展望

LLMs 中的幻觉问题（LLM 幻觉：现象剖析、影响与应对策略）对其可靠性与实用性构成了严重威胁。幻觉现象表现为模型生成的内容与事实严重不符，在医疗、金融、法律等对准确性要求极高的关键领域，可能引发误导性后果&#x…

阅读更多...

基于物联网设计的疫苗冷链物流监测系统

基于物联网设计的疫苗冷链物流监测系统

一、前言 1.1 项目开发背景随着全球经济的发展和物流行业的不断创新，疫苗和生物制品的运输要求变得越来越高。尤其是疫苗的冷链物流，温度、湿度等环境因素的控制直接关系到疫苗的质量和效力，因此高效、可靠的冷链监控系统显得尤为重要。冷…

阅读更多...

C++的类Class

C++的类Class

文章目录一、C的struct和C的类的区别二、关于OOP三、举例：一个商品类CGoods四、构造函数和析构函数1、定义一个顺序栈2、用构造和析构代替s.init(5);和s.release();3、在不同内存区域构造对象4、深拷贝和浅拷贝5、构造函数和深拷贝的简单应用6、构造函数的初始化列…

阅读更多...

接口 V2 完善：分布式环境下的 WebSocket 实现与 Token 校验

接口 V2 完善：分布式环境下的 WebSocket 实现与 Token 校验

🎯 本文档详细介绍了如何使用WebSocket协议优化客户端与服务端之间的通信，特别是在处理异步订单创建通知的场景中。通过引入WebSocket代替传统的HTTP请求-响应模式，实现了服务器主动向客户端推送数据的功能，极大地提高了实时性和效…

阅读更多...

2025年数学建模美赛：A题分析（1）Testing Time: The Constant Wear On Stairs

2025年数学建模美赛：A题分析（1）Testing Time: The Constant Wear On Stairs

2025年数学建模美赛 A题分析（1）Testing Time: The Constant Wear On Stairs 2025年数学建模美赛 A题分析（2）楼梯磨损分析模型 2025年数学建模美赛 A题分析（3）楼梯使用方向偏好模型 2025年数学建模美赛 A题分…

阅读更多...

使用Vue3实现可拖拽的九点导航面板

使用Vue3实现可拖拽的九点导航面板

开篇本文使用Vue3实现了一个可拖拽的九宫导航面板。这个面板在我这里的应用场景是我个人网站的首页的位置，九宫导航对应的是用户最后使用或者最多使用的九个功能，正常应该是由后端接口返回的，不过这里为了简化，写的是固定的数组数…

阅读更多...

68-《贝壳花》

68-《贝壳花》

贝壳花贝壳花（学名：Moluccella laevis Linn.）是属于唇形科，贝壳花是一、二年的草本。植株高5至60cm，茎四棱，不分枝。叶对生，心脏状圆形，边缘疏生齿牙；叶柄和叶近等长。花…

阅读更多...

【自然语言处理（NLP）】深度循环神经网络（Deep Recurrent Neural Network，DRNN）原理和实现

【自然语言处理（NLP）】深度循环神经网络（Deep Recurrent Neural Network，DRNN）原理和实现

文章目录介绍深度循环神经网络（DRNN）原理和实现结构特点工作原理符号含义公式含义应用领域优势与挑战DRNN 代码实现个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍 **自然语言处理（Natural Language Pr…

阅读更多...

2025数学建模美赛|F题成品论文

2025数学建模美赛|F题成品论文

国家安全政策与网络安全摘要随着互联网技术的迅猛发展，网络犯罪问题已成为全球网络安全中的重要研究课题，且网络犯罪的形式和影响日益复杂和严重。本文针对网络犯罪中的问题，基于多元回归分析和差异中的差异（DiD）思…

阅读更多...

推荐文章

最新文章