全球首个开源类Sora模型大升级,16秒720p画质电影感爆棚!代码和权重全面开源!

news2024/10/6 4:04:35

目录

01 视频界开源战士

02 深度解码技术

03 打破闭环,开源赋能


潞晨Open-Sora团队刚刚在720p高清文生视频质量和生成时长上实现了突破性进展!

全新升级的Open-Sora不仅支持无缝生成任意风格的高质量短片,更令人惊喜的是,团队选择继续全部开源。
 

GitHub地址:https://github.com/hpcaitech/Open-Sora



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

通过他们的模型权重,可以生成各种酷炫短片,如海浪与海螺的亲密接触,以及深不可测的森林秘境。

人物肖像的渲染也相当逼真,不论是中国古典美女还是欧美风人物,都能保持一致的风格

即使是电影级别的镜头制作,也能轻松应对。


例如,实现流畅的变焦效果,为影片增添专业级的视觉效果,帮助电影制作人员创造出逼真的电影镜头。


 

01 视频界开源战士


LambdaLabs,美国科技界独角兽,基于潞晨团队先前开源的Open-Sora模型权重打造了一个数字乐高宇宙,乐高迷们在这里找到了极致的创意体验。

报告地址:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md


潞晨团队深知开源对于文生视频技术突破的重要性,他们不仅持续开源模型权重,还在Github上晒出了技术路线,让每个玩家都能成为文生视频大模型的掌控者。

02 深度解码技术


潞晨Open-Sora团队的技术报告深度剖析了本次模型训练的核心和关键。在上一个版本基础上,引入了视频压缩网络(Video Compression Network)、更优的扩散模型算法、更多的可控性,并利用更多的数据训练出了1.1B的扩散生成模型。


在这个「算力为王」的时代,视频模型训练有两大痛点:计算资源的巨大消耗与模型输出质量的高标准。

潞晨Open-Sora团队以一种极简而有效的方案,成功地在成本和质量之间找到了平衡点。

Open-Sora团队提出了一个创新的视频压缩网络(VAE),该网络在空间和时间两个维度上分别进行压缩。

具体来说,他们首先在空间维度上进行了8x8倍的压缩,接着在时间维度上进一步压缩了4倍。

通过这种创新的压缩策略,既避免了因抽帧而牺牲视频流畅度的弊端,又大幅降低了训练成本,实现了成本与质量的双重优化。

Stable Diffusion 3,最新的扩散模型,通过采用rectified flow技术替代DDPM,显著提升了图片和视频生成的质量。

尽管SD3的rectified flow训练代码尚未公开,但潞晨Open-Sora团队已经基于SD3的研究成果,提供了一套完整的训练解决方案,包括:

  • 简单易用的rectified flow训练
     
  • 用于训练加速的Logit-norm时间步长采样
     
  • 基于分辨率和视频长度的时间步长采样

通过这些技术的整合,不仅能够加快模型的训练速度,还能显著减少推理阶段的等待时间,确保用户体验的流畅性。此外,这套训练方案还支持在推理过程中输出多种视频宽高比,满足多样化场景下的视频素材需求,为视频内容创作者提供了更加丰富的创作工具。

他们在报告中也透露了更多关于模型训练的核心细节,包括数据清洗和模型调优的实用技巧,以及构建了更完善的模型评估体系,保障模型的稳健性和泛化能力。

他们还提供了可以自行一键部署的Gradio应用,并支持调节输出的运动分数、美学分数和镜头移动方式等参数,甚至可以一键通过GPT-4o自动修改指令并支持中文输入。

03 打破闭环,开源赋能

自OpenAI Sora发布以来,业界对Sora的开放性期待值爆表,但现实却是持续的等待游戏。潞晨Open-Sora的开源,为文生视频的创新和发展注入了强劲的活力。

这一转型为企业用户解锁了自主开发文生视频应用的新技能,无论是打造沉浸式游戏、创意广告还是制作影视大片,文生视频技术的应用场景得到了指数级扩展。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:


更强大Mamba-2正式发布啦!!!



黎曼猜想取得重大进展!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1835990.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于办公软件的使用

第一部分: 常用函数的使用 在使用的地方,输入SUM(B2:F2)回车 第二部分: 自定义函数的使用 1、打开 宏编辑 2、 自定义函数方法 3、自定义函数的使用和常用函数一样: 在使用的地方,输入计算面积(A3,B3)…

算法设计与分析期末复习题

一:程序阅读分析题(共40分) 1.(8分)阅读“算法1”,分析算法1的功能、时间复杂度。 答案:经典的汉诺塔问题,其目标是将 n 个不同大小的盘子从柱子 A 移动到柱子 C,借助柱…

PDM 测试

文章目录 硬件拓扑AP 生成 PDM输出数据路径AP 输入时域数据频域数据逻辑分析与抓包硬件拓扑 如果使用 AP 需要注意公地 AP 生成 PDM输出 AP 的 output 选择 PDM,MCU 提供 Bit clock,AP 生成 PDM 数据,AP 配置如下 数据路径 AP sin data -> PDM -> codec -> RA…

Git的下载安装及可视化工具小乌龟

一、 Git 的下载 第1步:下载Git,下载地址:Git for Windows 这个就需要去 Git 官网下载对应系统的软件了,下载地址为 git-scm.com或者gitforwindows.org,或者阿里镜像(感谢评论区的星悸迷航同学&#…

el-pagination分页组件导致发送两次请求

场景 有一个搜索框,搜索显示表格内容,下面有分页组件,大概长这样: 当分页组件选择到别的页数(非第一页),再进行查询,查询的内容会显示在第一页,此时会发送两次网络请求。…

TIA Portal 博途 集成自动化软件下载安装,TIA Portal 轻松驾驭复杂工业设备

在博途TIA Portal的全方位赋能下,用户可以轻松驾驭复杂的工业设备,实现设备的精准配置、高效编程、便捷调试和实时监控。 在配置方面,博途TIA Portal以其强大的配置功能,帮助用户快速定义设备的各项参数,使设备能够快速…

洛谷 P3379:最近公共祖先(LCA)← RMQ+欧拉序

【题目来源】https://www.luogu.com.cn/problem/P3379【题目描述】 如题,给定一棵有根多叉树,请求出指定两个点直接最近的公共祖先。【输入格式】 第一行包含三个正整数 N,M,S,分别表示树的结点个数、询问的个数和树根结点的序号。 接下来 N−…

MFC绘制哆啦A梦

OnPaint绘制代码 CPaintDC dc(this); // 用于绘画的设备上下文CRect rc;GetWindowRect(rc);int cxClient rc.Width();int cyClient rc.Height();// 辅助线HPEN hPen CreatePen(PS_DOT, 1, RGB(192, 192, 192));HPEN hOldPen (HPEN)SelectObject(dc, hPen);MoveToEx(dc, cxC…

论文学习_Fuzz4All: Universal Fuzzing with Large Language Models

论文名称发表时间发表期刊期刊等级研究单位Fuzz4All: Universal Fuzzing with Large Language Models2024年arXiv-伊利诺伊大学 0.摘要 研究背景模糊测试再发现各种软件系统中的错误和漏洞方面取得了巨大的成功。以编程或形式语言作为输入的被测系统(SUT&#xff…

git\repo

常用git和repo命令_repo git-CSDN博客文章浏览阅读1.5w次,点赞9次,收藏112次。常用git和repo命令文章收集了最近使用的一些repo和git命令,下图是个人理解的git文件状态转换图。 相关概念 名称 意义 repo 谷歌用Python脚本写的调用git的一个脚…

Springboot集成SSE消息推送

SSE介绍 SSE(Server-Sent Events)的全称是服务器推送事件,它是一种基于 HTTP 协议的实时通信技术,用于在客户端和服务器之间建立持久、单向的链接,允许服务器向客户端发送异步消息。 了解 websocket 的小伙伴&…

257、二叉树的所有路径

给定一个二叉树&#xff0c;返回所有从根节点到叶子节点的路径。 说明: 叶子节点是指没有子节点的节点。 代码如下&#xff1a; class Solution { public:void traversal(TreeNode* cur, vector<int>& path, vector<string> &result){path.push_back(cur…

南阳理工学院(期末)算法分析练习题

一、算法阅读分析题&#xff1a; 1.分析如下算法&#xff0c;回答问题&#xff08;10分&#xff09;。 该算法的作用是什么(2分)&#xff1f;分析该算法的时间复杂度(5分)?设计算法的一个输入&#xff0c;并给出对应的算法输出结果(3分) &#xff08;1&#xff09;该算法的作…

虹软ArcSoft—真正离线免费的人脸识别SDK

虹软ArcSoft—真正离线免费的人脸识别SDK 高级功能收费 还是很好滴 人证核验功能是C/C的SDK&#xff0c;需要封装为C#&#xff0c;然后暴露为Restful API使用

2024年阿里巴巴全球数学竞赛首次向人工智能(AI)开放

大家好&#xff0c;我是微学AI&#xff0c;最近大家突然开始关注阿里巴巴全球数学竞赛了&#xff0c;在这个人工智能爆发的时代&#xff0c;2024年阿里巴巴全球数学竞赛首次向人工智能&#xff08;AI&#xff09;开放&#xff0c;要求参赛的AI模型在比赛前提交源代码&#xff0…

【向量检索】之向量数据库Milvus,Faiss详解及应用案例

Reference https://www.modb.pro/db/509268 笔记︱几款多模态向量检索引擎&#xff1a;Faiss 、milvus、Proxima、vearch、Jina等 - 知乎 (zhihu.com) 向量数据库入坑指南&#xff1a;聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss - 苏洋的文章 - 知乎 常用的三种索引方…

ssh-add id_rsa_gitlab1 Error connecting to agent: No such file or directory

ssh-add id_rsa_gitlab1 Error connecting to agent: No such file or directory 目录 ssh-add id_rsa_gitlab1 Error connecting to agent: No such file or directory1. 启动 SSH 代理2. 添加 SSH 密钥3. 使用 Git Bash 或其他终端4. 使用 Pageant&#xff08;适用于 PuTTY 用…

大模型技术工程师:抓住时代机遇,成为行业精英_

伴随AI大模型的火热&#xff0c;中国科技大厂们正在掀起一场「跑步AI化」的风暴。从顶层战略到业务线重构&#xff0c;AI无疑已成为大厂们押注未来的新故事。 大模型时代已经到来 大模型已成为全球竞争热点&#xff0c;一个大模型时代已经到来。 大模型具备三个特点&#xf…

Vue3-国足18强赛抽签

Vue3国足18强赛抽签 国足遇到这个对阵&#xff0c;能顺利出现吗&#xff1f; 1、系统演示 Vue3模拟国足18强赛抽签 2、关键代码 开始抽签 <script setup> import FenDang from "/components/chouqian/FenDang.vue"; import {ref} from "vue";le…

CHATGPT说这个运算放大器是比较器,我说这是运放典型的同相比例放大器,一个光控电路分析

纠正 图1 光控电路 该电路来自一个问题&#xff0c;链接见文末。 因GPT的分析有误&#xff0c;特此纠正。 引用图片和答案用于分析&#xff0c;如侵权请联系本人。 电路分析&#xff1a; 该电路为光控灯电路&#xff0c;灯光为LED发光二极管 D。 光敏电阻RG的阻值和光线强度关…