华为昇腾AI芯片加持,9.1k Star 的 Open-Sora-Plan,国产Sora要来了吗

news2024/11/15 18:52:57

Aitrainee | 公众号:AI进修生

哇,今天Github趋势榜第一啊,为了重现Sora,北大这个Open-Sora-Plan,希望通过开源社区力量的复现Sora,目前已支持国产AI芯片(华为昇腾),这回不用被卡脖子了吧,这个项目吸引了众多开发者的智慧和热情,目前在github上的星标已经高达9.1k,不过当前版本离目标差距还很大,仍需持续完善和快速迭代,团队热烈欢迎志同道合的你加入,这是一个汇聚相同技术热忱与求知欲的人们的号召。国产版的Sora还是离我们越来越近了。在这里插入图片描述

下面我们带入开发者(我们)的视角,介绍一下技术报告:

VideoGPT和Video VQ-VAE

想象一下你有一堆乐高积木,每个积木都是视频的一小部分。Video VQ-VAE的工作就像是找到最少的积木数量,同时确保用这些积木还能重建原始视频。这样做可以让视频占用更少的空间,而且我们还可以创造新的视频,就像用积木搭建新东西一样。VideoGPT则是用来指导如何搭建这些积木,以创造新的视频内容。

Open-Sora-Plan v1.0.0的改进

  1. CausalVideoVAE的训练与推理: 想象你正在尝试用一张巨大的网捕捉时间的流逝,其中网眼代表视频中的每个小片段。我们现在有了一个更大更紧密的网(4×8×8的尺寸),它可以更有效地捕捉视频的细节,无论是在空间上(像是画面的广阔景象)还是时间上(像是动作的连贯性)。
  2. 图片视频联合训练: 这就像是训练一只鸟同时在水里游泳和在空中飞翔。我们教会了模型不仅能理解静态的图片,还能理解动态的视频。这使得模型能够更好地把握时间和空间的细节,从而创造出更高质量的视觉内容。

CausalVideoVAE的架构细节

  • CausalConv3D: 如果说之前我们用2D拼图解决问题,现在我们升级到了3D,让模型能同时理解图片(2D)和视频(3D)。特别地,模型会对视频的第一帧给予特别处理,因为那是整个视频故事的开头。在这里插入图片描述

  • 初始化方法: 我们使用了一种特别的“尾部初始化”方法,让模型能够在没有任何额外训练的情况下就能处理图片和视频。

训练与推理技巧

  • 损失曲线: 我们展示了两种不同初始化方法的效果。黄色赛车(尾部初始化)明显跑得更快更稳定,这告诉我们它是一个更好的起点。在这里插入图片描述

  • 推理技巧: 采用了一种称为tile convolution的技术,这样可以大大节省资源。

数据构建

  • 视频数据集: 我们收集了大量高质量的视频,确保它们没有不相关的水印,并且都是单一场景,这样数据就更加干净、专注。在这里插入图片描述

  • 文本注释: 我们还给这些视频配上了高质量的文字说明,有助于模型更好地理解视频内容,并在创造新视频时参考这些描述。

✨ AI算法工程师 | AIGC技术实践者 🚀
🎵 知音难求,自我修炼亦艰。
📚 吾生也有涯,而知也无涯。
🌌 AIGC时代,立志成为超级个体:
抓住前沿技术的机遇,与我们一起成为创新的超级个体。
✉️ 回复“群聊”,就能和大家嗨聊!

  • 公众号有最新咨询和AI工具教程
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1595943.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【iOS】SDWebImage源码阅读笔记

文章目录 前言一、设计目的二、特性三、用法1.UITableView 中使用 UIImageViewWebCache2.使用回调Blocks3.SDWebImageManager 的使用4.单独使用 SDWebImageDownloader 异步下载图片5.单独使用 SDImageCache 异步缓存图片 四、实现原理五、具体实现流程sd_setImageWithURLsd_int…

实习僧网站的实习岗位信息分析

目录 背景描述数据说明数据集来源问题描述分析目标以及导入模块1. 数据导入2. 数据基本信息和基本处理3. 数据处理3.1 新建data_clean数据框3.2 数值型数据处理3.2.1 “auth_capital”(注册资本)3.2.2 “day_per_week”(每周工作天数&#xf…

Matlab-AMF算法(自适应中值滤波Adaptive Median Filtering)

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 实现原理 AMF(Adaptive Median Filter,自适应中值滤波)是一种用于图像处理和信号处理的滤波算…

OpenHarmony南向开发案例:【智能垃圾桶】

样例简介 智能垃圾桶可以通过数字管家应用来监测垃圾桶当前可用容量,提醒主人及时处理垃圾;通过日程管家可以实现和其他智能设备联动。 核心组件位置功能距离传感器置于垃圾桶盖内侧感应垃圾量红外传感器置于垃圾桶前端感应是否有人靠近光敏电阻开发板…

SpringMvc文件上传下载案例

1、文件上传 文件上传功能如下&#xff1a; 客户端使用ElementPlus上传文件 服务器使用 SpringMvc接收文件 1.1客户端代码 ElementPlus的<el-upload>可以非常方便的处理文件上传功能&#xff0c;即美观又强大。 传送门--》 upload组件文档 1.1.1、使用axios工具上传…

Java算法之时间复杂度和空间复杂度的概念和计算

1. 算法效率 如何去衡量一个算法的好坏&#xff1f; 通常我们从时间效率和空间效率两个方面去分析算法的好坏。时间效率即时间复杂度&#xff0c;空间效率被称为空间复杂度。时间复杂度主要是衡量一个算法的运行速度&#xff0c;而空间复杂度主要衡量一个算法所需要的额外空间…

【面试题】s += 1 和 s = s + 1的区别

文章目录 1.问题2.发现过程3.解析 1.问题 以下两个程序真的完全等同吗&#xff1f; short s 0; s 1; short s 0; s s 1; 2.发现过程 初看s 1 和 s s 1好像是等价的&#xff0c;没有什么区别。很长一段时间内我也是这么觉得&#xff0c;因为当时学习c语言的时候教科书…

系统思考—时间滞延

“没有足够的时间是所有管理问题的一部分。”——彼得德鲁克 鱼和熊掌可以兼得&#xff0c;但并不能同时获得。在提出系统解决方案时&#xff0c;我们必须认识到并考虑到解决方案的实施通常会有必要的时间滞延。这种延迟有时比我们预想的要长得多&#xff0c;特别是当方案涉及…

AlgorithmDay11

day11 对于-*/这些运算符&#xff0c;它们并不是单个字符&#xff0c;而是由两个字符组成的运算符。在C中&#xff0c;这些运算符是作为字符串处理的&#xff0c;因此应该使用双引号来表示。 例如&#xff1a; string op ""; // 表示加法运算符另一方面&#xff…

vue3+高德地图(或echarts)+turfjs实现等压线,色斑图(用于显示气象,环境等地图场景)

首先是turf.js(英文官网),也有中文网不过也就目录翻译了一下. 高德官网自行获得key echarts官网 使用turf的isobands api实现. 数据: 需要准备geojson格式经纬度信息业务值(比如温度,高度,光照只要是number值什么数据都可以) 国内各地区geojson数据点这里获得 参考的是这位大佬…

30元腾讯云服务器搭建幻兽帕鲁Palworld多人联机游戏,畅玩

幻兽帕鲁太火了&#xff0c;官方palworld服务器不稳定&#xff1f;不如自建服务器&#xff0c;基于腾讯云幻兽帕鲁服务器成本32元全自动部署幻兽帕鲁服务器&#xff0c;超简单有手就行&#xff0c;全程自动化一键部署10秒钟即可搞定&#xff0c;无需玩家手动部署幻兽帕鲁游戏程…

[通俗易懂:Linux标准输入/输出和重定向]Shell脚本之 > /dev/null 2>1命令详解

目录标题 一、> /dev/null 2>&1 命令解析二、/dev/null 文件浅显理解三、标准输入、标准输出、标准错误输出四、输入重定向、输出重定向五、命令作用与应用场景 如果想看命令意义&#xff0c;可以直接跳到第五部分 一、> /dev/null 2>&1 命令解析 我们在别…

7 个 Python 问题,来扫扫盲

这 7 个问题&#xff0c;我是有收获的&#xff0c;整理如下&#xff1a; 1、反射算术运算符 你可能知道 Python 里面的魔法函数&#xff0c;比如 __add__ 和 __sub__ 代表 - 运算符&#xff0c;表示 obj /- something&#xff0c;但你可能不知道还有一个 __radd__&#xff0…

JMeter入门教程 —— 事务!

简介&#xff1a; JMeter中事务的基本介绍 1.任务背景 JMeter中的事务是通过事务控制器实现的。&#xff0c;为了衡量服务器对某一个或一系列操作处理的响应时间&#xff0c;需要定义事务。下面我们详细介绍在JMeter中如何使用事务 2.任务目标 掌握基于JMeter性能测试脚本开…

标准版uni-app移动端页面添加/开发操作流程

页面简介 uni-app项目中&#xff0c;一个页面就是一个符合Vue SFC规范的.vue文件或.nvue文件。 .vue页面和.nvue页面&#xff0c;均全平台支持&#xff0c;差异在于当uni-app发行到App平台时&#xff0c;.vue文件会使用webview进行渲染&#xff0c;.nvue会使用原生进行渲染。…

若依框架针对漏洞升级的记录

背景&#xff1a;项目部署在生产环境上以后&#xff0c;漏洞扫描的时候&#xff0c;发现各种漏洞需要修复&#xff0c;很多漏洞的升级后面都记不住了&#xff0c;所以现在都简单记录一下处理的步骤 20240415 解决方案&#xff1a;直接修改配置文件中的Spring security的版本…

bugku-web-需要管理员

页面源码 <html> <head> <meta http-equiv"Content-Type" content"text/html; charsetUTF-8"> <title>404 Not Found</title> </head> <body> <div idmain><i> <h2>Something error:</h2…

Linux:调试器 - gdb

Linux&#xff1a;调试器 - gdb gbd基本概念gbd调试浏览断点运行变量 gbd基本概念 GDB (GNU Debugger) 是一个强大的命令行调试工具,用于调试各种编程语言(如C、C、Java、Python等)编写的程序。使用 gdb可以帮助开发人员更快地定位和修复程序中的缺陷,提高代码质量和开发效率。…

大众日报教育版的 投稿方式-最快一周内见报

大众日报教育版的 投稿方式-最快一周内见报 大众日报是中共山东省委机关报&#xff0c;创刊于1939年1月1日&#xff0c;由中国共产党领导下的八路军budui所创建&#xff0c;是中共在山东省发行的报纸。 大众日报的“大众教育”版块是该报的一个重要组成部分&#xff0c;主要关…

React-项目构建

​&#x1f308;个人主页&#xff1a;前端青山 &#x1f525;系列专栏&#xff1a;React篇 &#x1f516;人终将被年少不可得之物困其一生 依旧青山,本期给大家带来React篇专栏内容:React-项目构建 目录 1、初始化项目 2、目录结构 组件 1、组件的创建方式 1.1、函数创建组…