VALSE 2024 Workshop报告分享┆Open-Sora Plan视频生成开源计划——进展与不足

news2024/10/6 14:24:30

2024年视觉与学习青年学者研讨会(VALSE 2024)于55日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

本文主要对来自北京大学的袁粒老师所做的Workshop报告《Open-Sora Plan视频生成开源计划——进展与不足》进行总结和分享。

1.报告人简介

袁粒,北京大学信息工程学院助理教授、博士生导师,研究方向为深度视觉神经网络设计和多模态机器学习。

2.报告概览

袁老师在报告中首先对视觉生成理论与应用的年度进展进行了概述。从2023年2月OpenAI提出了Consistency Models生成模型,到2024年2月提出Sora文本生成视频模型,从而引发巨大关注。然而由于Sora完全闭源且无API接口和使用通道,北京大学和新加坡国立大学团队分别发起了Sora复现计划,希望集聚开源社区的力量复现出开源版本的Sora。

3.内容整理

袁老师的报告主要分为四个部分,下面逐一加以详细介绍

(1)框架解析

1)在整体框架上,它将由Video VQ-VAE、Denoising Diffusion Transformer(去噪扩散型Transformer)、Condition Encoder(条件编码器)三部分组成,如图1所示。

图 1 模型整体框架

2)在训练数据准备上,有两种方案。其一是爬取高质量视频数据,然后进行高质量视频文本标注;其二是通过文本驱动物理引擎合成视频,具有视频-文本对齐度和细粒度高、生成速度快的特点。

(2)模型训练

1)注意力掩码机制支持任意比例视频输入,兼容不同的视频输入分辨率及分辨时长,已验证有效。

2)NaVit模块已经融合进框架,目前正在验证其效果。

(3)当前进展

2024年4月,袁老师团队推出了Open-Sora-Plan v1.0.0,支持图像和视频的联合训练,具有强大的视频/图像重建和生成的功能,如图2和3所示,验证了框架的可行性。与之前的视频生成模型相比,Open-Sora-Plan v1.0.0 有几点改进,具体包括:

1)使用CausalVideoVAE 进行高效训练和推理。研究团队对视频进行时空压缩达到 4×8×8。

2)采用图像-视频联合培训,提高生成内容的质量。CausalVideoVAE 将第一帧视为图像,允许以自然的方式同时对图像和视频进行编码,这使得扩散模型能够掌握更多的空间视觉细节,从而提高生成内容的质量。

图 2 图像重建效果

图 3 文本生成图像

(4)未来计划

1)现有问题

CausalVideoVAE仍然有待提高,它有两个主要缺点:运动模糊和网格化效果。同时,当前的时长和泛化性也有待提高,泛化性需要更多数据,同时各个模块需要进行加速。此外,数据对齐会影响生成的准确度,合成数据极其重要。

2)三阶段复现目标

第一阶段:初步验证当前框架的有效性。

第二阶段:在有效框架基础上训练出更多数据和更大算力,希望训练出生成视频时长达到20秒以上且图像清晰度达到720P的模型。

第三阶段:拓展生成的泛化性、场景多样性等,更加逼近Sora的时长和效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1649320.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

新手做抖音小店多久能出单?新手抖音小店出单秘籍!出单教程必看

大家好,我是电商花花。 现阶段还是有很多朋友加入到抖音电商行业,因为抖音小店上还隐藏很多的红利和市场,很多新手开店后第一个问题就是,店铺开通后,一般多久能出单? 多久能出单,其实更看重的…

高等数学笔记(下中)

曲线积分 第一类曲线积分:对弧长的积分计算方法 定理:设 f ( x , y ) f(x,y) f(x,y)在曲线弧 L L L上有定义且连续, L L L的参数方程是 { x φ ( t ) y ψ ( t ) ( α ≤ t ≤ β ) \begin{cases} x\varphi(t)\\ y\psi(t) \end{cases}(\a…

国内如何下载TikTOK,手机刷机教程

最近很多玩家都来问怎么刷机?手机环境怎么搭建?这里给大家整理了苹果IOS刷机教程 1.iOS下载教程 : 步骤一:手机调试 苹果手机系统配置推荐:iPhone6S以上,16G。 注意:如果是选择购入二手手机…

某东抢购某台脚本——高版本

某东抢购某台脚本——高调 小白操作-学习参考 说明 这个脚本用于自动化京东的秒杀过程,特别是对于高需求商品如茅台。它展示了通过自动化工具模拟用户行为的能力,但同时也涉及到了使用自动化脚本可能违反网站使用条款的问题。使用此类脚本前应确保合…

软件设计师-应用技术-UML建模题3

基础知识及技巧: 1. 用例图: 1.1 考点: 题干里面有关项目的详细描述,完整用例图中的某些参与者和某些用来扣掉,根据题干内容和已有用例图补充。根据题干,分析用例图之间的关系。 1.2 基础知识&#xff…

速览Coinbase 2024Q1 财报重点:业务全面开花,净利润达11.8亿美元

作者:范佳宝,Odaily 星球日报 近期,Coinbase 发布了其 2024 年第一季度财报。 报告显示,Coinbase 第一季度营收为 16.4 亿美元,高于分析师平均预期的 13.4 亿美元;净利润为 11.8 亿美元,合每股…

renren-fast开源快速开发代码生成器

简介 renrenfast框架介绍 renren-fast是一个轻量级的Spring Boot快速开发平台,能快速开发项目并交付.完善的XSS防范及脚本过滤,彻底杜绝XSS攻击实现前后端分离,通过token进行数据交互 使用流程 项目地址 https://gitee.com/renrenio/ren…

深度学习之基于Vgg16卷积神经网络书法字体风格识别

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景 书法是中国传统文化的重要组成部分,具有深厚的历史底蕴和独特的艺术魅力。在数字化时代&…

跨考专业课142分,上岸重邮!

这个系列会邀请上岸学长学姐进行经验分享~ 今天分享经验的同学是我的“关门弟子”,小叮当,跨考上岸重邮通信工程!从平时和小叮当的交流和测试,就能看出专业课水平,我一直和她开玩笑说,早点遇到我&#xff…

【GA】deap之个体和种群概览(一)

参考资料 1.《基于遗传算法(deap库)的一元函数寻优代码详解》 2.官方文档:http://deap.readthedocs.io/en/master/index.html 3.《 Deap: python中的遗传算法工具箱》 ,⭐️666 —————— 文章目录 壹、overview一、Types1. Fitness 适应…

懒人网址导航源码v3.9源码及教程

懒人网址导航源码v3.9源码及教程 效果图使用方法部分源码领取源码下期更新预报 效果图 使用方法 测试环境 宝塔Nginx -Tengine2.2.3的PHP5.6 MySQL5.6.44为防止调试错误,建议使用测试环境运行的php与mysql版本首先用phpMyAdmin导入数据库文件db/db.sql 如果导入不…

嵌入式5-7

练习:优化登录框,输入完用户名和密码后,点击登录,判断账户是否为 Admin 密码 为123456,如果判断成功,则输出登录成功,并关闭整个登录界面,如果登录失败,则提示登录失败&a…

全栈开发之路——前端篇(6)生命周期和自定义hooks

全栈开发一条龙——前端篇 第一篇:框架确定、ide设置与项目创建 第二篇:介绍项目文件意义、组件结构与导入以及setup的引入。 第三篇:setup语法,设置响应式数据。 第四篇:数据绑定、计算属性和watch监视 第五篇 : 组件…

落地企业业财一体化的关键能力和路径

在财务数字化的改革过程中,财务部门已经通过会计电算化、ERP、财务共享,基本实现业务财务流程拉通和财务运营效率的提升,接下来面临问题是如何通过构建业财一体化体系,进一步挖掘数字利用价值,为管理决策赋能。 但在业…

C++ Primer 总结索引 | 第十四章:重载运算与类型转换

1、C语言定义了 大量运算符 以及 内置类型的自动转换规则 当运算符 被用于 类类型的对象时&#xff0c;C语言允许我们 为其指定新的含义&#xff1b;也能自定义类类型之间的转换规则 例&#xff1a;可以通过下述形式输出两个Sales item的和&#xff1a; cout << item1 …

面试中算法(最大公约数)

高效求出两个整数的最大公约数&#xff0c;要尽量优化算法的性能。 def getDiv(a,b):mamax(a,b)mimin(a,b)#判断能被整除if ma%mi0:return mi#递归return getDiv(ma%mi,mi)if __name__ __main__:# print(getDiv(10, 25))print(getDiv(1000, 50))没错&#xff0c;这确实是辗转…

三维点云处理-模型拟合

以直线拟合为例&#xff0c;模型拟合常用的方法有Least Square&#xff08;最小二乘&#xff09;、Hough Transform&#xff08;霍夫变换&#xff09;、Random Sample Consensus&#xff08;RANSAC&#xff09;等。那么该如何区分和使用这几种方法呢&#xff1f; 情况1&#x…

工控人机交互界面编辑软件附描述(电脑软件分享)

HMI 概述&#xff1a;本文为分享型文档 本文摘要 昆仑通泰触摸屏软件分享。   给触摸屏下载程序时使用。   本人用过案例西门子s7-1200/200smart ST30与触摸屏型号“TPC1061Ti”通讯。 文章目录 本文摘要1.MCGS组态环境嵌入式版&#xff0c;大部分人用过此款&#xff0c;容…

一个物业管理服务项目的思考——智慧停车场无人值守呼叫系统到电梯五方对讲再到呼叫中心

目录 起源智慧停车场无人值守呼叫系统然后电梯五方对讲系统又然后物业呼叫中心集控E控中心怎么做 起源 小区里新装了智慧停车场系统&#xff0c;马上展现出了科技化、现代化的新形象。一个显著的好处是&#xff1a;停车场的出入口&#xff0c;再也看不到司机和保安争吵的场景了…