文生视频大模型Sora的复现经验

news2024/9/30 1:39:55

  大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。

  本文主要介绍了文生视频大模型Sora的复现经验,希望能够对学习大模型的同学们有所帮助。

文章目录

  • 1. 前言
  • 2. 类 Sora 模型
  • 3. 先于 DiT 的技术架构创新
  • 4. VDT
  • 5. Sora 是世界模型吗?
  • 6. 嘉宾阵容
  • 7. 视频生成技术与应用 \- Sora 时代
  • 8. 活动亮点

1. 前言

  2月16日,OpenAI 发布了视频生成领域的重磅模型 —— Sora。

  Sora 对 Scaling Law 的信仰及其突破性的技术创新,使它持续保持领先地位。同时,也再次证明了“大力出奇迹”依然适用于文生视频领域。

  Sora 披露的技术细节,远远不足以窥其全貌。同时 Sora 目前也未正式对外开放。源于此,针对 Sora 的思考和讨论从未停止过。OpenAI 发布的技术报告如下图所示:

  Sora 给整个 AI 领域带来的最大冲击,莫过于如何优化和校正现有的视频生成思路和框架。而由此也引发了持续至今的复现 Sora 的热潮。

  复现 Sora 的动力,一方面来自技术人员的技术执着与技术理想,另一方面也来自于未来可预期的商业价值。

  另外,不容忽视的是,这家持续被戏称为 CloseAI 的人工智能技术研究机构,已然成为了行业内的标杆,几乎每次发布的产品都能带来颠覆式的创新。但是 OpenAI 似乎在坚持闭源的道路上越走越远,这更加点燃了大众对复现 Sora 的激情。我们可以相信未来的几个月内,多个类 Sora 模型将会陆续发布,并将开源出来。

  Sora 发布后的这一个多月来,其相关技术创新的讨论和复现的进度如何呢?下面我们一起来看看。

  关于复现 Sora,本文从以下三方面展开:

  • 距离 Sora 发布一个多月了,目前复现的进度如何?

  • 复现的可能性有多大?国内有什么技术基础?

  • Sora 到底是不是世界模型?能否帮助我们抵达 AGI?有没有必要复现?

2. 类 Sora 模型

目前已经推出且讨论较多的三个模型分别是 Snap Video、Open-Sora 1.0,以及 Mora。

  • Snap Video

  Snap Video 是2月29日发布的类 Sora 模型,它使用到了可扩展的时空 Transformer,来自开发出 SnapChat 图片分享软件的 Snap 公司,以及特伦托大学等机构。

传送门:《首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2

  • Open-Sora 1.0

  Open-Sora 1.0 是3月18日全面开源的首个类 Sora 模型,来自 Colossal-AI 团队,该开源模型涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重。

传送门:《没等来OpenAI,等来了Open-Sora全面开源》

  • Mora

  Mora 是几天前由理海大学、微软研究院的研究者提出的多智能体框架,该框架整合了几种先进的视觉 AI 智能体,以复制 Sora 所展示的通用视频生成能力。

  传送门:《复刻Sora的通用视频生成能力,开源多智能体框架Mora来了》

  尽管目前的模型复现效果依然无法企及 Sora,但是短短一月有余,已经有明显的技术突破出现,不失为一个乐观的信号。据不完全统计,国内已有近 10 支团队在复现 Sora,让我们拭目以待。

3. 先于 DiT 的技术架构创新

  Sora 使用的 DiT(Diffusion Transformer) 架构目前来看是其最大的技术创新,但追溯来看,也许国内相关的进度更早一些。

  • U-ViT 架构

  2022年9月,清华团队提交的名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文,比 DiT 还要早 2 个月。该论文提出用基于 Transformer 的网络架构 U-ViT 替代基于 CNN 的 U-Net,这与 Sora 将 Transfomer 和扩散模型融合的思路不谋而合。

  传送门:《国内公司有望做出Sora吗?这支清华系大模型团队给出了希望》

4. VDT

  2023年5月在 arXiv 网站上公开的 Video Diffusion Transformer (VDT),是由中国人民大学研究团队主导,并与加州大学伯克利分校、香港大学等进行合作的,基于 Transformer 的 Video 统一生成框架。对采用 Transformer 架构的原因也给出了详细的解释。

  传送门:《国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收》

  也许在核心技术的创新上,国内的探索并不落后,而是走在了前面。不过,囿于资源限制以及技术路线规划等其他原因,没能在之前实现类似 Sora 的效果。

  Sora 无疑验证出了一条技术可行性的道路,而我们本身在技术架构上的领先探索,将更有利于我们复现出 Sora,甚至可以更加乐观地相信,在某些领域内超越 Sora 的效果。

5. Sora 是世界模型吗?

  由 Sora 引发的另一个热点讨论,是关于世界模型的。

  Sora 生成的视频无疑对物理世界有了一定了解,比如经典的“海盗船在咖啡杯里纠缠”,肉眼可见能涉及到专业的流体动力学、光线等物理世界的特征。

  但是以 Yann LeCun 为代表的一部分科学家力证 Sora 的训练方式和世界模型没有关系。

  那 Sora 是不是世界模型,到底懂不懂物理世界?关于这个讨论已经蔓延至各个论坛和直播中。可见对于究竟什么是世界模型这个话题,大家也是见仁见智的。

  而我们能明确的是,如果 Sora 是世界模型,那通往通用人工智能(AGI)的理想,可能比我们预计的还要早到达。那复现 Sora 就有了一定的必要性。

  关于 Sora,我们保持着好奇,并持续探求以下问题的可能答案。

  • Sora 之前的视频生成架构/技术还能不能用?如何用?

  • Sora 之后,谁是被遗忘的?谁又是被仰望的?

  • Sora 之外,其他创业公司/团队要如何做?做什么?

  • Sora 会改变主流的技术架构吗?以 DiT 为代表的架构是以后主流的架构选择吗?

  • 国内技术力量应不应该复现 Sora?为什么?

  • 已知有近 10 支团队在复现 Sora,我们可能看到的未来格局是什么?

  • 为什么是 OpenAI? OpenAI 的模式能否复刻?

  • Sora 之后,全球的视频生成格局是怎样的?又将如何发展和变化?

  • 如何看待一些明星创业公司公开表示不做 Sora?

  • 多模态大模型的未来在哪里?

  • 不同视角下,如何看待 Sora 的冲击?(投资人、非技术人、央国企、AI 创业者、从业者等视角)

  • OpenAI 扮演着什么样的社会角色?你如何看待这家公司?

  • ……

Sora 带来的冲击是颠覆式的,因此对以上问题的求解将持续进行着。而作为聚焦于 AI 前沿技术探索和应用实践的团队,机器之心 AI 技术论坛再次将视线放在了视频生成领域。

  4月13日,在北京六道口,我们策划了一期技术论坛,聚焦 Sora 发布后的技术创新、思考与应用实践。活动现场汇聚多位重磅嘉宾,同时我们也会更加深入地探讨上面提到的问题。

  在可预见的未来,相信本次活动能产生一定的积极作用和启发,以期推动我国 AI 开源社区的技术发展和传播。

6. 嘉宾阵容

  本次论坛的嘉宾阵容强大,我们邀请到了:

  • 业内的知名技术专家张俊林老师,来一场 Sora 核心技术的深度拆解

  • 爆火的视频生成模型 PixelDance 的作者,来自字节跳动的曾妍老师,分享 PixelDance 背后的技术创新和应用

  • 类 Sora 模型 VDT 的团队负责人,来自中国人民大学孵化的创业公司——智子引擎的 CEO 高一钊博士,详细拆解 VDT 的技术创新和实践

  • 投资人是 AI 领域离不开的重要角色,陈石老师作为峰瑞资本的投资合伙人,将带来投资人/机构视角下的独特观察

  • 国央企在 Sora 发布后迅速响应,占据了 AI 领域一席之地,来自中移动信息技术有限公司的算法技术负责人童同老师,将会分享他的全新思考

  • 类 Sora 模型 Open-Sora 1.0 的技术负责人,来自潞晨科技的 CTO 卞正达老师,更是会详细拆解如何复现 Sora,以及来自他们团队的独特思考与实践

  • 还有更多重磅嘉宾,陆续邀请中……

张俊林

中国中文信息学会理事,中科院软件所博士

目前担任新浪微博新技术研发负责人,此前在阿里巴巴担任资深技术专家,负责新技术团队。技术书籍《这就是搜索引擎:核心技术详解》、《大数据日知录:架构与算法》作者。

曾妍

ByteDance Research 算法工程师

专注于视频生成和多模态预训练等领域的前沿研究。主导研发的模型为字节跳动的视频生成、短视频审核、电商客服、今日头条、教育解题等业务提供了有力服务,并以第一作者身份将相关的八篇论文发表在 TPAMI, ICML, CVPR, ACL 等国际顶级会议和期刊,同时也担任了 TPAMI, ICML, NIPS, ICLR 等会议的审稿人。主导研发的 PixelDance 视频生成基础模型在业界首次实现了高动态性和稳定性的结合,并首次生成了3分钟的连续剧情动画。

陈****石

峰瑞资本 投****资合伙人

专注于科技、软件、互联网、消费等领域的投资。加入峰瑞资本前,拥有 5 年阿里巴巴管理层经历,曾担任阿里巴巴移动事业群副总裁、阿里巴巴文化娱乐集团高管、优酷和 UC 国际班委,深度参与 UC、高德、优酷、土豆、神马搜索、UC 国际等产品线的业务决策和管理执行。

15+ 年连续创业,作为核心管理团队成员深度参与 UC(全球最大第三方手机浏览器,2014 年被阿里巴巴收购)和拉卡拉(中国知名第三方支付公司,SZ:300773)的创业过程,分别担任副总裁和 CTO;曾经是一名快乐的程序员,用户增长专家,科技热爱者。

拥有北京航空航天大学机电工程系本科和硕士学历。2023 年获评 EqualOcean「2023年出海全球化投资TOP30人」、甲子光年「2022-2023 年度人工智能与大数据最佳投资人TOP20」。

高一钊

智子引擎 CEO

中国人民大学高瓴人工智能学院博士。多模态大模型专家,发表多篇顶级期刊、会议论文,曾带领多人团队完成文澜大模型训练。全程参与智子引擎相关模型、产品的开发与推广。

卞正达

潞晨科技 CTO

毕业于新加坡国立大学,曾在全球超算最顶尖会议 SC 上发表一作论文,拥有 7 年高性能 AI 系统经验,Colossal-AI 系统核心开发者。

童同

中移动信息技术有限公司 算法技术负责人

中国科学院自动化研究所 AI 博士。目前在中移动信息技术有限公司负责多模态大模型、数字人、智能体等领域研发工作,实现了文生图、文生视频、大模型动作识别与目标检测等关键技术的落地应用。共发表论文 12 篇、公司专利 12 项、软著 4 项。

更多专家正在确认中,敬请期待。

7. 视频生成技术与应用 - Sora 时代

  机器之心 AI 技术论坛时刻保持对 AI 领域技术突破的敏感追踪,为了深入探究 Sora 对技术的冲击和对各行各业带来的影响,我们特别策划了「视频生成技术与应用 — Sora 时代」AI 技术论坛。

  希望助力广大企业和从业者紧跟技术发展潮流,全面了解 Sora、视频生成技术、多模态大模型等前沿领域的技术突破和应用实践。

  面对扑面而来的 AI 视频生成,积极拥抱学习并敢于尝试,才能抓住技术潮流,破局而生。

  期待 2024.04.13,在北京海淀区,和你相遇。

在这里插入图片描述

  论坛报名通道正式开启,扫描海报中二维码可直达活动页面。由于嘉宾介绍发布时间较晚,本场论坛的早鸟优惠期有所延长。

  即日起至04月07日23:55,购票参会即可直减 200 元, 享受 699 元早鸟特惠门票(原价 899 元)。五人团购更有专属优惠,详见活动详情页。

8. 活动亮点

  • 赠送永久观看上一期「视频生成前沿研究与应用」论坛活动视频及课件(上期活动已购请联系 Alice 扣减,本期购买后记得找 Alice 兑换上一期视频)

  • 永久观看本期「视频生成技术与应用 - Sora 时代」论坛活动会后视频及课件

  • 汇聚高校教授及产业界重磅技术专家,掌握最新技术,拓宽技术视野

  • 和技术大牛面对面交流,会后深度连接

  • 覆盖核心技术拆解、明星产品最佳实践、技术未来探讨及展望

  • 全流程助力学习:会前会后学习资料大礼包

  • 加入视频生成高质量技术交流社群,及时跟进行业前沿技术与资讯

  • 机器之心旗下相关付费活动享购票八五折优惠

  关于本次活动商务合作、团购、发票、内容等相关问题,欢迎私信 或通过邮件进行咨询。

  邮箱:jiayaning@jiqizhixin.com

关于发票: 报名成功后,可于活动结束后,在活动行 App 上自行申请发票,发票为电子版增值税普票,开票成功后会发送到报名邮箱中。

成为论坛志愿者: 参与活动现场的具体事项执行,如签到、引导、秩序管理等,包工作餐。在校学生优先。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1550380.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QtCreator调试时无法显示std::string的内容

在银河麒麟V10或Ubuntu下使用QtCreator调试代码时&#xff0c;std::string类型变量在大多数情况下不显示实际内容&#xff0c;而是显示"<无法访问>"字样&#xff0c;鼠标点击进去也是看不见任何有用信息&#xff0c;这样非常影响调试效率&#xff0c;为此&…

docker 的网络管理

docker应用自带了三种类型的网络&#xff0c;然后我们自己也能自定义网络 roottest-virtual-machine:~# docker network ls NETWORK ID NAME DRIVER SCOPE 4c3e28760cff bridge bridge local afd1493dc119 host host local 5f200e2eaf22 n…

读所罗门的密码笔记04_社会信用

1. 人工智能 1.1. 人工智能可以帮助人们处理复杂的大气问题&#xff0c;完善现有的气候变化模拟&#xff0c;帮助我们更好地了解人类活动对环境造成的危害&#xff0c;以及如何减少这种危害 1.2. 人工智能也有助于减少森林退化和非法砍伐 1.3. 人工智能甚至可以将我们从枯燥…

argocd部署

一、前言 ArgoCD 是一个开源的、持续交付工具&#xff0c;用于自动化部署应用程序到 Kubernetes 集群。它基于 GitOps 理念&#xff0c;通过使用 Git 作为单一的源头来管理应用程序的配置和部署状态&#xff0c;argocd会定时监控git仓库中的yaml配置文件&#xff0c;当git仓库中…

uniapp 微信小程序 canvas 手写板文字重复倾斜水印

核心逻辑 先将坐标系中心点通过ctx.translate(canvasw / 2, canvash / 2) 平移到canvas 中心&#xff0c;再旋转设置水印 假如不 translate 直接旋转&#xff0c;则此时的旋转中心为左上角原点&#xff0c;此时旋转示意如图所示 当translate到中心点之后再旋转&#xff0c;此…

题目 3152: 蓝桥杯2023年第十四届省赛真题-接龙数列【DFS简单爆搜做法】

&#x1f44f;这个是目录哦~ DFS 只能拿到 1/4 的分数心路历程核心出装三大件get_first()get_last()dfs() 全部 DFS 只能拿到 1/4 的分数 心路历程 核心出装三大件 get_first() inline int get_first(int n) {//123//12//1while (n / 10) {n / 10;}return n; }get_last() in…

Neural Latents Benchmark: 尖锋序列潜变量模型

Neural Latents Benchmark ‘21: Evaluating latent variable models of neural population activity 挑战赛说明: https://neurallatents.github.io/ 挑战赛地址: https://eval.ai/web/challenges/challenge-page/1256/overview NeuralLatent 论文: https://arxiv.org/abs/…

【opencv】教程代码 —ImgProc (6)通过Wiener滤波器恢复运动模糊图像

6. motion_deblur_filter.cpp通过Wiener滤波器恢复运动模糊图像&#xff08;参数难调&#xff09; 您将学习如何使用维纳滤波器恢复具有运动模糊失真的图像 /** * brief 学习如何使用Wiener滤波器恢复运动模糊失真的图像。 * author 混沌鱼, karpushinngs.ru, https://github.c…

java图书管理系统(简易)

实现的基本功能&#xff1a; 登录时&#xff0c;需要输入姓名&#xff0c;然后选择作为管理者还是普通用户。选择成功后选择想要实现的功能。管理者的目录下方有有五个功能&#xff0c;而普通用户有4个功能&#xff0c;如下图 首先我们要建立Book这个类&#xff0c;里面包含书…

Swagger3探索之游龙入海

引言 后端开发中常用的接口调用工具一般使用Postman、ApiPost工具&#xff0c;但后期需要与前端联调&#xff0c;要补充接口文档花费大量时间&#xff0c;此时Swagger3应运而生&#xff0c;大大提高沟通交流的效率。 引用依赖 <!-- Swagger3 调用方式 http://ip:port/swa…

Echarts之x轴,Y轴配置项大全

ECharts是一个强大的数据可视化库&#xff0c;提供了丰富的配置项来定制图表的x轴和y轴。下面是ECharts中x轴和y轴的配置项大全&#xff1a; xAxis配置项&#xff1a; type&#xff1a;轴类型&#xff0c;可选值有&#xff1a;“value”&#xff08;数值轴&#xff09;, “cat…

IP如何异地共享文件?

【天联】 组网由于操作简单、跨平台应用、无网络要求、独创的安全加速方案等原因&#xff0c;被几十万用户广泛应用&#xff0c;解决了各行业客户的远程连接需求。采用穿透技术&#xff0c;简单易用&#xff0c;不需要在硬件设备中端口映射即可实现远程访问。 异地共享文件 在…

excel匹配替换脱敏身份证等数据

假如excel sheet1中有脱敏的身份证号码和姓名&#xff0c;如&#xff1a; sheet2中有未脱敏的数据数据 做法如下&#xff1a; 1、在sheet2的C列用公式 LEFT(A2,6)&REPT("*",8)&RIGHT(A2,4) 做出脱敏数据&#xff0c;用来与sheet1的脱敏数据匹配 2、在sheet…

案例研究|DataEase实现物业数据可视化管理与决策支持

河北隆泰物业服务有限责任公司&#xff08;以下简称为“隆泰物业”&#xff09;创建于2002年&#xff0c;总部设在河北省高碑店市&#xff0c;具有国家一级物业管理企业资质&#xff0c;通过了质量体系、环境管理体系、职业健康安全管理体系等认证。自2016年至今&#xff0c;隆…

以太网链路聚合——增加带宽,解决生成树收敛慢的问题

目录 一.对STP生成树的补充 1.STP接口状态 2.STP生成树的改进 二.网络可靠性 1.单板可靠性 2.设备可靠性 3.链路可靠性 三.链路聚合 1.多条链路聚合增加带宽 2.链路聚合术语 四.链路聚合模式 1.手动模式 2.LASP模式 &#xff08;1).LASP术语 &#xff08;2&…

[Qt] QString::fromLocal8Bit 的使用误区

QString::fromLocal8Bit 是一个平台相关的函数。默认情况下在 Windows 下 就是 gbk 转 utf-8 ,在 Linux就应该是无事发生。因为Linux平台默认的编码方式就是 utf-8 可以通过 void QTextCodec::setCodecForLocale(QTextCodec *c)来修改 Qt默认的编码方式。如下 第一输出乱码的…

深入探讨分布式ID生成方案

&#x1f388;&#x1f388;作者主页&#xff1a; 喔的嘛呀&#x1f388;&#x1f388; &#x1f388;&#x1f388;所属专栏&#xff1a;python爬虫学习&#x1f388;&#x1f388; ✨✨谢谢大家捧场&#xff0c;祝屏幕前的小伙伴们每天都有好运相伴左右&#xff0c;一定要天天…

图神经网络实战(6)——使用PyTorch构建图神经网络

图神经网络实战&#xff08;6&#xff09;——使用PyTorch构建图神经网络 0. 前言1. 传统机器学习与人工智能2. 人工神经网络基础2.1 人工神经网络组成2.2 神经网络的训练 3. 图神经网络4. 使用香草神经网络执行节点分类4.1 数据集构建4.2 模型构建4.3 模型训练 5. 实现香草图神…

广发期货:从灾备中心、信创云到主中心,超融合支撑云化与国产化双转型

案例亮点 超过 30 节点承载灾备中心、信创云及主中心的 60% 以上业务系统。超融合信创资源池稳定运行超 1 年&#xff0c;承载 80% 以上的信创系统&#xff0c;顺利通过信创验收。引入超融合架构后&#xff0c;业务在 1 周内快速上线&#xff0c;稳定运行 3 年&#xff1b;减少…

Spring Boot项目启动过程中为什么日志打印没有显示完整包名呢?

一、前言 不知道大家注意过没有&#xff0c;在Spring Boot项目启动过程中日志打印并没有显示完整的报名&#xff0c;而是显示一些o.a.c&#xff0c;o.s.web形式的包名&#xff0c;如下图&#xff1a; 这是为什么呢&#xff1f; 二、原理 首先&#xff0c;我们先看一下Spring…