sora related

news2024/12/25 12:42:42

官方https://openai.com/research/video-generation-models-as-world-simulators

概述:

  1. sora可以生成变长的、不同分辨率的最长可到1分钟的视频;
  2. 整体流程是 v i d e o   c o m p r e s s i o n   n e r w o r k ( v i d e o → l a t e n t ) + p a t c h i f y ( s p a c e t i m e   p a t c h e s ) + d i f f u s i o n   t r a n s f o r m e r + d e c o d e r ( l a t e n t → v i d e o ) video\ compression\ nerwork(video\rightarrow latent) + patchify (spacetime\ patches)+ diffusion\ transformer + decoder(latent\rightarrow video) video compression nerwork(videolatent)+patchify(spacetime patches)+diffusion transformer+decoder(latentvideo)
  3. spacetime patches是作为transformer的tokens;
  4. sora是一个diffusion transformer21-26,输入带有噪声的patches,以文本作为条件,通过预测原本的干净样本来完成训练;
  5. text caption的获取,类似与DALL.E3,训练了一个highly descriptive captioner model,除此之外,还使用GPT来将短的caption变长;
  6. 除了文本作为输入,还可以输入图片和视频完成
  7. https://www.yuque.com/xinntao/nm1yxs/yyqt6n02n2gkmg32

related papers:

Scalable Diffusion Models with Transformers

https://github.com/facebookresearch/DiT
WALT这篇文章里面关于transformer diffusion类似,只是那一篇文章加入了windowed这一个操作来efficient
在这里插入图片描述

  1. raw picture首先输入到VAE里面,得到输出,例如 256 × 256 × 3 → 32 × 32 × 4 256\times 256 \times 3 \rightarrow 32 \times 32 \times 4 256×256×332×32×4
  2. 之后是patchify的操作,,input中 I × I I\times I I×I作为一个token,得到的输出是 T × d T\times d T×d的,其中 T = ( I / p ) 2 T=(I/p)^2 T=(I/p)2 p p p是patch size;在这里插入图片描述
  3. 之后是frequent based positional embedding和VIT是相同的;
  4. 输入还会有类别、timestep和文本,所以在vit的基础上有一定的改动,
    a. In-context conditioning:直接将timestep和class label的embedding与image token进行拼接,这样就可以不改变原始的vit结构,将其与cls相同对待;
    b. Cross-attention block:将timestep和class label进行拼接,在模型层面在self attention的后面加上cross attention;
    c. Adaptive layer norm (adaLN) block:替换原本的layer norm,Rather than directly learn dimensionwise scale and shift parameters σ , γ \sigma , \gamma σ,γ, we regress them from the sum of the embedding vectors of t and c;
    d. adaLN-Zero block:In addition to regressing and , we also regress dimensionwise scaling parameters that are applied immediately prior to any residual connections within the DiT block.We initialize the MLP to output the zero-vector for all; this initializes the full DiT block as the identity function.
  5. decoder:模型结构是线性的将输出的通道变为 p × p × 2 C p\times p \times 2C p×p×2C C C C是原始vae的输出通道数4,输出的内容物分别是output noise prediction and an output diagonal covariance prediction.Finally, we rearrange the decoded tokens into their original spatial layout to get the predicted noise and covariance.

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT)

在这里插入图片描述

ViViT: A Video Vision Transformer

主要是transformer使用到video里面的范式,有几种video token的方法以及加入temporal attention的方法;
一个不错的解读:https://zhuanlan.zhihu.com/p/451386368

Masked Autoencoders Are Scalable Vision Learners

https://blog.csdn.net/iwill323/article/details/128393710

Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

实现可变分辨率和可变长度的vision transformer
在这里插入图片描述
将不同图片的token sequence进行拼接,在原始vit的基础上加上基于图片粒度的mask在self attention和polling上,position embedding也需要相应的改变,不同分辨率的图片拼接到一起训练,但是同时在attention的时候增加mask以限制同一个图片之内进行attention操作;

VideoPoet: A Large Language Model for Zero-Shot Video Generation

模型可以生成包含音频的视频,decoder only的transformer architecture,输入可以包含各种模态,图片、视频、文本和音频,和LLM一样,训练包含两个阶段,预训练阶段以及task specific adaptation
在这里插入图片描述
模型包含三个部分:modality specific tokenizer, language model backbone, super resolution module

  1. tokenizer将各种模态的数据转变为discrete tokens in a unified vocabulary
    a. image和video使用的是magvit-v2 tokenizer,audio使用的是soundstream tokenizer
    b. unified vocabulary的前256留给special token和task prompts,后面的212644是用来image和video,其余的4096是分配给audio,text使用的是text embedding,现成的T5-XL
    c. 以一个17帧 128 ∗ 128 128*128 128128分辨率的视频为例,tokenizer将其tokenize到 5 ∗ 16 ∗ 16 5*16*16 51616,之后flatten为1280tokens
    d. magvit-v2是casual的,the frame are encoded without any information from future frames;
    e. 为了联合的表示image和video,将视频的第一帧 1 ∗ 16 ∗ 16 1*16*16 11616,之后每4帧为 1 ∗ 16 ∗ 16 1*16*16 11616
  2. super resolution在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1605727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows下安装kibana

下载:https://www.elastic.co/cn/downloads/kibana 安装:https://www.elastic.co/guide/cn/kibana/current/install.html 安装好后,cd到kibana的bin目录,启动kibana.bat 然后访问localhost:5601

C++入门 (2)

文章目录 C入门C输入输出缺省参数全缺省半缺省函数声明与定义分离 函数重载C支持函数重载的原理--名字修饰 C入门 C输入输出 C输入输出包含在# include《iostream》中 cout 类似在控制台中输出&#xff0c;使用cout需要使用流插入符&#xff08;<<&#xff09; 这个符号…

YAML教程-1-基础入门

领取资料&#xff0c;咨询答疑&#xff0c;请➕wei: June__Go YAML简介 YAML&#xff08;YAML Aint Markup Language&#xff09;是一种用于数据序列化的人类可读格式。它广泛用于配置文件、数据交换、持续集成/持续部署&#xff08;CI/CD&#xff09;等领域。YAML的设计目标…

基于springboot实现电影评论网站系统设计项目【项目源码+论文说明】

基于springboot实现电影评论网站系统演示 摘要 随着信息技术在管理上越来越深入而广泛的应用&#xff0c;管理信息系统的实施在技术上已逐步成熟。本文介绍了电影评论网站的开发全过程。通过分析电影评论网站管理的不足&#xff0c;创建了一个计算机管理电影评论网站的方案。文…

采用C#.Net +JavaScript 开发的云LIS系统源码 二级医院应用案例有演示

采用C#.Net JavaScript 开发的云LIS系统源码 二级医院应用案例有演示 一、系统简介 云LIS是为区域医疗提供临床实验室信息服务的计算机应用程序&#xff0c;可协助区域内所有临床实验室相互协调并完成日常检验工作&#xff0c;对区域内的检验数据进行集中管理和共享&#xff0…

继电器会不会被淘汰?

继电器作为一种电控制器件&#xff0c;其基本功能是在输入量达到一定条件时&#xff0c;使电气输出电路中的被控量发生预定的阶跃变化。 尽管现代电子技术发展迅速&#xff0c;新型产品不断涌现&#xff0c;但继电器因其独特的优势在许多应用领域仍然不可替代。 技术优势&#…

【Axure教程】制作书本翻页效果

翻书效果是一种模拟真实书本翻页动作的视觉效果&#xff0c;常用于网页设计和应用程序中&#xff0c;以增强用户体验和交互性。这种效果通常通过动画和过渡效果来模拟书页的翻转&#xff0c;使用户感觉像在真实的书本中翻页一样。 所以今天作者就教大家怎么在Axure里用中继器制…

从API到Agent:洞悉LangChain工程化设计

作者&#xff1a;范志东 原文&#xff1a;https://mp.weixin.qq.com/s/zGS9N92R6dsc9Jk57pmYSg 本文作者试着从工程角度去理解LangChain的设计和使用。大家可以将此文档作为LangChain的“10分钟快速上手”手册&#xff0c;希望帮助需要的同学实现AI工程的Bootstrap。 我想做一…

淘宝扭蛋机小程序开发:开启购物娱乐新纪元

在数字时代浪潮的推动下&#xff0c;小程序作为新兴的交互平台&#xff0c;正在不断引领着购物方式的革新。淘宝扭蛋机小程序的开发&#xff0c;便是这一变革中的一颗璀璨明星&#xff0c;它将传统扭蛋机的趣味与电商购物的便捷完美融合&#xff0c;为用户带来了前所未有的购物…

Docker部署metahuman-stream数字人系统

metahuman-stream是基于ernerf模型的流式数字人&#xff0c;实现音视频同步对话。 metahuman-stream xtts-streaming-server srs 部署 srs # rtmpserver docker run -it -d \ -p 1935:1935 -p 1985:1985 -p 8080:8080 -p 8000:8000/udp -p 10080:10080/udp \ --name srs \ reg…

项目_预览和模拟器运行_真机运行鸿蒙应用---HarmonyOS4.0+鸿蒙NEXT工作笔记002

然后再来看如何使用预览,可以看到 右侧有个preview,点开就可以了 然后再有一个tools,这里 Device Manager,这个是模拟器 点开以后可以看到让我们连接,本地模拟器,还是远程模拟器,还是远程设备 这里我们选择phone 如果选择remote device,这个需要登录华为账号,会自动弹出来登…

ceph用户管理

查看用户及权限 ceph auth ls 可以看到管理员权限具有所有组件的全部权限 查看特定用户 ceph auth get client.admin 创建cephfs使用用户 ceph auth get-or-create client.fs mon allow r mds allow rw osd allow rw poolcephfs-data -o /etc/ceph/ceph.client.fs.keyring…

ACE框架学习

目录 ACE库编译 ACE Reactor框架 ACE_Time_Value类 ACE_Event_Handler类 ACE定时器队列类 ACE_Reator类 ACE Reactor实现 ACE_Select_Reactor类 ACE_TP_Reactor类 ACE_WFMO_Reactor类 ACE库编译 首先去ACE官网下载安装包&#xff0c;通过vs2017或者2019进行编译&#x…

改进下记录学习的小网站

Strong改进 结束&#xff1a;2024-4-14 打算投入&#xff1a;10h 实际消耗&#xff1a;12h 3m 学习总是不在状态。 我的时间花得很零散&#xff0c;也有点茫然。所以想尝试一下集中式地、一块一块地花&#xff0c;比如投入30个小时&#xff0c;去干一件事&#xff0c;这样就可…

vue3数字滚动组件

效果图 一、安装插件 npm i vue3-count-to 二、components文件夹下新建BaseCountTo.vue文件 <template><BaseCountTo :endVal"endVal" :decimals"decimals" /> </template> <script setup > import { defineComponent, watch, r…

游游的you矩阵

题目&#xff1a; 游游拿到了一个字符矩阵&#xff0c;她想知道有多少个三角形满足以下条件&#xff1a; 三角形的三个顶点分别是 y、o、u 字符。三角形为直角三角形&#xff0c;且两个直角边一个为水平、另一个为垂直。 输入描述&#xff1a; 第一行输入两个正整数n,m&#…

[生活][杂项] 如何正确打开编织袋

编织袋打开的正确姿势 面对单线分离右边的线头&#xff0c;然后依次拉开即可

Python(九十四)变量的作用域

❤️ 专栏简介&#xff1a;本专栏记录了我个人从零开始学习Python编程的过程。在这个专栏中&#xff0c;我将分享我在学习Python的过程中的学习笔记、学习路线以及各个知识点。 ☀️ 专栏适用人群 &#xff1a;本专栏适用于希望学习Python编程的初学者和有一定编程基础的人。无…

G2D图像处理硬件调用和测试-基于米尔-全志T113-i开发板

本篇测评由电子工程世界的优秀测评者“jf_99374259”提供。 本文将介绍基于米尔电子MYD-YT113i开发板的G2D图像处理硬件调用和测试。 MYC-YT113i核心板及开发板 真正的国产核心板&#xff0c;100%国产物料认证 国产T113-i处理器配备2*Cortex-A71.2GHz &#xff0c;RISC-V 外置…

UE4 拍摄、保存并浏览相册

效果&#xff1a; 1.新建CameraActor类 2.修改截图保存路径 3.编写BP_Camera蓝图 注意路径 Save Image函数要在执行拍照和BeginPlay事件执行一次 按钮执行拍摄事件 3.编写UMG蓝图 技巧&#xff1a;让Index加1、减1循环赋值 4.把BP_Camera挂在玩家上