Masked Autoencoders As Spatiotemporal Learners

news2025/1/13 6:13:56

Masked Autoencoders As Spatiotemporal Learners

文章目录

Masked Autoencoders As Spatiotemporal Learners
- 一、文章背景
- 二、文章变量
- - 1 mask sampling 方式
  - 2 Mask ratio
  - 3 其余的ablation studies

一、文章背景

用于视频中的时间信息学习。
基本思想是重构，使用的类似于BERT的mask 然后reconstruct的方式。

We randomly mask out spacetime patches in videos and learn an autoencoder to reconstruct them in pixels.
在mask的比例设置上，根据信息的冗杂度，在文本上bert是使用了15% ，在图片数据上是使用了75%，在视频video数据集上是使用了90%。

在这里插入图片描述
训练过程中存在的问题，视频加载速度慢，解决方式是采用对一个视频repeat sample的方式。
每次加载和解压一个原始视频时，我们都会从中抽取多个（默认为4个）样本。这减少了每个样本的数据加载和解压时间
Each time a raw video is loaded and decompressed, we take multiple (4 by default) samples from it. This reduces the data loading and decompressing time per sample.

二、文章变量

1 mask sampling 方式

在这里插入图片描述
(a): 随机抽样是与空间时间无关的。(b): 仅限空间的随机抽样，广播到所有的时间步骤（"管子 "屏蔽[77]）。©: 仅限时间的随机抽样，广播到所有空间位置（"框架 "掩蔽[77]）。(d): 在时空中进行块状取样[3]，去除大区域（"立方体 "掩蔽[77]）。在这个插图中，T×H×W是8×14×14；绿色标记被保留，其他标记被屏蔽掉了

2 Mask ratio

BERT[15]对语言使用15%的掩蔽率，MAE[31]对图像使用75%的掩蔽率，这表明图像比语言更具有信息冗余性。我们在视频上的经验结果支持这一假设。我们观察到的最佳掩蔽率是90%。

3 其余的ablation studies

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/636736.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

bilibili记录

bilibili记录

霹雳吧啦Wz的个人空间-霹雳吧啦Wz个人主页-哔哩哔哩视频目标检测篇github地址；GitHub - WZMIAOMIAO/deep-learning-for-image-processing: deep learning for image processing including classification and object-detection etc.

阅读更多...

mapbox分屏地图同步缩放拖拽旋转

mapbox分屏地图同步缩放拖拽旋转

成果图之前写过一版，后来又经过一些优化，形成了现在的最终版本，之前是二维的，现在是三维的也可以了，地址在这儿 https://blog.csdn.net/Sakura1998gis/article/details/113175905 实现监听动作 // 拖拽同步map.on(d…

阅读更多...

pm3包1.8版本发布----一个用于3组倾向性评分的R包

pm3包1.8版本发布----一个用于3组倾向性评分的R包

目前，本人写的第二个R包pm3包的1.8版本已经正式在CRAN上线，用于3组倾向评分匹配，只能3组不能多也不能少。可以使用以下代码安装 install.packages("pm3")什么是倾向性评分匹配？倾向评分匹配（Propensity Sc…

阅读更多...

经常被问道的这些类，佬们能够吊打面试官嘛（适合秋招和小白系列）？

经常被问道的这些类，佬们能够吊打面试官嘛（适合秋招和小白系列）？

前言： 本篇文章主要讲解Java中的几个类常被问到的面试题相关知识。该专栏比较适合刚入坑Java的小白以及准备秋招的大佬阅读。如果文章有什么需要改进的地方欢迎大佬提出，对大佬有帮助希望可以支持下哦~ 小威在此先感谢各位小伙伴儿了😁 以…

阅读更多...

宏病毒组研究大放异彩！| 凌恩生物1-5月高分宏病毒组文章大盘点！

宏病毒组研究大放异彩！| 凌恩生物1-5月高分宏病毒组文章大盘点！

凌恩生物现已在宏组学、基因组、表观遗传以及蛋白代谢等多组学及联合分析领域积累了深厚经验，打造出成熟的科研服务平台，以优质售前方案和优秀售后服务助力客户在Nature、Science、PNAS、ISME和MIcrobiome等高端国际期刊上发表了大量文章。伴随着组学技…

阅读更多...

【DevOps】Python+Golang（一）

【DevOps】Python+Golang（一）

Python is和的区别 is检查两个对象是否是同一个对象，即它们的内存地址是否相同。如果是同一个对象，则返回True，否则返回False。检查两个对象是否相等，即它们的值是否相同。如果值相同，则返回True，否则返回…

阅读更多...

Maven-基础

Maven-基础

Maven Maven是专门用于管理和构建Java项目的工具，主要功能有： 提供了一套标准化的项目结构 Maven提供了一套标准化的项目结构，所有的IDE使用Maven构建的项目完全一样提供了一套标准化的构建流程（编译，测试&#xff0c…

阅读更多...

jmeter性能测试进阶使用纪要

jmeter性能测试进阶使用纪要

目录目录随机变量：实现注册手机号不重复分配正则表达式：token等变量提取 HTTP header manager：token传参Authorization使用后置BeanShell PostProcessor设置prev.setDataEncoding(“utf-8”)：响应中文乱码处理同步定时…

阅读更多...

与AI合作穿越剧编剧徐婷：AI脑洞大，但无法替代人类的情感表达

与AI合作穿越剧编剧徐婷：AI脑洞大，但无法替代人类的情感表达

热门喜剧秀《周六夜现场》本季提前结束，美剧《亿万》最新第七季的更新搁浅，漫威新电影《新刀锋战士》暂停拍摄……美国影视娱乐行业的编剧们以抵制AI为由的大罢工，开始影响诸多作品的产出，据说造成了100亿美元的损失。这场罢工已…

阅读更多...

深入理解Linux虚拟内存管理（八）

深入理解Linux虚拟内存管理（八）

系列文章目录 Linux 内核设计与实现深入理解 Linux 内核（一） 深入理解 Linux 内核（二） Linux 设备驱动程序（一） Linux 设备驱动程序（二） Linux 设备驱动程序（三&#xf…

阅读更多...

Hive企业级调优

Hive企业级调优

Hive企业级调优调优原则已经在MR优化阶段已经有核心描述,优化Hive可以按照MR的优化思路来执行优化的主要考虑方面: 环境方面：服务器的配置、容器的配置、环境搭建具体软件配置参数：代码级别的优化调优的主要原则: 20/80原则非常重要,简单的说80…

阅读更多...

骨传导蓝牙耳机排行榜10强，介绍几款不错的户外骨传导耳机

骨传导蓝牙耳机排行榜10强，介绍几款不错的户外骨传导耳机

随着骨传导技术的不断发展，骨传导耳机的性能也得到了很大的提升，特别是在音质和佩戴舒适性上，都有了很大的提升。很多人在听音乐的时候，都会佩戴骨传导耳机，因为骨传导耳机具有开放双耳的特点，长时间佩戴也…

阅读更多...

Android Jetpack Compose 中的Tabs（TabLayout）

Android Jetpack Compose 中的Tabs（TabLayout）

Android Jetpack Compose 中的Tabs（TabLayout） 添加依赖我们需要依赖于2个 accompanist组件，你可以从下面链接中获取最新版本https://github.com/google/accompanist/tree/main/pager#pager-composable-for-jetpack-compose def accompan…

阅读更多...

探索LowLatency的HLS低延迟直播协议

探索LowLatency的HLS低延迟直播协议

HLS全称为HTTP Live Streaming，其中m3u8作为描述协议，指向一系列切片文件。支持多码流与自适应码率，支持广告无缝播放，支持CMAF协议的低延时直播，也支持CDN动态选择。我们先看下HLS整体架构，由三部分构成…

阅读更多...

莫顿曲线映射一维到二维的变换 MD（莫顿）码反向变换线性四叉树

莫顿曲线映射一维到二维的变换 MD（莫顿）码反向变换线性四叉树

函数声明： #include <stdio.h> #include <math.h>#define MAXSIZE 200 #define N 8typedef struct //栈的存储结构 {int data[MAXSIZE];int MD[MAXSIZE];int top; }stack1;void stackinitiate(stack1 *s); //初始化栈 void push (s…

阅读更多...

【已解决】c++ 读入灰度图进行dft变换报错

【已解决】c++ 读入灰度图进行dft变换报错

报错原因： 1、imread函数读入默认参数为1，即彩色三通道图像，而我们要指定参数为0，读入灰度图像 2、在进行傅里叶变换前要将图像数据类型转为CV_32F，因为默认灰度图像类型为CV_8U 正确代码： #include <…

阅读更多...

Vue中如何进行滚动加载与无限滚动？

Vue中如何进行滚动加载与无限滚动？

Vue中如何进行滚动加载与无限滚动？ 随着Web应用程序的复杂性和数据量的增加，滚动加载和无限滚动成为了Web开发中常见的需求。在Vue中，我们可以使用一些插件和技术来实现这些功能。本文将介绍Vue中如何进行滚动加载和无限滚动，包…

阅读更多...

内核实现信号捕捉的过程，以及要用到的函数sigaction

内核实现信号捕捉的过程，以及要用到的函数sigaction

1.信号捕捉过程 1.在执行主控制流程的某条指令时因为中断、异常或系统调用进入内核。 2.内核处理完异常准备回用户模式之前先处理当前进程中可以递送的信号。 3.do_signal(); 如果信号的处理动作为自定义的信号处理函数，则回到用户模式执行信号处理函数&#xff08…

阅读更多...

prometheus监控应用数据(一)

prometheus监控应用数据(一)

prometheus监控应用数据(一) 以下代码实现均使用go语言,至于其他语言请参照其他语言的prometheus api文档获取go package: prometheus: go get -u github.com/prometheus/client_golang/prometheus搭建程序基本骨架 IP地址暂定为: localhost启用prometheus的监控端口是2112以…

阅读更多...

互联网大厂Java面试题1500+附答案详解（2023版）

互联网大厂Java面试题1500+附答案详解（2023版）

很多 Java 工程师的技术不错，但是一面试就头疼，10 次面试 9 次都是被刷，过的那次还是去了家不知名的小公司。问题就在于：面试有技巧，而你不会把自己的能力表达给面试官。应届生：你该如何准备简历&#…

阅读更多...

推荐文章

最新文章