(arxiv2401) CrossMAE

(arxiv2401) CrossMAE

news2026/2/15 21:12:07

作者团队来自加州大学伯克利分校（UC Berkeley）和加州大学旧金山分校（UCSF）。论文主要探讨了在MAE的解码中，图像patch之间的依赖性，并提出了一种新的预训练框架 CrossMAE。
论文的主要贡献包括：

提出了CrossMAE框架，其解码器仅利用掩码和可见标记之间的交叉注意力，而不使用掩码标记之间的自注意力。这种设计在不降低下游性能的情况下，提高了效率。
CrossMAE的设计允许仅解码一小部分掩码标记，这提高了预训练的效率。此外，每个解码器块现在可以利用不同的编码器特征，从而改善了表示学习。

贡献1：CrossMAE与MAE的对比如下图所示。MAE在decoder重建时，将 unmask 的 token恢复到图像中，整体进行self-attention计算，作者认为 masked token 彼此间也进行了attention计算，是没有必要的。所以，作者进行了改进，在解码器中将masked token 做为Q，unmasked token做为KV，进行cross attention计算。

在这里插入图片描述

贡献2： partial masking。作者只是随机挑选了一些 masked tokens 进行修复，这样会降低计算量，后面有实验分析。此外，作者还有一处改进，在编码器的各个 transformer block 之间动态学习了一个权重，对特征加权。这就有些像 layer attention。不过，这个改进并没有刻意的在引言里强调。

在这里插入图片描述
CrossMAE 比 MAE 提高了0.3%，而且只重建25%的token效果就已经非常好了，计算效率显著提升。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1570875.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【C++入门】关键字、命名空间以及输入输出

【C++入门】关键字、命名空间以及输入输出

💞💞 前言 hello hello~ ，这里是大耳朵土土垚~💖💖 ，欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页&#x…

阅读更多...

Ant Design Vue table固定列失效问题解决

Ant Design Vue table固定列失效问题解决

问题描述：项目中封装好的公共table组件，基于Ant Design Vue table封装；使用中，用到了列固定，但是没生效，找了好久的原因。。。最后是因为外层容器标签导致； 解决方法：如果a-table组件…

阅读更多...

Windows系统安装OpenSSH结合VS Code远程ssh连接Ubuntu【内网穿透】

Windows系统安装OpenSSH结合VS Code远程ssh连接Ubuntu【内网穿透】

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法|MySQL| 💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-AwzyR2lkHKjD9HYl {font-family:"trebuchet ms",verdana,arial,sans-serif;f…

阅读更多...

【吊打面试官系列】Redis篇 - Redis单进程单线程好处?

【吊打面试官系列】Redis篇 - Redis单进程单线程好处?

大家好，我是锋哥。今天分享关于【Redis单进程单线程好处？】面试题，希望对大家有帮助； Redis单进程单线程好处？ 代码更清晰，处理逻辑更简单不用去考虑各种锁的问题，不存在加锁释放锁操作&…

阅读更多...

使用简单MLP实现0-9数字识别，数据集为MNIST

使用简单MLP实现0-9数字识别，数据集为MNIST

简介需求： 基于pytorch实现简单MLP，完成数字识别，采用MNIST手写数字作为数据集，MNIST：有6万张训练图片，1万张测试图片训练结束后，随机取3张测试图片，展示模型的预测结果和真实图片…

阅读更多...

策略模式图

策略模式图

策略模式小小的图解主要的三个角色 Strategy—抽象策略角色ConcreateStrategy—具体策略角色Context—上下文角色封装了对具体策略的调用可以使用set的依赖注入也可以使用构造方法核心是上下文角色只要调用上下文角色就行，实现解耦策略工厂将上下文角…

阅读更多...

【java探索之旅】逻辑控制掌握顺序结构分支语句

【java探索之旅】逻辑控制掌握顺序结构分支语句

🎥 屿小夏 ： 个人主页 🔥个人专栏 ： Java编程秘籍 🌄 莫道桑榆晚，为霞尚满天！ 文章目录 📑前言一、逻辑控制的概念二、顺序结构三、分支结构3.1 if语句3.2 if习题巩固3.3 细节注意项…

阅读更多...

TR3 - Transformer算法详解

TR3 - Transformer算法详解

目录文本输入处理词向量位置向量编码器 EncoderSelf-Attention多头注意力机制残差连接解码器 Decoder线性层与Softmax损失函数总结与心得体会这周来看一下Transformer是怎么将文本转换成向量，然后又输入到模型处理并得到最终的输出的。文本输入处理词向量 …

阅读更多...

递归算法解读

递归算法解读

递归（Recursion）是计算机科学中的一个重要概念，它指的是一个函数（或过程）在其定义中直接或间接地调用自身。递归函数通过把问题分解为更小的相似子问题来解决原问题，这些更小的子问题也使用相同的解决方案&…

阅读更多...

2024-04-05 问AI: 介绍一下深度学习中的Leaky ReLU函数

2024-04-05 问AI: 介绍一下深度学习中的Leaky ReLU函数

文心一言 Leaky ReLU（Leaky Rectified Linear Unit）函数是深度学习领域中的一种激活函数，主要用于解决ReLU（Rectified Linear Unit）函数在负值区域为零的问题。ReLU函数在输入为正时保持原样，而在输入为负…

阅读更多...

Navicat工具使用

Navicat工具使用

Navicat的本质： 在创立连接时提前拥有了数据库用户名和密码双击数据库时，相当于建立了一个链接关系点击运行时，远程执行命令，就像在xshell上操作Linux服务器一样，将图像化操作转换成SQL语句去后台执行一、打开Navi…

阅读更多...

Python学习：错误和异常

Python学习：错误和异常

Python 语法错误解析错误（Parsing Error）通常指的是程序无法正确地解析（识别、分析）所给定的代码，通常是由于代码中存在语法错误或者其他无法理解的结构导致的。这可能是由于缺少括号、缩进错误、未关闭的引号或其他括号等问题造成的。语法错误（Syntax Error）是指程序…

阅读更多...

CSS设置网页颜色

目录前言： 1.颜色名字： 2.十六进制码： 3.RGB： 4.RGBA： 5.HSL： 1.hue： 2.saturation： 3.lightness： 6.HSLA： 前言： 我们在电脑显示器&…

阅读更多...

【NLP练习】中文文本分类-Pytorch实现

【NLP练习】中文文本分类-Pytorch实现

中文文本分类-Pytorch实现 🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者：K同学啊一、准备工作 1. 任务说明本次使用Pytorch实现中文文本分类。主要代码与文本分类代码基本一致，不同的是本次任务使用…

阅读更多...

[中级]软考_软件设计_计算机组成与体系结构_07_存储系统

[中级]软考_软件设计_计算机组成与体系结构_07_存储系统

存储系统层次划存储概念图局促性原理分类存储器位置存取方式按内容存储按地址存储工作方式拓展往年真题高速缓存(cache)概念案例解析：求取平均时间 Cache与主存的地址映射映像往年真题主存编制计算编址大小的求取编址与计算存储单元编址内容总容量求取例题解析…

阅读更多...

c# wpf template itemtemplate+dataGrid

c# wpf template itemtemplate+dataGrid

1.概要 2.代码 <Window x:Class"WpfApp2.Window8"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d"http://schemas.microsoft.com/expression/blend…

阅读更多...

[C#]OpenCvSharp使用帧差法或者三帧差法检测移动物体

[C#]OpenCvSharp使用帧差法或者三帧差法检测移动物体

关于C版本帧差法可以参考博客 [C]OpenCV基于帧差法的运动检测-CSDN博客https://blog.csdn.net/FL1768317420/article/details/137397811?spm1001.2014.3001.5501 我们将参考C版本转成opencvsharp版本。帧差法，也叫做帧间差分法，这里引用百度百科上的…

阅读更多...

【力扣每日一题】1026. 节点与其祖先之间的最大差值

【力扣每日一题】1026. 节点与其祖先之间的最大差值

LC 1026. 节点与其祖先之间的最大差值题目描述给定二叉树的根节点 root，找出存在于不同节点 A 和 B 之间的最大值 V，其中 V |A.val - B.val|，且 A 是 B 的祖先。 （如果 A 的任何子节点之一为 B，或者 A 的任何子…

阅读更多...

https证书申请方式

网站HTTPS证书，也称为SSL证书或TLS证书，是一种数字证书，用于在用户浏览器与网站服务器之间建立安全的加密连接。当网站安装了HTTPS证书后，用户访问该网站时，浏览器地址栏会显示为"https://"开头，…

阅读更多...

CSS层叠样式表学习（文本属性）

CSS层叠样式表学习（文本属性）

（大家好，今天我们将继续来学习CSS文本属性的相关知识，大家可以在评论区进行互动答疑哦~加油！💕） 目录四、CSS文本属性 4.1 文本颜色 4.2 对齐文本 4.3 装饰文本 4.4 文本缩进 4.5 行间距 4.6 文本…

阅读更多...

推荐文章

最新文章