每日学术速递4.16

news2024/11/15 11:57:31

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.SpectFormer: Frequency and Attention is what you need in a Vision Transformer

标题:SpectFormer:频率和注意力是您在 Vision Transformer 中所需要的 

作者:Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran

文章链接:https://arxiv.org/abs/2304.06446

项目代码:https://badripatro.github.io/SpectFormers/

摘要:

        视觉Transformer已成功应用于图像识别任务。已经有基于多头自注意力ViT、DeIT、类似于文本模型中的原始工作,或者最近基于光谱层Fnet, GFNet,AFNO。我们假设光谱注意力和多头注意力都起着重要作用。我们通过这项工作研究了这个假设,并观察到确实结合了光谱和多头注意层提供了更好的转换器架构。因此,我们为变压器提出了新颖的 Spectformer 架构,它结合了光谱和多头注意层。我们相信,由此产生的表示允许变换器适当地捕获特征表示,并且它比其他变换器表示产生更高的性能。例如,与 GFNet-H 和 LiT 相比,它在 ImageNet 上的 top-1 精度提高了 2%。SpectFormer-S 在 ImageNet-1K(小型版本的最新技术)上达到 84.25% top-1 准确率。此外,Spectformer-L 达到了 85.7%,这是同类变压器基础版本的最新技术水平。我们进一步确保我们在其他场景中获得合理的结果,例如在 CIFAR-10、CIFAR-100、Oxford-IIIT-flower 和 Standford Car 数据集等标准数据集上进行迁移学习。然后,我们研究了它在 MS-COCO 数据集上的目标检测和实例分割等下游任务中的用途,并观察到 Spectformer 表现出与最佳主干相媲美的一致性能,并且可以进一步优化和改进。因此,我们相信组合的光谱层和注意力层是视觉转换器所需要的。

2.Verbs in Action: Improving verb understanding in video-language models

标题:行动中的动词:提高视频语言模型中的动词理解

作者:Liliane Momeni, Mathilde Caron, Arsha Nagrani, Andrew Zisserman, Cordelia Schmid

文章链接:https://arxiv.org/abs/2304.06708

摘要:

        理解动词对于模拟人和物体如何通过空间和时间相互作用以及环境至关重要。最近,基于 CLIP 的最先进的视频语言模型已被证明对动词的理解有限,并且广泛依赖名词,这限制了它们在需要动作和时间理解的真实视频应用程序中的性能。在这项工作中,我们通过提出一个新的以动词为中心的对比 (VFC) 框架来提高对基于 CLIP 的视频语言模型的动词理解。这包括两个主要部分:(1)利用预训练的大型语言模型(LLM)为跨模态对比学习创建硬底片,以及平衡正面和负面对中概念出现的校准策略;(2) 执行细粒度的动词短语对齐损失。我们的方法在三个专注于动词理解的下游任务上实现了零样本性能的最先进结果:视频文本匹配、视频问答和视频分类。据我们所知,这是第一个提出减轻动词理解问题的方法的工作,并没有简单地强调它。

3.RECLIP: Resource-efficient CLIP by Training with Small Images

标题:RECLIP:通过小图像训练实现资源高效的 CLIP

作者:Runze Li, Dahun Kim, Bir Bhanu, Weicheng Kuo

文章链接:https://arxiv.org/abs/2304.06028

摘要:

        我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小,我们的方法在理论上和实践中都显着减少了训练资源需求。使用相同的批量大小和训练时期,RECLIP 实现了极具竞争力的零样本分类和图像文本检索精度,计算资源比基线少 6 到 8 × ,FLOPs 少 7 到 9 × .与最先进的对比学习方法相比,RECLIP 展示了 5 到 59 × 训练资源节省,同时保持了极具竞争力的零样本分类和检索性能。我们希望这项工作能为更广泛的研究社区铺平道路,在资源更友好的环境中探索语言监督预训练。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/420453.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

医院不良事件报告系统源码:基于PHP+vue2+element+laravel8技术开发

医院不良事件报告系统源码 文末获取联系! 技术架构:前后端分离,仓储模式, 开发语言:PHP 开发工具:vscode 前端框架:vue2element 后端框架:laravel8 数 据 库:mysql5…

一文读懂Java类加载全过程,面试必备!

1、概述 Java类加载过程是Java虚拟机(JVM)将.class文件中的字节码装载到内存中,并对字节码进行验证、准备和初始化的过程。这个过程涉及到了Java虚拟机的类加载器、运行时数据区等多个方面,其中包含了很多的细节和技术问题。 类加…

前端开发神器bootstrap介绍

想必刚开始学习前端的小伙伴在为设计优美的前端页面很苦恼吧,心中有好的比较不错的UI样式却无法绘制出来,学习呢又可能会有点困难,其实前端是很容易并不难学的,在前端设计上也有很多的开源库的,这些第三方的开源库已经…

12、视图解析器与模板引擎

文章目录1、视图解析1.1 spring boot支持的第三方模板引擎技术1.2、视图解析原理流程2、模板引擎-Thymeleaf2.1、thymeleaf简介2.2、基本语法1、表达式2、字面量3、文本操作4、数学运算5、布尔运算6、比较运算7、条件运算8、特殊操作2.3、设置属性值-th:attr2.4、迭代2.5、条件…

【数据结构】顺序表(上)

所属专栏:初始数据结构 博主首页:初阳785 代码托管:chuyang785> 感谢大家的支持,您的点赞和关注是对我最大的支持!!! 博主也会更加的努力,创作出更优质的博文!&#x…

(十六)排序算法-桶排序

1 基本介绍 1.1 概述 桶排序 (Bucket sort)或所谓的箱排序,是一个排序算法,工作的原理是将数组分到有限数量的桶里。每个桶再个别排序(有可能再使用别的排序算法或是以递归方式继续使用桶排序进行排序)&a…

ZYNQ:【1】深入理解PS端的TTC定时器(Part1:原理+官方案例讲解)

碎碎念:好久不见,甚是想念!本期带来的是有关ZYNQ7020的内容,我们知道ZYNQ作为一款具有硬核的SOC,PS端很强大,可以更加便捷地实现一些算法验证。本文具体讲解一下里面的TTC定时器,之后发布的Part…

Java-初识 .class 文件

一、概述 class文件全名称为 Java class 文件,主要在平台无关性和网络移动性方面使 Java 更适合网络。该文件打破了 C 或者 C 等语言所遵循的传统,使用这些传统语言写的程序通常首先被编译,然后被连接成单独的、专门支持特定硬件平台和操作系…

面试被问到vue的diff算法原理,我不允许你回答不上来

一、是什么 diff 算法是一种通过同层的树节点进行比较的高效算法 其有两个特点: 比较只会在同层级进行, 不会跨层级比较在diff比较的过程中,循环从两边向中间比较 diff 算法在很多场景下都有应用,在 vue 中,作用于虚拟 dom 渲…

nvm实现多版本node自由切换

nvm,全称是node.js version management,可以在多个node版本之间自由切换! 1、下载文件 github Releases coreybutler/nvm-windows GitHub 2、安装nvm 注意:安装前必须完全卸载node 彻底从Windows中删除Node.js 1、从卸载程序卸载程序和功…

【性能测试】Jemeter+mysql+CSV+InfluxDB+Granafa数据库性能测试及监控

Jmeter连接Mysql并执行事务 一、下载驱动并加入jmeter 1.mysql驱动下载地址:MySQL :: Download MySQL Connector/J (Archived Versions) 找到对应的驱动下载(版本一定要对应) 2.下载后,解压,找到驱动jar包复制到桌面: 3.把驱动j…

CODOSYS之结构化文本(ST)——中级篇(一)计时器的应用

标准库中常用的计时器有如下四个(部分环境还支持高精度计时器如LTON等等): .RTC .TON .TOF .TP 本文将对将对上述四个计时器进行简单的讲解。 .RTC: RunTime 时钟定时器,返回启动时间,当前时间和日…

别搞了 软件测试真卷不动了...

内卷可以说是 2022年最火的一个词了。2023 年刚开始,在很多网站看到很多 软件测试的 2022 年度总结都是:软件测试 越来越卷了(手动狗头),2022 年是被卷的一年。前有几百万毕业生虎视眈眈,后有在职人员带头“…

L2-042 老板的作息表(极短代码)

题目: 新浪微博上有人发了某老板的作息时间表,表示其每天 4:30 就起床了。但立刻有眼尖的网友问:这时间表不完整啊,早上九点到下午一点干啥了? 本题就请你编写程序,检查任意一张时间表,找出其中…

企业推广常用的网络推广方法有哪些?

网络推广是指通过互联网向目标用户推广产品、服务或品牌的过程,其主要目的是为了扩大业务范围,提高企业知名度,增加销售额。在当今的数字化时代,网络推广已经成为了企业不可或缺的一部分。本文将介绍一些常见的网络推广方法和途径…

Linux安装中文字体

前言 Lunix默认没有中文字库,很容易导致项目开发时出现中文字符乱码的情况。 1 查看linux已安装字体 fc-list如出现-bash: fc-list: command not found 说明Linux中没有安装字体库,需要先安装字体库 2 Linux安装字体 yum -y install fontconfig执行…

不平衡电网电压下虚拟同步发电机VSG控制策略-实现不平衡电压下控制三相电流平衡

资源地址: 不平衡电网电压下虚拟同步发电机VSG控制策略-实现不平衡电压下控制三相电流平衡-电子商务文档类资源-CSDN文库 主体模型: VSG控制;正负序分离;正负序控制;电压电流双环控制!!&…

[LCA]最近公共祖先(倍增)

概念引入 祖先 祖先其实很好理解,一个节点的 **父节点 以及 父节点的父节点 以及 父节点的父节点的父……**都是这个节点的祖先 比如说上面的 ddd 节点, bbb 节点和 aaa 节点都是它的祖先 kkk 级祖先 称节点 𝑥 的父节点为 𝑥 …

带你走进Flutter 3.7

期待已久的新教程上线啦!解锁Flutter开发新姿势,一网打尽Flutter最新与最热技术,点我Get!!! 新年伊始,由 Flutter 3.7 正式版来「打头阵」!我们与整个 Flutter 社区们继续在 Flutter 3.7 中优化了框架,包括…

(一)Linux:自由、开放、灵活的操作系统内核

目录 一、Linux的发展史 二、linux的开源 三、目前的现状 四、企业应用现状 五、发行的版本 六、安装与使用 七、利用云服务器配置Linux环境 一、Linux的发展史 Linux是一款由林纳斯托瓦兹(Linus Torvalds)开发的操作系统内核,它的发布…