每日学术速递2.1

news2025/4/6 1:59:10

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.Cv

1.SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation

标题:SeaFormer:用于移动语义分割的挤压增强型轴向变换器

作者:  Qiang Wan, Zilong Huang, Jiachen Lu, Gang Yu, Li Zhang

文章链接:https://arxiv.org/abs/2301.13156v1

项目代码:https://github.com/fudan-zvg/seaformer

摘要:

        自从引入视觉变换器后,许多计算机视觉任务(如语义分割)的格局,最近被CNN压倒性地主宰,发生了显著的变化。然而,计算成本和内存要求使得这些方法不适合在移动设备上使用,特别是对于高分辨率的每像素语义分割任务。在本文中,我们介绍了一种用于移动语义分割的新方法--挤压增强的轴向变换器(SeaFormer)。具体来说,我们设计了一个通用的注意力块,其特点是制定挤压轴向和细节增强。它可以进一步用于创建一个具有卓越成本效益的骨干架构系列。与轻型分割头相结合,我们在ADE20K和Cityscapes数据集上基于ARM的移动设备上实现了分割精度和延迟之间的最佳权衡。最关键的是,我们以更好的性能和更低的延迟击败了对移动设备友好的对手和基于变压器的同行,而没有任何花哨的东西。除了语义分割之外,我们还将提出的SeaFormer架构应用于图像分类问题,展示了其作为多功能移动友好骨干的潜力。

Since the introduction of Vision Transformers, the landscape of many computer vision tasks (e.g., semantic segmentation), which has been overwhelmingly dominated by CNNs, recently has significantly revolutionized. However, the computational cost and memory requirement render these methods unsuitable on the mobile device, especially for the high-resolution per-pixel semantic segmentation task. In this paper, we introduce a new method squeeze-enhanced Axial TransFormer (SeaFormer) for mobile semantic segmentation. Specifically, we design a generic attention block characterized by the formulation of squeeze Axial and detail enhancement. It can be further used to create a family of backbone architectures with superior cost-effectiveness. Coupled with a light segmentation head, we achieve the best trade-off between segmentation accuracy and latency on the ARM-based mobile devices on the ADE20K and Cityscapes datasets. Critically, we beat both the mobile-friendly rivals and Transformer-based counterparts with better performance and lower latency without bells and whistles. Beyond semantic segmentation, we further apply the proposed SeaFormer architecture to image classification problem, demonstrating the potentials of serving as a versatile mobile-friendly backbone.

2.Counterfactual Explanation and Instance-Generation using Cycle-Consistent Generative Adversarial Networks

标题:使用循环一致的生成式对抗网络进行反事实解释和实例生成

作者:Tehseen Zia, Zeeshan Nisar, Shakeeb Murtaza

文章链接:https://arxiv.org/abs/2301.08939v1

项目代码:https://github.com/zeeshannisar/cx_gan

摘要:

        基于图像的诊断现在是现代自动化辅助诊断的一个重要方面。为了使模型能够产生像素级的诊断,基本上需要像素级的地面真实标签。然而,由于在许多应用领域(如医学图像)中,获得标签往往并不容易,基于分类的方法已经成为执行诊断的事实标准。尽管它们可以识别出类的优势区域,但对于捕捉所有证据是重要要求的诊断来说,它们可能并不有用。另外,反事实解释(CX)的目的是利用 "如果X没有发生,Y就不会发生 "这样的随意推理过程来提供解释。然而,现有的CX方法使用分类器来解释那些可以改变其预测的特征。因此,它们只能解释类的特征,而不是整个感兴趣的对象。因此,这促使我们提出一种不依赖图像分类的新型CX策略。这项工作受到了基于生成对抗网络(GANs)的图像到图像领域翻译的最新发展的启发,并利用将异常图像翻译成对应的正常图像(即反事实实例CI)来寻找两者之间的差异图。由于通常不可能获得异常和正常的图像对,我们利用周期一致性原则(又称CycleGAN),以无监督的方式进行翻译。我们用差异图来表述CX,当从异常图像中添加时,将使其与CI无法区分。我们在三个数据集上评估了我们的方法,包括一个合成数据集、结核病数据集和BraTS数据集。所有这些实验都证实了提议的方法在生成准确的CX和CI方面的优越性。

The image-based diagnosis is now a vital aspect of modern automation assisted diagnosis. To enable models to produce pixel-level diagnosis, pixel-level ground-truth labels are essentially required. However, since it is often not straight forward to obtain the labels in many application domains such as in medical image, classification-based approaches have become the de facto standard to perform the diagnosis. Though they can identify class-salient regions, they may not be useful for diagnosis where capturing all of the evidences is important requirement. Alternatively, a counterfactual explanation (CX) aims at providing explanations using a casual reasoning process of form "If X has not happend, Y would not heppend". Existing CX approaches, however, use classifier to explain features that can change its predictions. Thus, they can only explain class-salient features, rather than entire object of interest. This hence motivates us to propose a novel CX strategy that is not reliant on image classification. This work is inspired from the recent developments in generative adversarial networks (GANs) based image-to-image domain translation, and leverages to translate an abnormal image to counterpart normal image (i.e. counterfactual instance CI) to find discrepancy maps between the two. Since it is generally not possible to obtain abnormal and normal image pairs, we leverage Cycle-Consistency principle (a.k.a CycleGAN) to perform the translation in unsupervised way. We formulate CX in terms of a discrepancy map that, when added from the abnormal image, will make it indistinguishable from the CI. We evaluate our method on three datasets including a synthetic, tuberculosis and BraTS dataset. All these experiments confirm the supremacy of propose method in generating accurate CX and CI.

3.Edge-guided Multi-domain RGB-to-TIR image Translation for Training Vision Tasks with Challenging Labels

标题:边缘引导的多域RGB-TIR图像翻译用于具有挑战性标签的训练视觉任务

作者: Dong-Guw Lee, Myung-Hwan Jeon, Younggun Cho, Ayoung Kim

文章链接:https://arxiv.org/abs/2301.12689v1

项目代码:https://github.com/rpmsnu/sRGB-TIR

摘要:

        有注释的热红外(TIR)图像数据集数量不足,这不仅阻碍了基于TIR图像的深度学习网络具有与RGB相当的性能,而且还限制了基于TIR图像任务的监督学习,因为标签具有挑战性。作为一种补救措施,我们提出了一个改进的多域RGB到TIR图像翻译模型,重点是保留边缘,以采用具有挑战性标签的RGB图像。我们提出的方法不仅保留了原始图像的关键细节,而且还利用了最佳的TIR风格代码,在翻译后的图像中描绘出准确的TIR特征,当应用于合成和真实世界的RGB图像时。使用我们的翻译模型,我们已经实现了基于TIR图像的光流估计和物体检测的监督学习,通过平均减少56.5%的端点误差和23.9%的最佳物体检测mAP,改善了深TIR光流估计。

The insufficient number of annotated thermal infrared (TIR) image datasets not only hinders TIR image-based deep learning networks to have comparable performances to that of RGB but it also limits the supervised learning of TIR image-based tasks with challenging labels. As a remedy, we propose a modified multidomain RGB to TIR image translation model focused on edge preservation to employ annotated RGB images with challenging labels. Our proposed method not only preserves key details in the original image but also leverages the optimal TIR style code to portray accurate TIR characteristics in the translated image, when applied on both synthetic and real world RGB images. Using our translation model, we have enabled the supervised learning of deep TIR image-based optical flow estimation and object detection that ameliorated in deep TIR optical flow estimation by reduction in end point error by 56.5% on average and the best object detection mAP of 23.9% respectively. Our code and supplementary materials are available at https://github.com/rpmsnu/sRGB-TIR.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/190114.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从 await-to-js 到 try-run-js

之前在做 code review 时候发现有同事使用 try catch 包装了一堆异步代码,于是个人就觉得很奇怪,难道不应该只 catch 可能出问题的代码吗?同事告诉我说 try catch 太细的话会出现内外作用域不一致,需要提前声明变量。 let res: D…

【微服务】微服务保护Sentinel

微服务保护Sentinel1.初识Sentinel1.1.雪崩问题及解决方案1.1.1.雪崩问题1.1.2.超时处理1.1.3.仓壁模式1.1.4.断路器1.1.5.限流1.1.6.总结1.2.服务保护技术对比1.3.Sentinel介绍和安装1.3.1.初识Sentinel1.3.2.安装Sentinel1.4.微服务整合Sentinel2.流量控制2.1.簇点链路2.1.快…

豆瓣引流流程

豆瓣引流注册账号养号如何把豆瓣的帖子打造好并且引流到微信注册账号 第一:可以去营业厅或者卡商那里购买一批卡来进行注册。 第二:可以通过接码平台进行大量的一个小号注册,我们注册的号前期是作为一个顶帖号来使用。 第三:我…

商业智能 BI 跟业务系统的思维差异

我们在跟企业的沟通过程中经常发现,很多企业还是分不清商业智能 BI 跟一般的业务信息化系统定位、用户、思维层面上的差异。因为在企业的IT信息化规划中,基础的业务系统建设一定是走在前面的,有了这些系统基础,才会有数据的积累&a…

Python绘制图片一

文章目录一、代码段讲解1. theta np.linspace(0.0, 2 * np.pi, N , endpointFalse)2. ax plt.subplot(111,projectionpolar)3. bar.set_facecolor(plt.cm.viridis(r / 10.))4. bar.set_alpha(0.5)二、附录一、代码段讲解 1. theta np.linspace(0.0, 2 * np.pi, N , endpoint…

Windows软件:如何使用VMware® Workstation 16 Pro安装Centos7操作系统

前言: 在我们开发Java项目当中,经常会将jar包部署在Linux操作系统中运行,其中Centos7使用最广泛,前后端的各种运行环境所必须的软件均在此上运行,本章我们就来讲一下如何使用VMware安装Centos7系统,以便我们…

08技术太卷我学APEX-页面上显示静态图片

08技术太卷我学APEX-页面上显示静态图片 0 我想在首页面上留个人微信二维码和微信群二维码 我想在《技术太卷我学APEX》首页上留下联系方式,方便同学们加群一起交流联系方式。 先手机登录个人微信,截图个人微信二维码和《技术太卷我学APEX》微信群二维…

【MyBatis持久层框架】MyBatis参数传递详细解读

文章目录1. 前言2. MyBatis 参数传递3. 多个参数4. 单个参数4.1 POJO类4.2 Map集合类4.3 Collection集合类型4.4 List集合类型4.5 Array类型4.6 其他类型5. 总结1. 前言 前面在使用配置文件实现增删改查一文中,我们说到,使用 MyBatis 的 Mapper 代理开发…

glibc memcpy内部机制学习记录

判断需要拷贝的字节数是否大于临界值(16或8)。如果小于,直接按照one byte by one byte来拷贝。如果大于: 1、先进行内存对齐。假设要拷贝的目的地址如下所示 其中start为拷贝目的地的起始地址 ,end为拷贝目的地的结束…

企业的内部文档太杂乱,有什么好用的文档管理软件?

企业内部文档的管理,是一个老生常谈的问题。 有些企业的文档管理比较混乱,很难做好企业内部的信息管控。 我们可以先从以下几个方面入手: 企业内部文档杂乱分散,集中式的管理;信息更新不及时、错误频繁,通过…

大数据NiFi(十六):处理器Connection连接

文章目录 处理器Connection连接 一、查看队列中的FlowFile 二、查看FlowFile自定义属性值

【数据结构初阶】第一节.初识时间和空间复杂度

文章目录 前言 一、认识数据结构 二、时间复杂度 2.1 时间复杂度的概念 2.2 计算时间复杂度 2.2.1 大O的渐进表示法 2.3 常见时间复杂度计算举例 三、空间复杂度 3.1 空间复杂度的概念 3.2 计算空间复杂度 3.3 常见空间复杂度计算举例 四、常见复杂度的对比&#xff1…

CVE-2022-26937 Windows NFS 栈溢出漏洞分析

简介 NFS全称Network File System,即网络文件系统,用于服务器和客户机之间文件访问和共享的通信,从而使客户机远程访问保存在存储设备上的数据。 CVE-2022-26937是微软5月份修复的Windows NFS中一个对NLM响应处理不当的栈溢出漏洞&#xff…

OAuth2(1)

目录 一、什么是OAuth2.0 二、OAuth2中的角色 三、认证流程 四、生活中的OAuth2思维 五、令牌的特点 六、OAuth2授权方式 1.授权码 2.隐藏方式 3.密码方式 4.凭证方式 一、什么是OAuth2.0 OAuth2.0是目前使用非常广泛的授权机制,用户授权第三方应用…

红宝书学习

第一章 认识js js的组成部分有哪些? ①ecma 核心语法 api ②dom 提供与网页内容交互的方法和接口 ③bom 浏览器对象模型,提供了和浏览器交互的接口 use strict 是什么? use strict 是一种 ECMAscript5 添加的(严格模式&#xff…

玩了半年NFT,一心进军Web3的Prada到底要怎么玩?

图片来源:无界AI绘画工具生成2022年1月,奢侈品品牌Prada与阿迪达斯玩了一把“联合营销”,玩法是这样的:首先,两个品牌邀请粉丝上传个人照片,然后,品牌抽取3000名粉丝的作品,交由数字…

【Rust】12. 自动化测试

12.1 编写测试 12.1.1 测试函数 测试函数:在一个函数前加上一行 #[test] 注解将普通函数变成测试函数 12.1.2 assert! 宏 12.1.3 assert_eq! 与 assert_ne! assert_eq!(left, right) 与 assert_eq!(left, right) 在失败时会返回 left 与 right 两个值&#xff0c…

Python学习-----起步1

目录 Python的下载(解释器) IDLE进入Python解释器 交互模式 脚本模式 注释 单行注释: 多行注释 Python的下载(解释器) 百度网盘链接: https://pan.baidu.com/s/1WEmOAGGHtHc1fxZzNGKu6A?pwd5356 …

web3小白入门:区块链的了解

记录web3学习的过程,从小白开始所有的web3相关的学习内容都会更新在github,github地址这篇文章主要说明区块链的一些概念为什么要了解区块链?Web3 是以区块链技术为核心,构建新一代的去中心化互联网组件,再基于它们来构建我们想要提供的服务、…

HTTP状态码301和302区别

Http 状态码 301 和 302 定义: 1、什么时候使用301? 你将永久更改网页的 URL时。你将永久迁移到新域名时。当你从 HTTP 切换到 HTTPS 时。你希望修复非 www / www 重复内容问题时。永久合并两个或多个页面或网站时。你将永久更改网站的 URL 结构时。 …