【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(7 月 14 日论文合集)

news2024/11/26 18:51:20

文章目录

  • 一、分类|识别相关(10篇)
    • 1.1 Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition
    • 1.2 Watch Your Pose: Unsupervised Domain Adaption with Pose based Triplet Selection for Gait Recognition
    • 1.3 YOLIC: An Efficient Method for Object Localization and Classification on Edge Devices
    • 1.4 DGCNet: An Efficient 3D-Densenet based on Dynamic Group Convolution for Hyperspectral Remote Sensing Image Classification
    • 1.5 A Study on Differentiable Logic and LLMs for EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2023
    • 1.6 Domain-adaptive Person Re-identification without Cross-camera Paired Samples
    • 1.7 Free-Form Composition Networks for Egocentric Action Recognition
    • 1.8 Improving Nonalcoholic Fatty Liver Disease Classification Performance With Latent Diffusion Models
    • 1.9 On the ability of CNNs to extract color invariant intensity based features for image classification
    • 1.10 The Whole Pathological Slide Classification via Weakly Supervised Learning

一、分类|识别相关(10篇)

1.1 Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition

视频焦点网络:用于视频动作识别的时空调焦技术

https://arxiv.org/abs/2307.06947

在这里插入图片描述

最近的视频识别模型利用Transformer模型进行长距离时空上下文建模。视频Transformer设计是基于自我关注,可以模拟全球背景下,在一个高的计算成本。相比之下,视频的卷积设计提供了一种有效的替代方案,但缺乏长期依赖性建模。为了实现最好的两种设计,这项工作提出了视频FocalNet,一个有效的和高效的视频识别,本地和全球环境模型的架构。Video-FocalNet基于时空焦点调制架构,该架构反转了自我注意的交互和聚合步骤,以获得更好的效率。此外,聚合步骤和交互步骤都是使用高效的卷积和逐元素乘法运算来实现的,这些运算在计算上比它们在视频表示上的自注意对应物更便宜。我们广泛地探索基于焦点调制的时空上下文建模的设计空间,并证明我们的并行空间和时间编码设计是最佳选择。Video-FocalNets在三个大规模数据集(Kinetics-400,Kinetics-600和SS-v2)上以较低的计算成本对最先进的基于变换器的视频识别模型表现良好。我们的代码/模型在https://github.com/TalalWasim/Video-FocalNets上发布。

1.2 Watch Your Pose: Unsupervised Domain Adaption with Pose based Triplet Selection for Gait Recognition

注意你的姿势:基于姿势的三元组选择的无监督区域自适应步态识别

https://arxiv.org/abs/2307.06751

在这里插入图片描述
步态识别是一项计算机视觉任务,旨在通过行走模式来识别人。现有的方法在单个数据集上显示出令人印象深刻的结果,但缺乏推广到看不见的场景的能力。无监督域自适应(UDA)试图使在源域上以监督方式预训练的模型适应于未标记的目标域。步态识别的UDA仍处于起步阶段,现有的工作提出了有限的方案。在本文中,我们揭示了一个基本的现象,在适应步态识别模型,其中目标域是偏向于基于姿势的功能,而不是身份的功能,造成了显着的性能下降的识别任务。我们建议基于步态方向的方法无监督域自适应(GOUDA),以减少这种偏见。为此,我们提出了一种新的三元组选择算法的课程学习框架,旨在适应嵌入空间,推开样本相似的姿势,使不同的姿势更接近的样本。我们提供了广泛的实验四个广泛使用的步态数据集,CASIA-B,OU-MVLP,GREW和Gait 3D,和三个骨干,GaitSet,GaitPart和GaitGL,显示我们所提出的方法比以前的作品的优越性。

1.3 YOLIC: An Efficient Method for Object Localization and Classification on Edge Devices

YOLIC:一种有效的边缘设备目标定位与分类方法

https://arxiv.org/abs/2307.06689

在这里插入图片描述

在Tiny AI领域,我们引入了“你只看感兴趣的细胞”(YOLIC),这是一种在边缘设备上进行对象定位和分类的有效方法。YOLIC无缝融合了语义分割和对象检测的优势,提供了卓越的计算效率和精度。通过采用感兴趣的细胞而不是单个像素进行分类,YOLIC封装了相关信息,减少了计算量,并实现了粗略的对象形状推断。重要的是,消除了对边界框回归的需要,因为YOLIC利用了提供关于潜在对象位置、大小和形状的信息的预定单元配置。为了解决单标签分类限制的问题,多标签分类方法被应用到每个细胞,有效地识别重叠或紧密定位的对象。本文在多个数据集上进行了广泛的实验,证明YOLIC的检测性能与最先进的YOLO算法相当,同时在速度上超越,在Raspberry Pi 4B CPU上超过30fps。与这项研究相关的所有资源,包括数据集、细胞设计器、图像注释工具和源代码,都已在我们的项目网站https://kai3316.github.io/yolic.github.io上公开提供。

1.4 DGCNet: An Efficient 3D-Densenet based on Dynamic Group Convolution for Hyperspectral Remote Sensing Image Classification

DGCNet:一种高效的基于动态群卷积的高光谱遥感图像分类3D-Densenet

https://arxiv.org/abs/2307.06667

在这里插入图片描述

深度神经网络在高光谱图像分类领域面临许多问题,缺乏对空间光谱信息的有效利用,模型深度增加会导致梯度消失和过拟合。为了加速该模型在延迟要求严格、计算能力有限的边缘设备上的部署,我们在改进的3D-Densenet模型的基础上引入了一种轻量级模型,并设计了DGCNet。它改善了群卷积的缺点。借鉴动态网络的思想,在三维卷积核上设计了动态群卷积(DGC)。DGC为每个分组引入小的特征选择器,以基于所有输入通道的激活来动态地决定连接输入通道的哪个部分。多组可以捕获输入图像的不同和互补的视觉和语义特征,允许卷积神经网络(CNN)学习丰富的特征。三维卷积提取的是高维冗余的高光谱数据,卷积核之间也存在大量冗余信息。DGC模块允许3D-Densenet选择具有更丰富语义特征的信道信息并丢弃非活动区域。通过DGC模块的3D-CNN可以被视为修剪网络。DGC不仅允许3D-CNN完成足够的特征提取,而且兼顾了速度和计算量的要求。推理速度和准确性得到了提高,在IN,Pavia和KSC数据集上表现出色,领先于主流的高光谱图像分类方法。

1.5 A Study on Differentiable Logic and LLMs for EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2023

史诗厨房-100个无监督领域适应挑战行动识别的可区分逻辑和最小二乘法研究

https://arxiv.org/abs/2307.06569

在这里插入图片描述

在这份技术报告中,我们介绍了我们对EPIC-KITCHENS-100无监督领域适应任务进行的研究结果。我们的研究重点是在训练中创新应用可区分的逻辑损失,以利用动词和名词之间的共现关系,以及预训练的大型语言模型(LLM)来生成用于适应看不见的动作标签的逻辑规则。具体而言,该模型的预测被视为一个同现逻辑公式的真值分配计算的逻辑损失,这措施的预测和逻辑约束之间的一致性。通过使用从数据集生成的动词-名词共现矩阵,我们观察到与我们的基线框架相比,模型性能有适度的改善。为了进一步增强模型对新动作标签的适应性,我们对使用GPT-3.5生成的规则进行了实验,这导致性能略有下降。这些发现揭示了将可微逻辑和LLM用于在无监督域适应动作识别中进行知识提取的潜力和挑战。我们的最终提交(题为“NS-LLM”)在顶级动作识别准确性方面取得了第一名。

1.6 Domain-adaptive Person Re-identification without Cross-camera Paired Samples

无需交叉摄像机配对样本的域自适应人再识别

https://arxiv.org/abs/2307.06533

在这里插入图片描述

现有的人重新识别(重新ID)的研究主要集中在行人身份匹配在相邻区域的摄像机。但现实中,不可避免地面临跨远距离场景的行人身份匹配问题。从远距离场景采集的跨摄像机行人样本往往没有正样本。利用跨摄像机负样本实现跨区域行人身份匹配是一项极具挑战性的研究。因此,提出了一种新的领域自适应人员重新识别方法,重点是跨摄像机一致的区分特征学习下的监督下的不配对样本。该方法主要包括类别协同提升模块和跨摄像机一致性特征学习模块。在CSCM中,提出了一种特定于任务的特征重组(FRT)机制。此机制首先根据功能对特定任务的贡献对功能进行分组。然后,一个交互式促进学习(IPL)机制之间的特征组和嵌入到该机制,以提高特征的鉴别性。由于按任务划分后,具体任务模型的控制参数减少,提高了模型的泛化能力。在CCFLM中,构造了实例级特征分布对齐和跨摄像机身份一致学习方法。因此,通过源域样本和目标域样本之间的风格交换,在目标域的风格监督下实现有监督的模型训练,并利用跨摄像机相似样本解决了由于缺乏跨摄像机配对样本带来的挑战。在实验中,三个具有挑战性的数据集被用作目标域,所提出的方法的有效性证明,通过四个实验设置。

1.7 Free-Form Composition Networks for Egocentric Action Recognition

用于自我中心行为识别的自由形式组合网络

https://arxiv.org/abs/2307.06527

在这里插入图片描述

自我中心动作识别在人类动作识别领域中获得了显著的关注。在本文中,我们解决数据稀缺性问题,以自我为中心的行动识别从合成泛化的角度来看。为了解决这个问题,我们提出了一个自由形式的合成网络(FFCN),它可以同时学习解开动词,介词和名词表示,然后使用它们在特征空间中为罕见的动作视频类合成新的样本。首先,我们使用一个图来捕捉不同的手/对象实例在每个动作视频的时空关系。因此,我们将每个动作分解成一组动词和介词的时空表示使用的边缘功能的图形。时间分解从不同的视频帧中提取动词和介词表示,而空间分解自适应地学习动词和介词表示,从动作相关的实例在每个帧中。有了这些动词和介词的时空表征,我们可以以自由形式的方式为那些罕见的类组成新的样本,这不限于一个动词和一个名词的刚性形式。所提出的FFCN可以直接生成新的训练数据样本的稀有类,从而显着提高动作识别性能。我们评估了我们的方法在三个流行的以自我为中心的动作识别数据集,一些东西V2,H2O,和EPIC-KITCHENS-100,和实验结果表明,所提出的方法处理数据稀缺问题的有效性,包括长尾和Few-Shot以自我为中心的动作识别。

1.8 Improving Nonalcoholic Fatty Liver Disease Classification Performance With Latent Diffusion Models

利用潜在扩散模型改进非酒精性脂肪性肝病的分类性能

https://arxiv.org/abs/2307.06507

在这里插入图片描述

将深度学习与临床专业知识相结合,对于解决医疗保健挑战和为医疗专业人员提供改进的诊断工具具有巨大的潜力。然而,对带注释的医学图像的需求通常是利用机器学习模型的全部功能的障碍。我们的研究表明,通过将使用扩散模型生成的合成图像与真实图像相结合,我们可以提高非酒精性脂肪性肝病(NAFLD)的分类性能。我们通过比较两个度量来评估合成图像的质量:Inception Score(IS)和Fréchet Inception Distance(FID),在扩散生成的图像和生成对抗网络(GANs)生成的图像上计算。我们的结果显示了扩散生成图像的优异性能,最大IS得分为1.90美元,而GANs为1.67美元,最小FID得分为69.45美元,而GANs为99.53美元。利用部分冻结的CNN主干(EfficientNet v1),我们的合成增强方法在NAFLD预测任务中实现了0.904美元的最大图像级ROC AUC。

1.9 On the ability of CNNs to extract color invariant intensity based features for image classification

用于图像分类的CNN提取颜色不变灰度特征的能力

https://arxiv.org/abs/2307.06500

在这里插入图片描述

卷积神经网络(CNN)在视觉相关任务中取得了显着的成功。然而,当输入偏离训练分布时,它们对失败的敏感性是有据可查的。最近的研究表明,CNN在图像分类任务中表现出对纹理而不是对象形状的偏好,并且背景信息可能会影响预测。本文研究了CNN在保持上下文和背景的同时适应图像中不同颜色分布的能力。我们对修改后的MNIST和FashionMNIST数据的实验结果表明,颜色的变化可以大大影响分类精度。本文探讨了各种正则化技术对跨数据集泛化误差的影响,并提出了一种利用dropout正则化的小架构修改,以一种新的方式增强模型对基于颜色不变强度的特征的依赖,以提高分类精度。总的来说,这项工作有助于理解CNN在图像分类任务中的局限性和挑战,并提供了增强其性能的潜在解决方案。

1.10 The Whole Pathological Slide Classification via Weakly Supervised Learning

基于弱监督学习的整体病理切片分类

https://arxiv.org/abs/2307.06344

在这里插入图片描述

由于其在利用注释和解决千兆像素大小的图像方面的卓越效率,多实例学习(MIL)已显示出巨大的前景,作为一个框架的整体切片图像(WSI)分类在数字病理诊断。然而,现有的方法往往集中在具有不同结构的高级聚合物上,经常忽略HE病理切片的内在特征。为了解决这一局限性,我们引入了两个病理先验:病变细胞的核异质性和病理切片的空间相关性。利用前者,我们提出了一种数据增强方法,利用染色分离提取器训练通过对比学习策略获得实例级的表示。然后,我们描述了使用邻接矩阵的瓦片之间的空间关系。通过整合这两种观点,我们设计了一个多实例框架,用于分析H& E染色组织图像的病理诱导偏差,包括特征提取,过滤和聚合。Camelyon 16乳腺数据集和TCGA-NSCLC肺数据集的大量实验表明,我们提出的框架可以有效地处理与癌症检测和亚型区分相关的任务,优于基于MIL的最先进的医学图像分类方法。代码将在稍后发布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/753534.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【JavaEE】HTTP请求的构造

目录 1、通过form表单构造HTTP请求 2、通过JS的ajax构造HTTP请求 3、Postman的安装和简单使用 常见的构造HTTP请求的方式有一下几种: 直接通过浏览器的地址栏,输入一个URL,就可以构造一个GET请求HTML中的一些特殊标签,也会触发…

【Linux】1、装机、装操作系统、部署

文章目录 一、装系统1.0 格式化 U 盘1.1 做启动盘1.1.2 rufus1.1.2 poweriso 1.2 安装步骤 二、恢复系统2.1 BootManager2.2 recovery mode 一、装系统 下载地址: http://old-releases.ubuntu.com/releases/16.04.5/ubuntu-16.04.5-server-amd64.isohttps://mirro…

基于STM32 ARM+FPGA伺服控制系统(二)软件及FPGA设计

完整的伺服系统所包含的模块比较多,因此无法逐一详细介绍,所以本章着重介绍 设计难度较高的 FPGA 部分并简单介绍 ARM 端的工作流程。 FPGA 部分主要有 FOC 算法、电流采样算法及编码器采样算法,是整个控制系统的基础,直接…

本地appserv外挂网址如何让外网访问?快解析端口映射

一、appserv是什么? AppServ 是 PHP 网页架站工具组合包,作者将一些网络上免费的架站资源重新包装成单一的安装程序,以方便初学者快速完成架站,AppServ 所包含的软件有:Apache[、Apache Monitor、PHP、MySQL、phpMyAdm…

好物推荐文案怎么写吸引人?纯干货

互联网上充斥着各种各样好物种草文,一不小心就跌入了软文的圈套中,好物推荐文案写得好,流量绝对少不了。 好物推荐文案怎么写吸引人?通过整理总结上百篇爆款种草文案,总结出一套超实用的文案写作妙招!纯干…

活动页服务端渲染探索

目标 通过采用在服务端渲染激励页的方式,降低页面加载白屏时间,从而提升激励 H5 渲染体验。 架构设计 前端服务框架调研选型 只对比分析以下两种方案: Vue3 Nuxt3 WebpackNext.js React Node.js ’Nuxt3Next.js介绍Nuxt是一个基于Vu…

flask实现get和post请求

1、实现get请求 在项目根目录创建app.py 代码如下: from flask import Flask,render_template,requestapp Flask(__name__)app.route("/regist/user/", methods[GET]) def regist():return render_template("regist.html") #默认去templat…

三维 GIS 引擎该用什么?结合目前主流引擎进行分析

相信大多数人在谈到三维 GIS 引擎时,第一个想到的首先是 CesiumJS,CesiumJS 以其免费开源的特点,快速占领了三维 GIS 这个领域,同时也催生了许多以 CesiumJS 为基础的衍生产品。CesiumJS 作为一个功能强大的 JavaScript 库&#x…

3ds Max 无插件制作燃烧的火焰动画特效

推荐: NSDT场景编辑器助你快速搭建可二次开发的3D应用场景 在 3ds Max 中对火焰进行动画处理 如果您能找到“大气装置”设置,这很容易做到。基本上,你选择一个“Gizmo”(BoxGizmo,SphereGizmo或CylGizmo)&…

HashMap的遍历方式及底层原理

目录 概述MapMap的全谱系图HashMapkey和value HashMap的四种遍历方式keySetvaluesentrySetIterator性能分析应用场景二维表 底层原理key是数值型key是字符类型 总结: 概述 Map Map是Java中的一个接口,它继承自Collection接口,定义了键值对的…

GB35114双向身份认证(A级)学习笔记

GB35114双向身份验证学习笔记 温故而知新 SSL单向认证 摘录自:https://blog.csdn.net/qq_45759354/article/details/128672828 SSL协议用到了对称加密和非对称加密,在建立连接时,SSL首先对对称加密密钥使用非对称加密。连接建立好后&…

Docker 安装 Nacos 单节点

Docker 安装 Nacos 单节点 1 搜索 Nacos2 下载 Nacos3 安装 Nacos Nacos(中文名“云注册中心和配置中心”)是一个用于动态服务发现、配置管理和服务管理的开源项目,它由阿里巴巴集团开发并开源。Nacos提供了一种简单而强大的方式来实现微服务…

自动化用例编写思路 (使用pytest编写一个测试脚本)

目录 一,明确测试对象 二,编写测试用例 构造请求数据 封装测试代码 断言设置 三,执行脚本获取测试结果 四,总结 经过之前的学习铺垫,我们尝试着利用pytest框架编写一条接口自动化测试用例,来厘清接口…

系统调用与函数调用有什么区别?

本文我们来聊聊系统调用与普通的函数调用之间的区别。 作为程序员你肯定写过无数的函数,假设有这样两个函数: void funcB() {} void funcA() { funcB();} 函数之间是可以相互调用的,这很简单很happy有没有。 要知道是代码、是函数就可以相…

ABAP 发送特定格式内容的邮件

项目中,经常会有需求,向客户,供应商发送邮件,但是会有一些格式上的要求。 我们一般使用长文本来处理此类需求 举例,客户需要发送一个如下邮件主体内容(带格式) Dear Customer, Attached is y…

相机图像质量研究(2)ISP专用平台调优介绍

系列文章目录 相机图像质量研究(1)Camera成像流程介绍 相机图像质量研究(2)ISP专用平台调优介绍 相机图像质量研究(3)图像质量测试介绍 相机图像质量研究(4)常见问题总结:光学结构对成像的影响--焦距 相机图像质量研究(5)常见问题总结:光学结构对成…

洛谷:P5016 龙虎斗 ← NOIP2018 普及组T2

【题目来源】https://www.luogu.com.cn/problem/P5016【题目描述】 轩轩和凯凯正在玩一款叫《龙虎斗》的游戏,游戏的棋盘是一条线段,线段上有 n 个兵营(自左至右编号 1∼n),相邻编号的兵营之间相隔 1 厘米,…

psutil库使用详解

一、背景 在Python的世界里,有一些库因其强大的功能和易用性而备受开发者们的喜爱。今天,我们要介绍的就是其中的一员——psutil库。psutil(python system and process utilities)是一个跨平台的第三方库,用于获取系统运行时的进程和系统利用…

MySQL 事务与存储引擎

目录 一、MySQL事务的概念 二、事务的ACID特点 2.1 原子性 2.2 一致性 2.3 隔离性 2.4 持久性 2.5 事务之间的相互影响 三、Mysql及事物隔离级别 3.1 查询全局事务隔离级别 3.2 查询会话事务隔离级别 3.3 设置全局事务隔离级别 3.4 设置会话事务隔离级别 …

Android自定义圆环进度条/刻度仪表盘(单环单点带动画)

效果图: 1.自定义HeartDashBoardView /*** 刻度仪表盘*/ public class HeartDashBoardView extends View {private static final float START_ANGLE 135f;private static final float MAX_ANGLE 270f;private float progress 0;private float centerX;private float center…