文章目录

一、分类|识别相关(10篇)
- 1.1 Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition
- 1.2 Watch Your Pose: Unsupervised Domain Adaption with Pose based Triplet Selection for Gait Recognition
- 1.3 YOLIC: An Efficient Method for Object Localization and Classification on Edge Devices
- 1.4 DGCNet: An Efficient 3D-Densenet based on Dynamic Group Convolution for Hyperspectral Remote Sensing Image Classification
- 1.5 A Study on Differentiable Logic and LLMs for EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2023
- 1.6 Domain-adaptive Person Re-identification without Cross-camera Paired Samples
- 1.7 Free-Form Composition Networks for Egocentric Action Recognition
- 1.8 Improving Nonalcoholic Fatty Liver Disease Classification Performance With Latent Diffusion Models
- 1.9 On the ability of CNNs to extract color invariant intensity based features for image classification
- 1.10 The Whole Pathological Slide Classification via Weakly Supervised Learning

一、分类|识别相关(10篇)

1.1 Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition

视频焦点网络：用于视频动作识别的时空调焦技术

https://arxiv.org/abs/2307.06947

在这里插入图片描述

最近的视频识别模型利用Transformer模型进行长距离时空上下文建模。视频Transformer设计是基于自我关注，可以模拟全球背景下，在一个高的计算成本。相比之下，视频的卷积设计提供了一种有效的替代方案，但缺乏长期依赖性建模。为了实现最好的两种设计，这项工作提出了视频FocalNet，一个有效的和高效的视频识别，本地和全球环境模型的架构。Video-FocalNet基于时空焦点调制架构，该架构反转了自我注意的交互和聚合步骤，以获得更好的效率。此外，聚合步骤和交互步骤都是使用高效的卷积和逐元素乘法运算来实现的，这些运算在计算上比它们在视频表示上的自注意对应物更便宜。我们广泛地探索基于焦点调制的时空上下文建模的设计空间，并证明我们的并行空间和时间编码设计是最佳选择。Video-FocalNets在三个大规模数据集（Kinetics-400，Kinetics-600和SS-v2）上以较低的计算成本对最先进的基于变换器的视频识别模型表现良好。我们的代码/模型在https://github.com/TalalWasim/Video-FocalNets上发布。

1.2 Watch Your Pose: Unsupervised Domain Adaption with Pose based Triplet Selection for Gait Recognition

注意你的姿势：基于姿势的三元组选择的无监督区域自适应步态识别

https://arxiv.org/abs/2307.06751

在这里插入图片描述
步态识别是一项计算机视觉任务，旨在通过行走模式来识别人。现有的方法在单个数据集上显示出令人印象深刻的结果，但缺乏推广到看不见的场景的能力。无监督域自适应（UDA）试图使在源域上以监督方式预训练的模型适应于未标记的目标域。步态识别的UDA仍处于起步阶段，现有的工作提出了有限的方案。在本文中，我们揭示了一个基本的现象，在适应步态识别模型，其中目标域是偏向于基于姿势的功能，而不是身份的功能，造成了显着的性能下降的识别任务。我们建议基于步态方向的方法无监督域自适应（GOUDA），以减少这种偏见。为此，我们提出了一种新的三元组选择算法的课程学习框架，旨在适应嵌入空间，推开样本相似的姿势，使不同的姿势更接近的样本。我们提供了广泛的实验四个广泛使用的步态数据集，CASIA-B，OU-MVLP，GREW和Gait 3D，和三个骨干，GaitSet，GaitPart和GaitGL，显示我们所提出的方法比以前的作品的优越性。

1.3 YOLIC: An Efficient Method for Object Localization and Classification on Edge Devices

YOLIC：一种有效的边缘设备目标定位与分类方法

https://arxiv.org/abs/2307.06689

在这里插入图片描述

在Tiny AI领域，我们引入了“你只看感兴趣的细胞”（YOLIC），这是一种在边缘设备上进行对象定位和分类的有效方法。YOLIC无缝融合了语义分割和对象检测的优势，提供了卓越的计算效率和精度。通过采用感兴趣的细胞而不是单个像素进行分类，YOLIC封装了相关信息，减少了计算量，并实现了粗略的对象形状推断。重要的是，消除了对边界框回归的需要，因为YOLIC利用了提供关于潜在对象位置、大小和形状的信息的预定单元配置。为了解决单标签分类限制的问题，多标签分类方法被应用到每个细胞，有效地识别重叠或紧密定位的对象。本文在多个数据集上进行了广泛的实验，证明YOLIC的检测性能与最先进的YOLO算法相当，同时在速度上超越，在Raspberry Pi 4B CPU上超过30fps。与这项研究相关的所有资源，包括数据集、细胞设计器、图像注释工具和源代码，都已在我们的项目网站https://kai3316.github.io/yolic.github.io上公开提供。

1.4 DGCNet: An Efficient 3D-Densenet based on Dynamic Group Convolution for Hyperspectral Remote Sensing Image Classification

DGCNet：一种高效的基于动态群卷积的高光谱遥感图像分类3D-Densenet

https://arxiv.org/abs/2307.06667

在这里插入图片描述

深度神经网络在高光谱图像分类领域面临许多问题，缺乏对空间光谱信息的有效利用，模型深度增加会导致梯度消失和过拟合。为了加速该模型在延迟要求严格、计算能力有限的边缘设备上的部署，我们在改进的3D-Densenet模型的基础上引入了一种轻量级模型，并设计了DGCNet。它改善了群卷积的缺点。借鉴动态网络的思想，在三维卷积核上设计了动态群卷积（DGC）。DGC为每个分组引入小的特征选择器，以基于所有输入通道的激活来动态地决定连接输入通道的哪个部分。多组可以捕获输入图像的不同和互补的视觉和语义特征，允许卷积神经网络（CNN）学习丰富的特征。三维卷积提取的是高维冗余的高光谱数据，卷积核之间也存在大量冗余信息。DGC模块允许3D-Densenet选择具有更丰富语义特征的信道信息并丢弃非活动区域。通过DGC模块的3D-CNN可以被视为修剪网络。DGC不仅允许3D-CNN完成足够的特征提取，而且兼顾了速度和计算量的要求。推理速度和准确性得到了提高，在IN，Pavia和KSC数据集上表现出色，领先于主流的高光谱图像分类方法。

1.5 A Study on Differentiable Logic and LLMs for EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2023

史诗厨房-100个无监督领域适应挑战行动识别的可区分逻辑和最小二乘法研究

https://arxiv.org/abs/2307.06569

在这里插入图片描述

在这份技术报告中，我们介绍了我们对EPIC-KITCHENS-100无监督领域适应任务进行的研究结果。我们的研究重点是在训练中创新应用可区分的逻辑损失，以利用动词和名词之间的共现关系，以及预训练的大型语言模型（LLM）来生成用于适应看不见的动作标签的逻辑规则。具体而言，该模型的预测被视为一个同现逻辑公式的真值分配计算的逻辑损失，这措施的预测和逻辑约束之间的一致性。通过使用从数据集生成的动词-名词共现矩阵，我们观察到与我们的基线框架相比，模型性能有适度的改善。为了进一步增强模型对新动作标签的适应性，我们对使用GPT-3.5生成的规则进行了实验，这导致性能略有下降。这些发现揭示了将可微逻辑和LLM用于在无监督域适应动作识别中进行知识提取的潜力和挑战。我们的最终提交（题为“NS-LLM”）在顶级动作识别准确性方面取得了第一名。

1.6 Domain-adaptive Person Re-identification without Cross-camera Paired Samples

无需交叉摄像机配对样本的域自适应人再识别

https://arxiv.org/abs/2307.06533

在这里插入图片描述

现有的人重新识别（重新ID）的研究主要集中在行人身份匹配在相邻区域的摄像机。但现实中，不可避免地面临跨远距离场景的行人身份匹配问题。从远距离场景采集的跨摄像机行人样本往往没有正样本。利用跨摄像机负样本实现跨区域行人身份匹配是一项极具挑战性的研究。因此，提出了一种新的领域自适应人员重新识别方法，重点是跨摄像机一致的区分特征学习下的监督下的不配对样本。该方法主要包括类别协同提升模块和跨摄像机一致性特征学习模块。在CSCM中，提出了一种特定于任务的特征重组（FRT）机制。此机制首先根据功能对特定任务的贡献对功能进行分组。然后，一个交互式促进学习（IPL）机制之间的特征组和嵌入到该机制，以提高特征的鉴别性。由于按任务划分后，具体任务模型的控制参数减少，提高了模型的泛化能力。在CCFLM中，构造了实例级特征分布对齐和跨摄像机身份一致学习方法。因此，通过源域样本和目标域样本之间的风格交换，在目标域的风格监督下实现有监督的模型训练，并利用跨摄像机相似样本解决了由于缺乏跨摄像机配对样本带来的挑战。在实验中，三个具有挑战性的数据集被用作目标域，所提出的方法的有效性证明，通过四个实验设置。

1.7 Free-Form Composition Networks for Egocentric Action Recognition

用于自我中心行为识别的自由形式组合网络

https://arxiv.org/abs/2307.06527

在这里插入图片描述

自我中心动作识别在人类动作识别领域中获得了显著的关注。在本文中，我们解决数据稀缺性问题，以自我为中心的行动识别从合成泛化的角度来看。为了解决这个问题，我们提出了一个自由形式的合成网络（FFCN），它可以同时学习解开动词，介词和名词表示，然后使用它们在特征空间中为罕见的动作视频类合成新的样本。首先，我们使用一个图来捕捉不同的手/对象实例在每个动作视频的时空关系。因此，我们将每个动作分解成一组动词和介词的时空表示使用的边缘功能的图形。时间分解从不同的视频帧中提取动词和介词表示，而空间分解自适应地学习动词和介词表示，从动作相关的实例在每个帧中。有了这些动词和介词的时空表征，我们可以以自由形式的方式为那些罕见的类组成新的样本，这不限于一个动词和一个名词的刚性形式。所提出的FFCN可以直接生成新的训练数据样本的稀有类，从而显着提高动作识别性能。我们评估了我们的方法在三个流行的以自我为中心的动作识别数据集，一些东西V2，H2O，和EPIC-KITCHENS-100，和实验结果表明，所提出的方法处理数据稀缺问题的有效性，包括长尾和Few-Shot以自我为中心的动作识别。

1.8 Improving Nonalcoholic Fatty Liver Disease Classification Performance With Latent Diffusion Models

利用潜在扩散模型改进非酒精性脂肪性肝病的分类性能

https://arxiv.org/abs/2307.06507

在这里插入图片描述

将深度学习与临床专业知识相结合，对于解决医疗保健挑战和为医疗专业人员提供改进的诊断工具具有巨大的潜力。然而，对带注释的医学图像的需求通常是利用机器学习模型的全部功能的障碍。我们的研究表明，通过将使用扩散模型生成的合成图像与真实图像相结合，我们可以提高非酒精性脂肪性肝病（NAFLD）的分类性能。我们通过比较两个度量来评估合成图像的质量：Inception Score（IS）和Fréchet Inception Distance（FID），在扩散生成的图像和生成对抗网络（GANs）生成的图像上计算。我们的结果显示了扩散生成图像的优异性能，最大IS得分为1.90美元，而GANs为1.67美元，最小FID得分为69.45美元，而GANs为99.53美元。利用部分冻结的CNN主干（EfficientNet v1），我们的合成增强方法在NAFLD预测任务中实现了0.904美元的最大图像级ROC AUC。

1.9 On the ability of CNNs to extract color invariant intensity based features for image classification

用于图像分类的CNN提取颜色不变灰度特征的能力

https://arxiv.org/abs/2307.06500

在这里插入图片描述

卷积神经网络（CNN）在视觉相关任务中取得了显着的成功。然而，当输入偏离训练分布时，它们对失败的敏感性是有据可查的。最近的研究表明，CNN在图像分类任务中表现出对纹理而不是对象形状的偏好，并且背景信息可能会影响预测。本文研究了CNN在保持上下文和背景的同时适应图像中不同颜色分布的能力。我们对修改后的MNIST和FashionMNIST数据的实验结果表明，颜色的变化可以大大影响分类精度。本文探讨了各种正则化技术对跨数据集泛化误差的影响，并提出了一种利用dropout正则化的小架构修改，以一种新的方式增强模型对基于颜色不变强度的特征的依赖，以提高分类精度。总的来说，这项工作有助于理解CNN在图像分类任务中的局限性和挑战，并提供了增强其性能的潜在解决方案。

1.10 The Whole Pathological Slide Classification via Weakly Supervised Learning

基于弱监督学习的整体病理切片分类

https://arxiv.org/abs/2307.06344

在这里插入图片描述

由于其在利用注释和解决千兆像素大小的图像方面的卓越效率，多实例学习（MIL）已显示出巨大的前景，作为一个框架的整体切片图像（WSI）分类在数字病理诊断。然而，现有的方法往往集中在具有不同结构的高级聚合物上，经常忽略HE病理切片的内在特征。为了解决这一局限性，我们引入了两个病理先验：病变细胞的核异质性和病理切片的空间相关性。利用前者，我们提出了一种数据增强方法，利用染色分离提取器训练通过对比学习策略获得实例级的表示。然后，我们描述了使用邻接矩阵的瓦片之间的空间关系。通过整合这两种观点，我们设计了一个多实例框架，用于分析H& E染色组织图像的病理诱导偏差，包括特征提取，过滤和聚合。Camelyon 16乳腺数据集和TCGA-NSCLC肺数据集的大量实验表明，我们提出的框架可以有效地处理与癌症检测和亚型区分相关的任务，优于基于MIL的最先进的医学图像分类方法。代码将在稍后发布。