【AI视野·今日CV 计算机视觉论文速览第265期】Wed, 11 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 11 Oct 2023
Totally 88 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description
Authors Tengda Han, Max Bain, Arsha Nagrani, G l Varol, Weidi Xie, Andrew Zisserman
音频描述 AD 的任务是在适当的时间间隔生成视觉内容的描述，以造福视障观众。对于电影来说，这提出了显着的挑战，AD 必须仅在对话的现有停顿期间发生，应该通过名字来引用角色，并且应该有助于理解整个故事情节。为此，我们开发了一种自动生成电影广告的新模型，考虑到帧的 CLIP 视觉特征、演员列表和演讲的时间位置，解决了我们介绍的“谁”、“何时”和“什么”这三个问题一个字符库，其中包含每部电影主要演员的角色名称、扮演该角色的演员以及他们脸部的 CLIP 特征，并演示如何使用它来改进生成的 AD ii 中的命名研究几种模型，用于根据时间间隔及其邻居的视觉内容来确定是否应在某个时间间隔内生成 AD，以及我们为此任务实现的新视觉语言模型，该模型可以从

What Does Stable Diffusion Know about the 3D Scene?
Authors Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman
稳定扩散等生成模型的最新进展使得能够生成高度逼真的图像。我们本文的目标是探索扩散网络，以确定它在多大程度上理解图像中描绘的 3D 场景的不同属性。为此，我们做出以下贡献：我们引入了一种协议，通过探测表示这些属性的显式特征来评估网络是否对 3D 场景的许多物理属性进行建模。这些探针应用于带有属性注释的真实图像数据集。 ii 我们将此协议应用于涵盖场景几何、场景材质、支持关系、照明和视图相关测量的属性。 iii 我们发现稳定扩散在许多属性上表现良好，包括场景几何、支撑关系、阴影和深度，但在遮挡方面表现较差。

Uni3D: Exploring Unified 3D Representation at Scale
Authors Junsheng Zhou, Jinsheng Wang, Baorui Ma, Yu Shen Liu, Tiejun Huang, Xinlong Wang
在过去的几年里，扩大图像或文本的表示已经得到了广泛的研究，并引发了学习视觉和语言的革命。然而，3D 对象和场景的可扩展表示相对尚未被探索。在这项工作中，我们提出了 Uni3D，这是一个 3D 基础模型，用于探索大规模的统一 3D 表示。 Uni3D 使用 2D 初始化的 ViT 端到端预训练来将 3D 点云特征与图像文本对齐特征对齐。通过简单的架构和借口任务，Uni3D可以利用丰富的2D预训练模型作为初始化，以图像文本对齐模型作为目标，释放2D模型的巨大潜力，并将策略扩展到3D世界。我们有效地将 Uni3D 扩展到 10 亿个参数，并在广泛的 3D 任务上创造了新记录，例如零镜头分类、少镜头分类、开放世界理解和零件分割。我们证明，强大的 Uni3D 表示还可以实现 3D 绘画和野外检索等应用。

TopoMLP: An Simple yet Strong Pipeline for Driving Topology Reasoning
Authors Dongming Wu, Jiahao Chang, Fan Jia, Yingfei Liu, Tiancai Wang, Jianbing Shen
拓扑推理旨在全面理解道路场景并呈现自动驾驶中的可行驶路线。它需要检测道路中心线车道和交通要素，进一步推理它们的拓扑关系，即车道车道拓扑和车道交通拓扑。在这项工作中，我们首先提出拓扑得分在很大程度上依赖于车道和交通元素的检测性能。因此，我们引入了强大的3D车道检测器和改进的2D交通元素检测器来扩展拓扑性能的上限。此外，我们提出了 TopoMLP，一种用于驱动拓扑推理的简单但高性能的管道。基于令人印象深刻的检测性能，我们开发了两个简单的基于 MLP 的头用于拓扑生成。 TopoMLP 在 OpenLane V2 基准上实现了最先进的性能，即具有 ResNet 50 主干的 41.2 OLS。它也是自动驾驶挑战赛第一届OpenLane拓扑的第一个解决方案。我们希望这种简单而强大的管道能够为社区提供一些新的见解。

HiFi-123: Towards High-fidelity One Image to 3D Content Generation
Authors Wangbo Yu, Li Yuan, Yan Pei Cao, Xiangjun Gao, Xiaoyu Li, Long Quan, Ying Shan, Yonghong Tian
文本到图像扩散模型的最新进展使得能够从单个图像生成 3D。然而，当前的图像转 3D 方法通常会产生新视图的次优结果，纹理模糊且与参考图像存在偏差，限制了其实际应用。在本文中，我们介绍了 HiFi 123，这是一种专为高保真和多视图一致 3D 生成而设计的方法。我们的贡献是双重的。首先，我们提出了一种参考引导的新颖视图增强技术，该技术大大减少了合成视图和参考视图之间的质量差距。其次，利用新颖的视图增强，我们提出了一种新颖的参考引导状态蒸馏损失。当纳入基于优化的图像到 3D 管道时，我们的方法显着提高了 3D 生成质量，实现了最先进的性能。

SC2GAN: Rethinking Entanglement by Self-correcting Correlated GAN Space
Authors Zikun Chen, Han Zhao, Parham Aarabi, Ruowei Jiang
生成对抗网络 GAN 可以合成逼真的图像，学习到的潜在空间可以编码具有各种可解释方向的丰富语义信息。然而，由于学习到的潜在空间的非结构化性质，它继承了训练数据的偏差，其中没有因果关系的特定视觉属性组往往会一起出现，这种现象也称为虚假相关性，例如年龄和眼镜或者女人和口红。因此，学习到的分布通常缺乏对缺失示例的正确建模。遵循某个属性的编辑方向进行插值可能会导致与其他属性发生混乱的更改。为了解决这个问题，以前的工作通常会调整学习方向以最小化其他属性的变化，但它们在强相关特征上仍然失败。在这项工作中，我们研究了 StyleGAN2 FFHQ 模型的训练数据和学习的潜在空间中的纠缠问题。我们提出了一种新颖的框架 SC 2 GAN，通过在原始潜在空间中重新投影低密度潜在代码样本并根据高密度和低密度区域纠正编辑方向来实现解缠结。通过利用原始有意义的方向和语义区域特定层，我们的框架对原始潜在代码进行插值以生成具有不经常出现的属性组合的图像，然后将这些样本反转回原始潜在空间。

How (not) to ensemble LVLMs for VQA
Authors Lisa Alazraki, Lluis Castrejon, Mostafa Dehghani, Fantine Huot, Jasper Uijlings, Thomas Mensink
本文研究大视觉语言模型 LVLM 时代的集成。集成是一种结合不同模型以提高性能的经典方法。在 Encyclopedic VQA 最近的工作中，作者研究了各种各样的模型来解决他们的任务，从普通的 LVLM，到将标题作为额外上下文的模型，再到使用基于 Lens 的维基百科页面检索增强的模型。直观上，这些模型是高度互补的，这应该使它们成为集成的理想选择。事实上，预言机实验显示了从 48.8 的最佳单一模型准确率一直到 67 的最佳可能集成的潜在收益。因此，创建一个具有巨大实际收益的集成是一个微不足道的练习。

Blind Dates: Examining the Expression of Temporality in Historical Photographs
Authors Alexandra Barancov , Melvin Wevers, Nanne van Noord
本文探讨了计算机视觉模型识别视觉内容中时间信息的能力，特别关注历史照片。我们使用 OpenCLIP 来研究图像的约会，OpenCLIP 是 CLIP 的开源实现，是一种多模态语言和视觉模型。我们的实验包括三个步骤：零镜头分类、微调和视觉内容分析。我们使用 textit De Boer 场景检测数据集，包含 1950 年至 1999 年的 39,866 张灰度历史新闻照片。结果表明，零镜头分类对于图像约会相对无效，偏向于预测过去的日期。使用逻辑分类器微调 OpenCLIP 可提高性能并消除偏差。此外，我们的分析表明，以公共汽车、汽车、猫、狗和人为主题的图像的日期更准确，表明时间标记的存在。该研究强调了 OpenCLIP 等机器学习模型在约会图像中的潜力，并强调了微调对于准确时间分析的重要性。

EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention
Authors Yulong Shi, Mingwei Sun, Yongshuai Wang, Rui Wang, Hui Sun, Zengqiang Chen
由于深度学习技术的进步，视觉变压器在各种计算机视觉任务中表现出了有竞争力的性能。不幸的是，视觉变换器仍然面临一些挑战，例如高计算复杂性和缺乏理想的感应偏置。为了缓解这些问题，本研究受到鹰眼双中央凹视觉的生理结构和特征的启发，提出了一种新颖的双中央凹自注意力BFSA。该BFSA可以模拟鹰视觉的浅中央凹和深中央凹功能，使网络能够从粗到细地提取目标的特征表示，促进多尺度特征表示的交互。此外，本研究还设计了基于 BFSA 和 CNN 的 Bionic Eagle Vision BEV 模块。它结合了CNN和Vision Transformer，增强网络对目标的局部和全局表示能力。此外，本研究通过堆叠 BEV 块，开发了一个统一高效的通用金字塔骨干网络系列，名为 Eagle Vision Transformers EViTs。在包括图像分类、目标检测、实例分割和其他迁移学习任务在内的各种计算机视觉任务上的实验结果表明，所提出的 EViT 在相似模型大小下的性能明显优于基线，与其他模型相比，其图形处理单元的速度更快。

REVO-LION: Evaluating and Refining Vision-Language Instruction Tuning Datasets
Authors Ning Liao, Shaofeng Zhang, Renqiu Xia, Bo Zhang, Min Cao, Yu Qiao, Junchi Yan
关于多模式指令调优的研究正在兴起，并且最近提出了一系列基准来评估这些模型。在本文中，我们不是直接评估模型，而是尝试评估视觉语言指令调优 VLIT 数据集本身，并进一步寻求构建数据集以开发功能强大的 VLIT 模型的方法，我们相信这也可用于建立用于对 VLIT 模型进行基准测试的基础协议。为了有效分析 VLIT 数据集（这仍然是一个悬而未决的问题），我们提出了一种调整交叉评估范式，对一个数据集进行调整，然后依次对其他数据集进行评估。对于每个单调评估实验集，我们将元质量 MQ 定义为通过一系列标题指标（包括 BLEU、METEOR 和 ROUGE L）测量的平均分数，以量化特定数据集或样本的质量。在此基础上，为了评估数据集的全面性，我们开发了涵盖所有调优评估集的数据集质量DQ。为了为构建全面的数据集和开发实际应用的强大模型奠定基础，我们进一步定义了样本质量SQ来量化每个样本的各方面质量。大量的实验验证了所提出的评估范式的合理性。基于整体评估，我们通过从每个数据集中收集具有较高 SQ 的样本来构建新的数据集 REVO LION REfining Vision Language InstructiOn TuNing 。只需一半的完整数据，在 REVO LION 上训练的模型就可以实现与简单地将所有 VLIT 数据集相加相当的性能。

Hierarchical Mask2Former: Panoptic Segmentation of Crops, Weeds and Leaves
Authors Madeleine Darbyshire, Elizabeth Sklar, Simon Parsons
机器视觉的进步使人们能够从图像中进行详细的推断，有可能改变包括农业在内的许多部门。精准农业通过数据分析使干预措施能够精确定位，具有许多可能的应用。例如，精准喷洒可以将除草剂的施用限制为仅针对杂草，或者将肥料的施用限制为仅针对营养不良的作物，而不是喷洒整个田地。该方法有望最大限度地提高产量，同时最大限度地减少资源使用和对周围环境的危害。为此，我们提出了一种分层全景分割方法，可以同时识别植物生长指标并定位图像中的杂草。我们采用 Mask2Former（一种最先进的全景分割架构）来预测作物、杂草和树叶掩模。我们的 PQ 为 75.99。此外，我们还探索了使架构更加紧凑的方法，从而更适合时间和计算受限的应用程序。

SketchBodyNet: A Sketch-Driven Multi-faceted Decoder Network for 3D Human Reconstruction
Authors Fei Wang, Kongzhang Tang, Hefeng Wu, Baoquan Zhao, Hao Cai, Teng Zhou
从 2D 图像重建 3D 人体形状最近受到越来越多的关注，因为它为许多高级 3D 应用提供了基础支持。与自然图像相比，手绘草图能够更灵活地描绘各种形状，为3D人体重建提供了一种极具潜力且有价值的方式。然而，这样的任务非常具有挑战性。草图的稀疏抽象特征给已经严重不适的 2D 到 3D 重建问题增加了严重的困难，例如任意性、不准确性和缺乏图像细节。尽管当前的方法在从单视图图像重建 3D 人体方面取得了巨大成功，但它们在手绘草图上效果不佳。在本文中，我们提出了一种新颖的草图驱动的多面解码器网络（称为 SketchBodyNet）来解决此任务。具体来说，该网络由一个主干和三个独立的注意解码器分支组成，其中每个解码器中利用多头自注意模块来获得增强的特征，然后是多层感知器。多面解码器旨在分别预测相机、形状和姿势参数，然后将其与 SMPL 模型关联以重建相应的 3D 人体网格。在学习过程中，现有的 3D 网格通过相机参数投影为带有关节的 2D 合成草图，与手绘草图相结合以优化模型。为了验证我们的方法，我们收集了大约 26k 个手绘草图及其相应的 3D 网格的大型数据集，其中包含来自 14 个不同角度的各种人体姿势。

Compositional Representation Learning for Brain Tumour Segmentation
Authors Xiao Liu, Antanas Kascenas, Hannah Watson, Sotirios A. Tsaftaris, Alison Q. O Neil
对于脑肿瘤分割，深度学习模型可以在大量数据和像素级注释的情况下达到人类专家级的性能。然而，为大量数据获取像素级注释的昂贵操作并不总是可行，并且在低注释数据状态下性能通常会严重降低。为了应对这一挑战，我们采用了混合监督框架 vMFNet，使用无监督学习和弱监督以及非详尽的像素级病理标签来学习鲁棒的成分表示。特别是，我们使用 BraTS 数据集来模拟 2 点专家病理学注释的集合，指示每个 MRI 体积中肿瘤或肿瘤子区域的顶部和底部切片、瘤周水肿、GD 增强肿瘤和坏死非增强肿瘤，构建指示图像中是否存在肿瘤或肿瘤子区域的弱图像级标签。然后，vMFNet 通过可学习和组合的 vMF 内核，使用 von Mises Fisher vMF 分布对编码图像特征进行建模，这些内核捕获有关图像中结构的信息。我们表明，使用大量弱标记数据但仅使用少量完全注释数据就可以实现良好的肿瘤分割性能。

Perceptual MAE for Image Manipulation Localization: A High-level Vision Learner Focusing on Low-level Features
Authors Xiaochen Ma, Jizhe Zhou, Xiong Xu, Zhuohang Jiang, Chi Man Pun
如今，由于多媒体生成技术的快速发展，多媒体取证面临着前所未有的挑战，因此图像处理定位IML对于追求真相至关重要。 IML 的关键在于揭示被篡改区域与真实区域之间的伪影或不一致，这在像素级特征下很明显。因此，现有研究将 IML 视为低级视觉任务，重点是通过制作像素级特征（例如图像 RGB 噪声、边缘信号或高频特征）来分配篡改掩模。然而，在实践中，篡改通常发生在对象级别，并且不同类别的对象成为篡改目标的可能性不同。因此，除了像素级特征之外，对象语义对于识别篡改区域也至关重要。这需要 IML 模型对整个图像进行语义理解。在本文中，我们将 IML 任务重新表述为高级视觉任务，它极大地受益于低级特征。基于这样的解释，我们提出了一种通过结合高分辨率输入和感知损失监督模块来增强蒙蔽自动编码器 MAE 的方法，该方法被称为感知 MAE PMAE 。虽然 MAE 表现出了对对象语义的令人印象深刻的理解，但 PMAE 还可以通过我们提出的增强功能来弥补低级语义。

Deep Learning for Automatic Detection and Facial Recognition in Japanese Macaques: Illuminating Social Networks
Authors Julien Paulet UJM , Axel Molina ENS PSL , Benjamin Beltzung IPHC , Takafumi Suzumura, Shinya Yamamoto, C dric Sueur IPHC, IUF, ANTHROPO LAB
个体识别在生态学和行为学中发挥着关键作用，特别是作为理解复杂社会结构的工具。然而，传统的识别方法通常涉及侵入性物理标签，并且可能对动物造成破坏，并且对研究人员来说会耗费大量时间。近年来，深度学习在研究中的整合通过复杂任务的自动化提供了新的方法论视角。研究人员越来越多地利用对象检测和识别技术来实现视频片段的识别。这项研究代表了对通过深度学习开发一种用于日本猕猴（Macaca fuscata）人脸检测和个体识别的非侵入性工具的初步探索。这项研究的最终目标是，使用对数据集进行的识别，自动生成所研究人群的社交网络表示。目前的主要成果是：创建日本猕猴面部检测器 Faster RCNN 模型，达到 82.2 的准确率；以及创建 K 岛猕猴群体的个体识别器 YOLOv8n 模型，达到 83 的准确率。我们还根据视频上的共现情况，通过传统方法创建了 K 岛人群社交网络。因此，我们提供了一个基准，用于评估自动生成的网络的可靠性。

Focus on Local Regions for Query-based Object Detection
Authors Hongbin Xu, Yamei Xia, Shuai Zhao, Bo Cheng
自从 DETR（首创的基于端到端查询的检测器）出现以来，基于查询的方法在目标检测领域引起了广泛关注。然而，这些方法面临着收敛速度慢和性能欠佳等挑战。值得注意的是，目标检测中的自注意力由于其全局焦点而常常阻碍收敛。为了解决这些问题，我们提出了 FoLR，一种仅带有解码器的类似变压器的架构。我们通过隔离不相关对象之间的连接来增强自注意力机制，使其关注局部区域而不是全局区域。我们还设计了自适应采样方法，基于从特征图中查询局部区域来提取有效特征。此外，我们为解码器采用回顾策略来保留先验信息，然后使用特征混合器模块来融合特征和查询。

A Geometrical Approach to Evaluate the Adversarial Robustness of Deep Neural Networks
Authors Yang Wang, Bo Dong, Ke Xu, Haiyin Piao, Yufei Ding, Baocai Yin, Xin Yang
深度神经网络 DNN 广泛用于计算机视觉任务。然而，事实证明，深层模型容易受到对抗性攻击，即，当对原始输入进行不可察觉的扰动时，其性能会下降，这可能会进一步降低后续视觉任务的性能或引入数据和隐私安全等新问题。因此，需要评估深度模型对抗对抗性攻击的鲁棒性的指标。然而，以前的指标主要是为了评估浅层网络在小规模数据集上的对抗鲁棒性而提出的。尽管针对大规模数据集（例如 ImageNet 数据集）提出了网络鲁棒性 CLEVER 指标的 Cross Lipschitz 极值，但它的计算成本很高，并且其性能依赖于易于处理的样本数量。在本文中，我们提出了对抗性收敛时间得分 ACTS，这是一种与攻击相关的指标，用于量化 DNN 在特定输入上的对抗性鲁棒性。我们的主要观察结果是，在给定不同输入的情况下，DNN 输出表面上的局部邻域将具有不同的形状。因此，给定不同的输入，收敛到对抗性样本需要不同的时间。基于这种几何意义，ACTS 将收敛时间作为对抗鲁棒性度量来测量。我们使用最先进的深度网络验证了所提出的 ACTS 指标针对大规模 ImageNet 数据集上的不同对抗性攻击的有效性和泛化性。

Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic Reasoning Task 2023
Authors Xiangyu Wu, Yang Yang, Shengdong Xu, Yifeng Wu, Qingguo Chen, Jianfeng Lu
在本文中，我们提出了多模态算法推理任务 SMART 101 挑战赛的解决方案。与传统的视觉问答数据集不同，该挑战赛评估神经网络在解决专为6-8岁年龄段儿童设计的视觉语言难题时的抽象、演绎和泛化能力。我们采用了分而治之的方法。在数据层面，受挑战论文的启发，我们将整个问题分为八种类型，并利用 llama 2 聊天模型以零样本的方式直接生成每个问题的类型。此外，我们在 icon45 数据集上训练了 yolov7 模型用于对象检测，并将其与 OCR 方法相结合来识别和定位图像中的对象和文本。在模型层面，我们利用 BLIP 2 模型，并向图像编码器 VIT G 添加 8 个适配器，以自适应地提取不同问题类型的视觉特征。我们将预先构建的问题模板作为输入，并使用 flan t5 xxl 解码器生成答案。

Skeleton Ground Truth Extraction: Methodology, Annotation Tool and Benchmarks
Authors Cong Yang, Bipin Indurkhya, John See, Bo Gao, Yan Ke, Zeyd Boukhers, Zhenyu Yang, Marcin Grzegorzek
骨架 Ground Truth GT 对于监督骨架提取方法的成功至关重要，尤其是随着深度学习技术的普及。此外，我们看到骨架 GT 不仅用于使用卷积神经网络 CNN 训练骨架检测器，而且还用于评估骨架相关的剪枝和匹配算法。然而，大多数现有的形状和图像数据集都缺乏骨架GT并且GT标准不一致。因此，很难公平地评估和重现基于 CNN 的骨架检测器和算法。在本文中，我们提出了一种启发式策略，用于二值形状和自然图像中的对象骨架 GT 提取。我们的策略建立在诊断假说的扩展理论之上，该理论能够根据目标上下文、简单性和完整性的线索对人类循环 GT 提取进行编码。使用这种策略，我们开发了一个工具 SkeView，来生成 17 个现有形状和图像数据集的骨架 GT。然后使用代表性方法对 GT 进行结构评估，以建立可行的基线以进行公平比较。

AnoDODE: Anomaly Detection with Diffusion ODE
Authors Xianyao Hu, Congming Jin
异常检测是识别显着偏离大多数数据集的非典型数据样本的过程。在临床筛查和诊断领域，检测医学图像中的异常非常重要。通常，临床实践可以获取大量正常图像，而异常图像相对较少。我们假设异常图像及其相关特征往往出现在数据分布的低密度区域。遵循这一假设，考虑到扩散常微分方程在密度估计任务中的易处理性和卓越性能，我们转向用于无监督异常检测。更准确地说，我们通过估计从多尺度医学图像中提取的特征的密度，提出了一种基于扩散常微分方程的新异常检测方法。我们的异常评分机制取决于计算从不同尺度的医学图像中提取的特征的负对数可能性，以每维的位数进行量化。此外，我们提出了适合我们的方法的基于重建的异常定位。我们提出的方法不仅可以识别异常，还可以在图像和像素级别提供可解释性。通过在 BraTS2021 医学数据集上的实验，我们提出的方法优于现有方法。

Boundary Discretization and Reliable Classification Network for Temporal Action Detection
Authors Zhenying Fang
时间动作检测旨在识别动作类别并确定未修剪视频中每个动作实例的开始和结束时间。通过简单地合并基于锚的方法和无锚的方法，混合方法取得了显着的性能。然而，混合框架中仍然存在两个关键问题：1、暴力合并和手工锚点设计影响混合方法的性能和实际应用。 2 动作类别预测中的大量误报进一步影响了检测性能。在本文中，我们提出了一种新颖的边界离散化和可靠分类网络 BDRC Net，通过引入边界离散化和可靠分类模块来解决上述问题。具体来说，边界离散化模块BDM以边界离散化的形式优雅地融合了基于锚点和无锚点的方法，避免了传统混合方法所需的手工锚点设计。此外，可靠分类模块 RCM 预测可靠的动作类别，以减少动作类别预测中的误报。在不同基准上进行的大量实验表明，与现有技术相比，我们提出的方法取得了良好的性能。例如，BDRC Net 在 THUMOS 14 上的平均 mAP 为 68.6，比之前的最佳值高出 1.5。

Learning Stackable and Skippable LEGO Bricks for Efficient, Reconfigurable, and Variable-Resolution Diffusion Modeling
Authors Huangjie Zheng, Zhendong Wang, Jianbo Yuan, Guanghan Ning, Pengcheng He, Quanzeng You, Hongxia Yang, Mingyuan Zhou
扩散模型擅长生成逼真的图像，但在训练和采样方面都会产生大量的计算成本。虽然各种技术可以解决这些计算挑战，但一个较少探讨的问题是设计一个高效且适应性强的网络主干以进行迭代细化。当前的选项（例如 U Net 和 Vision Transformer）通常依赖于资源密集型深度网络，并且缺乏以可变分辨率或使用比训练中使用的更小的网络生成图像所需的灵活性。本研究介绍了乐高积木，它无缝集成了本地功能丰富和全球内容编排。这些砖块可以堆叠起来以创建测试时可重新配置的扩散主干，允许选择性地跳过砖块以降低采样成本并生成比训练数据更高分辨率的图像。乐高积木通过 MLP 丰富局部区域，并使用 Transformer 块对其进行转换，同时在所有积木上保持一致的全分辨率图像。实验结果表明，乐高积木可以提高训练效率，加快收敛速度，并促进可变分辨率图像生成，同时保持强大的生成性能。

Advanced Efficient Strategy for Detection of Dark Objects Based on Spiking Network with Multi-Box Detection
Authors Munawar Ali, Baoqun Yin, Hazrat Bilal, Aakash Kumar, Ali Muhammad, Avinash Rohra
几种深度学习算法在现有的物体检测任务中表现出了惊人的性能，但识别较暗的物体是最大的挑战。此外，这些技术难以检测或识别速度缓慢，导致性能显着损失。因此，需要一种改进且准确的检测方法来解决上述困难。整个研究提出了尖峰卷积层和普通卷积层的组合作为节能且可靠的目标检测器模型。所提出的模型分为两部分。第一部分被开发为特征提取器，它利用预先训练的 VGG16，建议结构的第二部分是尖峰卷积层和普通卷积层的组合来检测图像的边界框。我们绘制了一个预先训练的模型来对检测到的对象进行分类。借助最先进的 Python 库，可以有效地训练尖峰层。所提出的尖峰卷积目标检测器 SCOD 已在 VOC 和 Ex Dark 数据集上进行了评估。在检测 Ex Dark 数据集中的 VOC 12 中的 20 个不同物体和 12 个物体时，SCOD 达到了 66.01 和 41.25 mAP。 SCOD 使用 14 Giga FLOPS 进行前向路径计算。

CoinSeg: Contrast Inter- and Intra- Class Representations for Incremental Segmentation
Authors Zekang Zhang, Guangyu Gao, Jianbo Jiao, Chi Harold Liu, Yunchao Wei
类增量语义分割旨在通过保持旧知识并适应新概念来在模型的稳定性和可塑性之间取得平衡。

Fire Detection From Image and Video Using YOLOv5
Authors Arafat Islam, Md. Imtiaz Habib
针对室内、室外和森林火灾图像中的类火目标检测，以及不同自然光下的火灾检测，提出了一种改进的YOLOv5火灾检测深度学习算法。 YOLOv5检测模型从三个维度扩展了特征提取网络，增强了火灾小目标识别的特征传播，提高了网络性能，减少了模型参数。此外，通过特征金字塔的提升，获得了表现最好的预测框。与最先进的目标检测网络相比，Fire YOLOv5 取得了优异的结果，特别是在检测火灾和烟雾的小目标方面，mAP 为 90.5，f1 得分为 88。总体而言，火灾YOLOv5检测模型可以有效应对小火灾目标以及类火、类烟物体的检测，F1得分为0.88。当输入图像尺寸为416 x 416分辨率时，平均检测时间为每帧0.12 s，可以提供实时的森林火灾检测。此外，本文提出的算法还可以应用于其他复杂情况下的小目标检测。

JointNet: Extending Text-to-Image Diffusion for Dense Distribution Modeling
Authors Jingyang Zhang, Shiwei Li, Yuanxun Lu, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan, Yao Yao
我们引入了 JointNet，这是一种新颖的神经网络架构，用于对图像的联合分布进行建模，以及一种额外的密集模式，例如深度图。 JointNet从预先训练的文本扩展到图像扩散模型，其中为新的密集模态分支创建原始网络的副本，并与RGB分支密集连接。 RGB分支在网络微调过程中被锁定，这使得能够高效学习新的模态分布，同时保持大规模预训练扩散模型的强大泛化能力。

Filter Pruning For CNN With Enhanced Linear Representation Redundancy
Authors Bojue Wang, Chunmei Ma, Bin Liu, Nianbo Liu, Jinqi Zhu
结构化网络修剪优于非结构化方法，因为它们可以利用蓬勃发展的并行计算技术。在本文中，我们提出了一种新的结构化剪枝方法。首先，为了创建更结构化的冗余，我们提出了一种数据驱动的损失函数项，该损失函数项是根据同一层中不同特征图的相关系数矩阵计算得出的，称为 CCM 损失。这个损失项可以鼓励神经网络在从头开始的训练过程中学习特征图之间更强的线性表示关系，以便稍后在剪枝中删除更多同质部分。除了 L 范数正则化之外，CCM 损失为我们提供了另一种通用的超越数学工具，它专注于生成零，以生成更多的冗余，但针对不同的流派。此外，我们设计了基于主成分分析的匹配通道选择策略，以挖掘 CCM 损失的最大潜在能力。在我们的新战略中，我们主要关注网络中信息流的一致性和完整性。我们的通道选择策略不是根据经验硬编码每层的保留率，而是可以根据每个训练模型的具体情况动态调整每层的保留率，将剪枝率推向极限。值得注意的是，在 Cifar 10 数据集上，我们的方法在仅 1.40M 参数和 49.60M FLOP 的情况下为修剪后的 VGG 16 带来了 93.64 的准确率，参数和 FLOP 的修剪比率分别为 90.6 和 84.2。对于在 ImageNet 数据集上训练的 ResNet 50，我们的方法分别实现了 42.8 和 47.3 的存储和计算减少，准确度为 76.23。

Local Style Awareness of Font Images
Authors Daichi Haraguchi, Seiichi Uchida
当我们比较字体时，我们经常会关注局部部分的样式，例如衬线和曲率。本文提出了一种注意力机制来寻找重要的局部部分。受关注度较高的局部部分被认为是重要的。所提出的机制可以以准自监督的方式进行训练，除了知道一组字符图像来自相同的字体（例如 Helvetica）之外，不需要手动注释。在确认经过训练的注意力机制可以找到与样式相关的局部部分后，我们利用所得的注意力来生成局部样式感知字体。具体来说，我们设计了一种新的重建损失函数，将更多的权重放在关注度更高的局部部分上，以生成具有更准确的风格实现的角色图像。该损失函数具有适用于各种字体生成模型的优点。

CrowdRec: 3D Crowd Reconstruction from Single Color Images
Authors Buzhen Huang, Jingyi Ju, Yangang Wang
这是 GigaCrowd 挑战赛的技术报告。由于相互遮挡、服务器深度模糊和复杂的空间分布，从单目图像重建 3D 人群是一个具有挑战性的问题。由于没有大规模的3D人群数据集可用于训练鲁棒模型，当前的多人网格恢复方法很难在拥挤的场景中获得令人满意的性能。在本文中，我们利用人群特征并提出一种人群约束优化来改进人群图像上的常见单人方法。为了避免尺度变化，我们首先使用现成的检测器从原始图像中检测人体边界框和 2D 姿势。然后，我们使用现有的野生图像数据集来训练单人网格恢复网络。为了促进更合理的空间分布，我们进一步提出人群约束来细化单人网络参数。通过优化，我们可以使用单人主干从大规模人群图像中获得具有合理绝对位置的准确身体姿势和形状。

Precise Payload Delivery via Unmanned Aerial Vehicles: An Approach Using Object Detection Algorithms
Authors Aditya Vadduri, Anagh Benjwal, Abhishek Pai, Elkan Quadros, Aniruddh Kammar, Prajwal Uday
近年来，通过无人机进行自主有效载荷输送领域取得了巨大进步。然而，大多数这些工作涉及使用 GPS 坐标将有效负载运送到预定位置。依靠GPS坐标进行导航，有效载荷投放的精度受限于GPS网络的精度以及GPS连接的可用性和强度，这可能会受到作业时间和地点的天气条件的严重限制。在这项工作中，我们描述了微型无人机的开发，并提出了一种新颖的导航方法，通过结合基于深度学习的计算机视觉方法来识别并精确地将无人机与有效载荷交付时标记的目标对齐，从而提高传统导航方法的准确性位置。

Advancing Pose-Guided Image Synthesis with Progressive Conditional Diffusion Models
Authors Fei Shen, Hu Ye, Jun Zhang, Cong Wang, Xiao Han, Wei Yang
最近的工作展示了扩散模型在姿势引导人体图像合成中的巨大潜力。然而，由于源图像和目标图像之间的姿态不一致，仅依赖源图像和目标姿态信息合成具有不同姿态的图像仍然是一个艰巨的挑战。本文提出了渐进条件扩散模型 PCDM，它通过三个阶段逐步弥合目标姿势和源姿势下的人物图像之间的差距。具体来说，在第一阶段，我们设计了一个简单的先验条件扩散模型，通过挖掘姿态坐标和图像外观之间的全局对齐关系来预测目标图像的全局特征。然后，第二阶段使用前一阶段的全局特征在源图像和目标图像之间建立密集的对应关系，并提出修复条件扩散模型以进一步对齐和增强上下文特征，生成粗粒度的人物图像。在第三阶段，我们提出了一种细化条件扩散模型，利用前一阶段粗略生成的图像作为条件，实现纹理恢复并增强精细细节的一致性。三阶段 PCDM 逐步工作以生成最终的高质量和高保真度合成图像。

Improving Compositional Text-to-image Generation with Large Vision-Language Models
Authors Song Wen, Guian Fang, Renrui Zhang, Peng Gao, Hao Dong, Dimitris Metaxas
文本到图像模型（尤其是扩散模型）的最新进展已显示出巨大的前景。然而，组合文本到图像模型在生成与描述多个对象、可变属性和复杂空间关系的输入文本精确对齐的高质量图像时经常遇到困难。为了解决这个限制，我们采用大型视觉语言模型 LVLM 对生成的图像与其相应的输入文本之间的对齐进行多维评估。利用这种评估，我们微调扩散模型以增强其对齐能力。在推理阶段，使用微调扩散模型生成初始图像。然后使用 LVLM 来查明初始图像中未对准的区域，随后使用图像编辑算法对其进行校正，直到 LVLM 检测不到进一步的未对准为止。因此，生成的图像与输入文本更加一致。

Towards More Efficient Depression Risk Recognition via Gait
Authors Min Ren, Muchan Tao, Xuecai Hu, Xiaotong Liu, Qiong Li, Yongzhen Huang
抑郁症是一种非常普遍的精神疾病，影响着全世界超过 2.8 亿人。早期发现和及时干预对于促进缓解、预防复发以及减轻与抑郁症相关的情感和经济负担至关重要。然而，抑郁症患者在初级保健机构中常常未被诊断出来。与许多生理疾病不同，抑郁症缺乏识别抑郁风险的客观指标，而现有的抑郁风险识别方法非常耗时，而且经常遇到缺乏训练有素的医疗专业人员的情况。步态与抑郁风险之间的相关性已根据经验建立。步态可以作为一种有前景的客观生物标志物，具有高效、便捷的数据收集优势。然而，目前基于步态识别抑郁风险的方法仅在小型私人数据集上得到验证，缺乏用于研究目的的大规模公开数据集。此外，这些方法主要限于手工制作的方法。步态是一种复杂的运动形式，手工制作的步态特征通常只能捕获步态与抑郁风险之间复杂关联的一小部分。因此，本研究首先构建了一个大规模的步态数据库，包含超过1,200个人，40,000个步态序列，涵盖六个视角和三种着装。提供了两种常用的心理量表作为抑郁风险注释。随后，提出了一种基于深度学习的抑郁症风险识别模型，克服了手工方法的局限性。

High-Fidelity 3D Head Avatars Reconstruction through Spatially-Varying Expression Conditioned Neural Radiance Field
Authors Minghan Qin, Yifan Liu, Yuelang Xu, Xiaochen Zhao, Yebin Liu, Haoqian Wang
3D头部头像重建的一个重要方面在于面部表情的细节。尽管最近基于 NeRF 的照片逼真 3D 头部头像方法实现了高质量的头像渲染，但它们仍然遇到保留复杂的面部表情细节的挑战，因为它们在调节辐射场时忽略了不同空间位置的特定表情变化的潜力。受这一观察的启发，我们引入了一种新颖的空间变化表达 SVE 调节。 SVE 可以通过简单的基于 MLP 的生成网络获得，包含空间位置特征和全局表达信息。受益于不同位置的SVE丰富多样的信息，所提出的SVE条件神经辐射场可以处理复杂的面部表情并实现高保真3D头部头像的真实渲染和几何细节。此外，为了进一步提高几何和渲染质量，我们引入了一种新的从粗到精的训练策略，包括粗略阶段的几何初始化策略和精细阶段的自适应重要性采样策略。

Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering
Authors Xiulong Liu, Zhikang Dong, Peng Zhang
近年来，人们越来越重视音频、视觉和文本模式的交叉，推动了多模式研究的进步。然而，任何模态中存在的强烈偏差都可能导致模型忽视其他模态。因此，模型有效推理这些不同模式的能力受到损害，阻碍了进一步的发展。在本文中，我们仔细审查原始数据集中的每种问题类型，选择那些具有明显答案偏差的问题类型。为了消除这些偏见，我们收集补充视频和问题，确保没有答案具有明显的偏态分布。特别是，对于二元问题，我们努力确保两个答案几乎均匀地分布在每个问题类别中。因此，我们构建了一个新的数据集，名为 MUSIC AVQA v2.0，该数据集更具挑战性，我们相信可以更好地促进 AVQA 任务的进展。此外，我们提出了一种新颖的基线模型，可以更深入地研究视听文本相互关系。

Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing
Authors Wei Dong, Dawei Yan, Zhijun Lin, Peng Wang
高容量预训练模型的出现彻底改变了计算机视觉中的问题解决方式，将重点从训练特定于任务的模型转移到适应预训练模型。因此，以有效的方式有效地将大型预训练模型适应下游任务已成为一个重要的研究领域。现有的解决方案主要集中于设计轻量级适配器及其与预先训练的模型的交互，目标是最大限度地减少需要更新的参数数量。在这项研究中，我们提出了一种新颖的适配器重组 ARC 策略，该策略从全新的角度解决了高效的预训练模型自适应问题。我们的方法考虑了自适应参数的可重用性，并引入了参数共享方案。具体来说，我们利用对称的向下投影来构建跨层共享的瓶颈操作。通过学习低维重新缩放系数，我们可以有效地重构层自适应适配器。适配器设计中的这种参数共享策略使我们能够在保持令人满意的性能的同时显着减少新参数的数量，从而提供一种有前途的压缩自适应成本的方法。我们使用各种 Vision Transformer 变体对 24 个下游图像分类任务进行实验，以评估我们的方法。结果表明，我们的方法通过减少参数数量实现了引人注目的迁移学习性能。

Spiking PointNet: Spiking Neural Networks for Point Clouds
Authors Dayong Ren, Zhe Ma, Yuanpei Chen, Weihang Peng, Xiaode Liu, Yuhan Zhang, Yufei Guo
近年来，具有极高能源效率的尖峰神经网络SNN在2D视觉识别领域引起了广泛的研究关注，并显示出逐渐增加的应用潜力。然而，SNN 是否可以推广到 3D 识别仍有待探索。为此，我们在论文中提出了 Spiking PointNet，这是第一个用于在点云上进行高效深度学习的尖峰神经模型。我们发现，限制 SNN 在点云中应用的两个巨大障碍是 SNN 的内在优化障碍，它阻碍了大时间步长的大尖峰模型的训练，以及 PointNet 昂贵的内存和计算成本，使得训练变得很困难。尖峰点模型不切实际。为了同时解决这些问题，我们提出了一种训练较少但学习较多的 Spiking PointNet 范式，并具有理论依据和深入的实验分析。具体来说，我们的 Spiking PointNet 仅使用单个时间步进行训练，但与直接使用多个时间步进行训练相比，可以通过多个时间步推理获得更好的性能。我们在 ModelNet10、ModelNet40 上进行了各种实验来证明 Spiking PointNet 的有效性。值得注意的是，我们的 Spiking PointNet 甚至可以超越 ANN 对应物，这在 SNN 领域是罕见的，从而为后续工作提供了潜在的研究方向。

CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding
Authors Eslam Mohamed Bakr, Mohamed Ayman, Mahmoud Ahmed, Habib Slim, Mohamed Elhoseiny
3D 视觉基础是根据话语定位 3D 场景中的对象的能力。大多数现有方法将引用头用于直接定位所引用的对象，在复杂场景下会导致失败。此外，它也没有说明网络如何以及为何做出最终决定。在本文中，我们解决了这个问题：我们能否设计一个可解释的 3D 视觉基础框架，该框架有可能模仿人类感知系统。为此，我们通过首先预测锚链然后预测最终目标，将 3D 视觉基础问题表述为序列到序列任务。可解释性不仅可以提高整体性能，还可以帮助我们识别失败案例。遵循思想链方法使我们能够将引用任务分解为可解释的中间步骤，从而提高性能并使我们的框架具有极高的数据效率。此外，我们提出的框架可以轻松集成到任何现有架构中。我们通过 Nr3D、Sr3D 和 Scanrefer 基准测试的综合实验验证了我们的方法，并且与现有方法相比显示出一致的性能增益，而无需手动注释数据。

DiPS: Discriminative Pseudo-Label Sampling with Self-Supervised Transformers for Weakly Supervised Object Localization
Authors Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Aydin Sarraf, Eric Granger
自监督视觉变换器 SST 已显示出巨大的潜力，可以生成丰富的定位图，突出显示图像中的不同对象。然而，这些地图仍然与类别无关，因为模型是无监督的。他们通常倾向于将图像分解为包含不同对象的多个图，同时无法将感兴趣的对象与背景噪声对象区分开。在本文中，引入了判别性伪标签采样 DiPS，以利用这些与类无关的映射来进行弱监督对象定位 WSOL，其中仅图像类标签可用。给定多个注意力图，DiPS 依靠预先训练的分类器来识别每个注意力图最具辨别力的区域。这确保了所选的 ROI 覆盖正确的图像对象，同时丢弃背景图像对象，并且因此提供丰富的多样化和有区别的建议池来覆盖对象的不同部分。随后，这些建议被用作伪标签来训练我们新的基于变压器的 WSOL 模型，该模型旨在执行分类和定位任务。与标准 WSOL 方法不同，DiPS 通过为每个任务使用变压器编码器和专用输出头来优化这两项任务的性能，每个任务都使用专用损失函数进行训练。为了避免过度拟合单个提案并促进更好的对象覆盖，在每个训练步骤中，在训练图像的顶部提案中随机选择一个提案。

DEUX: Active Exploration for Learning Unsupervised Depth Perception
Authors Marvin Chanc n, Alex Wong, Ian Abraham
深度感知模型通常在具有预定义相机轨迹的非交互式数据集上进行训练。然而，这通常会在与数据采集期间选择的特定相机路径相关的学习过程中引入系统偏差。在本文中，我们从机器人导航的角度，利用 3D 交互环境，研究了如何收集数据以完成学习深度的作用。首先，我们评估使用传统导航技术收集的数据训练的四种深度完成模型。我们的主要见解是，现有的探索范式不一定提供特定于任务的数据点来实现有效的无监督深度完成学习。然后我们发现收集的光度重建数据对模型性能有直接的积极影响。因此，我们开发了一种主动的、任务通知的、基于深度不确定性的运动规划方法来完成学习深度，我们称之为深度不确定性引导探索 DEUX。与 MP3D 测试集上的现有探索方法相比，使用我们的方法收集的数据进行训练可以在四个深度完成模型中平均提高超过 18 的深度完成度。

Layout Sequence Prediction From Noisy Mobile Modality
Authors Haichao Zhang, Yi Xu, Hongsheng Lu, Takayuki Shimizu, Yun Fu
轨迹预测在理解自动驾驶和机器人等应用的行人运动方面发挥着至关重要的作用。当前的轨迹预测模型依赖于来自视觉模态的长、完整且准确观察的序列。然而，现实世界的情况经常涉及摄像机被遮挡、物体丢失或由于环境因素而看不见物体，从而导致轨迹不完整或有噪声。为了克服这些限制，我们提出了 LTrajDiff，这是一种新颖的方法，它将被遮挡或视线之外的物体视为与具有完全可见轨迹的物体同等重要。 LTrajDiff 利用手机的传感器数据来克服视线之外的限制，尽管引入了新的挑战，例如模态融合、噪声数据以及缺乏空间布局和物体尺寸信息。我们采用去噪扩散模型，使用从粗到细的扩散策略，结合 RMS、Siamese Masked Encoding Module 和 MFM，从噪声移动数据中预测精确的布局序列。我们的模型通过从单个参考时间戳或明显受阻的序列隐式推断对象大小和投影状态来预测布局序列。我们的模型在随机阻塞实验和极短输入实验中实现了 SOTA 结果，说明了利用噪声移动数据的有效性。总之，我们的方法为现实世界中布局序列和轨迹预测模型所面临的挑战提供了一种有前景的解决方案，为利用手机传感器数据准确预测行人边界框轨迹铺平了道路。

Text-driven Prompt Generation for Vision-Language Models in Federated Learning
Authors Chen Qiu, Xingyu Li, Chaithanya Kumar Mummadi, Madan Ravi Ganesh, Zhenzhen Li, Lu Peng, Wan Yi Lin
视觉语言模型的即时学习（例如 CoOp）在使 CLIP 适应不同下游任务方面取得了巨大成功，由于计算原因，使其成为联邦学习的有前途的解决方案。现有的提示学习技术用学习向量取代了手工制作的文本提示，这些向量可以对已见的类进行改进，但很难推广到未见的类。我们的工作通过提出联合文本驱动的提示生成 FedTPG 来解决这一挑战，它以可扩展的方式跨多个远程客户端学习统一的提示生成网络。提示生成网络以任务相关的文本输入为条件，因此具有上下文感知能力，使其适合泛化已见和未见的类。

QR-Tag: Angular Measurement and Tracking with a QR-Design Marker
Authors Simeng Qiu, Hadi Amata, Wolfgang Heidrich
方向信息测量在机器人、虚拟和增强现实以及工业计算机视觉等领域有许多应用。传统方法要么需要预先校准，要么需要受控环境。最先进的 MoireTag 方法利用莫尔效应和 QR 设计来连续精确地跟踪角度位移。然而，它仍然不是一个完整的二维码设计。为了克服上述挑战，我们提出了一种新颖的快照方法，用于离散角度测量和跟踪，使用可扫描的 QR 设计图案，这些图案是由印刷在玻璃板两面的二进制结构生成的。 QR 码是由两层之间的几何对齐产生的视差效应产生的，可以使用手机摄像头轻松测量为角度信息。

Developing and Refining a Multifunctional Facial Recognition System for Older Adults with Cognitive Impairments: A Journey Towards Enhanced Quality of Life
Authors Li He
在全球人口显着老龄化的时代，老年人的认知障碍已成为主要的健康问题。对有效辅助技术的需求是显而易见的，面部识别系统正在成为解决这一问题的有前景的工具。本文件讨论了新型多功能面部识别系统 MFRS 的开发和评估，该系统专为帮助患有认知障碍的老年人而设计。 MFRS 利用人脸识别 1，这是一个功能强大的开源库，能够提取、识别和操作面部特征。我们的系统集成了人脸识别和人脸识别检索功能，以及捕捉图像和录制语音备忘录的附加功能。这种功能组合显着增强了系统的可用性和多功能性，使其成为最终用户更加用户友好且普遍适用的工具。

Quantile-based Maximum Likelihood Training for Outlier Detection
Authors Masoud Taghikhah, Nishant Kumar, Sini a egvi , Abouzar Eslami, Stefan Gumhold
判别学习可以有效地预测图像分类的真实对象类别。然而，它经常会导致异常值误报，从而在自动驾驶和视频监控系统等应用中引起严重问题。之前解决这一挑战的尝试涉及通过使用实际异常值数据的对比学习或合成异常值进行自我监督学习来训练图像分类器。此外，像素空间中的内点的无监督生成模型在离群点检测方面取得的成功有限。在这项工作中，我们引入了基于分位数的最大似然目标，用于学习内点分布，以改善推理过程中的异常值分离。我们的方法将标准化流程与预先训练的判别特征相匹配，并根据评估的对数可能性检测异常值。实验评估证明了我们方法的有效性，因为它超越了最先进的无监督异常值检测方法的性能。与最近的异常值检测自我监督方法相比，该结果也具有竞争力。

Augmenting Vision-Based Human Pose Estimation with Rotation Matrix
Authors Milad Vazan, Fatemeh Sadat Masoumi, Ruizhi Ou, Reza Rawassizadeh
健身应用程序通常用于监控健身房内的活动，但它们通常无法自动跟踪健身房内的室内活动。本研究提出了一种利用姿态估计与新颖的数据增强方法（即旋转矩阵）相结合的模型。我们的目标是提高基于姿态估计数据的活动识别的分类准确性。通过我们的实验，我们尝试了不同的分类算法以及图像增强方法。我们的研究结果表明，采用 SGD 优化的 SVM，使用旋转矩阵的数据增强，可以产生最准确的结果，在对五种身体活动进行分类时达到 96 的准确率。

DyST: Towards Dynamic Neural Scene Representations on Real-World Videos
Authors Maximilian Seitzer, Sjoerd van Steenkiste, Thomas Kipf, Klaus Greff, Mehdi S. M. Sajjadi
对世界的视觉理解超越了单个图像的语义和平面结构。在这项工作中，我们的目标是从单眼现实世界视频中捕获现实世界场景的 3D 结构和动态。我们的 Dynamic Scene Transformer DyST 模型利用神经场景表示方面的最新工作来学习单目现实世界视频潜在分解为场景内容、每个视图场景动态和相机姿势。这种分离是通过单目视频的新颖协同训练方案和我们新的合成数据集 DySO 实现的。

CoBEVFusion: Cooperative Perception with LiDAR-Camera Bird's-Eye View Fusion
Authors Donghao Qiao, Farhana Zulkernine
自动驾驶汽车使用多个传感器来收集周围环境的信息。通过在联网自动驾驶汽车 CAV 之间共享传感器数据，可以通过协作感知的概念来提高这些车辆的安全性和可靠性。然而，最近的协作感知方法仅共享单个传感器信息，例如相机或激光雷达。在这项研究中，我们探索了多个传感器数据源的融合，并提出了一个名为 CoBEVFusion 的框架，该框架融合 LiDAR 和相机数据以创建鸟瞰 BEV 表示。 CAV 在本地处理多模态数据，并利用基于双窗口的交叉注意力 DWCA 模块将 LiDAR 和相机功能融合到统一的 BEV 表示中。融合的 BEV 特征图在 CAV 之间共享，并应用 3D 卷积神经网络来聚合来自 CAV 的特征。我们的 CoBEVFusion 框架在协作感知数据集 OPV2V 上针对 BEV 语义分割和 3D 对象检测这两个感知任务进行了评估。结果表明，我们的 DWCA LiDAR 相机融合模型优于单模态数据的感知模型和最先进的 BEV 融合模型。

DynamicBEV: Leveraging Dynamic Queries and Temporal Context for 3D Object Detection
Authors Jiawei Yao, Yingxin Lai
3D 物体检测对于自动驾驶和机器人等应用至关重要。虽然 BEV 鸟瞰图像的基于查询的 3D 对象检测已经取得了显着的进步，但大多数现有方法都遵循静态查询的范例。这种范式无法适应场景中复杂的时空关系。为了解决这个问题，我们在 DynamicBEV 中引入了一种新范例，这是一种采用动态查询进行基于 BEV 的 3D 对象检测的新颖方法。与静态查询相比，所提出的动态查询以一种创造性的方式利用 K 均值聚类和 Top K Attention 来更有效地聚合来自本地和远程特征的信息，这使得 DynamicBEV 能够迭代地适应复杂的场景。为了进一步提高效率，DynamicBEV 结合了轻量级时间融合模块 LTFM，旨在实现高效的时间上下文集成并显着减少计算量。此外，定制设计的多样性损失可确保跨场景的平衡特征表示。

The Unreasonable Effectiveness of Linear Prediction as a Perceptual Metric
Authors Daniel Severo, Lucas Theis, Johannes Ball
我们展示了如何在没有训练数据或深度神经网络特征的情况下在推理时构建视觉系统的感知嵌入。我们的感知嵌入是加权最小二乘 WLS 问题的解决方案，在像素级别定义，并在推理时解决，可以捕获全局和局部图像特征。嵌入空间中的距离用于定义感知相似性度量，我们称之为 LASI 线性自回归相似性指数。在完整参考图像质量评估数据集上进行的实验表明，LASI 的性能与基于学习深度特征的方法（如 LPIPS Zhu et al., 2018 和 PIM Bhardwaj et al., 2020）相比具有竞争力，其计算成本与手工方法（如 MS SSIM Wang et al., 2020）相似。等人，2003 年。我们发现，增加嵌入空间的维度可以持续减少 WLS 损失，同时提高感知任务的性能，但代价是增加计算复杂性。 LASI 是完全可微的，随嵌入维数呈三次方缩放，并且可以在像素级并行化。

Automating global landslide detection with heterogeneous ensemble deep-learning classification
Authors Alexandra Jarna Ganer d, Gabriele Franch, Erin Lindsay, Martina Calovi
随着气候条件的变化，我们已经看到极端天气事件及其附带后果（包括山体滑坡）的增加。山体滑坡威胁基础设施，包括道路、铁路、建筑物和人类生命。基于灾害的空间规划和早期预警系统是降低山体滑坡对社会风险的具有成本效益的策略。然而，这些都依赖于以前滑坡事件的数据，而这些数据往往很少。许多深度学习深度学习模型最近已被应用于使用中高分辨率卫星图像作为输入的陆侧测绘。然而，它们经常遇到灵敏度问题、过度拟合和绘图精度低等问题。本研究通过使用多样化的全球滑坡数据集，使用不同的分割模型（例如 Unet、Linknet、PSP Net、PAN 和 DeepLab）并根据它们的性能构建集成模型来解决其中的一些限制。当组合 Sentinel 1 和 Sentinel 2 频段时，集成模型获得了最高的 F1 分数 0.69，当集成大小为 20 时，平均改进最高为 6.87。另一方面，Sentinel 2 频段的表现非常好，F1 分数

Reducing the False Positive Rate Using Bayesian Inference in Autonomous Driving Perception
Authors Johann J. S. Bastos, Bruno L. S. da Silva, Tiago Zanotelli, Cristiano Premebida, Gledson Melotti
正如该主题的大量研究工作所证明的那样，物体识别是自动驾驶和智能车辆感知系统的关键步骤。本文利用多感官和多模态方法探索物体识别，旨在降低误报率 FPR 。 FPR 的降低在感知系统中变得越来越重要，因为对象的错误分类可能会导致事故。特别是，这项工作提出了一种通过贝叶斯推理来降低 FPR 的策略，将似然函数视为来自高斯核密度估计的累积分布函数，并将先验概率视为归一化直方图的累积函数。所提出方法的验证是使用深度网络 DenseNet、NasNet 和 EfficientNet 以及最近的 3D 点云网络 PointNet 和 PintNet 在 KITTI 数据集上进行的，考虑了汽车、骑自行车的人、行人以及 RGB 和 LiDAR 传感器模式这三个对象类别

Robust and Efficient Interference Neural Networks for Defending Against Adversarial Attacks in ImageNet
Authors Yunuo Xiong, Shujuan Liu, Hongwei Xiong
对抗性图像的存在严重影响了图像识别任务和深度学习的实际应用，也是深度学习迫切需要解决的关键科学问题。到目前为止，最有效的方法是使用大量对抗性示例来训练神经网络。然而，这种对抗性训练方法应用于ImageNet时需要大量的计算资源，并且对于高强度的对抗性攻击尚未取得令人满意的结果。在本文中，我们通过应用额外的背景图像和相应的标签构建干扰神经网络，并使用预训练的ResNet 152来高效地完成训练。与PGD攻击下的state-of-the-art结果相比，它以更少的计算资源具有更好的防御效果。

Analysis of Learned Features and Framework for Potato Disease Detection
Authors Shikha Gupta, Soma Chakraborty, Renu Rameshan
对于植物病害检测等应用，通常会根据公开数据训练模型并根据现场数据进行测试。这意味着测试数据分布与训练数据分布不同，这会对分类器性能产生不利影响。我们通过确保从叶子或健康区域的病斑（如果适用）中学习特征来处理这种数据集变化。这是通过使用更快的基于区域的卷积神经网络 RCNN 作为解决方案之一和基于注意力的网络作为另一个解决方案来实现的。在与其训练数据集对应的测试集上进行评估时，这些分类器的平均分类精度约为 95。

Component attention network for multimodal dance improvisation recognition
Authors Jia Fu, Jiarui Tan, Wenjie Yin, Sepideh Pashami, M rten Bj rkman
即兴舞蹈是艺术领域一个活跃的研究课题。由于其独特的动态，即兴舞蹈的运动分析可能具有挑战性。数据驱动的舞蹈运动分析，包括识别和生成，通常仅限于骨骼数据。然而，其他形式的数据（例如音频）可以被记录并有利于下游任务。本文探讨了舞蹈即兴创作背景下人体动作识别的多模态融合方法的应用和性能。我们提出了一种基于注意力的模型，即组件注意力网络 CANet，用于三个级别的多模态融合：1 与 CANet 的特征融合，2 与 CANet 和图卷积网络 GCN 的模型融合，3 与投票策略的后期融合。我们进行彻底的实验来分析不同融合方法中每种模态的影响，并区分关键的时间或成分特征。

DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with Diffusion
Authors Se Jin Park, Joanna Hong, Minsu Kim, Yong Man Ro
语音驱动的 3D 面部动画因其能够在基于语音的 3D 空间中创建逼真且富有表现力的面部动画而受到广泛关注。基于学习的方法在实现与语音同步的准确面部运动方面取得了可喜的进展。然而，语音到 3D 面部合成的一对多性质尚未得到充分探索，而嘴唇与语音内容精确同步，除了语音相关运动之外的其他面部属性相对于语音是可变的。为了解决单个语音中面部属性的潜在差异，我们提出了 DF 3DFace，一种扩散驱动的语音到 3D 面部网格合成。 DF 3DFace 基于扩散捕获语音和 3D 人脸之间复杂的一对多关系。它通过利用音频网格同步和屏蔽调节来同时实现对齐的嘴唇运动。此外，除了面部运动之外，所提出的方法还对身份和姿势进行联合建模，以便它可以生成 3D 面部动画，而无需参考身份网格并产生自然的头部姿势。我们贡献了一个新的大规模 3D 面部网格数据集 3D HDTF，以实现 3D 面部网格的身份、姿势和面部运动变化的合成。

Deep Learning based Tomato Disease Detection and Remedy Suggestions using Mobile Application
Authors Yagya Raj Pandeya, Samin Karki, Ishan Dangol, Nitesh Rajbanshi
我们开发了一套全面的计算机系统，以帮助那些采用传统耕作方法、无法接触到农业专家来解决农作物病害的农民。我们的系统利用人工智能识别蔬菜病害并提供治疗方法。为了确保易用性，我们创建了一个移动应用程序，提供用户友好的界面，使农民能够查询蔬菜病害并以当地语言获得合适的解决方案。任何对智能手机有基本了解的农民都可以使用开发的系统。具体来说，我们设计了一款支持人工智能的移动应用程序，用于识别蔬菜病害并提出补救措施，重点关注番茄病害，以使尼泊尔当地农业社区受益。我们的系统采用最先进的对象检测方法，即 You Only Look Once YOLO 来检测番茄病害。然后检测到的信息被转发到移动应用程序，该应用程序提供领域专家指导的补救建议。为了有效地训练我们的系统，我们整理了一个由十类番茄病害组成的数据集。我们利用各种数据增强方法来解决过度拟合问题，并训练了 YOLOv5 目标检测器。所提出的方法实现了 0.76 的平均精度，并为与 AI 系统交互提供了高效的移动界面。

NECO: NEural Collapse Based Out-of-distribution detection
Authors Mou n Ben Ammar, Nacim Belkhir, Sebastian Popescu, Antoine Manzanera, Gianni Franchi
由于模型过度自信，并且通常没有意识到其认识论的局限性，检测分布外的 OOD 数据是机器学习中的一个关键挑战。我们假设神经崩溃（一种影响超出损失收敛训练的模型的分布数据的现象）也会影响 OOD 数据。为了从这种相互作用中受益，我们引入了 NECO，一种用于 OOD 检测的新颖事后方法，它利用神经崩溃和主成分空间的几何特性来识别 OOD 数据。我们广泛的实验表明，NECO 在小型和大规模 OOD 检测任务上均取得了最先进的结果，同时在不同的网络架构中展现了强大的泛化能力。此外，我们还为我们的方法在 OOD 检测中的有效性提供了理论解释。

Neural Bounding
Authors Wenxin Liu, Michael Fischer, Paul D. Yoo, Tobias Ritschel
包围体是计算机图形和视觉任务中的一个既定概念，但自诞生以来几乎没有变化。在这项工作中，我们研究了神经网络作为包围体的使用。我们的主要观察结果是，迄今为止主要被认为是计算几何问题的边界可以被重新定义为学习将空间分类为自由和空的问题。这种基于学习的方法在高维空间中特别有利，例如具有复杂查询的动画场景，众所周知，神经网络在高维空间中表现出色。然而，解锁神经边界需要进行一些调整，允许但也限制误报，同时确保误报的数量严格为零。我们使用动态加权的不对称损失函数来实现如此严格和保守的结果。

Multi-domain improves out-of-distribution and data-limited scenarios for medical image analysis
Authors Ece Ozkan, Xavier Boix
当前用于医学图像分析的机器学习方法主要侧重于开发针对特定任务量身定制的模型，利用目标领域内的数据。这些专门的模型往往需要大量数据，并且在推广到分布样本外时常常表现出局限性。最近，人们提出了基础模型，它结合了来自各个领域的数据并表现出了出色的泛化能力。在此基础上，这项工作介绍了不同医学图像领域的结合，包括不同的成像模式，如 X 射线、MRI、CT 和超声图像，以及各种视点，如轴向、冠状和矢状视图。我们将这种方法称为多域模型，并将其性能与专用模型的性能进行比较。我们的研究结果强调了多领域模型的卓越泛化能力，特别是在医疗保健应用程序中经常遇到的数据可用性有限和分布不均的情况下。不同数据的集成允许多域模型利用跨域的共享信息，从而显着提高整体结果。

Domain Generalization by Rejecting Extreme Augmentations
Authors Masih Aminbeidokhti, Fidel A. Guerrero Pe a, Heitor Rapela Medeiros, Thomas Dubail, Eric Granger, Marco Pedersoli
数据增强是规范深度学习模型并提高其在各种任务和领域中的识别性能的最有效技术之一。然而，这适用于域设置中的标准，其中训练和测试数据遵循相同的分布。对于域外情况，测试数据遵循不同且未知的分布，数据增强的最佳方法尚不清楚。在本文中，我们表明，对于域外和域泛化设置，数据增强可以提供显着且稳健的性能改进。为此，我们提出了一个简单的训练过程，i 对标准数据增强变换使用均匀采样，ii 增加强度变换，以考虑域外工作时预期的更高数据方差，以及 iii 设计一个新的奖励函数来拒绝极端变换，会损害训练。通过这个过程，我们的数据增强方案达到了与基准域泛化数据集上最先进的方法相当或更好的精度水平。

Latent Diffusion Counterfactual Explanations
Authors Karim Farid, Simon Schrodi, Max Argus, Thomas Brox
反事实解释已成为阐明不透明黑盒模型行为的一种有前途的方法。最近，一些作品利用像素空间扩散模型进行反事实生成。为了处理反事实生成过程中的噪声、对抗性梯度，导致不切实际的伪影或纯粹的对抗性扰动，他们需要辅助的对抗性鲁棒模型或计算密集型指导方案。然而，此类要求限制了它们的适用性，例如在模型训练数据访问受限的场景中。为了解决这些限制，我们引入了潜在扩散反事实解释 LDCE 。 LDCE 利用最新的类或文本条件基础潜在扩散模型的功能来加速反事实生成并专注于数据的重要语义部分。此外，我们提出了一种新颖的共识指导机制来过滤掉与扩散模型的隐式分类器不一致的噪声、对抗性梯度。我们在具有不同学习范式的不同数据集上训练的各种模型中展示了 LDCE 的多功能性。

Evaluating Explanation Methods for Vision-and-Language Navigation
Authors Guanqi Chen, Lei Yang, Guanhua Chen, Jia Pan
在未知环境中使用自然语言指令导航机器人的能力是实现具体人工智能AI的关键一步。随着视觉和语言导航 VLN 领域提出的深度神经模型性能的提高，了解模型在导航任务中利用哪些信息进行决策同样有趣。为了理解深度神经模型的内部工作原理，人们开发了各种解释方法来促进可解释的 AI XAI。但它们主要应用于图像或文本分类任务的深度神经模型，并且在解释 VLN 任务的深度神经模型方面所做的工作很少。在本文中，我们通过建立定量基准来评估 VLN 模型解释方法的可信度来解决这些问题。我们提出了一种新的基于擦除的评估管道来衡量顺序决策设置中的逐步文本解释。

Deep Cardiac MRI Reconstruction with ADMM
Authors George Yiasemis, Nikita Moriakov, Jan Jakob Sonke, Jonas Teuwen
心脏磁共振成像是识别心血管疾病的重要非侵入性工具。例如，电影 MRI 是评估心脏功能和解剖结构的基准模式。另一方面，多重对比 T1 和 T2 映射有可能评估心肌和间质的病理和异常。然而，自主屏气和经常出现的心律失常，再加上 MRI 成像速度慢，可能会导致运动伪影，从而影响实时采集图像质量。虽然执行加速采集可以促进动态成像，但它会引起混叠，导致电影 MRI 中重建图像质量低以及 T1 和 T2 映射估计不准确。在这项工作中，受到加速 MRI 重建相关工作的启发，我们提出了一种基于深度学习 DL 的方法，用于动态心脏成像背景下的加速电影和多对比重建。我们将重建问题表述为最小二乘正则化优化任务，并采用 vSHARP，这是一种最先进的基于深度学习的逆问题求解器，它结合了半二次变量分裂和乘法器与神经网络的交替方向方法。我们通过两种设置（2D 重建和 2D 动态重建任务）来处理该问题，并分别采用 2D 和 3D 深度学习网络。我们的方法在图像和 k 空间域中进行了优化，从而实现了高重建保真度。尽管目标数据是使用笛卡尔等距方案欠采样的，但我们使用笛卡尔和模拟非笛卡尔欠采样方案来训练我们的模型，以增强模型对不可见数据的泛化。此外，我们的模型采用深度神经网络来学习和细化多线圈 k 空间数据的灵敏度图。

What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models
Authors Letian Zhang, Xiaotong Zhai, Zhongkai Zhao, Xin Wen, Yongshuo Zong, Bingchen Zhao
反事实推理能力是人类智力的核心能力之一。这个推理过程涉及对观察到的状态或过去事件的替代方案的处理，这个过程可以提高我们的计划和决策能力。在这项工作中，我们专注于对多模态大语言模型的反事实推理能力进行基准测试。我们从 VQAv2 数据集中获取问题和答案对，并向问题添加一个反事实预设，并对答案进行相应修改。使用 ChatGPT 生成反事实问题和答案后，我们手动检查所有生成的问题和答案以确保正确性。通过这种方式收集了超过 2k 个反事实问题和答案对。我们在新收集的测试数据集上评估了最新的视觉语言模型，发现与在没有反事实预设的问题上测试的结果相比，所有模型都表现出很大的性能下降。这一结果表明视觉语言模型仍然存在发展空间。除了视觉语言模型之外，我们提出的数据集还可以作为评估代码生成LLM能力的基准，结果表明GPT 4与当前开源模型之间存在巨大差距。

V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric Heterogenous Distillation Network
Authors Caizhen He, Hai Wang, Long Chen, Tong Luo, Yingfeng Cai
物体检测是智能交通系统的核心问题，基于单车激光雷达的 3D 检测的最新进展表明它可以为智能代理做出决策和规划提供准确的位置信息。与单车感知相比，多视车路协同感知具有消除盲点、感知范围更广等根本性优势，已成为研究热点。然而，当前的合作认知侧重于提高融合的复杂性，而忽视了由于缺乏单一视图轮廓而导致的根本问题。我们提出了一种多视图车辆道路协作感知系统，即车辆到万物协作感知V2X AHD，以增强识别能力，特别是预测车辆形状。首先，我们提出了一种使用不同训练数据输入的非对称异构蒸馏网络，以提高轮廓识别的准确性，将多视图教师特征转移到单视图学生特征。虽然点云数据稀疏，我们提出了 Spara Pillar，一种基于备用卷积的特征提取主干插件，以减少参数数量并改进和增强特征提取能力。此外，我们利用多头自注意力MSA来融合单视图特征，轻量级的设计使得融合特征能够平滑地表达。将我们的算法应用于大规模开放数据集 V2Xset 的结果表明，我们的方法达到了最先进的结果。这项研究表明，V2X AHD 可以有效提高 3D 物体检测的准确性，并减少网络参数的数量，为协作感知提供了基准。

Pi-DUAL: Using Privileged Information to Distinguish Clean from Noisy Labels
Authors Ke Wang, Guillermo Ortiz Jimenez, Rodolphe Jenatton, Mark Collier, Efi Kokiopoulou, Pascal Frossard
标签噪声是深度学习中普遍存在的问题，通常会影响训练模型的泛化性能。最近，利用仅在训练期间而非测试时可用的特权信息 PI 信息已成为缓解此问题的有效方法。然而，现有的基于 PI 的方法在防止过度拟合标签噪声方面未能始终优于无 PI 的方法。为了解决这个缺陷，我们引入了 Pi DUAL，这是一种旨在利用 PI 来区分干净标签和错误标签的架构。 Pi DUAL 将输出 logits 分解为基于传统输入特征的预测项和仅受 PI 影响的噪声拟合项。由 PI 控制的门控机制自适应地在这些术语之间转移焦点，使模型能够隐式分离干净标签和错误标签的学习路径。根据经验，Pi DUAL 在关键 PI 基准上实现了显着的性能改进，例如 ImageNet PI 上的 6.8，建立了新的最先进的测试集精度。此外，Pi DUAL 是一种在训练后识别噪声样本的有效方法，在这项任务中优于其他强大的方法。

Energy-Efficient Visual Search by Eye Movement and Low-Latency Spiking Neural Network
Authors Yunhui Zhou, Dongqi Han, Yuguo Yu
人类视觉融合了非均匀分辨率的视网膜、高效的眼动策略和尖峰神经网络SNN，以平衡视野大小、视觉分辨率、能量成本和推理延迟的要求。这些特性激发了人们对开发类人计算机视觉的兴趣。然而，现有模型尚未完全融入人类视觉的三个特征，并且其学习到的眼动策略尚未与人类的策略进行比较，使得模型的行为难以解释。在这里，我们进行了实验来检查人类视觉搜索行为并建立第一个基于 SNN 的视觉搜索模型。该模型将人工视网膜与尖峰特征提取、记忆和扫视决策模块相结合，并采用群体编码来实现快速高效的扫视决策。该模型可以学习类似人类或接近最佳的注视策略，在搜索速度和准确性方面优于人类，并通过短扫视决策延迟和稀疏激活实现高能量效率。它还表明人类搜索策略在搜索速度方面并不是最优的。

Efficient Retrieval of Images with Irregular Patterns using Morphological Image Analysis: Applications to Industrial and Healthcare datasets
Authors Jiajun Zhang, Georgina Cosma, Sarah Bugby, Jason Watkins
图像检索是根据图像的视觉内容和特征从数据库中搜索和检索图像的过程。最近，人们越来越关注通过从图像中提取特征来检索工业或医学图像中的不规则图案，例如深度特征、基于颜色的特征、基于形状的特征和局部特征。这在多个行业都有应用，包括故障检查、疾病诊断和维护预测。本文提出了一种图像检索框架，通过从图像中提取一组形态特征 DefChars 来搜索包含相似不规则图案的图像。本文使用的数据集包含有缺陷的风力涡轮机叶片图像、感染了 COVID 19 的胸部计算机断层扫描图像、散热器图像有缺陷和湖冰图像。使用不同的特征提取方法 DefChars、调整原始图像大小、局部二进制模式以及尺度不变特征变换和距离度量来评估所提出的框架，以确定跨数据集检索性能的最有效参数。检索结果表明，所提出的使用 DefChars 和曼哈顿距离度量的框架在不规则模式类别中实现了 80 的平均精度和 0.09 的低标准偏差，在所有数据集中优于替代特征度量组合。

Data efficient deep learning for medical image analysis: A survey
Authors Suruchi Kumari, Pravendra Singh
深度学习的快速发展极大地推进了医学图像分析领域的发展。然而，尽管取得了这些成就，但由于缺乏大型且注释良好的数据集，进一步增强用于医学图像分析的深度学习模型仍面临重大挑战。为了解决这个问题，近年来人们越来越重视数据高效深度学习方法的开发。本文对用于医学图像分析的数据高效深度学习方法进行了彻底的回顾。为此，我们根据这些方法所依赖的监督程度对这些方法进行分类，包括无监督、不精确监督、不完全监督、不准确监督和仅有限监督等类别。我们进一步将这些类别划分为更精细的子类别。例如，我们将不精确监督分为多实例学习和弱注释学习。同样，我们将不完全监督分为半监督学习、主动学习和领域自适应学习等。

Be Careful What You Smooth For: Label Smoothing Can Be a Privacy Shield but Also a Catalyst for Model Inversion Attacks
Authors Lukas Struppek, Dominik Hintersdorf, Kristian Kersting
使用软标签代替硬标签的标签平滑是深度学习中广泛采用的正则化方法，具有增强泛化和校准等多种好处。然而，它对保护模型隐私的影响尚未得到探索。为了填补这一空白，我们研究了标签平滑对模型反转攻击 MIA 的影响，MIA 旨在通过利用分类器中编码的知识来生成类代表性样本，从而推断有关其训练数据的敏感信息。通过广泛的分析，我们发现传统的标签平滑会促进 MIA，从而增加模型的隐私泄露。更重要的是，我们发现，使用负面因素进行平滑可以抵消这种趋势，阻碍与类别相关的信息的提取，并导致隐私保护，击败最先进的防御措施。

Watt For What: Rethinking Deep Learning's Energy-Performance Relationship
Authors Shreyank N Gowda, Xinyue Hao, Gen Li, Laura Sevilla Lara, Shashank Narayana Gowda
深度学习模型实现了前所未有的准确度，彻底改变了从图像识别到自然语言处理的各个领域。然而，它们不断增加的能源消耗引起了人们对其环境影响的担忧，使较小的实体在研究中处于不利地位，并加剧了全球能源消耗。在本文中，我们探讨了模型准确性和电力消耗之间的权衡，提出了一种惩罚大量电力消耗的指标。我们对不同 GPU 上的各种深度学习模型的电力消耗进行了全面研究，对其准确性和效率权衡进行了详细分析。通过评估每单位耗电量的准确性，我们展示了更小、更节能的模型如何能够显着加快研究速度，同时减轻环境问题。我们的结果凸显了更可持续的深度学习方法的潜力，强调了优化模型以提高效率的重要性。这项研究还有助于建立更公平的研究环境，使较小的实体可以与较大的同行进行有效竞争。

SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network
Authors Tianlong Li, Wenhao Liu, Changze Lv, Jianhan Xu, Cenyuan Zhang, Muling Wu, Xiaoqing Zheng, Xuanjing Huang
尖峰神经网络 SNN 已证明能够在视觉和语言领域实现与深度神经网络 DNN 相当的性能，同时具有提高能源效率和遵守生物学合理性的优势。然而，将这种单模态 SNN 扩展到多模态场景领域仍然是一个尚未探索的领域。受到对比语言图像预训练 CLIP 概念的启发，我们引入了一种名为 SpikeCLIP 的新颖框架，通过涉及对齐预训练双损失微调的两步配方来解决基于尖峰计算的背景下两种模式之间的差距。大量实验表明，SNN 取得了与 DNN 同类产品相当的结果，同时显着降低了常用于多模态模型评估的各种数据集的能耗。

Topological RANSAC for instance verification and retrieval without fine-tuning
Authors Guoyuan An, Juhyung Seon, Inkyu An, Yuchi Huo, Sung Eui Yoon
本文提出了一种增强可解释图像检索的创新方法，特别是在微调集不可用的情况下。广泛使用的空间验证SP方法尽管有效，但依赖于空间模型和实例识别的假设检验策略，导致固有的局限性，包括平面结构的假设和忽略特征之间的拓扑关系。为了解决这些缺点，我们引入了一种开创性技术，在 RANSAC 过程中用拓扑模型取代空间模型。我们提出了受生物启发的扫视和中央凹函数来验证特征之间的拓扑一致性，有效地规避了与 SP 空间模型相关的问题。我们的实验结果表明，我们的方法显着优于 SP，在非微调检索中实现了最先进的性能。此外，当与微调功能结合使用时，我们的方法可以提高性能。

Retromorphic Testing: A New Approach to the Test Oracle Problem
Authors Boxi Yu, Qiuyang Mang, Qingshuo Guo, Pinjia He
测试预言机充当评估软件输出与给定输入集的预期行为之间的对应关系的标准或机制。在自动化测试中，黑盒技术以其在测试预言构建中的非侵入性而闻名，被广泛使用，包括著名的方法，如差异测试和变形测试。受反函数数学概念的启发，我们提出了逆向测试，一种新颖的黑盒测试方法。它利用辅助程序与被测程序结合，建立由前向程序和后向程序组成的双程序结构。输入数据首先由前向程序处理，然后使用后向程序将其程序输出反转为其原始输入格式。特别是，辅助程序可以作为前向程序或后向程序运行，从而导致不同的测试模式。该过程通过检查输入域内的初始输入和转换后的输出之间的关系来结束。例如，为了测试正弦函数 sin x 的实现，我们可以使用其反函数 arcsin x ，并验证等式 x sin arcsin x 2k pi , forall k in mathbb Z 。

Conformal Prediction for Deep Classifier via Label Ranking
Authors Jianguo Huang, Huajun Xi, Linjun Zhang, Huaxiu Yao, Yue Qiu, Hongxin Wei
保形预测是一种统计框架，可生成包含具有所需覆盖保证的地面真实标签的预测集。机器学习模型产生的预测概率通常是错误校准的，导致保形预测中的预测集很大。在本文中，我们从经验和理论上表明，忽略概率值将减轻错误校准概率值的不良影响。然后，我们提出了一种名为 textit 排序自适应预测集 SAPS 的新算法，该算法丢弃除最大 softmax 概率之外的所有概率值。 SAPS 背后的关键思想是最大限度地减少不合格分数对概率值的依赖性，同时保留不确定性信息。通过这种方式，SAPS 可以生成小规模的集合并传达实例方面的不确定性。理论上，我们提供了 SAPS 的有限样本覆盖保证，并表明 SAPS 的集合大小的期望值始终小于 APS。

3DS-SLAM: A 3D Object Detection based Semantic SLAM towards Dynamic Indoor Environments
Authors Ghanta Sai Krishna, Kundrapu Supriya, Sabur Baidya
环境中可变因素的存在可能会导致相机定位精度下降，因为它违反了同步定位和建图 SLAM 算法中静态环境的基本假设。最近针对动态环境的语义 SLAM 系统要么仅依赖于 2D 语义信息，要么仅依赖于几何信息，或者以松散集成的方式组合它们的结果。在这篇研究论文中，我们介绍了 3DS SLAM（3D 语义 SLAM），专为具有视觉 3D 对象检测的动态场景而定制。 3DS SLAM 是一种紧密耦合的算法，可依次解决语义和几何约束。我们设计了一个 3D 零件感知混合变压器，用于基于点云的对象检测来识别动态对象。随后，我们提出了一种基于 HDBSCAN 聚类的动态特征过滤器来提取具有显着绝对深度差异的对象。与 ORB SLAM2 相比，3DS SLAM 在 TUM RGB D 数据集的动态序列上平均提高了 98.01。

Leveraging Diffusion-Based Image Variations for Robust Training on Poisoned Data
Authors Lukas Struppek, Martin B. Hentschel, Clifton Poth, Dominik Hintersdorf, Kristian Kersting
后门攻击对训练神经网络构成严重的安全威胁，因为它们偷偷地将隐藏的功能引入模型中。此类后门在对干净输入进行推理期间保持沉默，由于不显眼的行为而逃避检测。然而，一旦输入数据中出现特定的触发模式，后门就会激活，导致模型执行其隐藏的功能。通过手动检查在海量数据集中检测此类中毒样本实际上是不可能的。为了应对这一挑战，我们提出了一种新方法，可以利用最新扩散模型的力量对可能中毒的数据集进行模型训练。具体来说，我们创建所有训练样本的综合变体，利用扩散模型固有的弹性来触发数据中的潜在触发模式。

Adversarial Masked Image Inpainting for Robust Detection of Mpox and Non-Mpox
Authors Yubiao Yue, Zhenzhang Li
由于缺乏高效的MPOX诊断技术，MPOX病例持续增加。最近，深度学习模型在检测 MPOX 和非 MPOX 方面的巨大潜力已被证明。然而，现有模型通过图像分类来学习图像表示，这导致它们可能很容易受到现实世界噪声的干扰，需要多样化的非mpox图像，并且无法检测异常输入。这些缺点使得分类模型在现实世界中不适用。为了应对这些挑战，我们提出了 Mask、Inpainting 和 Measure MIM。在 MIM 的管道中，生成对抗网络仅通过修复屏蔽的 mpox 图像来学习 mpox 图像表示。然后，MIM通过测量修复图像与原始图像之间的相似度来确定输入是否属于mpox。潜在的直觉是，由于 MIM 仅对 mpox 图像进行建模，因此它很难在现实世界设置中准确修复非 mpox 图像。 MIM 在不利用任何非 mpox 图像的情况下，巧妙地检测 mpox 和非 mpox，并可以处理异常输入。我们使用公认的 mpox 数据集 MSLD 和 18 种非 mpox 皮肤病的图像来验证 MIM 的有效性和鲁棒性。实验结果表明，MIM的平均AUROC达到0.8237。此外，我们还论证了分类模型的缺点，并通过临床验证增强了 MIM 的潜力。最后，我们开发了一款在线智能手机应用程序，为受影响地区的公众提供免费检测。

Three-Dimensional Medical Image Fusion with Deformable Cross-Attention
Authors Lin Liu, Xinxin Fan, Chulong Zhang, Jingjing Dai, Yaoqin Xie, Xiaokun Liang
多模态医学图像融合在医学图像处理的多个领域发挥着重要作用，特别是在疾病识别和肿瘤检测方面。传统的融合方法倾向于在组合特征并重建融合图像之前独立处理每种模态。然而，这种方法常常忽视多模态信息之间的基本共性和差异。此外，流行的方法很大程度上局限于融合二维 2D 医学图像切片，导致融合图像中缺乏上下文监督，从而导致医生相对于三维 3D 图像的信息产量降低。在本研究中，我们引入了一种创新的无监督特征互学习融合网络，旨在纠正这些局限性。我们的方法采用了可变形交叉特征混合 DCFB 模块，该模块有助于双模态辨别各自的相似点和差异。我们已将我们的模型应用于从阿尔茨海默病神经影像倡议 ADNI 数据集中的 660 名患者获得的 3D MRI 和 PET 图像的融合。通过 DCFB 模块的应用，我们的网络生成高质量的 MRI PET 融合图像。实验结果表明，我们的方法在峰值信噪比 PSNR 和结构相似性指数测量 SSIM 等性能指标上超越了传统的 2D 图像融合方法。重要的是，我们的方法融合 3D 图像的能力增强了医生和研究人员可用的信息，从而标志着该领域向前迈出了重要一步。

MuseChat: A Conversational Music Recommendation System for Videos
Authors Zhikang Dong, Bin Chen, Xiulong Liu, Pawel Polak, Peng Zhang
我们推出 MuseChat，一种基于对话的创新音乐推荐系统。这个独特的平台不仅提供交互式用户参与，还建议为输入视频量身定制的音乐，以便用户可以完善和个性化他们的音乐选择。相比之下，以前的系统主要强调内容兼容性，常常忽视用户个人偏好的细微差别。例如，所有数据集仅提供基本的音乐视频配对或此类与文本音乐描述的配对。为了解决这一差距，我们的研究提供了三项贡献。首先，我们设计了一种对话合成方法，模拟用户和推荐系统之间的两轮交互，该方法利用预先训练的音乐标签和艺术家信息。在这种交互中，用户向系统提交视频，然后系统会建议一首合适的音乐作品并给出理由。随后，用户传达自己的音乐偏好，系统会根据推理给出精致的音乐推荐。其次，我们引入了一种多模式推荐引擎，它可以通过将音乐与视频中的视觉提示对齐，或者通过协调视觉信息、先前推荐的音乐的反馈以及用户的文本输入来匹配音乐。第三，我们使用大型语言模型 Vicuna 7B 连接音乐表示和文本数据。这种一致性使 MuseChat 能够以类似于人类交流的方式提供音乐推荐及其潜在推理。

HydraViT: Adaptive Multi-Branch Transformer for Multi-Label Disease Classification from Chest X-ray Images
Authors aban zt rk, M. Yi it Tural , Tolga ukur
胸部 X 光检查对肺部病理异常具有高度敏感性，是识别胸部疾病的重要诊断工具。然而，由于病理的大小和位置的异质性，以及视觉相似性和单独病理的共现，图像驱动的诊断仍然具有挑战性。由于疾病相关区域通常占据诊断图像的相对较小部分，因此基于传统卷积神经网络 CNN 的分类模型由于其局部性偏差而受到不利影响。虽然 CNN 之前通过注意图或空间掩模进行了增强，以引导对潜在关键区域的关注，但在病理学空间分布异质性下学习定位指导具有挑战性。为了提高多标签分类性能，我们在这里提出了一种新方法 HydraViT，它将变压器主干与具有学习权重的多分支输出模块协同结合。 Transformer 主干增强了对 X 射线图像中长距离上下文的敏感性，同时使用自注意力机制自适应地关注任务关键区域。多分支输出模块为每个疾病标签指定一个独立分支，以实现跨不同疾病类别的稳健学习，以及跨标签的聚合分支以保持对病理学之间共现关系的敏感性。

Factorized Tensor Networks for Multi-Task and Multi-Domain Learning
Authors Yash Garg, Nebiyou Yismaw, Rakib Hyder, Ashley Prater Bennette, M. Salman Asif
多任务和多领域学习方法寻求使用单个统一网络联合或相继学习多个任务领域。关键的挑战和机遇是利用跨任务和域的共享信息来提高统一网络的效率。效率可以体现在准确性、存储成本、计算或样本复杂性方面。在本文中，我们提出了一种因式分解张量网络 FTN，其精度可以与具有少量附加参数的独立单任务域网络相当。 FTN 使用来自源模型的冻结骨干网络，并逐步将任务域特定的低秩张量因子添加到共享冻结网络中。这种方法可以适应大量的目标领域和任务，而不会发生灾难性的遗忘。此外，与现有方法相比，FTN 需要的任务特定参数数量要少得多。我们在广泛使用的多领域和多任务数据集上进行了实验。我们展示了基于不同主干的基于卷积的架构和基于变压器的架构的实验。

Advancing Diagnostic Precision: Leveraging Machine Learning Techniques for Accurate Detection of Covid-19, Pneumonia, and Tuberculosis in Chest X-Ray Images
Authors Aditya Kulkarni, Guruprasad Parasnis, Harish Balasubramanian, Vansh Jain, Anmol Chokshi, Reena Sonkusare
COVID 19、结核病和肺炎等肺部疾病仍然是严重的全球健康问题，影响着全世界数百万人。在医疗实践中，胸部 X 光检查已成为诊断疾病的标准，尤其是 COVID 19 等胸部感染。护理人员和科学家正在加紧工作，为 COVID 19 的早期诊断创建可靠且精确的方法，以挽救生命。但由于症状多种多样，这些疾病的医学诊断面临着特殊的困难。为了成功治疗和预防这些疾病，必须解决它们的识别和及时诊断问题。在这项研究中，提出了一种使用最先进的深度学习和图像处理方法的多类分类方法。该方法考虑了系统的鲁棒性和效率，以提高胸部疾病的诊断精度。建议将全新的卷积神经网络 CNN 与几种迁移学习预训练模型（包括 VGG19、ResNet、DenseNet、EfficientNet 和 InceptionNet）进行比较。使用公开且广泛使用的研究数据集（例如 Shenzen、Montogomery、多类 Kaggle 数据集和 NIH 数据集）来严格测试该模型。召回率、精度、F1 分数和曲线下面积 AUC 分数用于评估和比较所提出模型的性能。使用所提出的网络获得的 COVID 19 的 AUC 值为 0.95，TB 的 AUC 值为 0.99，肺炎的 AUC 值为 0.98。

Data Augmentation through Pseudolabels in Automatic Region Based Coronary Artery Segmentation for Disease Diagnosis
Authors Sandesh Pokhrel, Sanjay Bhandari, Eduard Vazquez, Yash Raj Shrestha, Binod Bhattarai
冠状动脉疾病冠心病虽然可以预防，但却是导致死亡和残疾的主要原因之一。这些疾病的诊断通常很困难并且需要大量资源。血管造影图像中的动脉分割已发展成为一种辅助工具，帮助临床医生做出准确的诊断。然而，由于数据量有限且整理数据集的困难，分割任务被证明具有挑战性。在本研究中，我们介绍了使用伪标签作为数据增强技术来提高基线 Yolo 模型性能的想法。

Automated Chest X-Ray Report Generator Using Multi-Model Deep Learning Approach
Authors Arief Purnama Muharram, Hollyana Puteri Haryono, Abassi Haji Juma, Ira Puspasari, Nugraha Priya Utama
阅读和解读胸部 X 光图像是放射科医生最常做的事情之一。然而，即使对于最有经验的人来说，这仍然具有挑战性。因此，我们提出了一种基于多模型深度学习的自动化胸部 X 射线报告生成系统，旨在协助放射科医生的工作。该系统的基本思想是利用多个二元分类模型来检测多个异常，每个模型负责检测单个图像中的一个异常。在本研究中，我们将放射学异常检测仅限于心脏扩大、肺积液和实变。该系统通过执行以下三个步骤来生成放射学报告：图像预处理、利用深度学习模型检测异常并生成报告。图像预处理步骤的目的是通过将输入缩放至 128x128 像素并将其切成三段（覆盖肺部的上部、下部和中部）来标准化输入。预处理后，每个相应的模型对图像进行分类，0 0 表示未检测到异常，1 1 表示存在异常。然后将每个模型的预测输出连接起来形成结果代码。结果代码用于通过在报告生成步骤中为每个检测到的异常选择适当的预定句子来构建报告。

Variational Imbalanced Regression: Fair Uncertainty Quantification via Probabilistic Smoothing
Authors Ziyan Wang, Hao Wang
当标签分布不平衡时，现有的回归模型往往在准确性和不确定性估计方面都存在不足。在本文中，我们提出了一种概率深度学习模型，称为变分不平衡回归 VIR，它不仅在不平衡回归中表现良好，而且自然地产生合理的不确定性估计作为副产品。与假设 I.I.D 的典型变分自编码器不同。数据点的表示不会直接受到其他数据点的影响，我们的VIR借用具有相似回归标签的数据来计算潜在表示的变分分布此外，与产生点估计的确定性回归模型不同，VIR预测整个正态逆伽玛分布并调制相关的共轭分布以对不平衡数据进行概率重新加权，从而提供更好的不确定性估计。在多个现实世界数据集中进行的实验表明，我们的 VIR 在准确性和不确定性估计方面都优于最先进的不平衡回归模型。

EndoMapper dataset of complete calibrated endoscopy procedures
Authors Pablo Azagra, Carlos Sostres, ngel Ferrandez, Luis Riazuelo, Clara Tomasini, Oscar Le n Barbed, Javier Morlana, David Recasens, Victor M. Batlle, Juan J. G mez Rodr guez, Richard Elvira, Julia L pez, Cristina Oriol, Javier Civera, Juan D. Tard s, Ana Cristina Murillo, Angel Lanas, Jos M.M. Montiel
计算机辅助系统正在医学领域得到广泛应用。在内窥镜检查中，大多数研究集中在息肉或其他病变的自动检测上，但内窥镜的定位和导航完全由医生手动执行。为了扩大这项研究并将空间人工智能引入内窥镜检查，需要来自完整程序的数据。本文介绍了 Endomaper 数据集，这是在常规医疗实践中获得的完整内窥镜序列的第一个集合，对医疗数据进行了二次利用。其主要目的是促进真实内窥镜数据中视觉同步定位和建图 VSLAM 方法的开发和评估。该数据集包含超过 24 小时的视频。这是第一个包含内窥镜校准以及原始校准视频的内窥镜数据集。与数据集相关的元数据和注释因解剖标志、程序标记、分割、重建、具有基本事实的模拟序列和相同的患者程序而异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com