【AI视野·今日CV 计算机视觉论文速览第273期】Mon, 23 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 23 Oct 2023
Totally 73 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Using Human-like Mechanism to Weaken Effect of Pre-training Weight Bias in Face-Recognition Convolutional Neural Network
Authors Haojiang Ying, Yi Fan Li, Yiyang Chen
卷积神经网络CNN作为人工智能中的重要模型，在不同学科中得到了广泛的应用和研究。由于 CNN 的复杂性，其计算机制尚未完全揭示。在这项研究中，我们重点研究了 4 个广泛研究的 CNN AlexNet、VGG11、VGG13 和 VGG16，神经科学家已将它们作为类人模型进行了分析，并提供了充足的证据。我们通过迁移学习训练这些 CNN 来执行情感效价分类任务。将它们的性能与人类数据进行比较，数据显示这些 CNN 的性能部分与人类相同。然后，我们使用基于神经科学和行为数据的自注意力机制来更新基于对象的 AlexNet。更新后的 FE AlexNet 的性能优于所有其他经过测试的 CNN，并且非常类似于人类的感知。结果进一步揭示了这些 CNN 的计算机制。

ManifoldNeRF: View-dependent Image Feature Supervision for Few-shot Neural Radiance Fields
Authors Daiju Kanaoka, Motoharu Sonogashira, Hakaru Tamukoh, Yasutomo Kawanishi
随着神经辐射场 NeRF 的出现，新颖的视图合成最近取得了重大进展。 DietNeRF 是 NeRF 的扩展，旨在通过针对没有输入图像的未知视点引入新的损失函数，仅用少量图像来实现此任务。损失函数假设即使输入图像是在不同视点捕获的，预训练的特征提取器也应该输出相同的特征，因为图像包含相同的对象。然而，虽然该假设是理想的，但实际上，众所周知，随着视点的不断变化，特征向量也会不断变化。因此，这种假设可能会损害训练。为了避免这种有害的训练，我们提出了 ManifoldNeRF，一种使用相邻已知视点的插值特征来监督未知视点的特征向量的方法。由于该方法通过插值特征为每个未知视点提供适当的监督，因此比 DietNeRF 更好地学习体积表示。实验结果表明，该方法在复杂场景中比其他方法表现更好。我们还从一组视点中尝试了几个视点子集，并为真实环境确定了一组有效的视点。这为现实世界的应用提供了视点模式的基本策略。

Deep-Learning-based Change Detection with Spaceborne Hyperspectral PRISMA data
Authors J.F. Amieva, A. Austoni, M.A. Brovelli, L. Ansalone, P. Naylor, F. Serva, B. Le Saux
变化检测 CD 方法已应用于光学数据数十年，而具有精细光谱分辨率的高光谱数据的使用却很少被探索。 CD应用于多个领域，例如环境监测和灾害管理。得益于 PREcursore IperSpettrale della Missione operativA PRISMA，现在可以从太空 CD 进行高光谱分析。在这项工作中，我们将标准和深度学习 DL CD 方法应用于从自然区域到城市区域的不同目标。我们提出了一个从配准开始的管道，然后是具有全谱算法的 CD 和为光学数据开发的 DL 网络。我们发现植被和建筑环境的变化被很好地捕捉到。

What you see is what you get: Experience ranking with deep neural dataset-to-dataset similarity for topological localisation
Authors Matthew Gadd, Benjamin Ramtoula, Daniele De Martini, Paul Newman
回忆用于定位的最相关的视觉记忆或先验地理解针对特定视觉记忆的定位工作的可能结果对于高效且稳健的视觉导航是有用的。此问题的解决方案应与针对真实情况的绩效评估分开，因为这在运行时不可用，并且理想情况下应基于可概括的环境观察。为此，我们建议应用最近开发的 Visual DNA 作为高度可扩展的工具，用于比较本作品中的图像数据集、地图序列和现场体验。在本地化的情况下，影响性能的重要数据集差异是外观变化的模式，包括天气、照明和季节。具体来说，对于通过匹配特定层的特征量来进行位置识别的任何深度架构，我们使用分布测量来比较实时图像和多个先前记录的过去经验之间的神经元激活统计数据，以及潜在的大季节性冬季夏季或时间白天夜班。我们发现，当使用具有相同外观差距的过去经验进行本地化时，这些统计数据的差异与性能相关。

FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer
Authors Xinyu Zhang, Li Wang, Zhiqiang Jiang, Kun Dai, Tao Xie, Lei Yang, Wenhao Yu, Yang Shen, Jun Li
局部特征匹配是多个计算机视觉任务的重要组成部分，例如运动结构和视觉定位，已通过基于 Transformer 的方法有效解决。然而，这些方法仅集成具有固定感受野的关键点之间的长距离上下文信息，这限制了网络无法协调具有不同感受野的特征的重要性以实现完整的图像感知，从而限制了匹配精度。此外，这些方法利用传统的手工编码方法将关键点的位置信息集成到视觉描述符中，这限制了网络提取可靠位置编码消息的能力。在本研究中，我们提出了使用协调变压器 FMRT 进行特征匹配，这是一种基于变压器的新型无检测器方法，可以自适应地协调具有多个感受野的不同特征，并利用并行网络来实现可靠的位置编码。具体来说，FMRT提出了一个专用的调和变压器RecFormer，它由全局感知注意层GPAL组成，用于提取具有不同感受野的视觉描述符并整合各种尺度下的全局上下文信息，感知权重层PWL用于自适应地测量各种感受野的重要性，以及局部感知前馈网络 LPFFN 用于提取深度聚合的多尺度局部特征表示。

Longer-range Contextualized Masked Autoencoder
Authors Taekyung Kim, Sanghyuk Chun, Byeongho Heo, Dongyoon Han
蒙版图像建模 MIM 已成为一种有前景的自监督学习 SSL 策略。 MIM 预训练通过随机屏蔽一些输入像素并从剩余像素重建屏蔽像素，有助于使用编码器解码器框架学习强大的表示。然而，由于编码器是使用部分像素进行训练的，MIM 预训练可能会遇到理解长距离依赖性的能力较低的问题。这种限制可能会阻碍其完全理解多个范围依赖性的能力，导致注意力图中突出显示的区域狭窄，从而可能导致准确性下降。为了缓解这一限制，我们提出了一种自监督学习框架，名为 Longer range Contextualized Masked Autoencoder LC MAE 。 LC MAE 有效地利用了对视觉表示的全局上下文理解，同时减少了输入的空间冗余。我们的方法引导编码器从多个视图中的整个像素中学习，同时还从稀疏像素中学习局部表示。因此，LC MAE 学习了更具辨别力的表示，从而在 ImageNet 1K 上使用 ViT B 实现了 84.2 top 1 精度的性能提升，增益为 0.6 p。我们将成功归功于增强的预训练方法，奇异值谱和注意力分析证明了这一点。最后，LC MAE 在下游语义分割和细粒度视觉分类任务以及各种稳健的评估指标上实现了显着的性能提升。

POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization
Authors Elahe Vahdani, Yingli Tian
本文解决了点监督时间动作检测的挑战，其中为训练集中的每个动作实例仅注释单个帧。目前的大多数方法，受到注释点稀疏性的阻碍，难以有效地表示动作的连续结构或动作实例内固有的时间和语义依赖性。因此，这些方法经常只学习行动中最独特的部分，从而导致创建不完整的行动建议。本文提出了 POTLoc，一种伪标签导向变压器，用于仅利用点级注释进行弱监督动作定位。 POTLoc 旨在通过自我训练策略识别和跟踪连续动作结构。基本模型首先仅通过点级监督生成行动建议。这些建议经过细化和回归，以提高估计动作边界的精度，随后导致产生伪标签作为补充监督信号。该模型的架构将转换器与时间特征金字塔集成在一起，以捕获视频片段依赖性和不同持续时间的模型动作。伪标签提供有关动作的粗略位置和边界的信息，有助于指导变压器增强动作动态的学习。

Boosting Generalization with Adaptive Style Techniques for Fingerprint Liveness Detection
Authors Kexin Zhu, Bo Lin, Yang Qiu, Adam Yule, Yao Tang, Jiajun Liang
我们推出了高性能指纹活体特征提取技术，该技术在 LivDet 2023 指纹表示挑战赛中获得第一名。此外，我们还开发了实用的指纹识别系统，准确率达到 94.68，在 LivDet 2023 Liveness Inspection in Action 中获得第二名。通过研究各种方法，特别是风格迁移，我们证明了在面对有限的训练数据时准确性和泛化性的提高。

A Simple Baseline for Knowledge-Based Visual Question Answering
Authors Alexandros Xenos, Themos Stafylakis, Ioannis Patras, Georgios Tzimiropoulos
本文研究的是基于知识的视觉问答KB VQA 问题。最近的工作强调了通过外部数据库结合显性知识和通过法学硕士隐性知识来有效回答需要外部知识的问题的重要性。此类方法的一个常见限制是它们由相对复杂的管道组成，并且通常严重依赖于访问 GPT 3 API。我们在本文中的主要贡献是提出一种更简单且易于重现的管道，简而言之，该管道基于高效的上下文学习，通过提示 LLaMA 1 和 2 使用问题信息标题作为上下文信息。与最近的方法相反，我们的方法是免费训练的，不需要访问外部数据库或 API，并且在 OK VQA 和 A OK VQA 数据集上实现了最先进的准确性。最后，我们进行了几项消融研究，以了解我们方法的重要方面。

ROSS: Radar Off-road Semantic Segmentation
Authors Peng Jiang, Srikanth Saripalli
随着越野环境中自主导航需求的增加，需要有效的解决方案来了解这些环境变得至关重要。在本研究中，我们面临越野场景雷达数据语义分割的固有复杂性。我们提出了一种新颖的管道，利用激光雷达数据和现有带注释的越野激光雷达数据集来生成雷达标签，其中雷达数据表示为图像。

ScaleLong: Towards More Stable Training of Diffusion Model via Scaling Network Long Skip Connection
Authors Zhongzhan Huang, Pan Zhou, Shuicheng Yan, Liang Lin
在扩散模型中，UNet 是最流行的网络主干，因为它的长跳跃连接 LSC 来连接遥远的网络块，可以聚合长距离信息并缓解梯度消失。不幸的是，UNet 经常遭受扩散模型训练不稳定的问题，这可以通过缩小其 LSC 系数来缓解。然而，对于 UNet 在扩散模型中的不稳定性以及 LSC 缩放的性能改进的理论理解仍然缺乏。为了解决这个问题，我们从理论上证明了UNet中LSC的系数对UNet前向和后向传播的稳定性以及鲁棒性有很大影响。具体来说，UNet在任何层的隐藏特征和梯度都可能发生振荡，而且它们的振荡范围实际上很大，这解释了UNet训练的不稳定性。此外，UNet 还被证明对扰动输入敏感，并预测远离所需输出的输出，产生振荡损失，从而产生振荡梯度。此外，我们还观察到 UNet 的 LSC 系数缩放在隐藏特征和梯度的稳定性以及鲁棒性方面的理论优势。最后，受我们理论的启发，我们提出了一种有效的系数缩放框架ScaleLong，可以缩放UNet中LSC的系数，更好地提高UNet的训练稳定性。在四个著名数据集上的实验结果表明，我们的方法优于稳定训练，并且在具有 UNet 或 UViT 主干的不同扩散模型上产生约 1.5 倍的训练加速。

Technical Report for ICCV 2023 Visual Continual Learning Challenge: Continuous Test-time Adaptation for Semantic Segmentation
Authors Damian S jka, Yuyang Liu, Dipam Goswami, Sebastian Cygert, Bart omiej Twardowski, Joost van de Weijer
本次挑战赛的目标是开发一种测试时间自适应 TTA 方法，该方法可以使模型适应视频序列中逐渐变化的域，以完成语义分割任务。它基于合成驾驶视频数据集 SHIFT。源模型是根据白天晴天拍摄的图像进行训练的。测试时的域变化主要是由不同的天气条件和一天中的时间引起的。 TTA 方法在每个图像序列视频中单独评估，这意味着模型在下一个序列之前重置为源模型状态。图像是一张接一张地出现的，并且必须在每一帧到达时进行预测。每个序列由 401 个图像组成，从源域开始，然后随着天气或一天中时间的变化逐渐漂移到不同的图像，直到序列的中间。在序列的后半部分，域逐渐移回到源域。地面实况数据仅适用于 SHIFT 数据集的验证分割，其中只有六个以源域开头和结尾的序列。我们专门对这些序列进行分析。

RaceLens: A Machine Intelligence-Based Application for Racing Photo Analysis
Authors Andrei Boiarov, Dmitry Bleklov, Pavlo Bredikhin, Nikita Koritsky, Sergey Ulasen
本文介绍了 RaceLens，这是一种利用先进的深度学习和计算机视觉模型对赛车照片进行综合分析的新颖应用程序。开发的模型在多种任务中展示了其效率，包括检测赛车、识别汽车号码、检测和量化汽车细节以及识别汽车方向。我们讨论了收集训练模型所需的强大数据集的过程，并描述了我们设计的用于不断增强和改进该数据集的方法。我们的方法利用反馈循环来持续改进模型，从而随着时间的推移提高 RaceLens 的性能和准确性。我们研究的一个重要部分致力于说明 RaceLens 的实际应用，重点关注 NASCAR 团队在四个赛季中的成功部署。我们对系统性能及其对团队战略决策和绩效指标的直接影响进行全面评估。

Application of deep learning for livestock behaviour recognition: A systematic literature review
Authors Ali Rohan, Muhammad Saad Rafaq, Md. Junayed Hasan, Furqan Asghar, Ali Kashif Bashir, Tania Dottorini
牲畜健康和福利监测传统上是一项手动执行的劳动密集型任务。最近的进展导致采用人工智能和计算机视觉技术，特别是深度学习模型，作为畜牧业的决策工具。这些模型已用于动物识别、跟踪、身体部位识别和物种分类等任务。在过去的十年中，人们越来越有兴趣使用这些模型来探索牲畜行为与健康问题之间的联系。虽然之前的综述研究相当笼统，但目前还没有专门针对牲畜行为识别的深度学习的综述研究。因此，对SLR进行了系统的文献综述。 SLR 对电子数据库进行了初步检索，最终获得了 1101 篇出版物。在应用明确的选择标准后，126 篇出版物入围。这些出版物根据质量标准进一步筛选，最终选出 44 项高质量的初步研究。对这些研究进行分析以解决研究问题。结果表明，深度学习成功解决了涵盖 44 个不同行为类别的 13 个行为识别问题。采用了多种深度学习模型和网络，其中 CNN、Faster R CNN、YOLOv5 和 YOLOv4 是最常见的模型，VGG16、CSPDarknet53、GoogLeNet、ResNet101 和 ResNet50 是流行的网络。绩效评估涉及十种不同的矩阵，其中精度和准确度是最常用的。初步研究确定了挑战，包括遮挡、粘附、数据不平衡和牲畜环境的复杂性。

A review of individual tree crown detection and delineation from optical remote sensing images
Authors Juepeng Zheng, Shuai Yuan, Weijia Li, Haohuan Fu, Le Yu
在光学遥感传感器的进步的推动下，非常高空间分辨率的多光谱图像的生成为以自动化方式实现成本高效且高精度的森林清查和分析提供了巨大的潜力。许多旨在提供每棵树水平清单的研究已经产生了各种用于单树树冠检测和描绘 ITCD 的方法。本文综述了ITCD检测和描绘个体树冠的方法，系统回顾了ITCD相关研究应用于光学遥感图像的过去和现在。为了提供现有 ITCD 工作的清晰知识图谱，我们对最近的 ITCD 论文进行了全面回顾，以构建元数据分析，包括算法、研究地点、树种、传感器类型、评估方法、我们将所审查的方法分为三类：1.传统的图像处理方法，例如局部最大滤波、图像分割等；2.传统的机器学习方法，例如随机森林、决策树等；3.基于深度学习的方法。由于面向深度学习的方法贡献了大部分论文，我们进一步讨论基于深度学习的方法，如语义分割和对象检测方法。此外，我们还讨论了四个与ITCD相关的问题，以利用光学遥感数据进一步理解ITCD领域，例如ITCD领域中基于多传感器的数据与光学数据的比较、不同算法和不同ITCD任务之间的比较等。

Segment, Select, Correct: A Framework for Weakly-Supervised Referring Segmentation
Authors Francisco Eiras, Kemal Oksuz, Adel Bibi, Philip H.S. Torr, Puneet K. Dokania
参考图像分割RIS，通过自然语言句子识别图像中的对象的问题是一项具有挑战性的任务，目前主要通过监督学习来解决。然而，虽然收集引用的注释掩码是一个耗时的过程，但与完全监督的学习方法相比，现有的少数弱监督和零样本方法在性能上明显不足。为了弥补没有掩码注释的性能差距，我们提出了一种新颖的弱监督框架，通过将其分解为三个步骤来处理 RIS，获取引用指令段中提到的对象的实例掩码，使用零样本学习为该对象选择一个可能正确的掩码。给定指令选择，并引导一个模型，该模型可以修复零射击选择正确的错误。在我们的实验中，仅使用前两个步骤零样本分段和选择优于其他零样本基线多达 19 ，而我们的完整方法在这个更强的基线上进行了改进，并为弱监督 RIS 设置了新的技术水平，减少了在某些情况下，弱监督方法和完全监督方法之间的差距从 33 左右到小至 14 。

Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models
Authors Mingwei Zhu, Leigang Sha, Yu Shu, Kangjia Zhao, Tiancheng Zhao, Jianwei Yin
多模态大语言模型 MLLM 在感知和解释任务中表现出了巨大的潜力，但它们在预测推理方面的能力仍有待探索。为了解决这一差距，我们引入了一种新颖的基准，可以评估 MLLM 在不同场景中的预测推理能力。我们的基准测试针对三个重要领域：抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型支持的评估方法，以稳健地量化模型在基于多视觉上下文预测和推理未来方面的性能。实证实验通过严格的测试证实了所提出的基准和评估方法的合理性，并揭示了当前流行的 MLLM 在预测推理任务中的优缺点。

Multiscale Superpixel Structured Difference Graph Convolutional Network for VL Representation
Authors Siyu Zhang, Yeming Chen, Sirui Cheng, Yaoru Sun, Jun Yang, Lizhi Bai
在多模式领域，整合视觉和语言的关键在于建立良好的对齐策略。最近，受益于自监督学习的成功，基于视觉和语言预训练模型的多模态语义表示取得了重大进展。然而，视觉语义表示仍有改进的空间。缺乏空间语义一致性和易受噪声影响，使得当前基于像素或块的方法难以准确提取复杂的场景边界。为此，本文开发了超像素作为可学习图像数据的全面紧凑表示，通过对感知相似像素进行聚类，有效减少了后续处理的视觉基元数量。为了挖掘更精确的拓扑关系，我们提出了多尺度差分图卷积网络 MDGCN 。它将整个图像解析为组成视觉模式的从细到粗的层次结构，并通过逐步合并相邻超像素作为图节点来捕获多尺度特征。此外，我们通过图结构预测相邻节点之间的差异，便于图节点的关键信息聚合来推理实际的语义关系。随后，我们以自下而上的方式设计了多级融合规则，通过学习不同区域尺度的互补空间信息来避免理解偏差。我们提出的方法可以很好地应用于多个下游任务学习。大量的实验表明，我们的方法在视觉推理方面与其他最先进的方法具有竞争力。

OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D Data
Authors Yijie Zhou, Likun Cai, Xianhui Cheng, Zhongxue Gan, Xiangyang Xue, Wenchao Ding
在大数据和大模型时代，多模态数据的自动注释功能对于现实世界的人工智能驱动应用（例如自动驾驶和实体人工智能）具有重要意义。与传统的闭集标注不同，开放词汇标注对于实现人类水平的认知能力至关重要。然而，针对多模态 3D 数据的开放词汇自动标记系统很少。在本文中，我们介绍了 OpenAnnotate3D，这是一个开源的开放词汇自动标记系统，可以自动生成视觉和点云数据的 2D 掩模、3D 掩模和 3D 边界框注释。我们的系统集成了大型语言模型LLM的思维链能力和视觉语言模型VLM的跨模态能力。据我们所知，OpenAnnotate3D 是开放词汇多模态 3D 自动标记的开创性作品之一。

ScalableMap: Scalable Map Learning for Online Long-Range Vectorized HD Map Construction
Authors Jingyi Yu, Zizhao Zhang, Shengfu Xia, Jizhang Sang
我们提出了一种新颖的端到端管道，用于使用机载摄像头传感器构建在线远程矢量化高清地图。高精地图的矢量化表示，采用折线和多边形来表示地图元素，被下游任务广泛使用。然而，先前参考动态目标检测设计的方案忽略了线性地图元素内的结构约束，导致远距离场景中的性能下降。在本文中，我们利用地图元素的属性来提高地图构建的性能。我们在线性结构的指导下提取更准确的鸟瞰图 BEV 特征，然后提出一种分层稀疏映射表示，以进一步利用矢量化映射元素的可扩展性，并基于该表示设计渐进式解码机制和监督策略。我们的方法 ScalableMap 在 nuScenes 数据集上展示了卓越的性能，尤其是在长距离场景中，比之前最先进的模型高出 6.5 mAP，同时实现了 18.3 FPS。

PSGText: Stroke-Guided Scene Text Editing with PSP Module
Authors Felix Liawi, Yun Da Tsai, Guan Lun Lu, Shou De Lin
场景文本编辑 STE 旨在用新的所需文本替换图像中的文本，同时保留原始文本的背景和样式。然而，目前的技术在生成具有高度清晰度和易读性的编辑后的文本图像方面提出了显着的挑战。这一挑战主要源于各种文本类型固有的多样性和复杂背景的复杂纹理。为了应对这一挑战，本文引入了一个用于跨文本图像传输文本的三阶段框架。最初，我们引入了一个文本交换网络，可以用所需的替换内容无缝替换原始文本。随后，我们将背景修复网络纳入我们的框架中。这个专门的网络旨在巧妙地重建背景图像，有效解决删除原始文本后留下的空白。这个过程精心保留了背景的视觉和谐和连贯性。最终，通过融合网络实现文本交换网络和背景修复网络结果的合成，最终创建精心编辑的最终图像。

Bridging the Gap between Synthetic and Authentic Images for Multimodal Machine Translation
Authors Wenyu Guo, Qingkai Fang, Dong Yu, Yang Feng
多模态机器翻译 MMT 同时将源句子和相关图像作为翻译的输入。由于在大多数情况下没有可用于输入句子的配对图像，因此最近的研究建议利用强大的文本到图像生成模型来提供图像输入。然而，与真实图像相比，这些模型生成的合成图像通常遵循不同的分布。因此，使用真实图像进行训练和合成图像进行推理可能会引入分布偏移，从而导致推理过程中的性能下降。为了应对这一挑战，在本文中，我们分别向 MMT 模型提供合成图像和真实图像。然后，我们通过接近 Transformer 编码器的输入图像表示和 Transformer 解码器的输出分布来最小化合成图像和真实图像之间的差距。因此，我们减轻了推理过程中合成图像引入的分布差异，从而将真实图像从推理过程中解放出来。实验结果表明，我们的方法在 Multi30K En De 和 En Fr 数据集上实现了最先进的性能，同时保持独立性

Sync-NeRF: Generalizing Dynamic NeRFs to Unsynchronized Videos
Authors Seoha Kim, Jeongmin Bae, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh
使用神经辐射场 NeRF 进行 4D 场景重建的最新进展已经证明了从多视图视频中表示动态场景的能力。然而，他们无法重建动态场景，甚至难以适应不同步设置中的训练视图。发生这种情况是因为他们对帧采用了单个潜在嵌入，而该帧的多视图图像实际上是在不同时刻捕获的。为了解决这个限制，我们引入了各个不同步视频的时间偏移，并与 NeRF 联合优化偏移。根据设计，我们的方法适用于各种基线，并大幅改进它们。此外，找到偏移量自然可以同步视频，无需手动操作。在常见的全光视频数据集和新建的非同步动态混合器数据集上进行了实验，以验证我们方法的性能。

SILC: Improving Vision Language Pretraining with Self-Distillation
Authors Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari
由于 CLIP 及其变体的成功，网络规模图像标题数据集上的图像文本预训练已成为开放词汇分类和检索模型的默认配方。一些作品还使用 CLIP 特征进行密集预测任务，并展示了开放集能力的出现。然而，对比目标仅关注图像文本对齐，并没有激励密集预测任务的图像特征学习。在这项工作中，我们提出通过自蒸馏将局部对应学习简单地添加到全局对应学习中，作为对比预训练的附加目标，以提出 SILC。我们证明，从指数移动平均 EMA 教师模型中提取局部图像特征可以显着提高模型在多个计算机视觉任务上的性能，包括分类、检索，尤其是分割。我们进一步表明，与基线相比，SILC 在相同的训练持续时间下可以更好地扩展。

EarlyBird: Early-Fusion for Multi-View Tracking in the Bird's Eye View
Authors Torben Teepe, Philipp Wolters, Johannes Gilg, Fabian Herzog, Gerhard Rigoll
多视图聚合有望克服多目标检测和跟踪中的遮挡和漏检挑战。最近的多视图检测和 3D 对象检测方法通过将所有视图投影到地平面并在鸟瞰 BEV 中执行检测，实现了巨大的性能飞跃。在本文中，我们研究了 BEV 中的跟踪是否也能为多目标多摄像机 MTMC 跟踪带来下一个性能突破。当前多视图跟踪中的大多数方法在每个视图中执行检测和跟踪任务，并使用基于图的方法来执行每个视图上的行人的关联。通过检测 BEV 中的每个行人一次，这种空间关联已经得到解决，只剩下时间关联的问题。对于时间关联，我们展示了如何为每个检测学习强大的重新识别 re ID 特征。结果表明，BEV 中的早期融合实现了检测和跟踪的高精度。

NurViD: A Large Expert-Level Video Database for Nursing Procedure Activity Understanding
Authors Ming Hu, Lin Wang, Siyuan Yan, Don Ma, Qingli Ren, Peng Xia, Wei Feng, Peibo Duan, Lie Ju, Zongyuan Ge
将深度学习应用于护理程序活动理解有可能大大提高护患互动的质量和安全性。通过利用该技术，我们可以促进培训和教育、改进质量控制并实现运营合规性监控。然而，该领域自动识别系统的发展目前因缺乏适当标记的数据集而受到阻碍。现有的视频数据集存在一些局限性 1 这些数据集规模较小，无法支持护理活动的全面调查 2 它们主要关注单个程序，缺乏对各种护理程序和行动步骤的专家级注释 3 它们缺乏时间本地化注释，这使得阻碍了较长视频序列中目标动作的有效定位。为了缓解这些限制，我们提出了 NurViD，这是一个大型视频数据集，具有专家级注释，用于理解护理程序活动。 NurViD 由超过 1,500 个视频组成，总计 144 小时，比现有最大的护理活动数据集长大约四倍。值得注意的是，它包含 51 个不同的护理程序和 177 个行动步骤，与主要关注有限程序的现有数据集相比，提供了更全面的覆盖范围。为了评估当前深度学习方法在护理活动理解方面的有效性，我们建立了三个基准：未修剪视频上的 NurViD 程序识别、修剪视频上的程序和动作识别以及动作检测。

FLAIR: a Country-Scale Land Cover Semantic Segmentation Dataset From Multi-Source Optical Imagery
Authors Anatol Garioud, Nicolas Gonthier, Loic Landrieu, Apolline De Wit, Marion Valette, Marc Poup e, S bastien Giordano, Boris Wattrelos
我们介绍了来自 Aerospace ImageRy FLAIR 的法国土地覆盖，这是来自法国国家地理和森林信息研究所 IGN 的广泛数据集，为大规模地理空间分析提供了独特而丰富的资源。 FLAIR 包含地面采样距离为 20 厘米的高分辨率航空图像和超过 200 亿个单独标记的像素，用于精确的土地覆盖分类。该数据集还集成了光学卫星时间序列的时间和光谱数据。因此，FLAIR 将采集的超过 817 平方公里的数据与不同的空间、光谱和时间分辨率相结合，代表了法国的完整景观多样性。这种多样性使 FLAIR 成为开发和评估大规模土地覆盖语义分割新方法的宝贵资源，并在计算机视觉、数据融合和地理空间分析方面提出了重大挑战。我们还提供强大的单传感器和多传感器基线模型，可用于评估算法的性能和下游应用。通过其注释的范围和质量，FLAIR 旨在促进对城市增长、森林砍伐和土壤人工化等关键人为发展指标的监测和理解的改进。

CylinderTag: An Accurate and Flexible Marker for Cylinder-Shape Objects Pose Estimation Based on Projective Invariants
Authors Shaoan Wang, Mingzhu Zhu, Yaoqing Hu, Dongyue Li, Fusong Yuan, Junzhi Yu
基于视觉标记的高精度姿态估计一直是计算机视觉领域的一个热门研究课题。然而，由于曲面形状多样，传统平面标记在曲面物体上的适用性受到限制，这阻碍了曲面物体高精度位姿估计的发展。因此，本文提出了一种新颖的视觉标记，称为CylinderTag，它是为可展开的曲面（例如圆柱面）而设计的。 CylinderTag 是一种循环标记，可以牢固地附着在圆柱形物体上。利用流形假设，利用投影不变性中的交叉比在表面上零曲率方向上进行编码。此外，为了方便 CylinderTag 的使用，我们还提出了一种基于启发式搜索的标记生成器和高性能识别器。此外，通过广泛的实验对 CylinderTag 属性进行了全面的评估，涵盖检测率、检测速度、字典大小、定位抖动和姿态估计精度。与传统视觉标记相比，CylinderTag 从不同视角展现出卓越的检测性能，并具有更高的定位精度。此外，CylinderTag 还拥有实时检测功能和丰富的标记字典，在广泛的应用中提供增强的多功能性和实用性。实验结果表明，CylinderTag 是一种非常有前途的用于圆柱形表面的视觉标记，从而为未来圆柱形物体高精度视觉定位的研究提供了重要指导。

CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training
Authors Kihyun You, Jawook Gu, Jiyeon Ham, Beomhee Park, Jiho Kim, Eun Kyoung Hong, Woonhyunk Baek, Byungseok Roh
大规模图像文本对数据集极大地促进了视觉语言预训练 VLP 模型的发展，该模型无需昂贵的注释即可实现零镜头或少量镜头分类。然而，在医学领域，数据的稀缺仍然是开发强大的 VLP 模型的重大挑战。在本文中，我们通过一般提示将图像标签对扩展为图像文本对并利用放射报告中的多个图像和多个部分来解决胸部 X 光图像文本数据缺乏的问题。我们还设计了两种对比损失，分别命名为 ICL 和 TCL，分别用于学习医学图像和报告的研究级别特征。我们的模型优于在相同条件下训练的最先进模型。此外，扩大的数据集提高了我们预先训练的分类模型的判别能力，同时牺牲了边际检索性能。

InvGC: Robust Cross-Modal Retrieval by Inverse Graph Convolution
Authors Xiangru Jian, Yimu Wang
近几十年来，跨模态检索的显着进步主要是由视觉和语言建模的突破推动的。然而，最近的一项研究表明，作为表示退化问题，多模态数据表示倾向于聚集在有限的凸锥内，由于这些表示的不可分离性，这阻碍了检索性能。在我们的研究中，我们首先凭经验验证了多个跨模态基准和方法中表示退化问题的存在。接下来，为了解决这个问题，我们引入了一种称为 InvGC 的新颖方法，这是一种受图卷积和平均池化启发的后处理技术。具体来说，InvGC 定义数据集中的图拓扑，然后以减法方式应用图卷积。该方法通过增加数据点之间的距离来有效地分离表示。为了提高 InvGC 的效率和有效性，我们提出了一种先进的图拓扑 LocalAdj，其目的只是增加每个数据点与其最近邻居之间的距离。为了理解 InvGC 为何有效，我们提出了详细的理论分析，证明部署 InvGC 后召回率下限将会得到改善。

DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics
Authors Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu
扩散概率模型 DPM 在高保真图像生成方面表现出了出色的性能，但同时也面临着采样效率低下的问题。最近的工作通过提出利用 DPM 的特定 ODE 形式的快速 ODE 求解器来加速采样过程。然而，它们在推理过程中高度依赖特定的参数化，例如噪声数据预测，这可能不是最佳选择。在这项工作中，我们提出了一种在采样过程中实现最佳参数化的新颖公式，可最大限度地减少 ODE 解的一阶离散化误差。基于这样的公式，我们提出了 textit DPM Solver v3，这是一种新的 DPM 快速 ODE 求解器，通过引入在预训练模型上有效计算的多个系数，我们将其称为 textit 经验模型统计。我们进一步结合了多步骤方法和预测校正器框架，并提出了一些在少量功能评估 NFE 或大指导尺度下提高样本质量的技术。实验表明，DPM Solver v3 在像素空间和潜在空间 DPM 的无条件和条件采样中始终实现更好或相当的性能，特别是在 5 sim 10 NFE 中。我们在无条件 CIFAR10 上实现了 12.21 5 NFE 的 FID、2.51 10 NFE，在稳定扩散上实现了 0.55 5 NFE 的 MSE、7.5 指导量表，与之前最先进的免训练方法相比，速度提高了 15 sim 30。

UE4-NeRF:Neural Radiance Field for Real-Time Rendering of Large-Scale Scene
Authors Jiaming Gu, Minchao Jiang, Hongsheng Li, Xiaoyuan Lu, Guangming Zhu, Syed Afaq Ali Shah, Liang Zhang, Mohammed Bennamoun
神经辐射场 NeRF 是一种新颖的隐式 3D 重建方法，显示出巨大的潜力并受到越来越多的关注。它可以仅从一组照片重建 3D 场景。然而，其实时渲染能力，特别是对于大规模场景的交互式实时渲染，仍然存在明显的局限性。为了解决这些挑战，在本文中，我们提出了一种名为 UE4 NeRF 的新型神经渲染系统，专门为大规模场景的实时渲染而设计。我们将每个大场景划分为不同的子 NeRF。为了表示分区的独立场景，我们通过在场景内构造多个正八面体来初始化多边形网格，并且在训练过程中不断优化多边形面的顶点。从细节级别 LOD 技术中汲取灵感，我们针对不同的观察级别训练了不同细节级别的网格。我们的方法与虚幻引擎4 UE4中的光栅化管道相结合，实现了4K分辨率的大规模场景的实时渲染，帧速率高达43 FPS。 UE4内的渲染也有利于后续阶段的场景编辑。此外，通过实验，我们已经证明我们的方法实现了与最先进的方法相当的渲染质量。

Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds
Authors Sipeng Zheng, Jiazheng Liu, Yicheng Feng, Zongqing Lu
最近的研究提供了令人信服的证据，表明大型语言模型法学硕士可以为实体代理提供与世界交互的自我驱动能力，这标志着迈向多功能机器人的第一步。然而，这些努力往往忽视了开放世界的视觉丰富性，使整个交互过程类似于蒙眼文本游戏。因此，基于法学硕士的代理在直观地理解周围环境并产生易于理解的响应方面经常遇到挑战。在本文中，我们提出了 Steve Eye，这是一种端到端训练的大型多模态模型，旨在解决这一限制。 Steve Eye 将法学硕士与视觉编码器集成在一起，使其能够处理视觉文本输入并生成多模式反馈。此外，我们使用半自动策略来收集包含 85 万个开放世界指令对的广泛数据集，使我们的模型能够涵盖代理多模态感知、基础知识库以及技能预测和规划的三个基本功能。最后，我们制定了三个开放世界评估基准，然后从广泛的角度进行广泛的实验，以验证我们的模型战略行动和计划的能力。

Zone Evaluation: Revealing Spatial Bias in Object Detection
Authors Zhaohui Zheng, Yuming Chen, Qibin Hou, Xiang Li, Ping Wang, Ming Ming Cheng
对象检测器的一个基本限制是它们会受到空间偏差的影响，特别是在检测图像边界附近的对象时，其性能不太令人满意。长期以来，人们缺乏有效的方法来衡量和识别空间偏差，而且对于它的来源和程度知之甚少。为此，我们提出了一种新的区域评估协议，从传统的评估扩展到更通用的评估协议，该协议测量区域上的检测性能，产生一系列区域精度 ZP。我们首次提供了数值结果，表明物体探测器在各个区域的表现相当不均匀。令人惊讶的是，检测器在图像的 96 个边界区域中的性能并未达到 AP 值 Average Precision，即通常视为整个图像区域的平均检测性能。为了更好地理解空间偏差，进行了一系列启发式实验。我们的研究排除了关于空间偏差的两个直观猜想，即对象尺度和对象的绝对位置几乎不影响空间偏差。我们发现，关键在于不同区域中的对象之间的数据模式存在人类难以察觉的差异，从而最终在区域之间形成可见的性能差距。有了这些发现，我们最终讨论了物体检测的未来方向，即空间不平衡问题，旨在追求整个图像区域的平衡检测能力。通过广泛评估 10 个流行的物体检测器和 5 个检测数据集，我们揭示了物体检测器的空间偏差。我们希望这项工作能够引起人们对检测稳健性的关注。

Identification of Abnormality in Maize Plants From UAV Images Using Deep Learning Approaches
Authors Aminul Huq, Dimitris Zermas, George Bebis
早期识别植物异常是确保作物正常生长和实现高产的一项重要任务。精准农业可以从现代计算机视觉工具中受益匪浅，使解决这些问题的农业策略变得高效且有效。由于农田通常很大，农民必须手动检查大片区域以确定植物的状况并采取适当的处理。在这项工作中，我们考虑从无人机捕获的图像中自动识别玉米植株异常区域的问题。利用深度学习技术，我们开发了一种方法，可以检测玉米植物的不同程度的异常，即低、中、高或无异常，无论其生长阶段如何。主要目标是尽早发现异常情况，以便最大限度地发挥潜在治疗的有效性。同时，所提出的系统可以通过帮助人类注释者将注意力集中在较小的图像集上，为地面实况数据收集提供有价值的信息。我们尝试了两种不同但互补的方法，第一种将异常检测视为分类问题，第二种将其视为回归问题。这两种方法都可以推广到不同类型的异常，并且不对植物生长早期发生的异常做出任何假设，由于植物较小且更容易分离，这种异常可能更容易检测。作为一个案例研究，我们考虑了一个公开的数据集，该数据集主要表现出不同生长阶段的玉米植株的氮缺乏情况。

A Car Model Identification System for Streamlining the Automobile Sales Process
Authors Said Togru, Jenny Huang, Marco Moldovan
该项目提出了一种用于有效识别汽车型号和图像制造商的自动化解决方案，旨在简化在线汽车销售平台上的车辆上市流程。通过对各种高效网络架构（包括卷积神经网络 CNN、Vision Transformers ViT 和混合模型）的彻底探索，我们采用 EfficientNet V2 b2 架构实现了 81.97 的显着准确率。为了提高性能，采用了多种策略组合，包括数据增强、微调预训练模型和广泛的超参数调整。

Breaking through Deterministic Barriers: Randomized Pruning Mask Generation and Selection
Authors Jianwei Li, Weizhi Gao, Qi Lei, Dongkuan Xu
人们普遍认为，在相同模型大小约束下，大型稀疏模型比小型密集模型具有更高的精度。这促使我们训练一个大型模型，然后通过剪枝去除其冗余神经元或权重。大多数现有作品以确定性方式修剪网络，其性能仅取决于单一修剪标准，因此缺乏多样性。相反，在本文中，我们提出了一种模型剪枝策略，该策略首先以设计的随机方式生成多个剪枝掩模。随后，根据有效的掩模选择规则，从掩模候选池中选择最佳掩模。为了进一步提高效率，我们引入了早期掩模评估策略，减少了与训练多个掩模相关的开销。

CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for Image Manipulation
Authors Sihan Xu, Ziqiao Ma, Yidong Huang, Honglak Lee, Joyce Chai
扩散模型 DM 在图像合成任务中实现了突破，但缺乏用于一致图像到图像 I2I 转换的直观界面。人们已经探索了各种方法来解决这个问题，包括基于掩模的方法、基于注意力的方法和图像调节。然而，如何使用预先训练的 DM 实现不配对的 I2I 翻译，同时保持令人满意的一致性仍然是一个严峻的挑战。本文介绍了 Cyclenet，这是一种新颖但简单的方法，它将循环一致性纳入 DM 中以规范图像处理。我们在不同粒度的不配对 I2I 任务上验证 Cyclenet。除了场景和对象级别的翻译之外，我们还提供了一个多域 I2I 翻译数据集来研究对象的物理状态变化。我们的实证研究表明，Cyclenet 在翻译一致性和质量方面具有优越性，并且只需更改文本提示即可为域外分布生成高质量的图像。 Cyclenet 是一个实用的框架，即使在 2k 左右的非常有限的训练数据下也很强大，并且需要最少的计算资源 1 GPU 来训练。

Conditional Generative Modeling for Images, 3D Animations, and Video
Authors Vikram Voleti
本论文试图通过探索条件生成模型的新颖公式以及图像、3D 动画和视频中的创新应用来推动计算机视觉生成建模领域的创新。我们的研究重点是提供噪声和视觉数据可逆转换的架构，以及编码器解码器架构在生成任务和 3D 内容操作中的应用。

LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for Autonomous Driving with Multi-Task Learning
Authors Pedram Agand, Mohammad Mahdavian, Manolis Savva, Mo Chen
在端到端自动驾驶中，利用现有的传感器融合技术进行模仿学习在涉及大量动态代理的挑战性情况下被证明是不够的。为了解决这个问题，我们引入了 LeTFuser，一种基于 Transformer 的算法，用于融合多个 RGB D 相机表示。为了同时执行感知和控制任务，我们利用多任务学习。我们的模型由两个模块组成，第一个是感知模块，负责对从 RGB D 相机获得的观察数据进行编码。它执行语义分割、语义深度云映射SDC、交通灯状态识别等任务。我们的方法采用卷积视觉 Transformer CvT 引用 wu2021cvt 来更好地提取和融合来自多个 RGB 相机的特征，因为卷积和 Transformer 模块分别具有局部和全局特征提取能力。此后，控制模块对编码特征和补充数据进行解码，包括静态和动态环境的粗略模拟器以及各种测量，以便预测与潜在特征空间相关的航路点。我们使用两种方法来处理这些输出并生成车辆控制，例如转向、油门和制动级别。第一种方法使用 PID 算法动态跟踪航路点，而第二种方法则使用测量特征和环境状态直接预测控制策略。我们评估该模型，并使用从正常条件到对抗条件的各种场景在 CARLA 模拟器上与最新模型进行比较分析，以模拟现实世界场景。

RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering
Authors Yuduo Wang, Pedram Ghamisi
近年来，随着 Transformer 模型的快速发展，基于 Transformer 的多模态架构在各种下游任务中得到了广泛的应用，包括但不限于图像字幕、视觉问答 VQA 和图像文本生成。然而，当代遥感 RS VQA 方法通常涉及资源密集型技术，例如大型模型的全面微调或从预先训练的多模态模型中提取图像文本特征，然后使用解码器进行模态融合。这些方法需要大量的计算资源和时间，并且引入了大量的可训练参数。为了解决这些挑战，我们引入了一种称为 RSAdapter 的新颖方法，该方法优先考虑运行时和参数效率。 RSAdapter 包含两个关键组件：并行适配器和插入在适配器内每个完全连接的 FC 层之后的附加线性转换层。这种方法不仅提高了对预训练多模态模型的适应性，而且还允许在推理过程中将线性变换层的参数集成到前面的FC层中，从而降低推理成本。为了证明 RSAdapter 的有效性，我们使用三个不同的 RS VQA 数据集进行了一系列广泛的实验，并在所有三个数据集上取得了最先进的结果。

DreamSpace: Dreaming Your Room Space with Text-Driven Panoramic Texture Propagation
Authors Bangbang Yang, Wenqi Dong, Lin Ma, Wenbo Hu, Xiao Liu, Zhaopeng Cui, Yuewen Ma
基于扩散的方法在生成 2D 媒体方面取得了显着的成功。然而，在 3D 空间应用（例如 XR VR）中实现场景级网格纹理的类似熟练程度仍然受到限制，这主要是由于 3D 几何的复杂性和沉浸式自由视点渲染的必要性。在本文中，我们提出了一种新颖的室内场景纹理框架，该框架提供文本驱动的纹理生成，具有迷人的细节和真实的空间连贯性。关键的见解是首先从场景的中心视点想象一个风格化的 360 度全景纹理，然后通过修复和模仿技术将其传播到其他区域。为了确保场景中有意义且对齐的纹理，我们开发了一种新颖的从粗到细的全景纹理生成方法，具有双纹理对齐功能，该方法都考虑了捕获场景的几何形状和纹理线索。为了在纹理传播过程中摆脱混乱的几何图形，我们设计了一种单独的策略，该策略在机密区域进行纹理修复，然后学习隐式模仿网络来合成遮挡和微小结构区域中的纹理。大量的实验和在现实世界室内场景中的沉浸式 VR 应用展示了生成的纹理的高质量和 VR 耳机上的引人入胜的体验。

AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection
Authors Ammarah Hashmi, Sahibzada Adil Shahzad, Chia Wen Lin, Yu Tsao, Hsin Min Wang
在社交媒体平台上广泛分享的伪造内容是一个重大的社会问题，需要加强监管，并给研究界带来了新的挑战。最近超现实深度伪造视频的激增引起了人们对音频和视频伪造威胁的关注。之前大多数检测人工智能生成的虚假视频的工作仅利用视觉模态或音频模态。虽然文献中存在一些利用音频和视觉模态来检测伪造视频的方法，但它们尚未在涉及声学和视觉操作的深度伪造视频的多模态数据集上进行全面评估。此外，这些现有方法大多基于CNN，检测精度较低。受最近 Transformer 在各个领域取得成功的启发，为了解决 Deepfake 技术带来的挑战，在本文中，我们提出了一种基于音频视觉 Transformer 的 Ensemble Network AVTENet 框架，该框架同时考虑声学操纵和视觉操纵，以实现有效的视频伪造检测。具体来说，所提出的模型集成了几个纯粹基于变压器的变体，这些变体捕获视频、音频和视听显着线索，以在预测中达成共识。为了进行评估，我们使用最近发布的基准多模态音频视频 FakeAVCeleb 数据集。为了进行详细分析，我们在 FakeAVCeleb 数据集的多个测试集上评估了 AVTENet、其变体以及几种现有方法。

PatchCURE: Improving Certifiable Robustness, Model Utility, and Computation Efficiency of Adversarial Patch Defenses
Authors Chong Xiang, Tong Wu, Sihui Dai, Jonathan Petit, Suman Jana, Prateek Mittal
针对对抗性补丁攻击的最先进的防御现在可以在模型效用略有下降的情况下实现强大的可验证的鲁棒性。然而，与无防御模型相比，这种令人印象深刻的性能通常是以多 10 100 倍的推理时间计算为代价的，研究社区已经见证了可认证的鲁棒性、模型实用性和计算效率之间的强烈三向权衡。在本文中，我们提出了一个名为 PatchCURE 的防御框架来解决这个权衡问题。 PatchCURE 提供了足够的旋钮来调整防御性能，并允许我们构建一系列防御。最强大的 PatchCURE 实例可以与任何现有的最先进防御的性能相匹配，而无需考虑效率。最高效的 PatchCURE 实例具有与未防御模型相似的推理效率。值得注意的是，PatchCURE 在所有不同效率级别上实现了最先进的鲁棒性和实用性能，例如，当要求计算效率接近未防御模型时，16 23 绝对干净精度和经过认证的鲁棒精度优势优于先前的防御。

Human Pose-based Estimation, Tracking and Action Recognition with Deep Learning: A Survey
Authors Lijuan Zhou, Xiang Meng, Zhihuan Liu, Mengqi Wu, Zhimin Gao, Pichao Wang
人体姿势分析由于其用途不断扩大，包括游戏、视频监控、运动表现分析和人机交互等，在研究界和实际应用中都引起了极大的关注。深度学习的出现显着提高了姿势捕捉的准确性，使得基于姿势的应用变得越来越实用。本文对利用深度学习的基于姿势的应用进行了全面的调查，包括姿势估计、姿势跟踪和动作识别。姿势估计涉及从图像或图像序列确定人体关节位置。姿势跟踪是一个新兴的研究方向，旨在随着时间的推移生成一致的人体姿势轨迹。另一方面，动作识别的目标是使用姿势估计或跟踪数据来识别动作类型。这三项任务错综复杂地相互关联，后者往往依赖于前者。在本次调查中，我们全面回顾了相关工作，从单人姿势估计到多人姿势估计，从2D姿势估计到3D姿势估计，从单图像到视频，从逐渐挖掘时间上下文到姿势跟踪，最后从跟踪基于姿势的动作识别。作为一项以深度学习在姿势分析中的应用为中心的调查，我们明确讨论了现有技术的优点和局限性。值得注意的是，我们强调将这三个任务集成到视频序列中的统一框架中的方法。

SIRe-IR: Inverse Rendering for BRDF Reconstruction with Shadow and Illumination Removal in High-Illuminance Scenes
Authors Ziyi Yang, Yanzhen Chen, Xinyu Gao, Yazhen Yuan, Yu Wu, Xiaowei Zhou, Xiaogang Jin
隐式神经表示为逆渲染开辟了新的可能性。然而，现有的隐式神经逆渲染方法很难处理具有明显阴影和间接照明的强照明场景。阴影和反射的存在可能导致对场景几何形状的不准确理解，从而使精确分解变得困难。为此，我们提出了 SIRe IR，这是一种隐式神经逆渲染方法，它使用非线性映射和正则化可见性估计将场景分解为环境贴图、反照率和粗糙度。通过同时准确地建模间接辐射场、法线、可见性和直射光，我们能够消除材质中的阴影和间接照明，而不会对场景施加严格的约束。即使在强烈照明的情况下，我们的方法也能恢复高质量的反照率和粗糙度，而没有阴影干扰。

Weakly-Supervised Semantic Segmentation with Image-Level Labels: from Traditional Models to Foundation Models
Authors Zhaozheng Chen, Qianru Sun
深度学习的快速发展推动了图像语义分割领域的重大进展，这是计算机视觉的基本任务。语义分割算法通常依赖于像素级标签的可用性，即对象的掩模，这是昂贵、耗时且劳动密集型的。弱监督语义分割 WSSS 是避免此类标签的有效解决方案。它仅利用部分或不完整的注释，并为完全监督的语义分割提供了一种经济高效的替代方案。在本文中，我们重点关注具有图像级标签的 WSSS，这是 WSSS 中最具挑战性的形式。我们的工作有两个部分。首先，我们对传统方法进行了全面调查，主要关注那些在顶级研究会议上提出的方法。我们根据其方法在像素方面、图像方面、跨图像和外部数据上的操作位置将它们分为四组。其次，我们研究了视觉基础模型（例如 Segment Anything Model SAM）在 WSSS 背景下的适用性。我们在文本提示和零样本学习这两个有趣的场景中仔细研究 SAM。

Tailoring Adversarial Attacks on Deep Neural Networks for Targeted Class Manipulation Using DeepFool Algorithm
Authors S. M. Fazle Rabby Labib, Joyanta Jyoti Mondal, Meem Arafat Manab
深度神经网络 DNN 极大地推进了各个领域的发展，但它们面对对抗性攻击的脆弱性引起了严重关注。了解这些漏洞并制定有效的防御机制至关重要。 DeepFool，Moosavi Dezfooli 等人提出的算法。 2016，发现对输入图像进行错误分类的最小扰动。然而，DeepFool 缺乏针对性的方法，使其在特定攻击场景中效果较差。此外，在之前的相关工作中，研究人员主要关注成功，而不考虑图像的扭曲程度、图像质量的完整性以及错误分类的置信度。因此，在本文中，我们提出了 Targeted DeepFool，这是 DeepFool 的增强版本，允许针对特定类别进行错误分类。我们还引入了最低置信度要求超参数来增强灵活性。我们的实验证明了所提出的方法在不同深度神经网络架构中的有效性和效率，同时尽可能保持图像完整性。结果表明，深度卷积神经网络架构之一 AlexNet 和最先进的模型之一 Vision Transformer 对于被愚弄表现出很高的鲁棒性。

Parking Spot Classification based on surround view camera system
Authors Andy Xiao, Deep Doshi, Lihao Wang, Harsha Gorantla, Thomas Heitzmann, Peter Groth
环视鱼眼摄像头通常用于自动驾驶场景中的近场传感，包括城市驾驶和自动代客泊车。四个鱼眼摄像头（每侧一个）足以覆盖车辆周围 360 度的范围，捕获整个近场区域。近年来，基于环视摄像头的停车位检测研究较多，主要集中于停车位占用状态，但对于空闲停车位是否与本车的任务是否兼容的研究却很少。例如，某些地点仅限残疾人或电动车辆通行。在本文中，我们解决了基于环视摄像头系统的停车位分类问题。我们采用新颖的多边形边界框模型来调整对象检测神经网络 YOLOv4，该模型非常适合各种形状的停车位，例如倾斜的停车位。据我们所知，我们首次针对自动代客泊车场景中的鱼眼摄像头停车位检测和分类进行了详细研究。

Comprehensive Multimodal Segmentation in Medical Imaging: Combining YOLOv8 with SAM and HQ-SAM Models
Authors Sumit Pandey, Kuan Fu Chen, Erik B. Dam
本文介绍了一种在不同医学成像数据集中分割感兴趣区域 ROI 的综合方法，包括超声、CT 扫描和 X 射线图像。所提出的方法利用 YOLOv8 模型的功能进行跨模态的近似边界框检测，并利用 Segment Anything Model SAM 和 High Quality HQ SAM 进行全自动和精确的分割。为了生成边界框，YOLOv8 模型使用来自每种模态的有限 100 张图像和掩模进行训练。从我们的方法获得的结果经过广泛的计算和分析，证明了其在医学图像分析中的有效性和潜力。采用各种评估指标，包括精度、召回率、F1 分数和 Dice 分数，来量化分割结果的准确性。我们进行了比较分析，以评估 YOLOv8、YOLOv8 SAM 和 YOLOv8 HQ SAM 模型的单独和组合性能。结果表明，SAM 模型比其他两个模型表现更好，表现出更高的分割精度和整体性能。虽然 HQ SAM 具有潜在优势，但其相对于标准 SAM 模型的增量收益可能无法证明额外的计算成本是合理的。

Wave-informed dictionary learning for high-resolution imaging in complex media
Authors Miguel Moscoso, Alexei Novikov, George Papanicolaou, Chrysoula Tsogka
我们提出了一种当可以获得大量且多样化的数据集时在散射介质中成像的方法。它有两个步骤。使用字典学习算法，第一步将真实的格林函数向量估计为无序传感矩阵中的列。阵列数据来自许多稀疏的源集，我们不知道其位置和强度。在第二步中，使用多维缩放对估计的传感矩阵的列进行排序，以便使用从其列的互相关导出的连接信息进行成像，就像时间反转一样。为了使这两个步骤协同工作，我们需要来自大型接收器阵列的数据，以便第一步中传感矩阵的列不相干，也需要来自子阵列的数据，以便它们足够相干以获得第二步所需的连接。

Enabling energy-Efficient object detection with surrogate gradient descent in spiking neural networks
Authors Jilong Luo, Shanlin Xiao, Yinsheng Chen, Zhiyi Yu
尖峰神经网络 SNN 是一种生物学上合理的神经网络模型，在事件驱动处理和时空信息处理方面具有显着优势，使 SNN 成为节能目标检测的有吸引力的选择。然而，生物神经元动力学模型的不可微性在 SNN 的训练过程中提出了挑战。此外，目前缺乏适合 SNN 中目标检测的解码策略。在本研究中，我们引入了 Current Mean Decoding CMD 方法，该方法解决了回归问题，以便于训练用于对象检测任务的深度 SNN。基于梯度代理和 CMD，我们提出了用于目标检测的 SNN YOLOv3 模型。我们的实验表明，SNN YOLOv3 在 PASCAL VOC 数据集上实现了出色的性能，mAP 为 61.87，仅需要 6 个时间步长。

Semi-supervised multimodal coreference resolution in image narrations
Authors Arushi Goel, Basura Fernando, Frank Keller, Hakan Bilen
在本文中，我们研究多模态共指消解，特别是较长的描述性文本（即叙述与图像配对）的情况。由于细粒度的图像文本对齐、叙事语言中固有的歧义以及大型注释训练集的不可用，这带来了重大挑战。为了应对这些挑战，我们提出了一种数据高效的半监督方法，该方法利用图像叙述对来解决多模态背景下的共指和叙述基础。我们的方法在跨模式框架内纳入了标记和未标记数据的损失。

Skin Lesion Segmentation Improved by Transformer-based Networks with Inter-scale Dependency Modeling
Authors Sania Eskandari, Janet Lumpp, Luis Sanchez Giraldo
黑色素瘤是一种由异常皮肤细胞生长引起的危险皮肤癌，如果及早发现，是可以治疗的。人们已经提出了使用全卷积网络 FCN 的各种方法，其中 U Net 架构最为突出，通过自动皮肤病变分割来帮助诊断。然而，对称 U Net 模型对卷积运算的依赖阻碍了其捕获长距离依赖性的能力，而长距离依赖性对于精确的医学图像分割至关重要。最近创建了几种基于 Transformer 的 U Net 拓扑，通过用不同的 Transformer 模块替换 CNN 块来捕获局部和全局表示来克服这一限制。此外，U 形结构受到编码器和解码器之间语义差距的阻碍。本研究旨在通过仔细构建跳过连接路径来提高网络的功能可重用性。将已经计算出的注意力亲和度集成到跳跃连接路径中改进了传统跳跃连接路径中使用的典型串联过程。因此，我们提出了一种基于 U 形分层 Transformer 的皮肤病变分割结构和一种尺度间上下文融合 ISCF 方法，该方法使用编码器每个阶段的注意力相关性来自适应地组合每个阶段的上下文，以减轻语义差距。两个皮肤病变分割基准的结果支持了 ISCF 模块的适用性和有效性。

Progressive Dual Priori Network for Generalized Breast Tumor Segmentation
Authors Li Wang, Lihui Wang, Zixiang Kuai, Lei Tang, Yingfeng Ou, Chen Ye, Yuemin Zhu
为了提高乳腺肿瘤分割模型的泛化能力，以及提高对较小尺寸、低对比度和不规则形状的乳腺肿瘤的分割性能，我们提出了一种渐进式双先验网络PDPNet来从动态增强磁共振图像中分割乳腺肿瘤在不同部位采集的 DCE MRI。 PDPNet 首先使用基于粗分割的定位模块裁剪肿瘤区域，然后利用弱语义先验和跨尺度相关先验知识逐步细化乳腺肿瘤掩模。为了验证 PDPNet 的有效性，我们将其与多中心数据集上的几种最先进的方法进行了比较。结果表明，与次优方法相比，PDPNet的DSC、SEN、KAPPA和HD95分别提高了3.63、8.19、5.52和3.66。此外，通过消融，我们证明了所提出的定位模块可以减少正常组织的影响，从而提高模型的泛化能力。弱语义先验允许关注肿瘤区域以避免遗漏小肿瘤和低对比度肿瘤。跨尺度相关先验有利于提高不规则肿瘤的形状感知能力。

Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval
Authors Donghuo Zeng, Kazushi Ikeda
跨模态检索模型利用三重损失优化的潜力来学习鲁棒的嵌入空间。然而，现有的方法通常在一次训练中训练这些模型，忽略了优化过程中半硬三元组和硬三元组之间的区别。不区分半硬三元组和硬三元组的疏忽会导致模型性能不佳。在本文中，我们介绍了一种植根于课程学习的新方法来解决这个问题。我们提出了一个两阶段训练范例，指导模型从半困难到困难三元组的学习过程。在第一阶段，模型从低损失基础开始，使用一组半硬三元组进行训练。随后，在第二阶段，我们使用插值技术增强嵌入。这个过程识别了潜在的硬负数，缓解了由于硬三元组稀缺而导致的高损失函数引起的问题。然后，我们的方法在增强的嵌入空间中应用硬三元组挖掘来进一步优化模型。在两个视听数据集上进行的广泛实验结果表明，对于 AVE 数据集上的视听跨模态检索 AV CMR 任务，与当前最先进的方法 MSNSCA 相比，平均平均精度 MAP 显着提高了约 9.8，

Definition-independent Formalization of Soundscapes: Towards a Formal Methodology
Authors Mikel D. Jedrusiak, Thomas Harweg, Timo Haselhoff, Bryce T. Lawrence, Susanne Moebus, Frank Weichert
来自不同学科的研究人员对音景进行了研究，每个学科都有不同的观点、目标、方法和术语。因此，根据领域的不同，音景组成部分的概念会发生变化，从而改变基本定义。这导致跨学科交流和结果比较变得复杂。尤其是当涉及到音景无关的研究领域时。因此，我们提出了一种独立于底层音景定义的潜在形式化，其目标是能够捕获数据的异构结构以及一个模型中的不同意识形态。

Single-view 3D reconstruction via inverse procedural modeling
Authors Albert Garifullin, Nikolay Maiorov, Vladimir Frolov
我们提出了一种通过逆过程建模进行 3D 重建的方法，并研究了该方法的两种变体。第一个选项包括使用遗传算法拟合输入参数集。我们展示了我们在树模型、复杂对象上的工作结果，大多数现有方法无法处理这些对象的重建。第二个选项允许我们通过使用模因算法中的梯度、可微渲染和可微程序生成器来显着提高精度。在我们的工作中，我们看到了两个主要贡献。首先，我们提出了一种将可微渲染和逆过程建模结合起来的方法。当少量输入图像可用时，即使对于单个图像，这使我们有机会比现有方法更准确地重建 3D 模型。其次，我们将可微分和不可微分的过程生成器加入到一个框架中，这使我们能够在梯度可用时将逆过程建模应用于相当复杂的生成器，当梯度可用时，重建是精确的，当梯度不可用时，重建是近似的，但始终是高质量的

DeepFDR: A Deep Learning-based False Discovery Rate Control Method for Neuroimaging Data
Authors Taehyo Kim, Hai Shu, Qiran Jia, Mony de Leon
基于体素的多重测试广泛应用于神经影像数据分析。传统的错误发现率 FDR 控制方法常常忽略基于体素的测试之间的空间依赖性，从而遭受测试能力的显着损失。虽然最近出现了空间 FDR 控制方法，但在处理大脑复杂的空间依赖性时，其有效性和最优性仍然值得怀疑。同时，深度学习方法彻底改变了图像分割，这是一项与基于体素的多重测试密切相关的任务。在本文中，我们提出了 DeepFDR，一种新颖的空间 FDR 控制方法，利用基于无监督深度学习的图像分割来解决基于体素的多重测试问题。数值研究，包括综合模拟和阿尔茨海默病 FDG PET 图像分析，证明了 DeepFDR 相对于现有方法的优越性。

DeepFracture: A Generative Approach for Predicting Brittle Fractures
Authors Yuhang Huang, Takashi Kanai
在脆性断裂动画领域，使用物理模拟技术生成逼真的破坏动画的计算成本可能很高。尽管使用 Voronoi 图或预断裂模式的方法适用于实时应用，但它们在描绘脆性断裂时通常缺乏真实性。本文介绍了一种基于学习的新颖方法，用于将逼真的脆性断裂动画与刚体模拟无缝融合。我们的方法利用 BEM 脆性断裂模拟来创建给定形状的断裂模式和碰撞条件，作为学习过程的训练数据。为了有效地将碰撞条件和断裂形状集成到深度学习框架中，我们引入了潜在脉冲表示和几何分段符号距离函数 GS SDF 的概念。潜在脉冲表示作为输入，捕获有关形状表面上的冲击力的信息。同时，GS SDF 用作断裂形状的输出表示。为了解决使用单个潜在代码优化多个断裂模式目标的挑战，我们在潜在脉冲表示设计中提出了基于正态分布代码的八维潜在空间。这种适应有效地将我们的神经网络转变为生成网络。

Non-Negative Spherical Relaxations for Universe-Free Multi-Matching and Clustering
Authors Johan Thunberg, Florian Bernard
我们提出了一种新颖的非负球形松弛，用于解决具有单射性约束的二元矩阵的优化问题，特别是在多重匹配和聚类中具有应用。我们将各自的二元矩阵约束放松到高维非负球体。为了优化我们的松弛问题，我们使用条件幂迭代方法来迭代改进目标函数，同时扫描与宇宙大小或簇数量间接相关的连续标量参数。与需要在优化之前固定整数域大小的现有程序相反，我们的方法会自动调整类似的连续参数。此外，虽然我们的方法与光谱多重匹配和光谱聚类有相似之处，但我们的公式具有强大的优势，即我们不依赖额外的后处理程序来获得二进制结果。

Pathologist-Like Explanations Unveiled: an Explainable Deep Learning System for White Blood Cell Classification
Authors Aditya Shankar Pal, Debojyoti Biswas, Joy Mahapatra, Debasis Banerjee, Prantar Chakrabarti, Utpal Garain
白细胞 WBC 在保护人体免受病原体和异物侵害方面发挥着至关重要的作用。利用丰富的白细胞成像数据和深度学习算法的强大功能，自动化白细胞分析具有极高的准确性。然而，深度学习模型解释白细胞分类的能力在很大程度上仍未得到探索。在这项研究中，我们引入了 HemaX，一种基于可解释的深度神经网络的模型，它使用五个属性粒度、细胞质颜色、细胞核形状、相对于红细胞的大小、细胞核与细胞质的比率 N C 以及细胞分类来产生类似病理学家的解释，定位和细分。 HemaX 在一个新颖的数据集 LeukoX 上进行训练和评估，该数据集包含 467 个血涂片图像，涵盖 10 种 10 种白细胞类型。所提出的模型取得了令人印象深刻的结果，平均分类精度为 81.08，细胞定位的 Jaccard 指数为 89.16。此外，HemaX 在生成五种解释方面表现良好，NC 比率的归一化均方误差为 0.0317，其他四个属性的准确度超过 80。与多种最先进模型进行比较的综合实验表明，HemaX 的分类准确性仍然不受其提供解释的能力的影响。

On the Language Encoder of Contrastive Cross-modal Models
Authors Mengjie Zhao, Junya Ono, Zhi Zhong, Chieh Hsin Lai, Yuhta Takida, Naoki Murata, Wei Hsiang Liao, Takashi Shibuya, Hiromi Wakaki, Yuki Mitsufuji
CLIP 和 CLAP 等对比跨模态模型有助于各种视觉语言 VL 和音频语言 AL 任务。然而，对其语言编码器的研究和改进有限，语言编码器是将图像音频的自然语言描述编码为矢量表示的核心组件。我们广泛评估无监督和监督句子嵌入训练如何影响语言编码器质量和跨模式任务性能。在 VL 预训练中，我们发现句子嵌入训练语言编码器质量并有助于跨模态任务，从而改进对比 VL 模型（例如 CyCLIP）。相比之下，AL 预训练从句子嵌入训练中获益较少，这可能是由于预训练数据量有限所致。

Domain-specific optimization and diverse evaluation of self-supervised models for histopathology
Authors Jeremy Lai, Faruk Ahmed, Supriya Vijay, Tiam Jaroensri, Jessica Loo, Saurabh Vyawahare, Saloni Agarwal, Fayaz Jamil, Yossi Matias, Greg S. Corrado, Dale R. Webster, Jonathan Krause, Yun Liu, Po Hsuan Cameron Chen, Ellery Wulczyn, David F. Steiner
组织病理学中任务特定的深度学习模型为改善诊断、临床研究和精准医疗提供了有希望的机会。然而，此类模型的开发通常受到高质量数据可用性的限制。组织病理学中的基础模型可以学习各种组织类型、诊断和放大的一般表示，有可能减少开发具有所需模型性能水平的任务特定深度学习模型所需的数据、计算和技术专业知识。在这项工作中，我们描述了通过自监督学习 SSL 组织病理学基础模型的开发和评估。我们首先建立了一组多样化的基准任务，涉及 17 种独特的组织类型和 12 种独特的癌症类型，并涵盖不同的最佳放大倍率和任务类型。接下来，我们使用这个基准来探索和评估组织病理学特定的 SSL 方法，然后进一步评估保留的补丁级别和弱监督任务。我们发现，精心应用于组织病理学图像的标准 SSL 方法在我们的基准任务中表现良好，并且特定领域的方法改进可以进一步提高性能。

Diagnosis-oriented Medical Image Compression with Efficient Transfer Learning
Authors Guangqi Xie, Xin Li, Xiaohan Pan, Zhibo Chen
远程医疗诊断已成为实际医疗系统中不可或缺的关键技术，其中需要对医疗数据进行有效压缩和传输，以供专业医生或智能诊断设备进行诊断。在此过程中，大量与诊断无关的冗余内容被进行高保真编码，导致不必要的传输成本。为了缓解这一问题，我们提出了面向诊断的医学图像压缩，这是一种专为医疗场景设计的特殊语义压缩任务，旨在在不影响诊断准确性的情况下降低压缩成本。然而，由于隐私问题和缺乏专业注释，收集足够的医疗数据来优化这种压缩系统非常昂贵且具有挑战性。在本研究中，我们提出了 DMIC，这是第一个基于迁移学习的高效编解码器，用于面向诊断的医学图像压缩，通过重用现有基于强化学习的任务驱动语义编码中的知识，只需少量带注释的医学示例即可有效优化该编解码器框架，即 HRLVSC 1 。具体来说，我们专注于仅调整 HRLVSC 内比特分配策略网络的部分参数，使其能够适应医学图像。在这项工作中，我们通过典型的医疗任务——冠状动脉分割来验证我们的 DMIC。

Auxiliary Features-Guided Super Resolution for Monte Carlo Rendering
Authors Qiqi Hou, Feng Liu
本文研究了超分辨率以减少渲染像素数量，从而加快蒙特卡洛渲染算法的速度。虽然超分辨率技术已经取得了巨大进步，但它本质上是一个不适定问题，无法恢复渲染中的高频细节。为了解决这个问题，我们利用高分辨率辅助特征来指导低分辨率渲染的超分辨率。这些高分辨率辅助特征可以通过渲染引擎快速渲染，同时提供有价值的高频细节以辅助超分辨率。为此，我们开发了一个跨模态 Transformer 网络，该网络由辅助特征分支和低分辨率渲染分支组成。这两个分支旨在将高分辨率辅助功能与相应的低分辨率渲染融合起来。此外，我们设计了残差密集连接的 Swin Transformer 组来学习提取代表性特征以实现高质量的超分辨率。

PTSR: Patch Translator for Image Super-Resolution
Authors Neeraj Baghel, Shiv Ram Dubey, Satish Kumar Singh
图像超分辨率生成的目的是从低分辨率图像生成高分辨率图像。然而，更复杂的神经网络带来了更高的计算成本和内存存储。它仍然是一个有望克服许多应用中分辨率限制的活跃领域。近年来，变压器因其强大的自注意力机制而在计算机视觉任务中取得了重大进展。然而，最近关于图像超分辨率变换器的工作也包含卷积运算。我们提出了一种图像超分辨率 PTSR 补丁转换器来解决这个问题。所提出的 PTSR 是一个基于 Transformer 的 GAN 网络，没有卷积操作。我们引入了一种新颖的补丁转换器模块，用于利用多头注意力重新生成改进的补丁，生成器进一步利用该模块来生成 2x 和 4x 超分辨率图像。实验使用基准数据集进行，包括 DIV2K、Set5、Set14 和 BSD100。与最佳竞争模型相比，该模型的结果平均超分辨率提高了 4 倍，PNSR 分数提高了 21.66，SSIM 分数提高了 11.59。

Streamlining Brain Tumor Classification with Custom Transfer Learning in MRI Images
Authors Javed Hossain, Md. Touhidul Islam, Md. Taufiqul Haque Khan Tusar
脑肿瘤越来越普遍，其特点是异常组织在大脑中不受控制的扩散，全球每年诊断出近 700,000 例新病例。磁共振成像 MRI 通常用于脑肿瘤的诊断，准确的分类是一个关键的临床程序。在这项研究中，我们提出了一种使用自定义迁移学习网络对 MRI 图像中的脑肿瘤进行分类的有效解决方案。虽然一些研究人员采用了各种预训练的架构，例如 RESNET 50、ALEXNET、VGG 16 和 VGG 19，但这些方法通常存在计算复杂度较高的问题。为了解决这个问题，我们提出了一个定制的轻量级模型，使用基于卷积神经网络的预训练架构，降低了复杂性。具体来说，我们采用带有额外隐藏层的 VGG 19 架构，这降低了基础架构的复杂性，但提高了计算效率。目标是使用新颖的方法实现高分类精度。

Using Logic Programming and Kernel-Grouping for Improving Interpretability of Convolutional Neural Networks
Authors Parth Padalkar, Gopal Gupta
在深度学习领域，卷积神经网络 CNN 的可解释性，特别是在图像分类任务中，仍然是一个巨大的挑战。为此，我们提出了一个神经符号框架 NeSyFOLD G，它使用 CNN 的最后一层内核生成符号规则集，使其底层知识可解释。 NeSyFOLD G 与其他类似框架的不同之处在于，我们首先使用各个内核生成的特征图之间的余弦相似度在 CNN 内核分组中找到相似内核的组。一旦找到这样的内核组，我们就会对 CNN 中每个内核组的输出进行二值化，并使用它生成一个二值化表，该表用作 FOLD SE M 的输入数据，FOLD SE M 是一种基于规则的机器学习 RBML 算法。然后 FOLD SE M 生成可用于进行预测的规则集。我们提出了一种新颖的内核分组算法，并表明对相似的内核进行分组可以显着减少 FOLD SE M 生成的规则集的大小，从而提高可解释性。该规则集象征性地封装了经过训练的 CNN 的联结主义知识。规则集可以被视为正常的逻辑程序，其中每个谓词的真值取决于 CNN 中的内核组。规则集中的每个谓词都使用用于训练的图像的一些语义分割掩码映射到一个概念，以使其易于人类理解。然后可以用该规则集替换 CNN 的最后几层，以获得 NeSy G 模型，然后将其用于图像分类任务。目标导向 ASP 系统的 CASP 可用于获得使用 NeSy G 模型做出的任何预测的合理性。

Robust multimodal models have outlier features and encode more concepts
Authors Jonathan Crabb , Pau Rodr guez, Vaishaal Shankar, Luca Zappella, Arno Blaas
鲁棒模型与非鲁棒模型的区别随着大规模多模态模型（例如 CLIP）的出现，这个问题得到了关注。这些模型在自然分布变化方面表现出了前所未有的稳健性。虽然已经表明，这种稳健性差异可以追溯到训练数据的差异，但到目前为止，尚不清楚这会转化为模型所学到的内容。在这项工作中，我们通过探索 12 个稳健的多模态模型的表示空间来弥补这一差距，这些模型具有各种主干 ResNet 和 ViT 以及预训练集 OpenAI、LAION 400M、LAION 2B、YFCC15M、CC12M 和 DataComp。我们在这些模型的表示空间中发现了鲁棒性的两个特征 1 鲁棒模型表现出以其激活为特征的异常特征，其中一些比平均水平高出几个数量级。这些异常值特征在模型的表示空间中引起了特权方向。我们证明，这些优先方向通过修剪最多 80 个最不重要的表示空间方向来解释模型的大部分预测能力，而不会对模型的准确性和鲁棒性产生负面影响。 2 鲁棒模型在其表示空间中编码更多的概念。虽然这种概念的叠加允许强大的模型存储大量信息，但它也导致高度多语义特征，这使得它们的解释具有挑战性。

Spec-NeRF: Multi-spectral Neural Radiance Fields
Authors Jiabao Li, Yuqi Li, Ciliang Sun, Chong Wang, Jinhui Xiang
我们提出多光谱神经辐射场 Spec NeRF，用于从一组经不同滤波器过滤的彩色图像中联合重建相机的多光谱辐射场和光谱灵敏度函数 SSF。所提出的方法侧重于对物理成像过程进行建模，并应用估计的 SSF 和辐射场来合成多光谱场景的新视图。在这种方法中，数据采集只需要一个低成本的三色相机和几个现成的滤色镜，这使得它比使用专门的3D扫描和光谱成像设备更实用。我们对合成和真实场景数据集的实验表明，利用具有可学习 NeRF 和 SSF 的过滤 RGB 图像可以实现高保真度和有前景的光谱重建，同时保留 NeRF 理解几何结构的固有能力。

Training Dynamics of Deep Network Linear Regions
Authors Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk
深度网络 DN 训练动态的研究主要集中在损失函数的演化上，在训练和测试集数据点上或周围进行评估。事实上，许多 DN 现象都是在这方面首次在文献中引入的，例如双血统、grokking。在这项研究中，我们研究了由连续分段仿射 DN 形成的输入空间分区或线性区域的训练动态，例如具有泄漏 ReLU 非线性的网络。首先，我们提出了一种新颖的统计数据，该统计数据包含基于数据点周围任意维邻域内线性区域集中度的 DN 的局部复杂性 LC。我们观察到，在训练过程中，数据点周围的 LC 经历了多个阶段，从初始化后的下降趋势开始，然后上升，最后以下降趋势结束。使用精确的可视化方法，我们发现了令人困惑的观察结果，即在训练的最后 LC 下降阶段，线性区域从训练和测试样本迁移到决策边界，使得 DN 输入输出在其他地方几乎呈线性。

Representation Learning via Consistent Assignment of Views to Clusters
Authors Thalles Silva, Ad n Ram rez Rivera
我们引入了表示学习的一致性分配 CARL，这是一种无监督学习方法，通过结合自监督对比学习和深度聚类的思想来学习视觉表示。通过从聚类角度观察对比学习，CARL 通过学习一组通用原型来学习无监督表示，这些通用原型充当能量锚，强制将给定图像的不同视图分配给同一原型。与当代深度聚类对比学习的工作不同，CARL 提出以在线方式学习通用原型集，使用梯度下降，而无需使用不可微算法或 K 均值来解决聚类分配问题。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com