【AI视野·今日CV 计算机视觉论文速览第256期】Thu, 28 Sep 2023

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 28 Sep 2023
Totally 96 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

SHACIRA: Scalable HAsh-grid Compression for Implicit Neural Representations
Authors Sharath Girish, Abhinav Shrivastava, Kamal Gupta
隐式神经表示 INR 或神经场已成为一种流行的框架，用于对图像和辐射场等多媒体信号进行编码，同时保持高质量。最近，Instant NGP 提出的可学习特征网格通过用多分辨率特征向量查找表和小得多的神经网络取代大型神经网络，显着加快了训练和 INR 采样速度。然而，这些功能网格是以大量内存消耗为代价的，这可能成为存储和流应用程序的瓶颈。在这项工作中，我们提出了 SHACIRA，这是一种简单而有效的任务无关框架，用于压缩此类特征网格，无需额外的事后剪枝量化阶段。我们使用量化的潜在权重重新参数化特征网格，并在潜在空间中应用熵正则化，以实现跨各个域的高水平压缩。由图像、视频和辐射场组成的不同数据集的定量和定性结果表明，我们的方法优于现有的 INR 方法，而不需要任何大型数据集或特定领域的启发法。

Exploiting the Signal-Leak Bias in Diffusion Models
Authors Martin Nicolas Everaert, Athanasios Fitsios, Marco Bocchio, Sami Arpa, Sabine S sstrunk, Radhakrishna Achanta
大多数扩散模型的推理流程都存在偏差。这种偏差是由信号泄漏引起的，信号泄漏的分布偏离噪声分布，从而在训练和推理过程之间造成差异。我们证明，当模型调整为特定风格时，这种信号泄漏偏差尤其显着，导致次优风格匹配。最近的研究试图避免训练期间的信号泄漏。相反，我们展示了如何利用现有扩散模型中的信号泄漏偏差，以更好地控制生成的图像。这使我们能够生成具有更多变化亮度的图像，以及更好地匹配所需样式或颜色的图像。

OrthoPlanes: A Novel Representation for Better 3D-Awareness of GANs
Authors Honglin He, Zhuoqian Yang, Shikai Li, Bo Dai, Wayne Wu
我们提出了一种新方法，用于从 2D 图像集合中生成具有精细几何形状的逼真且视图一致的图像。我们的方法提出了一种称为 textbf OrthoPlanes 的混合显式隐式表示，它在特征图中编码细粒度的 3D 信息，可以通过修改 2D StyleGAN 有效地生成这些信息。与以前的表示相比，我们的方法具有更好的可扩展性和表达力，信息清晰明确。因此，我们的方法可以处理更具挑战性的视角并合成具有高空间自由度的铰接物体。实验表明，我们的方法在 FFHQ 和 SHHQ 数据集上在定量和定性方面均取得了最先进的结果。

Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
Authors David Junhao Zhang, Jay Zhangjie Wu, Jia Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
在大规模预训练文本到视频扩散模型 VDM 领域已经取得了重大进展。然而，以前的方法要么仅仅依赖于基于像素的 VDM（计算成本很高），要么依赖于基于潜在的 VDM（通常难以实现精确的文本视频对齐）。在本文中，我们第一个提出了一种混合模型，称为 Show 1，它将基于像素和基于潜在的 VDM 结合起来，用于文本到视频的生成。我们的模型首先使用基于像素的 VDM 来生成具有强文本视频相关性的低分辨率视频。之后，我们提出了一种新颖的专家翻译方法，该方法采用基于潜在的 VDM 将低分辨率视频进一步上采样为高分辨率。与潜在 VDM 相比，Show 1 可以生成精确文本视频对齐的高质量视频。与像素 VDM 相比，Show 1 在推理过程中 GPU 内存使用效率更高，为 15G vs 72G。我们还根据标准视频生成基准验证了我们的模型。

Convolutional Networks with Oriented 1D Kernels
Authors Alexandre Kirchmeyer, Jia Deng
在计算机视觉中，2D 卷积可以说是 ConvNet 执行的最重要的操作。毫不奇怪，它一直是密集的软件和硬件优化的焦点，并享有高效的实施。在这项工作中，我们提出了一个有趣的问题，我们是否可以在没有 2D 卷积的情况下使 ConvNet 工作。令人惊讶的是，我们发现答案是肯定的，我们证明完全由 1D 卷积组成的 ConvNet 在 ImageNet 分类上的表现与 2D 卷积一样好。具体来说，我们发现高性能 1D ConvNet 的一个关键要素是定向 1D 内核，1D 内核不仅水平或垂直定向，而且还以其他角度定向。我们的实验表明，定向 1D 卷积不仅可以取代 2D 卷积，还可以使用大内核增强现有架构，从而以最小的 FLOP 增加提高准确性。这项工作的一个关键贡献是面向 1D 内核的高度优化的自定义 CUDA 实现，专门用于深度卷积设置。我们的基准测试表明，我们的自定义 CUDA 实现几乎完美地实现了 1D 卷积的理论优势，对于任何任意角度，它都比原生水平卷积更快。

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
Authors Xiaoliang Dai, Ji Hou, Chih Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh
使用网络规模图像文本对训练文本到图像模型可以从文本生成各种视觉概念。然而，这些预先训练的模型在生成高度美观的图像时常常面临挑战。这就需要在训练前进行审美调整。在本文中，我们提出质量调整，以有效指导预先训练的模型专门生成高度视觉吸引力的图像，同时保持视觉概念的通用性。我们的主要见解是，通过一组令人惊讶的小但极具视觉吸引力的图像进行监督微调可以显着提高生成质量。我们在 11 亿个图像文本对上预训练潜在扩散模型，并仅使用几千张精心挑选的高质量图像对其进行微调。与仅经过预训练的模型相比，所得模型 Emu 的胜率达到 82.9。与最先进的 SDXLv1.0 相比，Emu 在标准 PartiPrompts 和我们的基于文本到图像模型的实际使用的开放用户输入基准的视觉吸引力上的首选时间分别为 68.4 和 71.3。

Partial Transport for Point-Cloud Registration
Authors Yikun Bai, Huy Tran, Steven B. Damelin, Soheil Kolouri
点云配准在机器人、计算机图形学和医学成像等各个领域发挥着至关重要的作用。此过程涉及确定不同点集之间的空间关系（通常在 3D 空间内）。在现实场景中，非刚性运动和部分可见性（例如遮挡或传感器噪声）会产生复杂性，这使得非刚性配准成为一个具有挑战性的问题。经典的非刚性配准方法通常计算量要求较高，性能不稳定，而且重要的是，理论保证有限。最优传输问题及其不平衡变化（例如最优部分传输问题）已成为点云配准的强大工具，在该领域建立了强大的基准。这些方法将点云视为经验测量，并提供了一种严格的数学方法来量化变换后的源点和目标点之间的对应关系。在本文中，我们通过最优传输理论的视角来处理点云配准问题，并首先提出了一套基于最优部分传输问题的综合非刚性配准方法。随后，利用一维最优部分传输问题的有效解决方案的新兴工作，我们通过切片扩展了我们提出的算法，以获得显着的计算效率，从而产生快速且鲁棒的非刚性配准算法。

One For All: Video Conversation is Feasible Without Video Instruction Tuning
Authors Ruyang Liu, Chen Li, Yixiao Ge, Ying Shan, Thomas H. Li, Ge Li
大型语言模型法学硕士的最新进展刺激了图像语言对话代理的各种进步，而如何构建熟练的基于视频的对话系统仍在探索中。考虑到 LLM 和视觉主干的广泛规模，留下最少的 GPU 内存来促进有效的时间建模，这对于理解和提供视频反馈至关重要。为此，我们提出了 Branching Temporal Adapter BT Adapter，这是一种将图像语言预训练模型扩展到视频领域的新颖方法。具体来说，BT Adapter 与预训练的视觉编码器一起充当即插即用的时间建模分支，在保持骨干网冻结的同时进行调整。只需预训练一次，BT Adapter 就可以使用该版本的 CLIP 无缝集成到所有图像对话模型中，从而无需视频指令即可实现视频对话。此外，我们在分支内部开发了独特的非对称令牌屏蔽策略，并为 BT Adapter 定制了训练任务，促进更快的收敛和更好的结果。借助 BT Adapter，我们能够为现有的多模态对话模型提供强大的视频理解能力，而不会产生过多的 GPU 成本。没有花里胡哨的东西，BT Adapter 在各种视频任务上使用了数千小时的 GPU 小时，实现了最先进的零拍摄结果。 2 比当前视频聊天机器人具有更好的性能，无需任何视频指令调整。

Joint-YODNet: A Light-weight Object Detector for UAVs to Achieve Above 100fps
Authors Vipin Gautam, Shitala Prasad, Sharad Sinha
通过无人机和雷达捕获的无人机图像进行小物体检测是一项复杂的任务，面临一些艰巨的挑战。该领域包含许多复杂性，阻碍了小物体的准确检测和定位。为了应对这些挑战，我们提出了一种名为 JointYODNet 的新颖方法，用于无人机检测小物体，利用专门为此任务设计的联合损失函数。我们的方法围绕开发联合损失函数来增强小物体的检测性能。通过对在不同环境条件下捕获的不同无人机图像数据集进行广泛的实验，我们评估了损失函数的不同变化并确定了最有效的公式。结果表明，我们提出的联合损失函数在精确定位小物体方面优于现有方法。具体来说，我们的方法实现了 0.971 的召回率和 0.975 的 F1Score，超越了最先进的技术。

AaP-ReID: Improved Attention-Aware Person Re-identification
Authors Vipin Gautam, Shitala Prasad, Sharad Sinha
行人再识别ReID是计算机视觉领域众所周知的问题。主要目标是识别图像库中的特定个体。然而，由于各种因素，例如姿势变化、照明变化、障碍物以及令人困惑的背景的存在，这项任务具有挑战性。现有的 ReID 方法通常无法捕获有区别的特征，例如头部、鞋子、背包，而是在目标被遮挡时捕获不相关的特征。受基于部位和基于注意力的 ReID 方法成功的推动，我们改进了 AlignedReID 并提出了 AaP ReID，这是一种更有效的人员 ReID 方法，它将通道明智的注意力纳入基于 ResNet 的架构中。我们的方法结合了 Channel Wise Attention Bottleneck CWAbottleneck 块，可以通过动态调整特征图中每个通道的重要性来学习判别特征。我们在三个基准数据集 Market 1501、DukeMTMC reID 和 CUHK03 上评估了 Aap ReID。

Rapid Network Adaptation: Learning to Adapt Neural Networks Using Test-Time Feedback
Authors Teresa Yeo, O uzhan Fatih Kar, Zahra Sodagar, Amir Zamir
我们提出了一种使神经网络适应测试时分布变化的方法。与尝试预测和应对这种变化的训练时间鲁棒性机制相反，我们创建了一个闭环系统，并利用测试时间反馈信号来动态调整网络。我们证明，可以使用基于学习的函数有效地实现该循环，该函数实现了网络的摊销优化器。这导致了一种称为快速网络适应 RNA 的适应方法，它比基线更加灵活并且速度快几个数量级。通过使用各种适应信号和目标任务的大量实验，我们研究了该方法的效率和灵活性。我们使用各种数据集 Taskonomy、Replica、ScanNet、Hypersim、COCO、ImageNet、任务深度、光流、语义分割、分类和分布偏移、跨数据集、2D 和 3D 常见损坏进行评估，并取得了有希望的结果。

CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs
Authors Ao Wang, Hui Chen, Zijia Lin, Sicheng Zhao, Jungong Han, Guiguang Ding
Vision Transformers ViT 最近已成为各种视觉任务的最先进模型。然而，对于资源有限的设备来说，其繁重的计算成本仍然令人望而生畏。因此，研究人员致力于压缩 ViT 中的冗余信息以实现加速。然而，它们通常通过令牌剪枝稀疏地丢弃冗余图像令牌，或者通过通道剪枝残酷地删除通道，导致模型性能和推理速度之间的次优平衡。它们在将压缩模型转移到需要图像空间结构的下游视觉任务（例如语义分割）方面也不利。为了解决这些问题，我们提出了一种 ViT 联合压缩方法，该方法提供高精度和快速推理速度，同时还保持对下游任务 CAIT 的良好可转移性。具体来说，我们引入了一种非对称代币合并 ATME 策略来有效地整合相邻代币。它可以成功压缩冗余标记信息，同时保留图像的空间结构。我们进一步采用一致的动态通道修剪 CDCP 策略来动态修剪 ViT 中的不重要通道。得益于CDCP，ViT的多头自注意力模块中的无关紧要的通道可以被统一剪枝，大大增强了模型压缩。对基准数据集的大量实验表明，我们提出的方法可以在各种 ViT 上实现最先进的性能。例如，我们修剪后的 DeiT Tiny 和 DeiT Small 分别实现了 1.7 倍和 1.9 倍的加速，而在 ImageNet 上精度没有下降。在 ADE20k 分割数据集上，我们的方法在具有相当的 mIoU 的情况下可以享受高达 1.31 倍的加速。

InfraParis: A multi-modal and multi-task autonomous driving dataset
Authors Gianni Franchi, Marwane Hariat, Xuanlong Yu, Nacim Belkhir, Antoine Manzanera, David Filliat
当前用于自动驾驶计算机视觉的深度神经网络 DNN 通常在仅涉及单一类型数据和城市场景的特定数据集上进行训练。因此，这些模型很难处理新物体、噪音、夜间条件和不同的场景，这对于安全关键应用至关重要。尽管人们不断努力增强计算机视觉 DNN 的弹性，但进展缓慢，部分原因是缺乏具有多种模式的基准。我们引入了一个名为 InfraParis 的新颖且多功能的数据集，它支持跨 RGB、深度和红外三种模式的多项任务。

Synthetic Latent Fingerprint Generation Using Style Transfer
Authors Amol S. Joshi, Ali Dabouei, Nasser Nasrabadi, Jeremy Dawson
有限的数据可用性是潜在指纹领域的一个具有挑战性的问题。合成生成的指纹对于训练基于数据的神经网络算法至关重要。传统方法会扭曲干净的指纹以生成合成的潜在指纹。我们提出了一种简单有效的方法，使用风格转移和图像混合来合成真实的潜在指纹。我们的评估标准和实验表明，生成的合成潜在指纹保留了输入的基于接触的指纹的身份信息，同时具有与真实潜在指纹相似的特征。

MindGPT: Interpreting What You See with Non-invasive Brain Recordings
Authors Jiaxuan Chen, Yu Qi, Yueming Wang, Gang Pan
利用非侵入性脑记录解码所看到的视觉内容具有重要的科学和实用价值。人们已经努力从大脑信号中恢复所看到的图像。然而，由于图像质量不足或语义不匹配，大多数现有方法无法忠实地反映视觉内容。与重建像素级视觉图像相比，说话是解释视觉信息更高效、更有效的方式。在这里，我们介绍了一种非侵入性神经解码器，称为 MindGPT，它将来自 fMRI 信号的感知视觉刺激解释为自然语言。具体来说，我们的模型建立在具有交叉注意机制的视觉引导神经编码器的基础上，这使得我们能够通过大语言模型 GPT 的协作使用，以端到端的方式引导潜在神经表示朝着所需的语言语义方向发展。通过这样做，我们发现MindGPT的神经表征是可解释的，可以用来评估视觉属性对语言语义的贡献。我们的实验表明，生成的单词序列真实地代表了视觉信息，并在所看到的刺激中传达了基本细节。结果还表明，对于语言解码任务，较高的视觉皮层 HVC 比较低的视觉皮层 LVC 具有更多的语义信息，并且仅使用 HVC 就可以恢复大部分语义信息。

Factorized Diffusion Architectures for Unsupervised Image Generation and Segmentation
Authors Xin Yuan, Michael Maire
我们开发了一种神经网络架构，以无监督的方式作为去噪扩散模型进行训练，同时学习生成和分割图像。学习完全由去噪扩散目标驱动，在训练期间没有任何关于区域的注释或先验知识。神经架构中内置的计算瓶颈鼓励去噪网络将输入划分为多个区域，并行对它们进行去噪，然后组合结果。我们训练的模型生成合成图像，并通过简单检查其内部预测分区，生成这些图像的语义分割。无需任何微调，我们直接将无监督模型应用于通过噪声分割真实图像并随后对其进行去噪的下游任务。

Physics-Based Rigid Body Object Tracking and Friction Filtering From RGB-D Videos
Authors Rama Krishna Kandukuri, Michael Strecke, Joerg Stueckler
通过感官观察对物体相互作用的基于物理学的理解是增强现实和机器人技术的一项基本能力。它能够捕获场景的属性以进行模拟和控制。在本文中，我们提出了一种新的真实模拟方法，该方法从 RGB D 图像中跟踪 3D 刚性物体并推断物体的物理属性。我们使用可微物理模拟作为扩展卡尔曼滤波器中的状态转换模型，它可以对基于任意网格的形状的接触和摩擦进行建模，并以这种方式估计物理上合理的轨迹。我们证明我们的方法可以过滤位置、方向、速度，同时可以估计物体的摩擦系数。我们分析了我们在单个对象和碰撞对象的合成图像序列中的各种滑动场景的方法。我们还在现实世界数据集上演示和评估我们的方法。

SGRec3D: Self-Supervised 3D Scene Graph Learning via Object-Level Scene Reconstruction
Authors Sebastian Koch, Pedro Hermosilla, Narunas Vaskevicius, Mirco Colosi, Timo Ropinski
在 3D 场景理解领域，3D 场景图作为一种新的场景表示形式出现，它结合了有关对象及其关系的几何和语义信息。然而，以完全监督的方式学习语义 3D 场景图本质上是困难的，因为它不仅需要对象级注释，还需要关系标签。虽然预训练方法有助于提高各个领域许多方法的性能，但 3D 场景图预测的预训练却很少受到关注。此外，我们在本文中发现基于经典对比点云的预训练方法对于 3D 场景图学习是无效的。为此，我们提出了 SGRec3D，一种用于 3D 场景图预测的新型自监督预训练方法。我们建议从图瓶颈重建 3D 输入场景作为借口任务。预训练 SGRec3D 不需要对象关系标签，使得利用大规模 3D 场景理解数据集成为可能，而这在之前是 3D 场景图学习的禁区。我们的实验表明，与最近基于点云的预训练方法相比，我们提出的预训练显着改善了 3D 场景图预测，从而实现了 SOTA 性能，在对象预测方面比其他 3D 场景图模型高出 10 倍，在关系预测方面比其他 3D 场景图模型高出 4 倍。

Physics Inspired Hybrid Attention for SAR Target Recognition
Authors Zhongling Huang, Chong Wu, Xiwen Yao, Zhicheng Zhao, Xiankai Huang, Junwei Han
最近的重点是集成物理模型和深度神经网络 DNN 以进行 SAR 目标识别，以提高性能并实现更高水平的物理可解释性。归因的散射中心 ASC 参数引起了人们的最大兴趣，在大多数方法中被视为额外的输入数据或融合特征。然而，其性能很大程度上取决于ASC优化结果，并且融合策略不能适应不同类型的物理信息。同时，当前的评估方案不足以评估模型的稳健性和泛化性。因此，我们提出了一种受物理启发的混合注意力 PIHA 机制和一次性 OFA 评估协议来解决上述问题。 PIHA利用物理信息的高级语义来激活和引导特征组感知目标的局部语义，从而基于先验知识重新加权特征重要性。它灵活且普遍适用于各种物理模型，并且可以集成到任意DNN中而无需修改原始架构。实验涉及使用拟议的 OFA 进行严格的评估，这需要在足够或有限的数据上训练和验证模型，并对具有不同数据分布的多个测试集进行评估。在具有相同 ASC 参数的 12 个测试场景中，我们的方法优于其他最先进的方法。此外，我们分析了 PIHA 的工作机制并评估了各种支持 PIHA 的 DNN。实验还表明PIHA对于不同的物理信息都是有效的。

End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning
Authors Wujun Wen, Jinrong Zhang, Shenglan Liu, Yunheng Li, Qifeng Li, Lin Feng
视频中的时间动作分割 TAS 是一种针对具有多个动作类别的长视频的帧识别任务。作为长视频的视频理解任务，当前的方法通常将多模态动作识别模型与时间模型结合起来，将特征序列转换为标签序列。这种方式只能应用于离线场景，严重限制了TAS的应用。因此，本文提出了一种使用强化学习 SVTAS RL 的端到端流视频时间动作分割。将TAS视为动作段聚类任务的端到端SVTAS可以扩展TAS的应用场景，并使用RL来缓解优化目标和方向不一致的问题。通过大量的实验，SVTAS RL模型在多个数据集上实现了与TAS最先进模型的竞争性能，并且在超长视频数据集EGTEA上显示出更大的优势。这表明我们的方法可以端到端替换当前所有TAS模型，并且SVTAS RL更适合长视频TAS。

SJTU-TMQA: A quality assessment database for static mesh with texture map
Authors Bingyang Cui, Qi Yang, Kaifa Yang, Yiling Xu, Xiaozhong Xu, Shan Liu
近年来，具有纹理贴图的静态网格已成为动画、游戏、医学成像和文化遗产应用等各种应用中最流行的 3D 形状数字表示之一。然而，对纹理网格质量评估的研究很少，这阻碍了面向质量的应用程序的开发，例如网格压缩和增强。在本文中，我们创建了一个大规模纹理网格质量评估数据库，即SJTU TMQA，其中包括21个参考网格和945个扭曲样本。将网格渲染成处理后的视频序列，然后进行主观实验以获得平均意见分数 MOS 。 MOS 内容的多样性和准确性已被证明，以验证其异质性和可靠性。展示了各种类型的失真对人类感知的影响。 SJTU TMQA 评估了 13 个最先进的客观指标。结果显示最高相关性约为 0.6，表明需要更有效的客观指标。

Dynamic Prompt Learning: Addressing Cross-Attention Leakage for Text-Based Image Editing
Authors Kai Wang, Fei Yang, Shiqi Yang, Muhammad Atif Butt, Joost van de Weijer
大规模文本到图像生成模型是生成人工智能领域的突破性发展，扩散模型显示出它们在输入文本提示后合成令人信服的图像的惊人能力。图像编辑研究的目标是让用户通过修改文本提示来控制生成的图像。当前的图像编辑技术容易受到目标区域外部区域的无意修改，例如在背景上或在与目标对象具有某种语义或视觉关系的干扰对象上。根据我们的实验结果，不准确的交叉注意力图是这个问题的根源。基于这一观察，我们提出动态提示学习 DPL，以强制交叉注意力图关注文本提示中的正确名词词。通过使用所提出的泄漏修复损失来更新文本输入中名词的动态标记，我们实现了对特定对象的细粒度图像编辑，同时防止对其他图像区域进行不需要的更改。我们的方法 DPL 基于公开的稳定扩散，在广泛的图像上进行了广泛的评估，并且在定量的 CLIP 评分、结构分布和定性的用户评估方面始终获得优异的结果。

Human Kinematics-inspired Skeleton-based Video Anomaly Detection
Authors Jian Xiao, Tianyuan Liu, Genlin Ji
以前检测视频中人体异常的方法通常依赖于隐式建模，将模型直接应用于视频或骨架数据，这可能会导致运动信息建模不准确。在本文中，我们进行了一项探索性研究，并引入了一种称为 HKVAD 人体运动学启发视频异常检测的新思想，用于视频异常检测，其中涉及明确使用人体运动学特征来检测异常。为了验证这一观点的有效性和潜力，我们提出了一种利用骨骼姿势的运动学特征的试点方法，特别关注步行步幅、脚部水平和颈部水平的骨骼位移。此后，该方法采用归一化流模型来估计密度并根据估计的密度检测异常。根据所使用的运动学特征的数量，我们设计了三种简单的变体方法，并在两个极具挑战性的公共数据集 ShanghaiTech 和 UBnormal 上进行了实验。

Position and Orientation-Aware One-Shot Learning for Medical Action Recognition from Signal Data
Authors Leiyu Xie, Yuxing Yang, Zeyu Fu, Syed Mohsen Naqvi
在这项工作中，我们提出了一种位置和方向感知的一次性学习框架，用于从信号数据中识别医疗动作。所提出的框架包括两个阶段，每个阶段包括信号级图像生成 SIG 、交叉注意 CsA 、动态时间扭曲 DTW 模块以及所提出的隐私保护位置和方向特征之间的信息融合。所提出的 SIG 方法旨在将原始骨架数据转换为隐私保护特征以进行训练。 CsA模块的开发是为了指导网络减少医疗动作识别偏差，更加关注每个特定动作的重要人体部位，旨在解决类似的医疗动作相关问题。此外，采用DTW模块来最大限度地减少实例之间的时间不匹配，并进一步提高模型性能。此外，所提出的隐私保护方向水平特征被用来辅助两个阶段中的位置水平特征，以增强医疗动作识别性能。在广泛使用和众所周知的 NTU RGB D 60、NTU RGB D 120 和 PKU MMD 数据集上的大量实验结果都证明了所提出的方法的有效性，该方法的性能优于其他现有技术的通用数据集划分方法 2.7 、 6.2

Neuromorphic Imaging and Classification with Graph Learning
Authors Pei Zhang, Chutian Wang, Edmund Y. Lam
受生物启发的神经形态相机异步记录像素亮度变化并生成稀疏事件流。它们可以在极端照明条件下捕捉运动模糊很少的动态场景和更多细节。由于多维地址事件结构，大多数现有视觉算法无法正确处理异步事件流。虽然已经开发了几种事件表示和处理方法来解决此类问题，但它们通常由大量事件驱动，导致运行时和内存方面的大量开销。在本文中，我们提出了事件数据的新图形表示，并将其与图形转换器结合起来以执行准确的神经形态分类。

Leveraging Topology for Domain Adaptive Road Segmentation in Satellite and Aerial Imagery
Authors Javed Iqbal, Aliza Masood, Waqas Sultani, Mohsen Ali
通过遥感图像分割获得道路的精确信息对于许多现实世界的应用非常有用，例如自动驾驶汽车、城市发展和规划以及实现可持续发展目标。道路只是图像的一小部分，其外观、类型、宽度、海拔、方向等在不同地理区域之间表现出很大的差异。此外，由于城镇化风格、规划、道路沿线区域自然环境的差异，差异较大。由于训练域和测试域之间的这些差异，道路分割算法无法推广到新的地理位置。与通用域对齐场景不同，道路分割没有场景结构，并且通用域自适应方法无法强制执行连续性、连通性、平滑度等拓扑属性，从而导致域对齐性能下降。在这项工作中，我们提出了一种拓扑感知的无监督域适应方法，用于遥感图像中的道路分割。具体来说，我们预测道路骨架，这是施加拓扑约束的辅助任务。为了强制道路和骨架的预测一致，特别是在未标记的目标域中，在骨架预测头和道路分割头之间定义了一致性损失。此外，对于自训练，我们通过在道路和骨架分割头上使用基于连接的伪标签细化策略来过滤掉噪声伪标签，从而避免空洞和不连续性。对基准数据集的大量实验表明，与现有的最先进方法相比，所提出的方法是有效的。

Domain generalization across tumor types, laboratories, and species -- insights from the 2022 edition of the Mitosis Domain Generalization Challenge
Authors Marc Aubreville, Nikolas Stathonikos, Taryn A. Donovan, Robert Klopfleisch, Jonathan Ganz, Jonas Ammeling, Frauke Wilm, Mitko Veta, Samir Jabari, Markus Eckstein, Jonas Annuscheit, Christian Krumnow, Engin Bozaba, Sercan Cayir, Hongyan Gu, Xiang Anthony Chen, Mostafa Jahanifar, Adam Shephard, Satoshi Kondo, Satoshi Kasai, Sujatha Kotte, VG Saipradeep, Maxime W. Lafarge, Viktor H. Koelzer, Ziyue Wang, Yongbing Zhang, Sen Yang, Xiyue Wang, Katharina Breininger, Christof A. Bertram
组织学肿瘤标本中有丝分裂图的识别与患者结果评估高度相关。这项任务对于算法和人类专家来说都是具有挑战性的，因为在图像表示变化的情况下算法性能会恶化。当对不同的肿瘤类型进行评估、使用不同的数字化设备获取图像或在不同的实验室生产样本时，会发生相当大的协变量变化。这一观察结果激发了 2022 年有丝分裂域泛化 MIDOG 2022 挑战的启动。该挑战赛提供了来自六个不同领域的带注释的组织学肿瘤图像，并评估了十个独立领域的九名挑战参与者提供的有丝分裂图检测算法方法。有丝分裂图检测的基本事实通过两种方式建立：三名专家共识和独立的免疫组织化学辅助标签集。这项工作概述了挑战任务、参与者采用的算法策略以及有助于其成功的潜在因素。表现最佳的团队的 F 1 得分为 0.764，我们总结说，利用当今基于深度学习的识别流程，可以实现跨不同肿瘤领域的领域泛化。

LivDet2023 -- Fingerprint Liveness Detection Competition: Advancing Generalization
Authors Marco Micheletto, Roberto Casula, Giulia Orr , Simone Carta, Sara Concas, Simone Maurizio La Cava, Julian Fierrez, Gian Luca Marcialis
国际指纹活体检测大赛 LivDet 是一项两年一度的活动，邀请学术界和行业参与者证明他们在指纹呈现攻击检测 PAD 方面的进步。这一版 LivDet2023 提出了两项挑战：活动中的活体检测和指纹表示，以评估嵌入验证系统中的 PAD 的有效性以及特征集的有效性和紧凑性。第三个隐藏的挑战是在训练集中包含两个传感器信息未知的子集，测试参与者推广其模型的能力。

Learning Spatial-Temporal Regularized Tensor Sparse RPCA for Background Subtraction
Authors Basit Alawode, Sajid Javed
视频背景减除是计算机视觉中的基本问题之一，旨在分割所有运动物体。由于其在许多基准数据集中的竞争性能，鲁棒主成分分析已被认为是过去十年中背景扣除任务的一种有前途的无监督范例。张量稳健主成分分析变化进一步提高了背景扣除性能。然而，由于稀疏分量中的移动对象像素是独立处理的，并且不必遵守时空结构化稀疏约束，因此具有动态背景、伪装和相机抖动问题的序列的性能会降低。在这项工作中，我们提出了一种用于精确背景扣除的时空正则化张量稀疏 RPCA 算法。在稀疏组件中，我们以归一化图拉普拉斯矩阵的形式施加时空正则化。为此，我们构建了两个图，一个跨越输入张量空间位置，另一个跨越时域中的额叶切片。在最大化目标函数的同时，我们强制张量稀疏分量作为图拉普拉斯矩阵的时空特征向量。稀疏分量中断开的移动对象像素由所提出的基于图的正则化保留，因为它们都包含基于时空子空间的结构。此外，我们提出了一种独特的目标函数，该函数采用基于批量和在线的优化方法来共同最大化背景前景和时空正则化分量。在六个公开的背景扣除数据集上进行了实验，证明了所提出的算法与几种现有方法相比具有优越的性能。

Confidence-based Visual Dispersal for Few-shot Unsupervised Domain Adaptation
Authors Yizhe Xiong, Hui Chen, Zijia Lin, Sicheng Zhao, Guiguang Ding
无监督域适应旨在将知识从完全标记的源域转移到未标记的目标域。然而，在现实场景中，由于注释的难度和高昂的费用，即使在源域中提供丰富的标记数据也是不可行的。为了解决这个问题，最近的工作考虑了少样本无监督域适应 FUDA，其中仅标记了少数源样本，并通过自监督学习方法进行知识迁移。然而现有的方法通常忽视了稀疏标签设置阻碍了学习可靠的源知识以进行迁移。此外，目标样本的学习难度差异不同但被忽略，导致硬目标样本分类不佳。为了解决这两个缺陷，在本文中，我们提出了一种新颖的基于置信度的视觉分散迁移学习方法 C VisDiT for FUDA。具体来说，C VisDiT 由跨域视觉分散策略和域内视觉分散策略组成，前者仅传输用于模型自适应的高置信度源知识，后者指导硬目标样本与简单目标样本的学习。我们对 Office 31、Office Home、VisDA C 和 DomainNet 基准数据集进行了广泛的实验，结果表明，所提出的 C VisDiT 显着优于最先进的 FUDA 方法。

HPL-ViT: A Unified Perception Framework for Heterogeneous Parallel LiDARs in V2V
Authors Yuhang Liu, Boyi Sun, Yuke Li, Yuzheng Hu, Fei Yue Wang
为了开发下一代智能激光雷达，我们提出了一种新颖的并行激光雷达框架，并在我们的实验平台 DAWN Digital Artificial World for Natural 中构建了硬件原型。它强调激光雷达系统中物理空间和数字空间的紧密集成，网络是其支持的核心功能之一。在自动驾驶背景下，V2V车对车技术实现了不同智能体之间的高效信息共享，极大地促进了激光雷达网络的发展。然而，目前的研究是在所有车辆都配备相同激光雷达的理想情况下进行的，忽略了激光雷达类别和工作频率的多样性。在本文中，我们首先利用 OpenCDA 和 RLS 现实 LiDAR 模拟构建了一个名为 OPV2V HPL 的新型异构 LiDAR 数据集。此外，我们还推出了 HPL ViT，这是一种专为异构和动态场景中强大的特征融合而设计的开创性架构。它使用图注意 Transformer 来提取每个代理的特定领域特征，并结合交叉注意机制进行最终融合。

Guided Frequency Loss for Image Restoration
Authors Bilel Benjdiraa, Anas M. Alia, Anis Koubaa
近年来，图像修复取得了显着的进展。许多生成模型已被采用来解决已知的图像恢复案例。然而，尽管频域在图像合成的这些特定情况下是主要因素，但人们对从频域中受益的兴趣还没有得到很好的探索。在本研究中，我们提出了引导频率损失 GFL ，它有助于模型以平衡的方式学习图像的频率内容和空间内容。它聚合了三个并行工作的主要组件，以提高学习效率：Charbonnier 组件、拉普拉斯金字塔组件和渐变频率组件。我们在超分辨率和去噪任务上测试了 GFL。我们使用了三个不同的数据集，并为每个数据集使用了三种不同的架构。我们发现，在大多数实施的实验中，GFL 损失改善了 PSNR 指标。此外，它还改进了 SwinIR 和 SRGAN 中超分辨率模型的训练。

Learning from SAM: Harnessing a Segmentation Foundation Model for Sim2Real Domain Adaptation through Regularization
Authors Mayara E. Bonani, Max Schwarz, Sven Behnke
领域适应对于机器人应用尤其重要，因为目标领域训练数据通常稀缺，并且获取注释的成本很高。我们提出了一种用于自监督域适应的方法，适用于带注释的源域数据（例如合成生成的数据可用，但目标域数据完全未注释。我们的方法针对语义分割任务，并利用分割基础模型 Segment Anything Model 来获取未注释数据的分割信息。我们从无监督局部特征学习的最新进展中汲取灵感，并提出了检测到的片段上的不变方差损失结构，用于正则化目标域中的特征表示。至关重要的是，这种损失结构和网络架构可以处理由 Segment Anything 产生的重叠分段和过度分段。

Learning Dense Flow Field for Highly-accurate Cross-view Camera Localization
Authors Zhenbo Song, Xianghui Ze, Jianfeng Lu, Yujiao Shi
本文解决了相对于包含当地环境的卫星图像估计地面图像的 3 DoF 相机位姿的问题。我们提出了一种新颖的端到端方法，利用地面和卫星图像对中密集像素流场的学习来计算相机姿态。我们的方法与现有方法不同，它在像素级别构建特征度量，从而实现全面的图像监督，以学习独特的几何配置和跨视图的视觉外观。具体来说，我们的方法采用两个不同的卷积网络来提取地面和卫星特征。然后，我们使用固定的相机高度假设将地面特征图投影到鸟瞰图BEV上，以实现初步的几何对齐。为了进一步建立 BEV 和卫星特征之间的内容关联，我们引入了残差卷积块来细化投影的 BEV 特征。使用基于 RAFT 的流解码器网络对细化的 BEV 特征图和卫星特征图进行光流估计。获得密集的流对应关系后，我们应用最小二乘法来过滤匹配内点并回归地面相机位姿。大量的实验证明与最先进的方法相比有显着的改进。

Low Latency of object detection for spikng neural network
Authors Nemin Qiu, Chuang Zhu
尖峰神经网络作为第三代神经网络，由于其二元尖峰性质，非常适合边缘人工智能应用。然而，当涉及对象检测等复杂任务时，SNN 通常需要大量时间步才能实现高性能。这一限制极大地阻碍了 SNN 在延迟敏感边缘设备中的广泛采用。在本文中，我们的重点是生成专门用于对象检测的高精度和低延迟 SNN。首先，我们系统地推导了SNN和ANN之间的转换，并分析了如何提高它们之间的一致性，从而提高尖峰放电率并减少量化误差。然后，我们提出结构替换、ANN 激活量化和残差修复来减轻差异。我们在具有挑战性的数据集 MS COCO、PASCAL VOC 和我们的尖峰数据集上评估我们的方法。实验结果表明，与之前的Spiking YOLO工作相比，所提出的方法实现了更高的准确率和更低的延迟。

From LAION-5B to LAION-EO: Filtering Billions of Images Using Anchor Datasets for Satellite Image Extraction
Authors Mikolaj Czerkawski, Alistair Francis
LAION 5B 等大型数据集包含在线共享的不同分布的图像。然而，提取大型图像语料库的特定领域子集具有挑战性。这里提出了基于锚数据集并结合进一步过滤的提取方法，并在卫星图像领域进行了演示。这导致了 LAION EO 的发布，这是一个来自网络的数据集，包含高像素分辨率的文本和卫星图像对。

Uncertainty Quantification via Neural Posterior Principal Components
Authors Elias Nehme, Omer Yair, Tomer Michaeli
不确定性量化对于在自动驾驶和生物成像等安全关键领域部署图像恢复模型至关重要。迄今为止，不确定性可视化方法主要集中在每个像素的估计上。然而，每像素方差的热图通常没有什么实际用途，因为它不能捕获像素之间的强相关性。更自然的不确定性度量对应于后验分布的主成分 PC 的方差。理论上，可以通过对输入图像的条件生成模型生成的样本应用 PCA 来计算 PC。然而，这需要在测试时生成大量样本，这对于当前最先进的扩散模型来说速度非常慢。在这项工作中，我们提出了一种在神经网络的单次前向传递中预测任何输入图像的后验分布 PC 的方法。我们的方法可以围绕经过训练以最小化均方误差 MSE 的预训练模型，或者可以从头开始训练以输出预测图像和后验 PC。我们展示了我们在成像中多个逆问题上的方法，包括去噪、修复、超分辨率和生物图像到图像的转换。我们的方法可靠地传达了实例自适应不确定性方向，实现了与后验采样器相当的不确定性量化，同时速度快了几个数量级。

P2I-NET: Mapping Camera Pose to Image via Adversarial Learning for New View Synthesis in Real Indoor Environments
Authors Xujie Kang, Kanglin Liu, Jiang Duan, Yuanhao Gong, Guoping Qiu
给定室内环境中的新 6DoF 相机姿势，我们研究了基于一组参考 RGBD 视图预测该姿势的视图的挑战性问题。现有的显式或隐式 3D 几何构造方法的计算成本很高，而基于学习的方法主要关注具有规则几何结构的对象类别的孤立视图。与传统的textit渲染修复方法在真实室内环境中合成新视图不同，我们提出了一种条件生成对抗神经网络P2I NET来直接从给定的姿势预测新视图。 P2I NET 学习环境图像的条件分布，以建立相机姿势与其环境视图之间的对应关系，并通过其架构和训练丢失功能中的许多创新设计来实现这一目标。引入两个辅助判别器约束，以强制生成图像的姿态与潜在特征空间和现实世界姿态空间中相应的现实世界图像的姿态之间的一致性。此外，还引入了深度卷积神经网络 CNN，以进一步加强像素空间中的这种一致性。我们在真实的室内数据集上进行了广泛的新视图合成实验。结果表明，P2I NET 相对于许多基于 NeRF 的强基线模型具有优越的性能。特别是，我们表明，在合成相似质量的图像时，P2I NET 的速度比这些竞争对手的技术快 40 到 100 倍。

Improving Facade Parsing with Vision Transformers and Line Integration
Authors Bowen Wang, Jiaxing Zhang, Ran Zhang, Yunqin Li, Liangzhi Li, Yuta Nakashima
立面解析是一项关键的计算机视觉任务，在建筑、城市规划和能源效率等领域具有深远的应用。尽管基于深度学习的方法最近在某些开源数据集上取得了令人印象深刻的结果，但它们在现实世界应用中的可行性仍然不确定。现实世界的场景要复杂得多，需要更高的计算效率。现有的数据集通常不足以表示这些设置，并且以前的方法经常依赖额外的模型来提高准确性，这需要大量的计算成本。在本文中，我们介绍了全面的外观解析 CFP，这是一个精心设计的数据集，旨在涵盖现实世界中复杂的外观解析任务。该数据集总共包含 602 张高分辨率街景图像，捕捉了各种具有挑战性的场景，包括倾斜角度和密集聚集的建筑物，并为每张图像精心策划了注释。我们引入了一种新的管道，称为基于修订的 Transformer Facade Parsing RTFP。这标志着 Vision Transformers ViT 在立面解析中的开创性应用，我们的实验结果明确证实了其优点。我们还设计了线采集、过滤和修订 LAFR，这是一种高效而准确的修订算法，可以仅使用立面的先验知识通过简单的线检测来改进分段结果。在 ECP 2011、RueMonge 2014 和我们的 CFP 中，我们评估了我们方法的优越性。

Defending Against Physical Adversarial Patch Attacks on Infrared Human Detection
Authors Lukas Strack, Futa Waseda, Huy H. Nguyen, Yinqiang Zheng, Isao Echizen
红外检测因其卓越的抗干扰能力而成为安全关键任务的新兴技术。然而，最近的研究表明，它很容易受到物理上可实现的对抗性补丁的影响，从而在现实世界的应用中带来风险。为了解决这个问题，我们首先研究了针对红外检测，特别是人体检测的对抗性补丁攻击的防御策略。我们设计了一种简单的防御策略，即基于补丁的遮挡感知检测 POD，它可以使用随机补丁有效地增强训练样本并随后检测它们。 POD 不仅可以可靠地检测人员，还可以识别敌对补丁位置。令人惊讶的是，虽然 POD 的计算效率极高，但它很容易推广到训练期间看不到的最先进的对抗性补丁攻击。此外，由于数据增强效应，即使在干净即无补丁的情况下，POD 也提高了检测精度。评估表明，POD 对于各种形状和大小的对抗性斑块具有鲁棒性。

DreamCom: Finetuning Text-guided Inpainting Model for Image Composition
Authors Lingxiao Lu, Bo Zhang, Li Niu
图像合成的目标是将前景物体合并到背景图像中以获得逼真的合成图像。最近，由于其前所未有的图像生成能力，生成合成方法建立在大型预训练扩散模型的基础上。他们在丰富的前景和背景对上训练模型，以便在测试时可以直接应用于新的前景和背景对。然而，生成的结果通常会丢失前景细节并表现出明显的伪影。在这项工作中，我们受 DreamBooth 启发，提出了一种极其简单的方法，名为 DreamCom。具体来说，给定一个主题的一些参考图像，我们微调文本引导的修复扩散模型，以将该主题与特殊标记相关联，并在指定的边界框中修复该主题。

VideoAdviser: Video Knowledge Distillation for Multimodal Transfer Learning
Authors Yanan Wang, Donghuo Zeng, Shinya Wada, Satoshi Kurihara
多模态迁移学习旨在将不同模态的预训练表示转换为公共域空间，以实现有效的多模态融合。然而，传统系统通常建立在所有模态都存在的假设之上，而缺乏模态总是会导致推理性能不佳。此外，为所有模态提取预训练的嵌入对于推理而言计算效率低下。在这项工作中，为了实现高效性能的多模态迁移学习，我们提出了VideoAdviser，一种视频知识蒸馏方法，将视频增强提示的多模态知识从多模态基础模型教师转移到特定模态基础模型学生。我们的直觉是最好的学习成绩来自于专业顾问和聪明的学生，我们使用基于 CLIP 的教师模型，通过优化步骤蒸馏目标损失，为基于 RoBERTa 的学生模型提供富有表现力的多模态知识监督信号。从分类 Logit 到回归 Logit 的视频增强提示第二步，从教师到学生的回归 Logit 中提取多模态知识。我们在两个具有挑战性的多模态任务（视频级情感分析 MOSI 和 MOSEI 数据集以及视听检索 VEGAS 数据集）中评估我们的方法。仅需要文本形式作为输入的学生的 MOSI 和 MOSEI 的 MAE 分数提高高达 12.3。我们的方法将 VEGAS 的 mAP 分数进一步提高了 3.4，而无需额外的推理计算。

CauDR: A Causality-inspired Domain Generalization Framework for Fundus-based Diabetic Retinopathy Grading
Authors Hao Wei, Peilun Shi, Juzheng Miao, Minqing Zhang, Guitao Bai, Jianing Qiu, Furui Liu, Wu Yuan
糖尿病视网膜病变DR是最常见的糖尿病并发症，通常会导致视网膜损伤、视力丧失，甚至失明。计算机辅助 DR 分级系统对于帮助眼科医生快速筛查和诊断具有重大影响。眼底摄影的最新进展促进了新型视网膜成像相机的开发及其随后在临床实践中的应用。然而，大多数基于深度学习的 DR 分级算法表现出跨领域的通用性有限。这种较差的性能源于成像协议和设备的差异导致域转移。我们假设域之间模型性能的下降是由于学习数据中的虚假相关性而引起的。将因果关系分析中的 do 操作合并到模型架构中可以缓解此问题并提高通用性。具体来说，提出了一种新颖的通用结构因果模型 SCM 来分析眼底成像中的虚假相关性。在此基础上，开发了一个名为 CauDR 的因果关系糖尿病视网膜病变分级框架，以消除虚假相关性并实现更通用的 DR 诊断。此外，现有数据集被重组为 DG 场景的 4DR 基准。

Survey on Deep Face Restoration: From Non-blind to Blind and Beyond
Authors Wenjie Li, Mei Wang, Kai Zhang, Juncheng Li, Xiaoming Li, Yuhang Zhang, Guangwei Gao, Weihong Deng, Chia Wen Lin
人脸恢复 FR 是图像恢复中的一个专业领域，旨在将低质量 LQ 人脸图像恢复为高质量 HQ 人脸图像。深度学习技术的最新进展导致FR方法取得了重大进展。在本文中，我们首先研究造成现实世界 LQ 图像的普遍因素，并介绍用于合成 LQ 图像的退化技术。我们还讨论了该领域常用的著名基准。接下来，我们根据不同的任务对 FR 方法进行分类，并解释它们随时间的演变。此外，我们探索了修复过程中常用的各种面部先验，并讨论了提高其有效性的策略。在实验部分，我们使用统一的基准全面评估了最先进的 FR 方法在各种任务中的性能。我们从不同的角度分析他们的表现。最后，我们讨论了 FR 领域面临的挑战，并提出了未来发展的潜在方向。

Tackling VQA with Pretrained Foundation Models without Further Training
Authors Alvin De Jun Tan, Bingquan Shen
大型语言模型法学硕士在许多自然语言处理任务中取得了最先进的成果。他们还展示了通过零射击或少量射击设置很好地适应不同任务的能力。凭借这些法学硕士的能力，研究人员研究了如何将它们用于视觉问答 VQA。许多方法需要进一步的训练来对齐图像和文本嵌入。然而，这些方法的计算成本很高，并且需要大规模图像文本数据集进行训练。在本文中，我们探索了一种将预训练的 LLM 和其他基础模型相结合而无需进一步训练来解决 VQA 问题的方法。总体思路是使用自然语言来表示图像，以便法学硕士能够理解图像。

Transferability of Representations Learned using Supervised Contrastive Learning Trained on a Multi-Domain Dataset
Authors Alvin De Jun Tan, Clement Tan, Chai Kiat Yeo
对比学习已证明比使用交叉熵损失训练的模型能够学习到更好的质量表示。它们还可以更好地从不同领域传输到下游数据集。然而，在多域数据集上训练时，很少有工作来探索使用对比学习学习到的表示的可迁移性。在本文中，使用监督对比学习框架进行了一项研究，从多域 DomainNet 数据集中学习表示，然后评估在其他下游数据集上学习到的表示的可迁移性。固定特征线性评估协议将用于评估跨不同领域选择的 7 个下游数据集的可转移性。将获得的结果与使用广泛使用的交叉熵损失训练的基线模型进行比较。实验结果表明，监督对比学习模型在 7 个下游数据集上的平均性能比基线模型好 6.05。

Cross-Dataset Experimental Study of Radar-Camera Fusion in Bird's-Eye View
Authors Lukas St cker, Philipp Heidenreich, Jason Rambach, Didier Stricker
通过利用互补的传感器信息，雷达和摄像头融合系统有潜力为先进的驾驶员辅助系统和自动驾驶功能提供高度稳健和可靠的感知系统。基于相机的物体检测的最新进展提供了新的雷达相机与鸟瞰图特征图融合的可能性。在这项工作中，我们提出了一种新颖且灵活的融合网络，并评估其在两个数据集 nuScenes 和 View of Delft 上的性能。我们的实验表明，虽然相机分支需要大量且多样化的训练数据，但雷达分支从高性能雷达中受益更多。使用迁移学习，我们提高了相机在较小数据集上的性能。

Local Compressed Video Stream Learning for Generic Event Boundary Detection
Authors Libo Zhang, Xin Gu, Congcong Li, Tiejian Luo, Heng Fan
通用事件边界检测旨在定位通用的、无分类的事件边界，将视频分割成块。现有方法通常需要在输入网络之前对视频帧进行解码，这包含显着的时空冗余并且需要相当大的计算能力和存储空间。为了解决这些问题，我们提出了一种用于事件边界检测的新颖的压缩视频表示学习方法，该方法完全端到端地利用压缩域中的丰富信息，即 RGB、运动向量、残差和内部图像组 GOP 结构，没有完全解码视频。具体来说，我们使用轻量级 ConvNet 来提取 GOP 中 P 帧的特征，空间通道注意模块 SCAM 被设计为基于双向信息流的压缩信息来细化 P 帧的特征表示。为了学习边界检测的合适表示，我们为每个候选帧构建局部帧包，并使用长短期记忆 LSTM 模块来捕获时间关系。然后，我们在时域中计算帧差异与组相似性。该模块仅应用于局部窗口内，这对于事件边界检测至关重要。最后，使用一个简单的分类器根据学习到的特征表示来确定视频序列的事件边界。为了纠正注释的歧义并加快训练过程，我们使用高斯核来预处理地面实况事件边界。在 Kinetics GEBD 和 TAPOS 数据集上进行的大量实验表明，在以相同速度运行的情况下，与之前的端到端方法相比，所提出的方法取得了相当大的改进。

NeuRBF: A Neural Fields Representation with Adaptive Radial Basis Functions
Authors Zhang Chen, Zhong Li, Liangchen Song, Lele Chen, Jingyi Yu, Junsong Yuan, Yi Xu
我们提出了一种新型的神经场，它使用通用径向基来表示信号。最先进的神经领域通常依赖于基于网格的表示来存储局部神经特征和 N 维线性内核来在连续查询点处插值特征。其神经特征的空间位置固定在网格节点上，不能很好地适应目标信号。相反，我们的方法建立在具有灵活核位置和形状的通用径向基上，其具有更高的空间适应性并且可以更紧密地拟合目标信号。为了进一步提高径向基函数的通道容量，我们建议将它们与多频率正弦函数组合。该技术将径向基扩展到不同频段的多个傅里叶径向基，而不需要额外的参数，有利于细节的表示。此外，通过将自适应径向基与基于网格的基相结合，我们的混合组合继承了自适应性和插值平滑性。我们精心设计了加权方案，让径向基有效适应不同类型的信号。我们对 2D 图像和 3D 有符号距离场表示的实验证明了我们的方法比现有技术具有更高的准确性和紧凑性。

Inherit with Distillation and Evolve with Contrast: Exploring Class Incremental Semantic Segmentation Without Exemplar Memory
Authors Danpei Zhao, Bo Yuan, Zhenwei Shi
作为增量学习中的前沿问题，类增量语义分割 CISS 受到灾难性遗忘和语义漂移的困扰。尽管最近的方法已经利用知识蒸馏从旧模型中转移知识，但它们仍然无法避免像素混淆，由于缺乏对过去和未来类的注释，导致增量步骤后出现严重的错误分类。与此同时，基于数据重放的方法面临存储负担和隐私问题。在本文中，我们建议在没有范例记忆的情况下解决 CISS 问题，并同时解决灾难性遗忘和语义漂移。我们提出了继承与蒸馏和进化与对比 IDEC，它由所有方面 DADA 方式的密集知识蒸馏和非对称区域明智对比学习 ARCL 模块组成。在设计的动态类特定伪标记策略的驱动下，DADA 协作提炼中间层特征并输出逻辑，更强调语义不变的知识继承。 ARCL 在潜在空间中实现区域明智对比学习，以解决已知类、当前类和未知类之间的语义漂移。我们通过最先进的性能证明了我们的方法在多个 CISS 任务上的有效性，包括 Pascal VOC 2012、ADE20K 和 ISPRS 数据集。

3D Multiple Object Tracking on Autonomous Driving: A Literature Review
Authors Peng Zhang, Xin Li, Liang He, Xin Lin
3D 多目标跟踪 3D MOT 是自动驾驶领域的关键领域，近年来学术兴趣和商业前景激增。尽管 3D MOT 具有至关重要的意义，但它仍面临着无数艰巨的挑战，包括物体外观的突然改变、普遍的遮挡、微小目标的存在、数据稀疏、漏检以及物体运动轨迹的不可预测的启动和终止。已经出现了无数的方法来解决这些问题，但 3D MOT 仍然是一个值得进一步探索的艰巨问题。本文对该领域的研究前景进行了全面的检查、评估和综合，紧跟 3D MOT 的最新发展，同时提出了未来研究的前瞻性途径。我们的探索从系统地阐述 3D MOT 及其相关领域的关键方面开始，包括问题描述、分类、方法论、基本原理和实证研究。随后，我们将这些方法论分为不同的组，仔细剖析每个组的挑战、基本原理、进展、优点和缺点。此外，我们对实验指标进行了简明概括，并提供了流行数据集的概述，有助于定量比较以进行更直观的评估。最后，我们的讨论最终讨论了当前的研究前景，强调了现有的挑战并为 3D MOT 研究制定了可能的方向。

KDD-LOAM: Jointly Learned Keypoint Detector and Descriptors Assisted LiDAR Odometry and Mapping
Authors Renlang Huang, Minglei Zhao, Jiming Chen, Liang Li
基于不同 3D 特征表示的稀疏关键点匹配可以提高点云配准的效率和鲁棒性。现有的基于学习的 3D 描述符和关键点检测器要么是独立的，要么是松散耦合的，因此它们不能完全相互适应。在这项工作中，我们提出了一种基于具有概率检测损失的多任务全卷积网络的紧密耦合的关键点检测器和描述符 TCKDD。特别是，这种自监督检测损失使关键点检测器完全适应任何联合学习的描述符，并有利于描述符的自监督学习。对室内和室外数据集的大量实验表明，我们的 TCKDD 在点云配准方面实现了最先进的性能。此外，我们设计了一个关键点检测器和描述符辅助LiDAR里程计和建图框架KDD LOAM，其实时里程计依赖于基于RANSAC的关键点描述符匹配。稀疏关键点进一步用于高效扫描到地图配准和映射。

Subjective Face Transform using Human First Impressions
Authors Chaitanya Roygaga, Joshua Krinsky, Kai Zhang, Kenny Kwok, Aparna Bharati
当看到某人的面孔时，人类往往会快速形成对非物理属性的主观第一印象，例如感知到的可信度或吸引力。为了了解面部的哪些变化会导致不同的主观印象，这项工作使用生成模型来寻找对面部图像进行语义上有意义的编辑，从而改变感知属性。与依赖于特征空间中的统计操作的先前工作不同，我们的端到端框架考虑了保留身份和改变感知属性之间的权衡。它将身份保留潜在空间方向映射到属性分数的变化，从而能够根据目标变化沿属性轴变换任何输入面。我们对真实和合成的面孔进行训练，使用预测模型和人类评分来评估域内和域外图像，证明了我们方法的普遍性。

Seeing Beyond the Patch: Scale-Adaptive Semantic Segmentation of High-resolution Remote Sensing Imagery based on Reinforcement Learning
Authors Yinhe Liu, Sunan Shi, Junjue Wang, Yanfei Zhong
在遥感图像分析中，基于块的方法在捕获滑动窗口之外的信息方面存在局限性。这一缺点对处理复杂多变的地理对象提出了重大挑战，导致分割结果的语义不一致。为了应对这一挑战，我们提出了一种名为 GeoAgent 的动态尺度感知框架，它根据不同的地理对象自适应地捕获图像块之外的适当尺度上下文信息。在 GeoAgent 中，每个图像块的状态都由全局缩略图和位置掩码表示。全局缩略图提供了补丁之外的上下文，而位置掩模指导了感知的空间关系。规模选择操作是通过规模控制代理 SCA 执行的。提出了特征索引模块来增强智能体区分当前图像块位置的能力。该动作切换双分支分割网络的补丁尺度和上下文分支，提取并融合多尺度补丁的特征。 GeoAgent 调整网络参数，根据所选尺度收到的奖励来执行适当的尺度选择操作。

Towards Foundation Models Learned from Anatomy in Medical Imaging via Self-Supervision
Authors Mohammad Reza Hosseinzadeh Taher, Michael B. Gotway, Jianming Liang
人体解剖学是医学成像的基础，其本质上的层次结构具有一个显着的特征，表现出两个内在特性：1每个解剖结构在形态上都与其他结构不同；2每个解剖结构都是一个更大整体的组成部分。我们设想一个医学成像的基础模型，在此基础上有意识地、有目的地开发，以获得理解人体解剖学的能力并拥有医学成像的基本属性。作为实现医学成像基础模型这一愿景的第一步，我们设计了一种新颖的自我监督学习 SSL 策略，该策略利用了人体解剖学的分层性质。我们的大量实验表明，源自我们训练策略的 SSL 预训练模型不仅优于最先进的 SOTA 完全自监督基线，而且还提高了注释效率，提供了潜在的少量镜头分割功能，分割性能提升了 9 到 30与 SSL 基线相比的任务。这一性能归因于通过我们的学习策略进行解剖理解的重要性，该策略封装了嵌入空间内解剖结构局部性和组合性的内在属性，但在现有的 SSL 方法中被忽视了。

BASED: Bundle-Adjusting Surgical Endoscopic Dynamic Video Reconstruction using Neural Radiance Fields
Authors Shreya Saha, Sainan Liu, Shan Lin, Jingpei Lu, Michael Yip
从内窥镜视频中重建可变形场景对于术中导航、手术视觉感知和机器人手术等许多应用都很重要。这是实现微创手术自主机器人干预的基本要求。然而，该领域以前的方法受到其模块化性质的限制，并且仅限于特定的相机和场景设置。我们的工作采用神经辐射场 NeRF 方法来学习场景的 3D 隐式表示，这些场景随着时间的推移是动态的和可变形的，而且还具有未知的相机姿势。我们在机器人手术的内窥镜手术场景中演示了这种方法。这项工作消除了已知相机姿势的限制，并克服了最先进的非结构化动态场景重建技术的缺点，该技术依赖于场景的静态部分来进行精确重建。

M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding
Authors Muhammad Abdullah Jamal, Omid Mohareri
我们提出了一种新的预训练策略，称为 M 3 3D underline M ulti underline Modal underline M 问 underline 3D，基于多模态掩码自动编码器构建，可以利用 3D 先验并学习 RGB D 数据中的跨模态表示。我们集成了两个主要的自监督学习框架：掩模图像建模 MIM 和对比学习，旨在有效地嵌入掩模 3D 先验和模态互补特征，以增强模态之间的对应性。与最近关注特定下游任务或需要多视图对应的方法相比，我们表明我们的预训练策略无处不在，能够改进表示学习，从而可以转化为各种下游任务（例如视频动作识别、视频识别）的性能改进。动作检测、2D 语义分割和深度估计。实验表明，M 3 3D 在 ScanNet、NYUv2、UCF 101 和 OR AR 上的性能优于现有最先进的方法，特别是在 ScanNet 语义分割上比 Mask3D 提高了 1.3 mIoU。

Boosting High Resolution Image Classification with Scaling-up Transformers
Authors Yi Wang
我们提出了一种高分辨率图像分类的整体方法，该方法在 ICCV CVPPA2023 深度营养缺乏症挑战赛中获得了第二名。该方法由完整的流程组成：1 数据分布分析，用于检查潜在的域转移；2 骨干选择，用于扩展高分辨率输入的强大基线模型；3 利用已发布的预训练模型的迁移学习，以及对小型子数据集的持续微调

A Topological Machine Learning Pipeline for Classification
Authors Francesco Conti, Davide Moroni, Maria Antonietta Pascali
在这项工作中，我们开发了一个管道，通过针对所考虑的数据类型进行最合适的过滤，将持久性图与数字数据相关联。该管道使用网格搜索方法确定最佳表示方法和参数。这种机器学习拓扑管道的开发涉及两个关键步骤，这两个步骤对其性能有很大影响，首先，数字数据必须表示为具有适当关联过滤的代数对象，以便计算其拓扑摘要（持久性图）。其次，持久性图必须用合适的表示方法进行转换，才能引入机器学习算法。我们评估管道的性能，同时我们比较流行基准数据集上的不同表示方法。这项工作是迈向使用持久同源性和机器学习进行数据分类的简单易用管道的第一步，也是理解给定数据集和要执行的任务、对过滤、拓扑表示的理论原因

Efficient Low-rank Backpropagation for Vision Transformer Adaptation
Authors Yuedong Yang, Hung Yueh Chiang, Guihong Li, Diana Marculescu, Radu Marculescu
视觉变压器 ViT 规模的不断扩大，使得针对特定需求对这些大型模型进行高效微调成为各种应用中的重大挑战。这个问题源于 ViT 中线性层反向传播过程中所需的计算要求较高的矩阵乘法。在本文中，我们通过 Walsh Hadamard 变换 LBP WHT 方法提出一种新的低秩反向传播来解决这个问题。直观上，LBP WHT 将梯度投影到低秩空间并进行反向传播。这种方法大大减少了适应 ViT 所需的计算量，因为低秩空间中的矩阵乘法的资源密集程度要低得多。我们使用不同的 ViT 模型、混合卷积 ViT 模型在多个数据集上进行了广泛的实验，以证明我们方法的有效性。例如，当在 CIFAR100 上采用 EfficientFormer L1 模型时，我们的 LBP WHT 的精度比最先进的基线高 10.4，同时需要的计算量减少 9 MFLOP。

Memory-Efficient Continual Learning Object Segmentation for Long Video
Authors Amir Nazemi, Mohammad Javad Shafiee, Zahra Gharaee, Paul Fieguth
当使用来自先前帧的信息对当前帧进行分割时，最新的半监督视频对象分割 VOS 方法已经显示出目标对象分割精度的显着改进。特别是，这种基于记忆的方法可以帮助模型更有效地处理表示漂移或遮挡的外观变化。理想情况下，为了获得最大性能，在线 VOS 方法需要将所有或大部分先前帧或其提取的信息存储在内存中，并用于连续帧中的在线学习。这种解决方案对于长视频来说是不可行的，因为所需的内存大小会无限增长。

DECO: Dense Estimation of 3D Human-Scene Contact In The Wild
Authors Shashank Tripathi, Agniv Chatterjee, Jean Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black
了解人类如何利用身体接触与世界互动是实现以人为本的人工智能的关键。虽然推断 3D 接触对于建模真实且物理上合理的人类对象交互至关重要，但现有方法要么关注 2D，考虑身体关节而不是表面，要么使用粗糙的 3D 身体区域，要么不推广到野外图像。相比之下，我们专注于推断全身表面与任意图像中的物体之间的密集 3D 接触。为了实现这一目标，我们首先收集 DAMON，这是一个包含密集顶点级接触注释的新数据集，与包含复杂人体对象和人体场景接触的 RGB 图像配对。其次，我们训练 DECO，这是一种新颖的 3D 接触检测器，它使用身体部位驱动和场景上下文驱动的注意力来估计 SMPL 身体上的顶点级接触。 DECO 建立在人类观察者通过推理接触的身体部位、它们与场景对象的接近度以及周围场景上下文来识别接触的洞察力之上。我们对 DAMON 以及 RICH 和 BEHAVE 数据集上的检测器进行了广泛的评估。我们在所有基准测试中都显着优于现有的 SOTA 方法。我们还定性地表明，DECO 可以很好地推广到自然图像中多样化且具有挑战性的现实世界人类交互。

VPA: Fully Test-Time Visual Prompt Adaptation
Authors Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
通过将手工设计的提示视为可训练参数，文本提示调整在使自然语言处理模型适应各种下游任务方面表现出了显着的性能改进。受文本提示成功的启发，一些研究调查了视觉提示调整的功效。在这项工作中，我们提出了视觉提示适应 VPA，这是第一个通过测试时间适应来概括视觉提示的框架。 VPA 引入了少量可学习令牌，无需源域信息即可实现充分的测试时间和存储高效适应。我们在不同的适应设置下检查我们的 VPA 设计，包括单个图像、批量图像和伪标签适应。我们在多项任务上评估 VPA，包括分布外 OOD 泛化、腐败鲁棒性和领域适应。实验结果表明，VPA 在各种模型中有效地将 OOD 泛化能力提高了 3.3，超过了之前的测试时间方法。此外，我们表明，与强基线相比，VPA 将腐败鲁棒性提高了 6.5。最后，我们证明 VPA 还可以将域适应性能提高相对 5.2 倍。

CLRmatchNet: Enhancing Curved Lane Detection with Deep Matching Process
Authors Sapir Kontente, Roy Orfaig, Ben Zion Bobrovsky
车道检测通过提供重要数据以确保安全导航，在自动驾驶中发挥着至关重要的作用。现代算法依赖于基于锚的检测器，然后进行标签分配过程，根据学习的几何属性将训练检测分类为正例或负例。然而，当前的方法有局限性并且可能不是最优的，因为它们依赖于基于低维模型的预定义经典成本函数。我们的研究引入了 MatchNet，这是一种基于深度学习子模块的方法，旨在增强标签分配过程。 MatchNet 集成到最先进的车道检测网络（例如车道检测跨层细化网络 CLRNet）中，用子模块网络取代了传统的标签分配过程。这种集成显着改进了涉及弯曲车道的场景，所有主干网的 ResNet34 2.8、ResNet101 2.3 和 DLA34 2.96 都有显着改进。此外，它还保持甚至提高了其他部分的可比结果。我们的方法提高了车道检测的置信度，从而增加了置信阈值。

3D Reconstruction with Generalizable Neural Fields using Scene Priors
Authors Yang Fu, Shalini De Mello, Xueting Li, Amey Kulkarni, Jan Kautz, Xiaolong Wang, Sifei Liu
神经领域的最新进展极大地推进了高保真 3D 场景重建。然而，大多数现有方法从头开始为每个单独的场景训练一个单独的网络。这是不可扩展的、低效的，并且在有限的视图下无法产生良好的结果。虽然基于学习的多视图立体方法在一定程度上缓解了这个问题，但它们的多视图设置使其在扩展和广泛应用方面不太灵活。相反，我们引入了结合场景先验 NFP 的训练可推广神经场。 NFP 网络将任何单视图 RGB D 图像映射为带符号的距离和辐射值。可以通过合并体积空间中的各个帧来重建完整的场景，而无需融合模块，这提供了更好的灵活性。场景先验可以在大规模数据集上进行训练，从而可以快速适应以较少视图重建新场景。 NFP 不仅展示了 SOTA 场景重建性能和效率，而且还支持单图像新颖视图合成，这在神经领域中尚未得到充分探索。

A Quantum-Classical Hybrid Block-Matching Algorithm in Noisy Environment using Dissimilarity Measure
Authors M. Mart nez Felipe, J. Montiel P rez, V. Onofre Gonz lez, A. Maldonado Romo, Ricky Young
块匹配算法在搜索区域内找到一组相似的图像块。相似相异度量可以帮助解决这个问题。在不同的实际应用中，通常需要在充足的搜索区域内找到相似的图像块组，例如视频压缩、图像聚类、矢量量化和非局部降噪等。在这项工作中，经典图像处理是使用高斯噪声和图像尺寸减小以及低通滤波器或域变换的拟合来执行的。实施分层搜索技术以通过相位算子对图像进行编码。使用相位图像编码与量子傅里叶变换和交换测试，我们提出了一种相异性度量。

Automated CT Lung Cancer Screening Workflow using 3D Camera
Authors Brian Teixeira, Vivek Singh, Birgi Tamersoy, Andreas Prokein, Ankur Kapoor
尽管 CT 规划的最新发展实现了患者定位的自动化，但仍然需要耗时的定位扫描来计算剂量分布并确保患者正确定位。在本文中，我们提出了一种新颖的方法，通过从 3D 相机图像估计患者扫描范围、等中心点和水当量直径 WED，消除 CT 肺癌筛查中的侦察扫描需求。我们通过在 60,000 多次 CT 扫描上训练隐式生成模型来实现此任务，并引入一种使用实时扫描数据更新预测的新颖方法。我们在 110 对深度数据和 CT 扫描的测试集上证明了我们的方法的有效性，导致估计等中心点的平均误差为 5 毫米，确定扫描范围的平均误差为 13 毫米，估计 AP 和横向 WED 的平均误差为 10 毫米和 16 毫米分别。

A Unified View of Differentially Private Deep Generative Modeling
Authors Dingfan Chen, Raouf Kerkouche, Mario Fritz
丰富而庞大的数据源的可用性极大地促进了各个领域的机器学习应用。然而，存在隐私问题的数据伴随着严格的法规，经常禁止数据访问和数据共享。在涉及隐私敏感数据的许多现实世界应用场景中，克服这些符合隐私考虑的障碍是技术进步的关键。差分隐私 DP 数据发布提供了一个引人注目的解决方案，其中仅公开发布经过净化的数据形式，从而实现敏感领域中隐私保护的下游分析和可重复研究。近年来，人们提出了各种方法来通过深度神经网络上的私人训练来实现隐私保护的高维数据生成。在本文中，我们提出了一种新颖的统一观点，将这些方法系统化。我们的观点为系统地导出满足不同用例的方法提供了联合设计空间。然后，我们讨论不同方法之间的优点、局限性和内在相关性，旨在阐明关键方面并启发未来的研究。

FRS-Nets: Fourier Parameterized Rotation and Scale Equivariant Networks for Retinal Vessel Segmentation
Authors Zihong Sun, Qi Xie, Deyu Meng
凭借平移等方差，卷积神经网络 CNN 在视网膜血管分割方面取得了巨大成功。然而，CNN 无法表征血管形态的其他一些对称性，例如旋转对称性和尺度对称性。为了将更多的等变性嵌入到 CNN 中并达到视网膜血管分割的精度要求，我们构造了一种新颖的卷积算子 FRS Conv ，它是傅里叶参数化的并且与旋转和缩放等变。具体来说，我们首先采用一种新的参数化方案，使卷积滤波器能够以高精度任意执行变换。其次，我们推导了旋转和尺度等变卷积映射的公式。最后，我们按照所提出的公式构建 FRS Conv，并用 FRS Conv FRS Nets 替换 U Net 和 Iter Net 中的传统卷积滤波器。我们忠实地重现了所有比较的方法，并在数据集和跨数据集设置下对三个公共数据集进行了全面的实验。 FRS 网络仅具有 13.9 个相应基线参数，就实现了最先进的性能，并且显着优于所有比较方法。

NoSENSE: Learned unrolled cardiac MRI reconstruction without explicit sensitivity maps
Authors Felix Frederik Zimmermann, Andreas Kofler
我们提出了一种基于深度卷积神经网络 CNN 和算法展开的新型学习图像重建方法，用于具有多个接收线圈的加速心脏 MRI。与许多现有的学习 MR 图像重建技术相比，这些技术需要将线圈灵敏度图 CSM 估计作为一个独特的网络组件，我们提出的方法避免了显式的 CSM 估计。相反，它隐式地捕获并学习利用图像的线圈间关系。

PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation
Authors Shizhe Chen, Ricardo Garcia, Cordelia Schmid, Ivan Laptev
机器人基于自然语言指令理解和执行操作任务的能力是机器人技术的长期目标。语言引导操作的主要方法使用 2D 图像表示，这在组合多视图相机和推断精确的 3D 位置和关系方面面临困难。为了解决这些限制，我们提出了一种基于 3D 点云的策略，称为 PolarNet，用于语言引导操作。它利用精心设计的点云输入、高效的点云编码器和多模态转换器来学习 3D 点云表示并将其与用于动作预测的语言指令集成。在 RLBench 基准测试上进行的各种实验中，PolarNet 被证明是有效且数据高效的。它在单任务和多任务学习方面都优于最先进的 2D 和 3D 方法。

The Maximum Cover with Rotating Field of View
Authors Igor Potapov, Jason Ralph, Theofilos Triommatis
想象一个多边形平台 P，并且 P 外部只有一个静态聚光灯，聚光灯应面向哪个方向照亮 P 的大部分。这个问题发生在最大化可见性以及限制定位问题的不确定性时。更正式地，我们定义以下最大覆盖问题给定一个凸多边形 P 和一个具有给定中心和内角 phi 的视场 FOV，找到 FOV 的旋转角度 theta 的方向，使得 FOV 和 P 之间的交点为最大面积。在本文中，我们为旋转视场最大覆盖范围的分析提供了理论基础。主要挑战是面积 A phi theta 的函数（具有旋转角度 theta 和固定内角 phi ）无法直接近似。我们找到了另一种方法来表达它，即通过具有受限内角 phi 和固定方向 theta 的函数 A theta phi 的各种组合来表达它。我们证明了 A theta phi 在两扇形相交的特殊情况下有一个解析解，并且随后为原始问题提供了一个压缩解。

Jointly Training Large Autoregressive Multimodal Models
Authors Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz
近年来，语言和文本到图像模型的大规模预训练的进展彻底改变了机器学习领域。然而，将这两种模式集成到一个能够生成无缝多模式输出的强大模型中仍然是一个重大挑战。为了解决这一差距，我们提出了联合自回归混合 JAM 框架，这是一种模块化方法，可以系统地融合现有的文本和图像生成模型。我们还引入了一种专门的、数据高效的指令调整策略，专为混合模式生成任务量身定制。

Identifying confounders in deep-learning-based model predictions using DeepRepViz
Authors Roshan Prakash Rane, JiHoon Kim, Arjun Umesha, Didem Stark, Marc Andr Schulz, Kerstin Ritter
深度学习 DL 模型越来越多地用于分析神经影像数据并揭示有关大脑、大脑病理和心理特征的见解。然而，参与者的年龄、性别或成像伪影等无关的混杂变量可能会使模型的预测产生偏差，从而阻止模型学习相关的大脑表型关系。在这项研究中，我们提供了一个名为 DeepRepViz 框架的解决方案，使研究人员能够系统地检测 DL 模型预测中的混杂因素。该框架由 1 个量化潜在混杂因素影响的指标和 2 个可视化工具组成，该工具允许研究人员定性检查 DL 模型正在学习的内容。通过对模拟和神经影像数据集进行实验，我们展示了将 DeepRepViz 与 DL 模型结合使用的好处。例如，神经影像数据集的实验表明，在预测长期酗酒者 Con 得分 0.35 的 DL 模型中，性别是一个重要的混杂因素。同样，DeepRepViz 将年龄视为 DL 模型中的混杂因素，该模型预测参与者在认知任务 Con 得分 0.3 上的表现。

Missing-modality Enabled Multi-modal Fusion Architecture for Medical Data
Authors Muyu Wang, Shiyu Fan, Yichen Li, Hui Chen
融合多模态数据可以提高深度学习模型的性能。然而，由于患者的特异性，医疗数据的模态缺失很常见，这不利于多模态模型在应用中的性能。因此，使模型适应缺失的模式至关重要。本研究旨在为医疗数据开发一种高效的多模态融合架构，该架构对缺失模态具有鲁棒性，并进一步提高疾病诊断的性能。图像模态的 X 射线胸片、文本模态的放射学报告以及文本模态的结构化值数据本研究融合了表格数据模式。每个模态对与基于 Transformer 的双模态融合模块融合，然后将三个双模态融合模块组合成三模态融合框架。此外，在训练过程中引入了多元损失函数，以提高模型对推理过程中缺失模态的鲁棒性。最后，我们设计了比较和消融实验，以验证融合的有效性、对缺失模态的鲁棒性以及每个关键组件的增强。在MIMIC IV、MIMIC CXR上进行了14标签疾病诊断任务的实验。受试者工作特征曲线下面积 AUROC 、精确召回曲线下面积 AUPRC 用于评估模型性能。实验结果表明，我们提出的多模态融合架构有效地融合了三种模态，并对缺失模态表现出很强的鲁棒性。

MLOps for Scarce Image Data: A Use Case in Microscopic Image Analysis
Authors Angelo Yamachui Sitcheu, Nils Friederich, Simon Baeuerle, Oliver Neumann1, Markus Reischl, Ralf Mikut
如今，机器学习 ML 正经历着前所未有的巨大流行。 ML 模型的操作化由一组称为机器学习操作 MLOps 的概念和方法控制。然而，研究人员以及专业人士往往更多地关注自动化方面，而忽视 MLOps 的持续部署和监控方面。因此，从生产到开发的反馈流缺乏持续学习，随着时间的推移，由于概念漂移而导致模型意外恶化，特别是在处理稀缺数据时。这项工作探索了 MLOps 在稀缺数据分析背景下的完整应用。该论文提出了一种新的整体方法来增强生物医学图像分析。我们的方法包括一个指纹识别过程，可以选择与手头的图像分析任务相关的最佳模型、数据集和模型开发策略、自动化模型开发阶段以及持续部署和监控过程，以确保持续学习。

SAF-Net: Self-Attention Fusion Network for Myocardial Infarction Detection using Multi-View Echocardiography
Authors Ilke Adalioglu, Mete Ahisali, Aysen Degerli, Serkan Kiranyaz, Moncef Gabbouj
心肌梗死 MI 是冠状动脉疾病 CAD 的严重病例，最终，其检测对于防止心肌进行性损伤具有重要意义。在本研究中，我们提出了一种名为自注意力融合网络 SAF Net 的新型视图融合模型，用于从多视图超声心动图记录中检测 MI。所提出的框架利用心尖 2 腔 A2C 和心尖 4 腔 A4C 视图超声心动图记录进行分类。从两个视图的每个记录中提取三个参考帧，并部署预训练的深度网络以提取高度代表性的特征。 SAF Net 模型利用自注意力机制来学习提取的特征向量中的依赖关系。所提出的模型具有计算效率，因为其紧凑的架构具有三个主要部分：用于降低维度的特征嵌入、用于视图池的自注意力以及用于分类的密集层。使用 HMC QU TAU 数据集进行实验评估，该数据集包含 160 名具有 A2C 和 A4C 视图超声心动图记录的患者。所提出的 SAF Net 模型达到了高性能水平，精度为 88.26，灵敏度为 77.64，准确度为 78.13。

Teaching Text-to-Image Models to Communicate
Authors Xiaowen Sun, Jiazhan Feng, Yuxuan Wang, Yuxuan Lai, Xingyu Shen, Dongyan Zhao
在文本到图像生成的研究中，各种作品已经被广泛研究。尽管现有模型在文本到图像生成方面表现良好，但直接使用它们在对话框中生成图像时存在重大挑战。在本文中，我们首先强调对话图像生成的一个新问题，即给定对话上下文，模型应该生成与指定对话一致的真实图像作为响应。为了解决这个问题，我们提出了一种有效的对话图像生成方法，无需任何中间翻译，最大限度地提取对话中包含的语义信息。考虑到对话结构的特点，我们在对话的每个句子之前放置段标记来区分不同的说话者。然后，我们将预先训练的文本微调为图像模型，使它们能够根据处理的对话上下文生成调节图像。经过微调后，我们的方法可以在多个指标上持续提高各种模型的性能。

Style Transfer and Self-Supervised Learning Powered Myocardium Infarction Super-Resolution Segmentation
Authors Lichao Wang, Jiahao Huang, Xiaodan Xing, Yinzhe Wu, Ramyah Rajakulasingam, Andrew D. Scott, Pedro F Ferreira, Ranil De Silva, Sonia Nielles Vallespin, Guang Yang
这项研究提出了一种结合新颖风格转移模型和同时超分辨率和分割模型的流程。所提出的流程旨在通过将扩散张量成像 DTI 图像转换为后期钆增强 LGE 域来增强扩散张量成像 DTI 图像，该域提供大量具有高分辨率的数据并明显突出显示心肌梗塞 MI 区域。随后，对LGE风格图像执行分割任务。引入端到端超分辨率分割模型，从低分辨率 LGE 风格的 DTI 图像生成高分辨率掩模。此外，为了增强模型的性能，采用多任务自监督学习策略来预训练超分辨率分割模型，使其能够获得更具代表性的知识，并在微调后提高其分割性能。

A Tutorial on Uniform B-Spline
Authors Yi Zhou

GAMMA: Graspability-Aware Mobile MAnipulation Policy Learning based on Online Grasping Pose Fusion
Authors Jiazhao Zhang, Nandiraju Gireesh, Jilong Wang, Xiaomeng Fang, Chaoyi Xu, Weiguang Chen, Liu Dai, He Wang
移动操纵是机器人助手的一项基本任务，并在机器人界引起了极大的关注。移动操纵固有的一个关键挑战是在接近目标进行抓取时有效观察目标。在这项工作中，我们提出了一种可抓取性感知的移动操纵方法，该方法由在线抓取姿势融合框架提供支持，可以实现时间一致的抓取观察。具体来说，预测的抓取姿势是在线组织的，以消除冗余的异常抓取姿势，这些姿势可以被编码为抓取姿势观察状态以进行强化学习。

The Triad of Failure Modes and a Possible Way Out
Authors Emanuele Sansone
我们为基于集群的自监督学习 SSL 提出了一种新颖的目标函数，旨在规避三重故障模式，即表示崩溃、集群崩溃和集群分配排列的不变性问题。该目标由三个关键组成部分组成：i 惩罚表示崩溃的生成项；ii 促进数据增强不变性的项，从而解决标签排列问题；ii 惩罚集群崩溃的均匀性项。此外，我们提出的目标具有两个显着的优点。首先，它可以从贝叶斯角度解释为数据记录可能性的下限。其次，它可以训练标准主干架构，而不需要停止梯度、动量编码器或专门的聚类层等不对称元素。由于其简单性和理论基础，我们提出的目标非常适合优化。

Multimodal Dataset for Localization, Mapping and Crop Monitoring in Citrus Tree Farms
Authors Hanzhe Teng, Yipeng Wang, Xiaoao Song, Konstantinos Karydis
在这项工作中，我们介绍了 CitrusFarm 数据集，这是一个由在农业领域操作的轮式移动机器人收集的综合多模态感官数据集。该数据集提供带有深度信息的立体 RGB 图像以及单色、近红外和热图像，呈现对农业研究至关重要的多种光谱响应。此外，它还提供一系列导航传感器数据，包括车轮里程计、LiDAR、惯性测量单元 IMU 和 GNSS（以实时运动 RTK 作为厘米级定位地面实况）。该数据集包含在三个柑橘树田中收集的七个序列，具有不同生长阶段的各种树种、独特的种植模式以及不同的日照条件。总运行时间为1.7小时，覆盖距离为7.5公里，数据量为1.3TB。我们预计该数据集可以促进在农业树木环境中运行的自主机器人系统的开发，特别是用于定位、测绘和作物监测任务。此外，该数据集中提供的丰富的传感模式还可以支持一系列机器人和计算机视觉任务的研究，例如地点识别、场景理解、对象检测和分割以及多模态学习。

Conversion of single-energy computed tomography to parametric maps of dual-energy computed tomography using convolutional neural network
Authors Sangwook Kim, Jimin Lee, Jungye Kim, Bitbyeol Kim, Chang Heon Choi, Seongmoon Jung
目标我们提出了一种深度学习DL多任务学习框架，使用卷积神经网络CNN将单能CT SECT直接转换为双能CT DECT的三个不同参数图虚拟单色图像VMI、有效原子序数EAN和相对电子密度RED

Self-Supervised Terrain Representation Learning from Unconstrained Robot Experience
Authors Haresh Karnan, Elvin Yang, Daniel Farkash, Garrett Warnell, Joydeep Biswas, Peter Stone
地形感知，即识别和区分不同类型地形的能力，是机器人成功实现自主越野导航所必须具备的关键能力。目前为机器人提供这种意识的方法要么依赖于收集成本昂贵的标记数据，要么依赖于可能无法概括的工程特征和成本函数，要么依赖于可能无法获得的专家人类演示。为了赋予机器人不受这些限制的地形感知，我们引入了自监督地形表示学习 STERLING，这是一种学习地形表示的新颖方法，仅依赖于易于收集、不受约束（例如非专家和无标签的机器人经验），并且没有额外的约束数据采集。 STERLING 采用新颖的多模态自我监督目标，通过非对比表示学习来学习相关地形表示，以实现地形感知导航。通过越野环境中的物理机器人实验，我们评估了 STERLING 特征在偏好对齐视觉导航任务中的表现，发现 STERLING 特征的性能与完全监督的方法相当，并且在偏好对齐方面优于其他最先进的方法。

Out of Sight, Still in Mind: Reasoning and Planning about Unobserved Objects with Video Tracking Enabled Memory Models
Authors Yixuan Huang, Jialin Yuan, Chanho Kim, Pupul Pradhan, Bryan Chen, Li Fuxin, Tucker Hermans
机器人需要对之前观察到但当前被遮挡的物体有记忆，才能在现实环境中可靠地工作。我们研究了将面向对象的内存编码到多对象操作推理和规划框架中的问题。我们提出了 DOOM 和 LOOM，它们利用变压器关系动力学来编码给定部分视点云和对象发现和跟踪引擎的轨迹历史。我们的方法可以执行多种具有挑战性的任务，包括用被遮挡的对象进行推理、新颖的对象出现和对象再现。在我们广泛的模拟和现实世界实验中，我们发现我们的方法在不同数量的物体和不同数量的干扰动作方面表现良好。

ObVi-SLAM: Long-Term Object-Visual SLAM
Authors Amanda Adkins, Taijing Chen, Joydeep Biswas
负责长时间尺度任务的机器人必须能够在几何、视角和外观变化的情况下进行一致且可扩展的定位。现有的视觉 SLAM 方法依赖于低级特征描述符，这些特征描述符对于此类环境变化并不稳健，并且会导致地图尺寸过大，在长期部署中扩展性较差。相比之下，对象检测对环境变化具有鲁棒性，并且可以实现更紧凑的表示，但大多数基于对象的 SLAM 系统都针对近距离对象的短期室内部署。在本文中，我们引入了 ObVi SLAM，通过利用这两种方法的优点来克服这些挑战。 ObVi SLAM 使用低级视觉功能来实现高质量的短期视觉里程计，并确保全局、长期的一致性，ObVi SLAM 构建持久性对象的不确定性感知长期地图，并在每次部署后更新它。

SLIQ: Quantum Image Similarity Networks on Noisy Quantum Computers
Authors Daniel Silver, Tirthak Patel, Aditya Ranjan, Harshitta Gandhi, William Cutler, Devesh Tiwari
近年来，由于量子计算机具有加速经典程序的能力，对量子机器学习的探索取得了巨大的发展。然而，由于将无监督相似性检测任务移植到量子计算机上运行的挑战，这些努力尚未解决它们。

SeMAnD: Self-Supervised Anomaly Detection in Multimodal Geospatial Datasets
Authors Daria Reshetova, Swetava Ganguli, C. V. Krishnakumar Iyer, Vipul Pandey
我们提出了一种称为 SeMAnD 的自监督异常检测技术，用于检测多模态地理空间数据集中的几何异常。地理空间数据由获取和派生的异构数据模态组成，我们将其转换为语义上有意义的图像式张量，以解决多模态数据的表示、对齐和融合的挑战。 SeMAnD 由一个简单的数据增强策略组成，称为 RandPolyAugment，能够生成向量几何的各种增强，以及 ii 一个自监督训练目标，该目标包含三个组件，这些组件激励学习多模态数据的表示，这些表示对一种模态的局部变化有区别，这些表示是没有得到其他方式的证实。检测局部缺陷对于地理空间异常检测至关重要，即使是很小的异常，例如道路、建筑物、土地覆盖等多边形矢量几何形状的移动、连接不正确、畸形或缺失，也会损害地图等地理空间应用程序用户的体验和安全。、路由、搜索和推荐系统。我们对 3 个不同地理区域的不同类型的现实世界几何地理空间异常的测试集进行的实证研究表明，SeMAnD 能够检测现实世界的缺陷，并且使用异常分类 AUC 测量，其性能比领域无关的异常检测策略高出 4.8 ± 19.7。

APIS: A paired CT-MRI dataset for ischemic stroke segmentation challenge
Authors Santiago G mez, Daniel Mantilla, Gustavo Garz n, Edgar Rangel, Andr s Ortiz, Franklin Sierra Jerez, Fabio Mart nez
中风是全球第二大死亡原因。立即关注和诊断对于患者预后起着至关重要的作用。诊断的关键在于定位和描绘脑损伤。标准中风检查方案包括通过非对比 CT 扫描进行初步评估，以区分出血和缺血。然而，非造影 CT 可能缺乏检测急性期细微缺血变化的敏感性。因此，互补扩散加权 MRI 研究可提供有价值的见解，从而可以恢复和量化中风病变。这项工作介绍了 APIS，这是第一个与急性缺血性中风患者的 NCCT 和 ADC 研究配对的公共数据集。 APIS 在 2023 年第 20 届 IEEE 国际生物医学成像研讨会上提出了一项挑战，研究人员受邀提出新的计算策略，利用配对数据并处理 CT 序列上的病变分割。尽管所有团队都使用专门的深度学习工具，但结果表明 NCCT 的缺血性中风分割任务仍然具有挑战性。

Contrastive Continual Multi-view Clustering with Filtered Structural Fusion
Authors Xinhang Wan, Jiyuan Liu, Ao Li, Xinwang Liu, En Zhu
多视图聚类在通过提取视图之间一致和互补的信息来提前收集视图的应用中蓬勃发展。然而，它忽略了按顺序收集数据视图（即实时数据）的场景。由于隐私问题或内存负担，在这些情况下，以前的视图随着时间的推移将无法使用。提出了一些方法来处理它，但陷入了稳定性可塑性困境。具体来说，当获得新观点时，这些方法会经历对先验知识的灾难性遗忘。这种灾难性的遗忘问题CFP会导致难以获得一致且互补的信息并影响聚类性能。为了解决这个问题，我们提出了一种称为带有过滤结构融合的对比连续多视图聚类 CCMVC FSF 的新方法。准确地说，考虑到数据相关性在聚类中起着至关重要的作用，并且先验知识应该指导新视图的聚类过程，我们开发了一个固定大小的数据缓冲区来存储过滤后的结构信息，并利用它来指导鲁棒分区的生成通过对比学习矩阵。此外，我们从理论上将 CCMVC FSF 与半监督学习和知识蒸馏联系起来。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com