【AI视野·今日CV 计算机视觉论文速览第300期】Fri, 1 Mar 2024

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 1 Mar 2024
Totally 114 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models
Authors Muyang Li, Tianle Cai, Jiaxin Cao, Qinsheng Zhang, Han Cai, Junjie Bai, Yangqing Jia, Ming Yu Liu, Kai Li, Song Han
扩散模型在合成高质量图像方面取得了巨大成功。然而，由于巨大的计算成本，利用扩散模型生成高分辨率图像仍然具有挑战性，导致交互式应用程序的延迟过高。在本文中，我们建议 DistriFusion 通过利用多个 GPU 的并行性来解决这个问题。我们的方法将模型输入拆分为多个补丁，并将每个补丁分配给 GPU。然而，简单地实现这样的算法会破坏补丁之间的交互并失去保真度，而合并这样的交互将产生巨大的通信开销。为了克服这个困境，我们观察了相邻扩散步骤的输入之间的高度相似性，并提出了置换补丁并行性，它通过重用前一个时间步中预先计算的特征图来利用扩散过程的顺序性质，为后续步骤提供上下文。当前步骤。因此，我们的方法支持异步通信，可以通过计算进行管道化。大量实验表明，我们的方法可以应用于最新的 Stable Diffusion XL，而不会降低质量，并且在 8 台 NVIDIA A100 上实现比 1 台高达 6.1 倍的加速。

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
Authors Tsai Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin Ying Lee, Jian Ren, Ming Hsuan Yang, Sergey Tulyakov
数据和注释的质量限制了下游模型的质量。虽然存在大型文本语料库和图像文本对，但收集高质量的视频文本数据要困难得多。首先，手动标记更耗时，因为它需要注释者观看整个视频。其次，视频具有时间维度，由堆叠在一起的多个场景组成，并显示多个动作。因此，为了建立具有高质量字幕的视频数据集，我们提出了一种利用多模式输入的自动方法，例如文本视频描述、字幕和单个视频帧。具体来说，我们从公开的 HD VILA 100M 数据集中精选了 380 万个高分辨率视频。然后，我们将它们分割成语义一致的视频剪辑，并应用多个跨模态教师模型来获取每个视频的字幕。接下来，我们在一个小子集上微调检索模型，其中手动选择每个视频的最佳标题，然后在整个数据集中使用该模型来选择最佳标题作为注释。通过这种方式，我们获得了 7000 万个视频以及高质量的文本字幕。我们将数据集称为 Panda 70M。我们展示了所提出的数据集在三个下游任务视频字幕、视频和文本检索以及文本驱动视频生成上的价值。

Learning a Generalized Physical Face Model From Data
Authors Lingchen Yang, Gaspard Zoss, Prashanth Chandran, Markus Gross, Barbara Solenthaler, Eftychios Sifakis, Derek Bradley
基于物理的模拟是 3D 面部动画的一种强大方法，因为产生的变形受物理约束控制，可以轻松解决自碰撞、响应外力并执行逼真的解剖编辑。今天的方法是数据驱动的，其中有限元的驱动是从捕获的皮肤几何形状推断出来的。不幸的是，由于初始化材质空间和单独学习每个角色的变形模型的复杂性，这些方法尚未被广泛采用，这通常需要熟练的艺术家进行长时间的网络训练。在这项工作中，我们的目标是通过提出一种通用的物理面部模型，使基于物理的面部动画更易于访问，我们以无模拟的方式从大型 3D 面部数据集中学习该模型。经过训练后，我们的模型可以快速适应任何看不见的身份，并自动生成准备制作动画的物理面部模型。验配就像提供单个 3D 面部扫描甚至单个面部图像一样简单。适配后，我们提供直观的动画控制，以及跨角色重新定位动画的能力。

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World
Authors Weiyun Wang, Yiming Ren, Haowen Luo, Tiantong Li, Chenxiang Yan, Zhe Chen, Wenhai Wang, Qingyun Li, Lewei Lu, Xizhou Zhu, Yu Qiao, Jifeng Dai
我们向 All Seeing Project V2 展示了一个新模型和数据集，旨在理解图像中的对象关系。具体来说，我们提出了 All Seeing Model V2 ASMv2，它将文本生成、对象定位和关系理解的公式集成到关系对话 ReC 任务中。利用这个统一的任务，我们的模型不仅在感知和识别图像中的所有对象方面表现出色，而且在掌握它们之间复杂的关系图方面也表现出色，从而减少了多模态大型语言模型 MLLM 经常遇到的关系幻觉。为了促进 MLLM 在关系理解方面的训练和评估，我们创建了第一个高质量的 ReC 数据集 AS V2，该数据集与标准指令调优数据的格式保持一致。此外，我们设计了一个新的基准，称为基于循环的关系探测评估 CRPE，用于全面评估 MLLM 的关系理解能力。值得注意的是，我们的 ASMv2 在关系感知基准上的整体准确率达到了 52.04，大大超过了 LLaVA 1.5 的 43.14。我们希望我们的工作能够激发更多未来的研究，并为通用人工智能的发展做出贡献。

Retrieval-Augmented Generation for AI-Generated Content: A Survey
Authors Penghao Zhao, Hailin Zhang, Qinhan Yu, Zhengren Wang, Yunteng Geng, Fangcheng Fu, Ling Yang, Wentao Zhang, Bin Cui
模型算法的进步、可扩展的基础模型架构以及充足的高质量数据集的可用性促进了人工智能生成内容 AIGC 的发展。尽管 AIGC 取得了令人瞩目的表现，但它仍然面临着挑战，例如难以维护最新的长尾知识、数据泄露的风险以及与训练和推理相关的高成本。检索增强一代 RAG 最近成为解决此类挑战的范例。特别是，RAG 引入了信息检索过程，该过程通过从可用数据存储中检索相关对象来增强 AIGC 结果，从而提高准确性和鲁棒性。在本文中，我们全面回顾了将 RAG 技术集成到 AIGC 场景中的现有努力。我们首先根据检索器如何增强生成器对 RAG 基础进行分类。我们提取了各种检索器和生成器的增强方法的基本抽象。这种统一的视角涵盖了所有 RAG 场景，阐明了有助于未来潜在进步的进步和关键技术。我们还总结了 RAG 的其他增强方法，促进 RAG 系统的有效工程和实施。然后从另一个角度，我们调查了 RAG 在不同模式和任务中的实际应用，为研究人员和从业者提供有价值的参考。此外，我们介绍了 RAG 的基准，讨论了当前 RAG 系统的局限性，并提出了未来研究的潜在方向。

SeMoLi: What Moves Together Belongs Together
Authors Jenny Seidenschwarz, Aljo a O ep, Francesco Ferroni, Simon Lucey, Laura Leal Taix
我们处理基于运动线索的半监督对象检测。最近的结果表明，基于启发式的聚类方法与对象跟踪器相结合，可用于伪标记移动对象的实例，并使用这些作为监督信号来训练激光雷达数据中的 3D 对象检测器，而无需人工监督。我们重新考虑这种方法，并建议对象检测以及运动启发的伪标记都可以通过数据驱动的方式来解决。我们利用场景流估计的最新进展来获取点轨迹，从中提取长期的、与类别无关的运动模式。在消息传递网络的背景下重新审视相关聚类，我们学习将这些运动模式分组以将点聚类到对象实例。通过估计对象的完整范围，我们获得每次扫描的 3D 边界框，用于监督激光雷达对象检测网络。

Leveraging AI Predicted and Expert Revised Annotations in Interactive Segmentation: Continual Tuning or Full Training?
Authors Tiezheng Zhang, Xiaoxi Chen, Chongyu Qu, Alan Yuille, Zongwei Zhou
交互式分割是人工智能算法和人类专业知识的集成，可以提高医疗保健中大规模、详细注释数据集的准确性和效率。人类专家修改人工智能预测的注释，反过来，人工智能通过学习这些修改后的注释来改进其预测。这个交互过程不断提高注释的质量，直到不需要专家进行重大修改。关键的挑战是如何利用人工智能预测和专家修订的注释来迭代改进人工智能。出现两个问题 1 灾难性遗忘的风险如果仅使用专家修订的课程进行重新训练，人工智能往往会忘记之前学习的课程。 2 使用 AI 预测和专家修订注释重新训练 AI 时计算效率低下。此外，考虑到数据集中占主导地位的 AI 预测注释，新修订的注释对 AI 训练的贡献通常只占很小的一部分。本文提出Continual Tuning从网络设计和数据复用两个角度来解决问题。首先，我们为所有类别设计一个共享网络，然后是专用于各个类别的类别特定网络。为了减少遗忘，我们冻结了先前学习的类的共享网络，并且只更新修订后的类的类特定网络。其次，我们重用一小部分带有先前注释的数据，以避免过度计算。此类数据的选择依赖于每个数据的重要性估计。重要性得分是通过结合人工智能预测的不确定性和一致性来计算的。

PEM: Prototype-based Efficient MaskFormer for Image Segmentation
Authors Niccol Cavagnero, Gabriele Rosi, Claudia Ruttano, Francesca Pistilli, Marco Ciccone, Giuseppe Averta, Fabio Cermelli
最近基于变压器的架构在图像分割领域显示出了令人印象深刻的结果。由于其灵活性，它们在单一统一框架下的多个分割任务（例如语义和全景）中获得了出色的性能。为了实现如此令人印象深刻的性能，这些架构采用密集型操作并需要大量计算资源，而这些资源通常不可用，尤其是在边缘设备上。为了填补这一空白，我们提出了基于原型的 Efficient MaskFormer PEM，这是一种基于高效转换器的架构，可以在多个分割任务中运行。 PEM提出了一种基于交叉注意的新颖原型，它利用视觉特征的冗余来限制计算并在不损害性能的情况下提高效率。此外，PEM 引入了高效的多尺度特征金字塔网络，由于可变形卷积和基于上下文的自调制的结合，能够以有效的方式提取具有高语义内容的特征。我们在语义和全景分割这两个任务上对所提出的 PEM 架构进行了基准测试，并在两个不同的数据集 Cityscapes 和 ADE20K 上进行了评估。

Navigating Hallucinations for Reasoning of Unintentional Activities
Authors Shresth Grover, Vibhav Vineet, Yogesh S Rawat
在这项工作中，我们提出了一项理解视频中无意识的人类活动的新任务。我们将这个问题形式化为零镜头场景下的推理任务，其中给定一个无意识活动的视频，我们想知道为什么它从有意转变为无意。我们首先评估当前最先进的大型多模态模型在这个推理任务上的有效性，并观察到它们患有幻觉。我们进一步提出了一种新颖的提示技术，称为“思想之梦 DoT”，它允许模型导航幻觉思想以实现更好的推理。为了评估此任务的性能，我们还引入了三种不同的专门指标，旨在量化模型的推理能力。

Entity-Aware Multimodal Alignment Framework for News Image Captioning
Authors Junzhe Zhang, Huixuan Zhang, Xiaojun Wan
新闻图像字幕任务是图像字幕任务的一种变体，它需要模型用新闻图像和相关新闻文章生成信息更丰富的字幕。多模态大语言模型近年来发展迅速，在新闻图像字幕任务中具有广阔的前景。然而，根据我们的实验，常见的 MLLM 不擅长在零样本设置下生成实体。在对新闻图像字幕数据集进行简单调整后，他们处理实体信息的能力仍然有限。为了获得更强大的模型来处理多模态实体信息，我们设计了两个多模态实体感知对齐任务和一个对齐框架来对齐模型并生成新闻图像标题。

Assessing Visually-Continuous Corruption Robustness of Neural Networks Relative to Human Performance
Authors Huakun Shen, Boyue Caroline Hu, Krzysztof Czarnecki, Lina Marsso, Marsha Chechik
虽然神经网络在 ImageNet 上的图像分类方面已经超越了人类的准确性，但它们通常缺乏针对图像损坏的鲁棒性，即损坏鲁棒性。然而，对于人类的感知来说，这种鲁棒性似乎毫不费力。在本文中，我们提出视觉连续腐败鲁棒性 VCR 是腐败鲁棒性的扩展，以允许在与人类感知质量相对应的广泛且连续的变化范围内对其进行评估，即从原始图像到所有感知视觉信息的完全失真，以及用于神经网络评估的两个新颖的人类感知指标。为了将神经网络的 VCR 与人类感知进行比较，我们对 7,718 名人类参与者的 14 种常用图像损坏以及具有不同训练目标（例如标准、对抗性、损坏鲁棒性）、不同架构（例如卷积神经网络）的最先进的鲁棒神经网络模型进行了广泛的实验。、视觉转换器和不同数量的训练数据增强。我们的研究表明，1 评估针对连续损坏的鲁棒性可能会揭示现有基准未检测到的鲁棒性不足，2 神经网络与人类鲁棒性之间的差距比以前已知的要大，最后，3 一些图像损坏对人类感知有类似的影响，提供更具成本效益的稳健性评估的机会。

The 6th Affective Behavior Analysis in-the-wild (ABAW) Competition
Authors Dimitrios Kollias, Panagiotis Tzirakis, Alan Cowen, Stefanos Zafeiriou, Chunchang Shao, Guanyu Hu
本文介绍了第六届野外 ABAW 竞赛中的情感行为分析，该竞赛是与 IEEE CVPR 2024 联合举办的相应研讨会的一部分。第六届 ABAW 竞赛解决了理解人类情感和行为方面的当代挑战，这对于以人为本的发展至关重要技术。更详细地说，比赛侧重于与情感相关的基准测试任务，包括五个子挑战：i 效价唤醒估计，目标是估计两个连续的情感维度，即效价和唤醒；ii 表情识别，目标是识别相互排斥的类别之间的关系。 7 个基本表达和其他，iii 动作单元检测，目标是检测 12 个动作单元，iv 复合表达识别，目标是识别 7 个互斥的复合表达类别，v 情绪拟态强度估计，目标是估计 6 个连续的情感维度。在本文中，我们提出了这些挑战，描述了它们各自的数据集和挑战协议，我们概述了评估指标，并介绍了基线系统及其获得的性能。

One model to use them all: Training a segmentation model with complementary datasets
Authors Alexander C. Jenke, Sebastian Bodenstedt, Fiona R. Kolbinger, Marius Distler, J rgen Weitz, Stefanie Speidel
了解手术场景对于计算机辅助手术系统提供智能辅助功能至关重要。实现这种场景理解的一种方法是通过场景分割，其中对帧的每个像素进行分类，从而识别可见的结构和组织。使用机器学习在完全分割手术场景方面取得了进展。然而，此类模型需要大量带注释的训练数据，其中包含所有相关对象类的示例。这种完全注释的数据集很难创建，因为帧中的每个像素都需要由医学专家注释，因此很少可用。在这项工作中，我们提出了一种将多个部分注释的数据集（提供补充注释）组合到一个模型中的方法，从而实现更好的场景分割和使用多个现成的数据集。我们的方法旨在通过利用互斥属性将可用数据与互补标签相结合以最大化信息。具体来说，我们建议使用其他类的正注释作为负样本，并排除二进制注释的背景像素，因为我们无法判断它们是否包含未注释但由模型预测的类。我们通过在公开的德累斯顿外科解剖数据集上训练 DeepLabV3 来评估我们的方法，该数据集提供了二进制分段解剖结构的多个子集。我们的方法成功地将 6 个类别合并到一个模型中，与单独训练各个类别的模型集合相比，总体 Dice 得分提高了 4.4。通过包含多个类别的信息，我们能够将胃和结肠之间的混淆减少 24 。我们的结果证明了在多个数据集上训练模型的可行性。

Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision Transformers for High-Level Image Classification
Authors Delfina Sol Martinez Pandiani, Nicolas Lazzari, Valentina Presutti
对自动高级图像理解的需求不断增长，特别是在检测图像中的抽象概念 AC 方面，强调了创新和更可解释的方法的必要性。这些方法需要将传统的深度视觉方法与人类用来在复杂的语义层面解释图像的细致入微、上下文相关的知识相协调。在这项工作中，我们利用文化图像的情境感知知识来增强 AC 图像分类的性能和可解释性。我们自动从图像中提取感知语义单元，然后对其进行建模并集成到 ARTstract 知识图 AKG 中。该资源捕获了从 14,000 多个带有 AC 标签的文化图像中收集的情境感知语义。此外，我们还通过高级语言框架增强 AKG。我们计算 KG 嵌入，并使用相对表示和混合方法进行实验，将这些嵌入与视觉变压器嵌入融合。最后，为了可解释性，我们通过检查模型与训练实例的相似性来进行事后定性分析。我们的结果表明，我们的混合 KGE ViT 方法优于 AC 图像分类中的现有技术。事后可解释性分析揭示了视觉转换器在捕获像素级视觉属性方面的熟练程度，与我们的方法在表示更抽象和语义场景元素方面的功效形成鲜明对比。我们证明了 KGE 嵌入感知知识和深度视觉模型的 AC 图像分类的感官知觉理解之间的协同作用和互补性。这项工作表明神经符号方法在知识整合和鲁棒图像表示方面具有强大的潜力，可用于下游复杂的视觉理解任务。

A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation
Authors Hanxi Li, Zhengxun Zhang, Hao Chen, Lin Wu, Bo Li, Deyin Liu, Mingwen Wang
有效应对工业异常检测 AD 的挑战需要充足的缺陷样本供应，而在工业环境中，缺陷样本的稀缺往往会阻碍这一限制。本文介绍了一种新颖的算法，旨在增加缺陷样本，从而提高 AD 性能。该方法针对缺陷样本生成定制了混合潜在扩散模型，采用扩散模型在潜在空间中生成缺陷样本。由 Trimap Mask 和文本提示控制的特征编辑过程可细化生成的样本。图像生成推理过程分为三个阶段：自由扩散阶段、编辑扩散阶段和在线解码器适应阶段。这种复杂的推理策略可产生具有多种模式变化的高质量合成缺陷样本，从而基于增强的训练集显着提高 AD 准确性。具体来说，在广泛认可的 MVTec AD 数据集上，所提出的方法将 AD 的最新 SOTA 性能与增强数据的 AD 指标 AP、IAP 和 IAP90 分别提高了 1.5、1.9 和 3.1。

Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction
Authors Hao Li, Ying Chen, Yifei Chen, Wenxian Yang, Bowen Ding, Yuchen Han, Liansheng Wang, Rongshan Yu
整个幻灯片图像 WSI 分类通常被表述为多实例学习 MIL 问题。最近，视觉语言模型 VLM 在 WSI 分类方面表现出了卓越的性能。然而，现有方法利用粗粒度的致病描述进行视觉表示监督，不足以捕获致病图像的复杂视觉外观，阻碍了模型在不同下游任务上的通用性。此外，处理高分辨率 WSI 的计算成本可能很高。在本文中，我们提出了一种用于 WSI 分类的新型细粒度视觉语义交互 FiVE 框架。它旨在通过利用局部视觉模式和细粒度病理语义之间的相互作用来增强模型的通用性。具体来说，通过精心设计的查询，我们首先利用大型语言模型从各种非标准化原始报告中提取细粒度的病理描述。然后，输出描述被重建为用于训练的细粒度标签。通过引入特定于任务的细粒度语义 TFS 模块，我们能够提示捕获 WSI 中的关键视觉信息，从而增强表示学习并显着增强泛化能力。此外，考虑到病理视觉模式冗余地分布在组织切片上，我们在训练期间对视觉实例的子集进行采样。

HyenaPixel: Global Image Context with Convolutions
Authors Julian Spravil, Sebastian Houben, Sven Behnke
在视觉任务中，更大的有效感受野 ERF 与更好的性能相关。虽然注意力本身支持全局上下文，但卷积需要多个堆叠层和用于大上下文的分层结构。在这项工作中，我们将 Hyena（一种基于卷积的注意力替换）从因果序列扩展到非因果二维图像空间。我们将 Hyena 卷积核扩展到特征图大小之外，高达 191 乘以 191，以最大化 ERF，同时保持像素数量的次二次复杂度。我们将二维 Hyena、HyenaPixel 和双向 Hyena 集成到 MetaFormer 框架中。对于图像分类，HyenaPixel 和双向 Hyena 分别实现了具有竞争力的 ImageNet 1k top 1 准确度 83.0 和 83.5，同时优于其他大型内核网络。将 HyenaPixel 与注意力相结合，进一步将准确度提高到 83.6。

DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly
Authors Gianluca Scarpellini, Stefano Fiorini, Francesco Giuliari, Pietro Morerio, Alessio Del Bue
重组任务在许多领域发挥着基础作用，并且存在多种方法来解决特定的重组问题。在这种情况下，我们假设一个通用的统一模型可以有效地解决所有这些问题，无论输入数据类型是图像、3D 等。我们介绍 DiffAssemble，这是一种基于图神经网络 GNN 的架构，它学习使用扩散模型公式来解决重组任务。我们的方法将集合的元素（无论是 2D 块还是 3D 对象片段）视为空间图的节点。通过将噪声引入元素的位置和旋转并迭代地对其进行去噪以重建相干的初始姿态来执行训练。 DiffAssemble 在大多数 2D 和 3D 重组任务中实现了最先进的 SOTA 结果，并且是第一个基于学习的方法，可以解决旋转和平移的 2D 难题。此外，我们还强调它显着缩短了运行时间，其执行速度比最快的基于优化的解谜方法快 11 倍。

Suppress and Rebalance: Towards Generalized Multi-Modal Face Anti-Spoofing
Authors Xun Lin, Shuai Wang, Rizhao Cai, Yizhong Liu, Ying Fu, Zitong Yu, Wenzhong Tang, Alex Kot
人脸反欺骗 FAS 对于保护人脸识别系统免受演示攻击至关重要。随着传感器制造和多模态学习技术的进步，许多多模态 FAS 方法已经出现。然而，他们在泛化到未见过的攻击和部署条件方面面临挑战。这些挑战源于 1 模态不可靠性，深度和红外等一些模态传感器在不同环境中经历显着的域变化，导致跨模态特征融合期间不可靠信息的传播；以及 2 模态不平衡，训练过度依赖主导模态阻碍了其他攻击的融合，降低了针对仅使用主导模式无法区分的攻击类型的有效性。为了解决模态不可靠性问题，我们提出了不确定性引导交叉适配器 U 适配器来识别每种模态中不可靠检测到的区域，并抑制不可靠区域对其他模态的影响。对于模态不平衡，我们提出了一种重新平衡模态梯度调制 ReGrad 策略，通过自适应调整梯度来重新平衡所有模态的收敛速度。此外，我们还提供了第一个大规模基准测试，用于评估领域泛化场景下的多模态 FAS 性能。大量的实验表明我们的方法优于最先进的方法。

An AI based Digital Score of Tumour-Immune Microenvironment Predicts Benefit to Maintenance Immunotherapy in Advanced Oesophagogastric Adenocarcinoma
Authors Quoc Dang Vu, Caroline Fong, Anderley Gordon, Tom Lund, Tatiany L Silveira, Daniel Rodrigues, Katharina von Loga, Shan E Ahmed Raza, David Cunningham, Nasir Rajpoot
胃癌和食管癌是全球癌症死亡的主要原因。在 OG 癌症中，最近的研究表明 PDL1 免疫检查点抑制剂 ICI 与化疗相结合可提高患者的生存率。然而，我们对 OG 癌症中肿瘤免疫微环境的了解仍然有限。在这项研究中，我们研究了在 PLATFORM 试验 NCT02678182 中接受一线氟嘧啶和铂类化疗的晚期食管胃腺癌 OGA 患者的多重免疫荧光 mIF 图像，以预测治疗效果并探索患者对维持治疗反应的生物学基础durvalumab PDL1 抑制剂。我们提出的基于人工智能的标记成功地从无反应者中识别出反应者，p 0.05，以及那些可能从 ICI 中受益的人，无进展生存期和总生存期具有统计显着性 p 0.05。我们的研究结果表明，表达 FOXP3 的 T 细胞似乎严重影响患者的治疗反应和生存结果。

SIFT-Aided Rectified 2D-DIC for Displacement and Strain Measurements in Asphalt Concrete Testing
Authors Zehui Zhu, Imad L. Al Qadi
二维数字图像相关 2D DIC 是一种广泛使用的光学技术，用于测量沥青混凝土 AC 测试过程中的位移和应变。只有当相机的主轴垂直于平面样品表面时，才能实现精确的 2 D DIC 测量。然而，由于设备限制，在测试过程中可能无法满足这一要求。本文提出了一种简单可靠的方法来纠正非垂直引起的误差。该方法基于图像特征匹配和校正。不需要额外的设备。进行了理论误差分析，以量化非垂直相机对准对测量精度的影响。使用合成图像对所提出的方法进行了数值验证，并在交流断裂测试中进行了实验。即使在相当大的相机旋转角度和大变形的情况下，它也能实现相对较高的精度。

Learning Intra-view and Cross-view Geometric Knowledge for Stereo Matching
Authors Rui Gong, Weide Liu, Zaiwang Gu, Xulei Yang, Jun Cheng
几何知识已被证明对于立体匹配任务是有益的。然而，先前将几何见解集成到立体匹配算法中的尝试主要集中于单个图像的几何知识，而忽略了关键的交叉视图因素，例如遮挡和匹配唯一性。为了解决这一差距，我们提出了一种新颖的内部视图和交叉视图几何知识学习网络 ICGNet，专门用于同化内部视图和交叉视图几何知识。 ICGNet 利用兴趣点的力量作为视图内几何理解的渠道。同时，它利用这些点之间的对应关系来捕获交叉视图的几何关系。这种双重结合使所提出的 ICGNet 能够在其学习过程中利用视图内和视图间的几何知识，从而大大提高其估计差异的能力。

T3DNet: Compressing Point Cloud Models for Lightweight 3D Recognition
Authors Zhiyuan Yang, Yunjiao Zhou, Lihua Xie, Jianfei Yang
3D点云已广泛应用于许多移动应用场景，包括自动驾驶和移动设备上的3D传感。然而，现有的 3D 点云模型往往又大又笨重，由于内存要求高且非实时延迟，因此很难部署在边缘设备上。如何将3D点云模型压缩为轻量级模型一直缺乏研究。在本文中，我们提出了一种名为 T3DNet Tiny 3D Network 的方法，具有增强和蒸馏功能来解决这个问题。我们发现网络增强后的微小模型对于教师来说更容易提炼。我们没有通过剪枝或量化等技术逐渐减少参数，而是预先定义一个微小模型，并通过增强网络和原始模型的辅助监督来提高其性能。我们在几个公共数据集上评估我们的方法，包括 ModelNet40、ShapeNet 和 ScanObjectNN。我们的方法可以在不显着牺牲精度的情况下实现高压缩率，相对于现有方法在三个数据集上实现最先进的性能。

Spinal Osteophyte Detection via Robust Patch Extraction on minimally annotated X-rays
Authors Soumya Snigdha Kundu, Yuanhan Mo, Nicharee Srikijkasemwat, Bart omiej W. Papiez
关节炎的发生和进展与骨赘密切相关，骨赘是一种微小且难以捉摸的骨生长物。本文介绍了脊柱 X 射线中脊柱骨赘自动检测的首批成果之一。基于深度学习驱动的椎骨分割和掩模轮廓的放大，提出了一种称为 SegPatch 的新型自动补丁提取过程。最终补丁分类精度达到 84.5，比基于基线平铺的补丁生成技术高出 9.5。这表明，即使注释有限，SegPatch 也可以为检测骨赘等微小结构提供卓越的性能。

MaskFi: Unsupervised Learning of WiFi and Vision Representations for Multimodal Human Activity Recognition
Authors Jianfei Yang, Shijie Tang, Yuecong Xu, Yunjiao Zhou, Lihua Xie
人类活动识别 HAR 在医疗保健、安全监控和元宇宙游戏等各个领域发挥着越来越重要的作用。尽管已经开发出许多基于计算机视觉的 HAR 方法并显示出突出的性能，但它们在不利的视觉条件（特别是低照度）下仍然存在鲁棒性差的问题，这促使基于 WiFi 的 HAR 成为一种良好的补充模式。使用 WiFi 和视觉模式的现有解决方案依赖于收集起来非常麻烦的大量标记数据。在本文中，我们提出了一种新颖的无监督多模式 HAR 解决方案 MaskFi，它仅利用未标记的视频和 WiFi 活动数据进行模型训练。我们提出了一种新算法，即屏蔽 WiFi 视觉建模 MI2M，该算法使模型能够通过预测表示学习中的屏蔽部分来学习跨模态和单模态特征。受益于我们的无监督学习过程，网络只需要少量的注释数据进行微调，并且可以以更好的性能适应新环境。

Feature boosting with efficient attention for scene parsing
Authors Vivek Singh, Shailza Sharma, Fabio Cuzzolin
场景解析的复杂性随着对象和场景类的数量而增加，在不受限制的开放场景中更高。最大的挑战是对场景元素之间的空间关系进行建模，同时成功识别较小尺度的对象。本文提出了一种新颖的特征增强网络，该网络从多个特征提取级别收集空间上下文，并计算每个表示级别的注意力权重以生成最终的类标签。设计了一种新颖的通道注意力模块来计算注意力权重，确保相关提取阶段的特征得到增强，而其他阶段的特征得到增强。该模型还以低分辨率学习空间上下文信息，以保留场景元素之间的抽象空间关系并降低计算成本。在应用特征增强之前，空间注意力随后被连接到最终的特征集中。使用有助于学习粗略全局场景结构的辅助任务来训练低分辨率空间注意特征。

Context-based Interpretable Spatio-Temporal Graph Convolutional Network for Human Motion Forecasting
Authors Edgar Medina, Leyong Loh, Namrata Gurung, Kyung Hun Oh, Niels Heller
人体运动预测仍然是一个对于自动驾驶和安全应用极其重要的悬而未决的问题。由于运动序列复杂的时空关系，这不仅对于运动预测而且对于对关节连接进行初步解释仍然是一个具有挑战性的问题。在这项工作中，我们提出了一种基于上下文的可解释时空图卷积网络 CIST GCN，作为一种基于 GCN 的高效 3D 人体姿势预测模型，它包含特定的层，有助于模型的可解释性并提供在分析运动分布和身体时可能有用的信息行为。我们的架构从姿势序列中提取有意义的信息，将位移和加速度聚合到输入模型中，最后预测输出位移。在 Human 3.6M、AMASS、3DPW 和 ExPI 数据集上进行的大量实验表明，CIST GCN 在人体运动预测和鲁棒性方面优于以前的方法。由于增强运动预测的可解释性的想法有其优点，因此我们在此展示了针对它的实验并提供了对此类见解的初步评估。

CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition
Authors Feng Lu, Xiangyuan Lan, Lijun Zhang, Dongmei Jiang, Yaowei Wang, Chun Yuan
在过去的十年中，视觉位置识别 VPR 中的大多数方法都使用神经网络来产生特征表示。这些网络通常仅使用该图像本身来生成位置图像的全局表示，并忽略跨图像变化，例如视点和照明，这限制了它们在具有挑战性的场景中的鲁棒性。在本文中，我们提出了一种具有跨图像相关意识的鲁棒全局表示方法，名为 CricaVPR。我们的方法使用自注意力机制来关联批次中的多个图像。这些图像可以在同一地点以不同的条件或视角拍摄，甚至可以从不同的地点拍摄。因此，我们的方法可以利用交叉图像变化作为指导表示学习的线索，从而确保产生更稳健的特征。为了进一步提高鲁棒性，我们提出了一种多尺度卷积增强自适应方法，使预训练的视觉基础模型适应VPR任务，该方法引入多尺度局部信息以进一步增强跨图像相关感知表示。实验结果表明，我们的方法在训练时间显着减少的情况下大幅优于最先进的方法。我们的方法使用 512 个暗淡全局特征在 Pitts30k 上实现了 94.5 R 1。

Fine Structure-Aware Sampling: A New Sampling Training Scheme for Pixel-Aligned Implicit Models in Single-View Human Reconstruction
Authors Kennard Yanting Chan, Fayao Liu, Guosheng Lin, Chuan Sheng Foo, Weisi Lin
像素对齐隐式模型，例如 PIFu、PIFuHD 和 ICON，用于单视图穿着人体重建。这些模型需要使用抽样训练方案进行训练。现有的采样训练方案要么无法捕获薄表面，例如耳朵、手指或在重建的网格中产生噪声伪影。为了解决这些问题，我们引入了精细结构感知采样 FSS，这是一种新的采样训练方案，用于训练用于单视图人体重建的像素对齐隐式模型。 FSS 通过主动适应表面的厚度和复杂性来解决上述问题。此外，与现有的采样训练方案不同，FSS 展示了如何在训练过程中利用样本点的法线来改善结果。最后，为了进一步改进训练过程，FSS 提出了用于像素对齐隐式模型的网格厚度损失信号。一旦对像素对齐隐式函数框架进行了轻微的改造，引入这种损失在计算上就变得可行。我们的结果表明，我们的方法在定性和定量上都显着优于 SOTA 方法。

Disentangling representations of retinal images with generative models
Authors Sarah M ller, Lisa M. Koch, Hendrik P. A. Lensch, Philipp Berens
视网膜眼底图像在眼部疾病的早期检测中发挥着至关重要的作用，最近的研究甚至证明了它们在检测心血管危险因素和神经系统疾病方面的潜力。然而，技术因素对这些图像的影响可能会给眼科中可靠的人工智能应用带来挑战。例如，大型眼底群体常常受到相机类型、图像质量或照明水平等因素的困扰，承担着学习捷径的风险，而不是图像生成过程背后的因果关系。在这里，我们引入了一种新颖的视网膜眼底图像群体模型，该模型有效地将患者属性与相机效果分开，从而实现可控且高度逼真的图像生成。为了实现这一目标，我们提出了一种基于距离相关性的新型解缠结损失。通过定性和定量分析，我们证明了这种新颖的损失函数在解开学习子空间方面的有效性。

MemoNav: Working Memory Model for Visual Navigation
Authors Hongxin Li, Zeyu Wang, Xu Yang, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang
图像目标导航是一项具有挑战性的任务，需要代理在不熟悉的环境中导航到图像指示的目标。利用不同场景记忆的现有方法存在探索效率低下的问题，因为它们使用所有历史观察结果来进行决策，而不考虑目标相关部分。为了解决这一限制，我们提出了 MemoNav，这是一种用于图像目标导航的新型记忆模型，它利用工作记忆启发的管道来提高导航性能。具体来说，我们采用三种类型的导航存储器。地图上的节点特征存储在短期记忆 STM 中，因为这些特征是动态更新的。然后，遗忘模块会保留信息丰富的 STM 部分以提高效率。我们还引入了长期记忆 LTM，通过逐步聚合 STM 特征来学习全局场景表示。随后，图注意力模块对保留的 STM 和 LTM 进行编码，以生成工作记忆 WM，其中包含高效导航所必需的场景特征。这三种内存类型之间的协同作用使代理能够学习和利用拓扑图中与目标相关的场景特征，从而提高了导航性能。我们对多目标任务的评估表明，MemoNav 在 Gibson 和 Matterport3D 场景中的所有难度级别上都显着优于以前的方法。

Effective Message Hiding with Order-Preserving Mechanisms
Authors Gao Yu, Qiu Xuchong, Ye Zihan
消息隐藏是一种在封面图像中隐藏秘密消息位的技术，旨在实现消息容量、恢复准确性和不可察觉性之间的最佳平衡。虽然卷积神经网络显着提高了消息容量和不可感知性，但实现高恢复精度仍然具有挑战性。出现这一挑战是因为卷积运算难以保持消息位的顺序并有效解决这两种模式之间的差异。为了解决这个问题，我们提出了 StegaFormer，这是一种基于 MLP 的创新框架，旨在保留位顺序并实现模态之间的全局融合。具体来说，StegaFormer 包含三个关键组件：保序消息编码器 OPME、解码器 OPMD 和全局消息图像融合 GMIF。 OPME 和 OPMD 旨在通过将整个序列分割成相等长度的片段并在编码和解码期间合并顺序信息来保留消息位的顺序。同时，GMIF采用跨模态融合机制来有效融合两种不相关模态的特征。 COCO 和 DIV2K 数据集上的实验结果表明，StegaFormer 在恢复精度、消息容量和不可感知性方面超越了现有的最先进方法。

Trajectory Consistency Distillation
Authors Jianbin Zheng, Minghui Hu, Zhongyi Fan, Chaoyue Wang, Changxing Ding, Dacheng Tao, Tat Jen Cham
潜在一致性模型 LCM 将一致性模型扩展到潜在空间，并利用引导一致性蒸馏技术在加速文本到图像合成方面取得令人印象深刻的性能。然而，我们观察到 LCM 很难生成既清晰又详细的图像。为了解决这一限制，我们首先深入研究并阐明根本原因。我们的调查发现，主要问题源于三个不同领域的错误。因此，我们引入了轨迹一致性蒸馏 TCD，它包含轨迹一致性函数和策略随机采样。轨迹一致性函数通过扩大自一致性边界条件的范围并赋予 TCD 精确追踪概率流 ODE 整个轨迹的能力来减少蒸馏误差。此外，战略随机抽样专门设计用于规避多步一致性抽样中固有的累积误差，该抽样经过精心定制以补充 TCD 模型。

Typographic Attacks in Large Multimodal Models Can be Alleviated by More Informative Prompts
Authors Hao Cheng, Erjia Xiao, Renjing Xu
大型多模态模型 LMM 依靠预先训练的视觉语言模型 VLM 和大型语言模型 LLM 在视觉和语言联合空间中的各种多模态任务上表现出惊人的涌现能力。然而，显示对 VLM 造成破坏的印刷攻击也已被认证为 LMM 的安全漏洞。在这项工作中，我们首先通过排版全面研究 LMM 的分散性。特别是，我们引入了印刷数据集，旨在评估各种多模式子任务的分散性，例如对象识别、视觉属性检测、枚举、算术计算和常识推理。为了进一步研究印刷图案对性能的影响，我们还仔细研究了调整各种印刷因素的影响，包括字体大小、颜色、不透明度和印刷错误的空间定位。我们发现 LMM 在面对印刷攻击时可以部分地区分视觉内容和拼写错误，这表明视觉编码器的嵌入包含足够的信息来区分图像中的视觉内容和拼写错误。受此类现象的启发，我们证明，通过提供更多信息性文本来匹配图像，可以显着提高 CLIP 对拼写错误图像进行零样本分类的性能。此外，我们还证明 LMM 可以利用信息更丰富的提示来利用嵌入中的信息来区分视觉内容和拼写错误。

A SAM-guided Two-stream Lightweight Model for Anomaly Detection
Authors Chenghao Li, Lei Qi, Xin Geng
在工业异常检测中，模型效率和移动友好性成为现实应用中的主要关注点。同时，Segment Anything SAM 令人印象深刻的泛化能力引起了学术界的广泛关注，使其成为定位未见异常和多样化现实世界模式的理想选择。在本文中，考虑到这两个关键因素，我们提出了一种用于无监督异常检测 STLM 的 SAM 引导双流轻量级模型，该模型不仅符合这两个实际应用需求，而且还利用了 SAM 强大的泛化能力。我们采用两个轻量级图像编码器，即我们的两个流轻量级模块，以 SAM 知识为指导。具体来说，一个流被训练为在正常区域和异常区域中生成有区别的和一般的特征表示，而另一个流则重建没有异常的相同图像，这有效地增强了两个流表示在面对异常区域时的区分度。此外，我们采用共享掩模解码器和特征聚合模块来生成异常图。我们在 MVTec AD 基准测试上进行的实验表明，STLM 具有约 16M 参数并实现了 20ms 的推理时间，在性能方面可与最先进的方法有效竞争，像素级 AUC 为 98.26，PRO 为 94.92。

Weakly Supervised Monocular 3D Detection with a Single-View Image
Authors Xueying Jiang, Sheng Jin, Lewei Lu, Xiaoqin Zhang, Shijian Lu
单目 3D 检测 M3D 旨在从单视图图像中精确定位 3D 对象，这通常涉及 3D 检测框的劳动密集型注释。最近研究了弱监督 M3D，通过利用许多现有的 2D 注释来避免 3D 注释过程，但它通常需要额外的训练数据，例如 LiDAR 点云或多视图图像，这大大降低了其在各种应用中的适用性和可用性。我们提出了 SKD WM3D，这是一种弱监督的单目 3D 检测框架，它利用深度信息仅通过单视图图像实现 M3D，无需任何 3D 注释或其他训练数据。 SKD WM3D 的一个关键设计是自知识蒸馏框架，它通过融合深度信息将图像特征转换为类似 3D 的表示，并有效减轻单目场景中固有的深度模糊性，而推理中的计算开销很小。此外，我们设计了一种不确定性感知蒸馏损失和一种梯度目标转移调制策略，分别促进知识获取和知识转移。

ProtoP-OD: Explainable Object Detection with Prototypical Parts
Authors Pavlos Rath Manakidis, Frederik Strothmann, Tobias Glasmachers, Laurenz Wiskott
检测变压器行为的解释和可视化往往会突出显示模型关注的图像中的位置，但它对模型关注的 emph 语义提供的洞察有限。本文介绍了检测变压器的扩展，它构造典型的局部特征并将其用于对象检测。这些自定义特征（我们称之为原型零件）被设计为相互排斥并与模型的分类保持一致。所提出的扩展由瓶颈模块（原型颈部）组成，它计算原型激活的离散表示以及将原型与对象类相匹配的新损失项。这种设置可以在原型颈部中产生可解释的表示，从而可以目视检查模型感知的图像内容，并更好地理解模型的可靠性。

BigGait: Learning Gait Representation You Want by Large Vision Models
Authors Dingqiang Ye, Chao Fan, Jingzhe Ma, Xiaoming Liu, Shiqi Yu
步态识别是最关键的远程识别技术之一，并逐渐扩展到研究和工业界。然而，现有的步态识别方法严重依赖于监督学习驱动的任务特定上游来提供显式的步态表示，这不可避免地引入昂贵的注释成本并可能导致累积错误。为了摆脱这一趋势，这项工作基于任务无关的大视觉模型 LVM 产生的通用知识，探索了有效的步态表示，并提出了一个简单而高效的步态框架，称为 BigGait。具体来说，BigGait 中的步态表示提取器 GRE 借鉴已建立的步态表示构建方法的设计原则，以无监督的方式有效地将所有目的知识转化为隐式步态特征。 CCPG、CAISA B和SUSTech1K上的实验结果表明，BigGait在大多数情况下在自域和跨域任务中都显着优于先前的方法，并为学习下一代步态表示提供了更实用的范例。最终，我们深入研究了基于 LVM 的步态识别的潜在挑战和有希望的方向，旨在激发这一新兴主题的未来工作。

VIXEN: Visual Text Comparison Network for Image Difference Captioning
Authors Alexander Black, Jing Shi, Yifei Fai, Tu Bui, John Collomosse
我们提出了 VIXEN 一种技术，该技术可以在文本中简洁地总结一对图像之间的视觉差异，以突出显示任何存在的内容操纵。我们提出的网络以成对的方式线性映射图像特征，为预训练的大型语言模型构建软提示。我们通过对最近的 InstructPix2Pix 数据集中通过提示编辑框架生成的综合操作图像进行训练，解决了现有图像差异字幕 IDC 数据集中训练数据量低和缺乏操作多样性的挑战。我们通过 GPT 3 生成的变更摘要来扩充该数据集。我们表明，VIXEN 可以为不同的图像内容和编辑类型生成最先进、易于理解的差异字幕，从而可以潜在地缓解通过操纵图像内容传播的错误信息。

Continuous Sign Language Recognition Based on Motor attention mechanism and frame-level Self-distillation
Authors Qidan Zhu, Jing Li, Fei Yuan, Quan Gan
面部表情、头部运动、身体运动和手势运动的变化是手语识别中的显着线索，目前大多数连续手语识别CSLR研究方法主要集中在帧级特征提取阶段的视频序列中的静态图像，而忽略图像的动态变化。在本文中，我们提出了一种新颖的运动注意机制来捕获手语表达过程中局部运动区域的扭曲变化，并获得图像变化的动态表示。并且首次将自蒸馏方法应用于连续手语的帧级特征提取，通过自蒸馏相邻阶段的特征并以高阶特征作为教师指导，在不增加计算资源的情况下改进了特征表达低阶特征。两者的结合构成了我们提出的基于运动注意机制和框架级自蒸馏 MAM FSD 的 CSLR 整体模型，提高了模型的推理能力和鲁棒性。

DeepEraser: Deep Iterative Context Mining for Generic Text Eraser
Authors Hao Feng, Wendi Wang, Shaokai Liu, Jiajun Deng, Wengang Zhou, Houqiang Li
在这项工作中，我们提出了 DeepEraser，一种用于通用文本删除的有效深度网络。 DeepEraser 利用循环架构，通过迭代操作擦除图像中的文本。我们的想法来自于擦除铅笔稿的过程，其中指定要删除的文本区域受到持续监控，文本逐渐减弱，确保彻底、干净的擦除。从技术上讲，在每次迭代时，都会部署一个创新的擦除模块，该模块不仅显式聚合之前的擦除进度，而且还挖掘额外的语义上下文来擦除目标文本。通过迭代细化，文本区域逐渐被更合适的内容替换，最终收敛到相对准确的状态。此外，引入了自定义掩模生成策略，以提高 DeepEraser 自适应文本删除的能力，而不是不加区别地删除图像中的所有文本。我们的 DeepEraser 非常紧凑，只有 1.4M 参数，并以端到端的方式进行训练。为了验证其有效性，在几个流行的基准上进行了大量的实验，包括 SCUT Syn、SCUT EnsText 和 Oxford Synthetic 文本数据集。定量和定性结果证明了我们的 DeepEraser 相对于最先进方法的有效性，以及其在自定义蒙版文本删除方面强大的泛化能力。

Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection
Authors Christos Koutlis, Symeon Papadopoulos
最近开发并公开的合成图像生成方法和服务使得按需创建极其逼真的图像成为可能，这给在线信息的完整性和安全性带来了巨大的风险。最先进的合成图像检测 SID 研究为从基础模型中提取特征的优势提供了强有力的证据。然而，此类提取的特征大多封装了高级视觉语义，而不是细粒度细节，这对于 SID 任务更为重要。相反，浅层编码低级视觉信息。在这项工作中，我们利用 CLIP 图像编码器的中间 Transformer 块通过轻量级网络提取的图像表示，将它们映射到能够很好地泛化的可学习的伪造感知向量空间。我们还采用可训练模块将每个 Transformer 块的重要性纳入最终预测。通过在 20 个测试数据集上进行评估，我们的方法与最先进的方法进行了比较，结果显示平均绝对性能提高了 10.6。值得注意的是，性能最好的模型只需要一个 epoch 来训练 8 分钟。

VideoMAC: Video Masked Autoencoders Meet ConvNets
Authors Gensheng Pei, Tao Chen, Xiruo Jiang, Huafeng Liu, Zeren Sun, Yazhou Yao
最近，自监督学习技术的进步，如掩码自动编码器 MAE，极大地影响了图像和视频的视觉表示学习。然而，值得注意的是，现有蒙版图像视频建模中的主要方法过度依赖资源密集型视觉转换器 ViT 作为特征编码器。在本文中，我们提出了一种称为 textbf VideoMAC 的新方法，它将视频屏蔽自动编码器与资源友好的 ConvNet 相结合。具体来说，VideoMAC 对随机采样的视频帧对采用对称掩码。为了防止掩模图案耗散的问题，我们利用用稀疏卷积算子实现的ConvNet作为编码器。同时，我们提出了一种简单而有效的屏蔽视频建模 MVM 方法，一种由在线编码器和指数移动平均目标编码器组成的双编码器架构，旨在促进视频中帧间重建的一致性。此外，我们还证明 VideoMAC 使经典 ResNet 现代 ConvNeXt 卷积编码器能够利用 MVM 的优势，在下游任务上的性能优于基于 ViT 的方法，包括视频对象分割 textbf 5.2 textbf 6.4 mathcal J mathcal F 、身体部位传播 textbf 6.3 textbf 3.1 mIoU

VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model Research
Authors Jiahao Zhou, Chen Long, Yue Xie, Jialiang Wang, Boheng Li, Haiping Wang, Zhe Chen, Zhen Dong
开发统一的多任务基础模型已成为计算机视觉研究中的关键挑战。在当前的 3D 计算机视觉领域，大多数数据集仅关注相对有限的一组任务，这使得各种下游任务的并发训练要求变得复杂。这使得多目标网络的训练难以进行，进一步阻碍了3D视觉领域基础模型的发展。在本文中，我们介绍了 VEnvision3D，这是一个用于多任务学习的大型 3D 合成感知数据集，包括深度补全、分割、上采样、位置识别和 3D 重建。由于每个任务的数据都是在相同的场景中收集的，因此任务在所使用的数据方面本质上是一致的。因此，这种独特的属性可以帮助探索多任务模型甚至基础模型的潜力，而无需单独的训练方法。提出了一些基于所提出的数据集特征的新基准。对端到端模型进行了广泛的研究，揭示了新的观察结果、挑战和未来研究的机遇。此外，我们设计了一个简单的多任务网络来揭示 VEnvision3D 可以为基础模型提供的功能。

Atmospheric Turbulence Removal with Video Sequence Deep Visual Priors
Authors P. Hill, N. Anantrasirichai, A. Achim, D.R. Bull
由于其扭曲效应，大气湍流对视觉图像的解释和视觉感知提出了挑战。基于模型的方法已被用来解决这个问题，但此类方法经常受到与移动内容相关的伪影的影响。相反，基于深度学习的方法依赖于大型且多样化的数据集，这些数据集可能无法有效地表示任何特定内容。在本文中，我们用不需要基本事实的自监督学习方法来解决这些问题。所提出的方法不依赖于正在处理的单个数据序列之外的任何数据集，而且还能够提高任何输入原始序列或预处理序列的质量。具体来说，我们的方法基于加速的 Deep Image Prior DIP ，但使用像素改组和时间滑动窗口集成时间信息。这有效地学习了时空先验，从而形成了一个有效减轻大气湍流扭曲的系统。

Progressive Contrastive Learning with Multi-Prototype for Unsupervised Visible-Infrared Person Re-identification
Authors Jiangming Shi, Xiangbo Yin, Yaoxing Wang, Xiaofeng Liu, Yuan Xie, Yanyun Qu
无监督可见红外人员重新识别USVI ReID旨在将红外图像中的指定人员与不带注释的可见图像进行匹配，反之亦然。 USVI ReID 是一项具有挑战性但尚未探索的任务。大多数现有方法使用基于聚类的对比学习来解决 USVI ReID 问题，该学习简单地采用聚类中心作为人的表示。然而，集群中心主要关注共享信息，忽视差异性。为了解决这个问题，我们提出了一种用于 USVI ReID 的渐进对比学习多原型 PCLMP 方法。简而言之，我们首先通过选择距聚类中心距离最大的样本来生成硬原型。这个硬原型用于对比损失以强调差异。此外，我们不是严格地将查询图像与特定原型对齐，而是通过随机挑选集群内的样本来生成动态原型。这种动态原型用于保留特征的自然多样性，同时减少同时学习共同信息和不同信息时的不稳定性。最后，我们引入了一种渐进式学习策略，逐渐将模型的注意力转移到硬样本上，避免集群恶化。在公开可用的 SYSU MM01 和 RegDB 数据集上进行的大量实验验证了所提出方法的有效性。 PCLMP 的平均 mAP 提高了 3.9，优于现有的最先进方法。

Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models
Authors Xin Li, Yunfei Wu, Xinghua Jiang, Zhihao Guo, Mingming Gong, Haoyu Cao, Yinsong Liu, Deqiang Jiang, Xing Sun
最近，大型视觉语言模型 LVLM 的出现受到了各个领域越来越多的关注，特别是在视觉文档理解 VDU 领域。与传统的视觉语言任务不同，VDU 特别关注包含丰富文档元素的文本丰富场景。然而，细粒度特征的重要性在 LVLM 社区中仍未得到充分探索，导致在文本丰富的场景中性能不佳。在本文中，我们将其缩写为细粒度特征崩溃问题。为了填补这一空白，我们提出了一个对比学习框架，称为文档对象对比学习 DoCo，专门针对 VDU 的下游任务量身定制。 DoCo利用辅助多模态编码器来获取文档对象的特征，并将其与LVLM视觉编码器生成的视觉特征对齐，从而增强了文本丰富场景中的视觉表示。它可以表示视觉整体表示与文档对象的多模态细粒度特征之间的对比学习可以帮助视觉编码器获取更有效的视觉线索，从而增强 LVLM 中文本丰富文档的理解。我们还证明了所提出的 DoCo 作为一种即插即用的预训练方法，可用于各种 LVLM 的预训练，而不会在推理过程中增加任何计算复杂性。

DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments
Authors Ji Ma, Hongming Dai, Yao Mu, Pengying Wu, Hao Wang, Xiaowei Chi, Yang Fei, Shanghang Zhang, Chang Liu
零射击对象导航 ZSON 要求代理在陌生的环境中自主定位和接近看不见的对象，并且已成为嵌入式 AI 领域中一项特别具有挑战性的任务。用于开发 ZSON 算法的现有数据集缺乏对动态障碍物、对象属性多样性和场景文本的考虑，因此与现实世界的情况存在明显差异。为了解决这些问题，我们提出了动态环境中开放词汇零射击对象导航 DOZE 的数据集，其中包含十个高保真 3D 场景和超过 18k 的任务，旨在模拟复杂、动态的现实世界场景。具体来说，DOZE 场景具有多个移动的人形障碍物、广泛的开放词汇对象、各种不同的属性对象以及有价值的文本提示。此外，与仅提供代理和静态障碍物之间的碰撞检查的现有数据集不同，我们通过集成检测代理和移动障碍物之间的碰撞的功能来增强 DOZE。这种新颖的功能可以评估动态环境中代理的防撞能力。我们在 DOZE 上测试了四种代表性的 ZSON 方法，揭示了现有方法在导航效率、安全性和物体识别准确性方面还有很大的改进空间。

RSAM-Seg: A SAM-based Approach with Prior Knowledge Integration for Remote Sensing Image Semantic Segmentation
Authors Jie Zhang, Xubing Yang, Rui Jiang, Wei Shao, Li Zhang
高分辨率遥感卫星的研制为遥感相关研究工作提供了极大便利。面对海量、复杂的遥感图像，特定目标的分割和提取是必不可少的任务。最近，Segment Anything Model SAM 的推出为图像分割任务提供了通用的预训练模型。虽然直接将 SAM 应用于遥感图像分割任务并不能产生令人满意的结果，但我们提出了 RSAM Seg（即带有语义分割的遥感 SAM），作为 SAM 针对遥感领域的定制修改，消除了手动操作的需要。干预以提供提示。 Adapter Scale是一组补充缩放模块，是在SAM编码器部分的多头注意块中提出的。此外，适配器功能被插入到 Vision Transformer ViT 块之间。这些模块旨在结合高频图像信息和图像嵌入功能来生成图像通知提示。实验在四种不同的遥感场景中进行，包括云检测、现场监测、建筑物检测和道路测绘任务。实验结果不仅展示了原始 SAM 和 U Net 在云、建筑物、田野和道路场景中的改进，而且还强调了 RSAM Seg 识别某些数据集的真实情况中缺失区域的能力，证实了其作为辅助标注方法。

GoalNet: Goal Areas Oriented Pedestrian Trajectory Prediction
Authors Ching Lin Lee, Zhi Xuan Wang, Kuan Ting Lai, Amar Fadillah
预测道路上行人的未来轨迹是自动驾驶的一项重要任务。行人轨迹预测受到场景路径、行人意图和决策的影响，是一个多模态问题。最近的大多数研究使用过去的轨迹来预测各种潜在的未来轨迹分布，这没有考虑场景背景和行人目标。我们建议首先使用场景上下文和观察到的轨迹来预测目标点，然后重用目标点来预测未来轨迹，而不是直接预测未来轨迹。通过利用场景上下文和观察轨迹的信息，可以将不确定性限制在代表行人目标的几个目标区域。在本文中，我们提出了 GoalNet，一种基于行人目标区域的新轨迹预测神经网络。我们的网络可以预测行人的轨迹和边界框。整体模型高效、模块化，其输出可以根据使用场景而改变。

Analysis of the Two-Step Heterogeneous Transfer Learning for Laryngeal Blood Vessel Classification: Issue and Improvement
Authors Xinyi Fang, Chak Fong Chong, Kei Long Wong, Yapeng Wang, Tiankui Zhang, Sio Kei Im
将从自然图像学到的特征转移到医学图像进行分类是很常见的。然而，由于某些医学图像类型的稀缺以及自然图像和医学图像之间的特征差异，出现了挑战。两步迁移学习已被认为是解决此问题的有前途的解决方案。然而，选择合适的中间域对于进一步提高分类性能至关重要。在这项工作中，我们探索了使用糖尿病视网膜数据集的彩色眼底照片作为两步异构学习 THTL 的中间域来通过九种深度学习模型对喉部血管图像进行分类的有效性。实验结果证实，虽然中间域和目标域中的图像共享血管化特征，但与一步迁移学习相比，精度大大降低，其中仅最后一层进行了微调，例如 ResNet18 下降 14.7 ，ResNet50 下降 14.8 。通过分析层类激活图 LayerCAM，我们发现了一个新发现，即中间域中普遍存在的放射状血管模式阻止了学习区分目标域中恶性类别的扭曲和缠结血管的特征。为了解决性能下降的问题，我们在 THTL 的第二步中提出了 ResNet 上的 Step Wise Fine Tuning SWFT 方法，从而显着提高了精度。与 THTL 的第二步（仅对最后一层进行微调）相比，ResNet18 的准确率提高了 26.1，ResNet50 的准确率提高了 20.4。

COFT-AD: COntrastive Fine-Tuning for Few-Shot Anomaly Detection
Authors Jingyi Liao, Xun Xu, Manh Cuong Nguyen, Adam Goodge, Chuan Sheng Foo
现有的异常检测 AD 方法通常依赖于大量无异常数据来训练表示和密度模型。然而，在推理阶段之前，大型无异常数据集可能并不总是可用，在这种情况下，必须仅使用少量正常样本（也称为少数样本异常检测 FSAD）来训练异常检测模型。在本文中，我们提出了一种新颖的方法来应对 FSAD 的挑战，该方法结合了两种重要的技术。首先，我们采用在大型源数据集上预先训练的模型来初始化模型权重。其次，为了改善源域和目标域之间的协变量偏移，我们采用对比训练来对少量目标域数据进行微调。为了学习下游 AD 任务的合适表示，我们还结合了跨实例正对以鼓励正常样本紧密聚集，并结合负对以更好地分离正常样本和合成负样本。

Theoretically Achieving Continuous Representation of Oriented Bounding Boxes
Authors Zikai Xiao, Guo Ye Yang, Xue Yang, Tai Jiang Mu, Junchi Yan, Shi min Hu
面向对象检测 OOD 已投入大量精力。然而，关于定向边界框 OBB 表示的不连续性的一个持久问题仍未解决，这是现有 OOD 方法的固有瓶颈。本文力图从理论上保证彻底解决这一问题，结束这方面的临时努力。先前的研究通常只能解决不连续旋转和纵横比两种情况中的一种，并且经常无意中引入解码不连续性，例如解码不完整性 DI 和解码模糊 DA，如文献中讨论的。具体来说，我们提出了一种称为连续 OBB COBB 的新颖表示方法，它可以轻松集成到现有检测器中，例如Faster RCNN 作为插件。从理论上讲，它可以确保边界框回归的连续性，据我们所知，在基于矩形的对象表示的文献中尚未实现这一点。为了实验的公平性和透明度，我们基于开源深度学习框架Jittor的检测工具箱JDet开发了模块化基准用于OOD评估。

PrivatEyes: Appearance-based Gaze Estimation Using Federated Secure Multi-Party Computation
Authors Mayar Elfares, Pascal Reisert, Zhiming Hu, Wenwu Tang, Ralf K sters, Andreas Bulling
最新的注视估计方法需要大规模的训练数据，但它们的收集和交换会带来重大的隐私风险。我们提出 PrivatEyes 是第一个基于联邦学习 FL 和安全多方计算 MPC 的基于外观的注视估计的隐私增强训练方法。 PrivatEyes 能够在不同用户的多个本地数据集上训练注视估计器，并基于服务器对各个估计器更新进行安全聚合。即使大多数聚合服务器是恶意的，PrivatEyes 也能保证个人注视数据保持私密性。我们还引入了一种新的数据泄漏攻击 DualView，该攻击表明 PrivatEyes 比以前的方法更有效地限制私人训练数据的泄漏。

OHTA: One-shot Hand Avatar via Data-driven Implicit Priors
Authors Xiaozheng Zheng, Chao Wen, Zhuo Su, Zeran Xu, Zhaohu Li, Yang Zhao, Zhou Xue
在本文中，我们深入研究了单镜头手部头像的创建，从单个图像中快速获得高保真度和可驾驶的手部表示。随着数字人类领域的蓬勃发展，对快速、个性化的手部头像创建的需求变得越来越重要。现有技术通常需要大量输入数据，并且在某些情况下可能很麻烦甚至不切实际。为了增强可访问性，我们提出了一种新颖的方法 OHTA One shot Hand avaTAr，它可以仅从一张图像创建详细的手部头像。 OHTA 通过学习和利用数据驱动的手先验来解决这个数据有限问题的固有困难。具体来说，我们设计了一个手部先验模型，最初用于 1 利用可用数据学习各种手部先验，随后用于 2 利用先验知识对目标身份进行反演和拟合。 OHTA 展示了仅依靠单个图像即可创建具有一致动画质量的高保真手部头像的能力。

Towards Out-of-Distribution Detection for breast cancer classification in Point-of-Care Ultrasound Imaging
Authors Jennie Karlsson, Marisa Wodrich, Niels Christian Overgaard, Freja Sahlin, Kristina L ng, Anders Heyden, Ida Arvidsson
深度学习已被证明在医学应用中具有巨大潜力。在这样的关键领域，拥有值得信赖的算法非常令人感兴趣，这些算法能够判断何时无法保证可靠的评估。检测分布外的 OOD 样本是构建安全分类器的关键一步。先前的研究表明可以在护理点超声图像中对乳腺癌进行分类，本研究使用三种不同的方法（softmax、能量评分和深度集成）研究 OOD 检测。所有方法都在三个不同的 OOD 数据集上进行测试。结果表明，能量评分方法优于 softmax 方法，在其中两个数据集上表现良好。

Boosting Semi-Supervised Object Detection in Remote Sensing Images With Active Teaching
Authors Boxuan Zhang, Zengmao Wang, Bo Du
缺乏对象级注释对遥感图像 RSI 中的对象检测提出了重大挑战。为了解决这个问题，主动学习 AL 和半监督学习 SSL 技术被提出来提高注释的质量和数量。 AL 侧重于选择信息最丰富的样本进行注释，而 SSL 则利用未标记样本中的知识。在这封信中，我们提出了一种新颖的 AL 方法，通过师生网络增强遥感图像的半监督对象检测 SSOD，称为 SSOD AT。所提出的方法结合了 RoI 比较模块 RoICM 来为感兴趣的 RoI 区域生成高置信度伪标签。同时，利用RoICM来识别前K个不确定图像。为了减少用于人类标记的前 K 个不确定图像中的冗余，使用标记和伪标记图像基于不同类别的对象级原型引入了多样性标准。对 DOTA 和 DIOR 这两个流行数据集的大量实验表明，我们提出的方法优于 RSI 中对象检测的最先进方法。

WWW: A Unified Framework for Explaining What, Where and Why of Neural Networks by Interpretation of Neuron Concepts
Authors Yong Hyun Ahn, Hyeon Bae Kim, Seong Tae Kim
神经网络的最新进展展示了它们在各个领域的卓越能力。尽管取得了这些成功，黑匣子问题仍然存在。为了解决这个问题，我们提出了一个新颖的框架 WWW，它以人类可以理解的术语提供了神经网络决策的内容、地点和原因。具体来说，WWW 利用自适应选择进行概念发现，采用自适应余弦相似度和阈值技术来有效地解释什么。为了解决“地点”和“原因”问题，我们提出了一种神经元激活图 NAM 与 Shapley 值的新颖组合，为各个输入生成局部概念图和热图。此外，WWW 引入了一种预测不确定性的方法，利用热图相似性来估计预测的可靠性。 WWW 的实验评估表明在定量和定性指标方面均具有卓越的性能，在可解释性方面优于现有方法。

Percept, Chat, and then Adapt: Multimodal Knowledge Transfer of Foundation Models for Open-World Video Recognition
Authors Boyu Chen, Siran Chen, Kunchang Li, Qinglin Xu, Yu Qiao, Yali Wang
开放世界视频识别具有挑战性，因为传统网络不能很好地适应复杂的环境变化。或者，具有丰富知识的基础模型最近显示了它们的泛化能力。然而，如何应用这些知识来进行开放世界视频识别尚未得到充分探索。为此，我们提出了一个通用知识转移管道，它逐步利用和集成基础模型中的外部多模态知识，以促进开放世界视频识别。我们将其命名为 PCA，基于 Percept、Chat 和 Adapt 三个阶段。首先，我们执行感知过程以减少视频域间隙并获取外部视觉知识。其次，我们在聊天阶段生成丰富的语言语义作为外部文本知识。最后，我们在适应阶段混合外部多模态知识，通过将多模态知识适应模块插入网络中。我们对三个具有挑战性的开放世界视频基准测试（即 TinyVIRAT、ARID 和 QV Pipe）进行了广泛的实验。

Modality-Agnostic Structural Image Representation Learning for Deformable Multi-Modality Medical Image Registration
Authors Tony C. W. Mok, Zi Li, Yunhao Bai, Jianpeng Zhang, Wei Liu, Yan Jie Zhou, Ke Yan, Dakai Jin, Yu Shi, Xiaoli Yin, Le Lu, Ling Zhang
对于众多医学图像分析研究和图像引导放射治疗来说，在不同的成像模式之间建立密集的解剖对应关系是一个基础但具有挑战性的过程。现有的多模态图像配准算法依赖于基于统计的相似性度量或局部结构图像表示。然而，前者对局部变化的噪声敏感，而后者的辨别力不足以应对多模态扫描中的复杂解剖结构，导致在确定不同模态扫描之间的解剖对应关系时产生模糊性。在本文中，我们提出了一种模态不可知的结构表示学习方法，该方法利用深度邻域自相似性 DNS 和解剖感知对比学习来学习判别性和对比度不变性深层结构图像表示 DSIR，而无需解剖描绘或预对齐训练图像。我们在多相 CT、腹部 MR CT 和大脑 MR T1w T2w 配准上评估我们的方法。

Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super Resolution
Authors Hongjun Wang, Jiyuan Chen, Yinqiang Zheng, Tieyong Zeng
近年来，深度学习使单图像超分辨率 SISR 性能实现了巨大飞跃。尽管取得了实质性进展，但大多数现有工作都假设一个简单且固定的退化模型，例如双三次下采样，但 Blind SR 的研究旨在提高模型在未知退化情况下的泛化能力。最近，Kong 等人率先研究了一种更适合使用 Dropout 的 Blind SR 训练策略。尽管这种方法确实通过减轻过度拟合带来了实质性的泛化改进，但我们认为 Dropout 同时引入了不良的副作用，损害了模型忠实重建精细细节的能力。我们在论文中展示了理论和实验分析，此外，我们提出了另一种简单而有效的训练策略，通过简单地调整其一阶和二阶特征统计量来增强模型的泛化能力。

Edge Computing Enabled Real-Time Video Analysis via Adaptive Spatial-Temporal Semantic Filtering
Authors Xiang Chen, Wenjie Zhu, Jiayuan Chen, Tong Zhang, Changyan Yi, Jun Cai
本文提出了一种用于智能视觉设备的新型边缘计算支持实时视频分析系统。所提出的系统由跟踪辅助目标检测模块 TAODM 和感兴趣区域模块 ROIM 组成。 TAODM 自适应地确定卸载决策，使用跟踪算法在本地处理每个视频帧，或将其卸载到由对象检测模型推断的边缘服务器。 ROIM确定每个卸载帧的分辨率和检测模型配置，以确保分析结果能够及时返回。 TAODM 和 ROIM 联合交互，过滤重复的时空语义信息，在保证高视频分析精度的同时最大化处理速率。与大多数现有工作不同，本文研究了实时视频分析系统，其中智能视觉设备通过具有波动网络条件的无线网络连接到边缘服务器。我们将实时视频分析问题分解为卸载决策和配置选择子问题。为了解决这两个子问题，我们分别引入了基于双深度 Q 网络 DDQN 的卸载方法和基于上下文多臂老虎机 CMAB 的自适应配置选择方法。进一步开发了 DDQN CMAB 强化学习 DCRL 训练框架，以集成这两种方法以提高整体视频分析性能。

PCDepth: Pattern-based Complementary Learning for Monocular Depth Estimation by Best of Both Worlds
Authors Haotian Liu, Sanqing Qu, Fan Lu, Zongtao Bu, Florian Roehrbein, Alois Knoll, Guang Chen
事件摄像机可以以高时间分辨率记录场景动态，即使在低光照水平下也可以为单目深度估计 MDE 提供丰富的场景细节。因此，现有的 MDE 补充学习方法融合了图像中的强度信息和事件数据中的场景细节，以更好地理解场景。然而，大多数方法直接在像素级融合两种模态，忽略了有吸引力的互补性主要影响仅占据几个像素的高级模式。例如，事件数据可能会补充场景对象的轮廓。在本文中，我们将场景离散化为一组高级模式来探索互补性，并提出了一种用于单目深度估计 PCDepth 的基于模式的互补学习架构。具体来说，PCDepth 包括两个主要组件：一个互补的视觉表示学习模块，用于将场景离散化为高级模式并集成跨模态的互补模式；以及一个精炼的深度估计器，旨在场景重建和深度预测，同时保持效率精度平衡。通过基于模式的互补学习，PCDepth 充分利用了两种模式，并实现了比现有方法更准确的预测，特别是在具有挑战性的夜间场景中。在 MVSEC 和 DSEC 数据集上的大量实验验证了我们的 PCDepth 的有效性和优越性。

A Simple yet Effective Network based on Vision Transformer for Camouflaged Object and Salient Object Detection
Authors Chao Hao, Zitong Yu, Xin Liu, Jun Xu, Huanjing Yue, Jingyu Yang
伪装目标检测 COD 和显着目标检测 SOD 是过去几十年来广泛研究的两个不同但密切相关的计算机视觉任务。虽然它们的目的相同，都是将图像分割为二值前景和背景区域，但它们的区别在于 COD 专注于图像中隐藏的隐藏对象，而 SOD 专注于图像中最突出的对象。之前的作品通过堆叠各种手工设计的模块和多尺度特征取得了良好的性能。然而，这些精心设计的复杂网络通常在一项任务上表现良好，但在另一项任务上却表现不佳。在这项工作中，我们提出了一个基于视觉 Transformer ViT 的简单而有效的网络 SENet，通过采用基于非对称 ViT 的编码器解码器结构的简单设计，我们在这两项任务上都产生了有竞争力的结果，比精心设计的任务表现出更大的多功能性。此外，为了增强 Transformer 建模局部信息的能力（这对于像素级二进制分割任务很重要），我们提出了一种局部信息捕获模块 LCM 。我们还提出了一种基于二元交叉熵 BCE 和 Intersection over Union IoU 损失的动态加权损失 DW 损失，引导网络更多地关注那些更小、更难根据大小找到的目标对象。此外，我们还探讨了SOD和COD的联合训练问题，并提出了联合训练冲突的初步解决方案，进一步提高了SOD的性能。对多个基准数据集的广泛实验证明了我们方法的有效性。

Spectral Meets Spatial: Harmonising 3D Shape Matching and Interpolation
Authors Dongliang Cao, Marvin Eisenberger, Nafie El Amrani, Daniel Cremers, Florian Bernard
尽管 3D 形状匹配和插值高度相关，但它们经常被单独研究并按顺序应用以关联不同的 3D 形状，从而导致性能次佳。在这项工作中，我们提出了一个统一的框架来预测 3D 形状之间的点对应关系和形状插值。为此，我们将深层功能图框架与经典表面变形模型相结合，以映射光谱域和空间域中的形状。一方面，通过合并空间图，与之前的形状匹配功能图方法相比，我们的方法获得了更准确、更平滑的点对应关系。另一方面，通过引入光谱图，我们的方法摆脱了常用但计算成本昂贵的测地距离约束，这些约束仅对近等距形状变形有效。此外，我们提出了一种新颖的测试时间适应方案来捕获姿势主导和形状主导变形。

Decompose-and-Compose: A Compositional Approach to Mitigating Spurious Correlation
Authors Fahimeh Hosseini Noohdani, Parsa Hosseini, Arian Yazdan Parast, Hamidreza Yaghoubi Araghi, Mahdieh Soleymani Baghshah
虽然标准经验风险最小化 ERM 训练被证明对于分布数据内的图像分类是有效的，但它在分布外样本上表现不佳。图像分类分布偏移的主要来源之一是图像的组成性质。具体来说，除了确定标签的主要对象或组件之外，通常还存在一些其他图像组件，这可能会导致训练环境和测试环境之间的输入分布发生变化。更重要的是，这些成分可能与标签存在虚假相关性。为了解决这个问题，我们提出了 Decompose 和 Compose DaC，它通过基于组合图像元素的组合方法提高了对相关性偏移的鲁棒性。根据我们的观察，使用 ERM 训练的模型通常高度关注因果成分或与标签具有高度虚假相关性的成分，特别是在模型具有高置信度的数据点中。事实上，根据虚假相关性的数量以及基于因果或非因果成分进行分类的难易程度，模型通常会在高置信度的样本上更多地关注其中之一。接下来，我们首先尝试使用 ERM 训练的模型的类激活图来识别图像的因果成分。之后，我们通过组合图像并根据增强数据（包括反事实数据）重新训练模型来对图像进行干预。除了其高可解释性之外，这项工作还提出了一种通过干预图像来实现组平衡的方法，而无需组标签或有关训练期间虚假特征的信息。

SNE-RoadSegV2: Advancing Heterogeneous Feature Fusion and Fallibility Awareness for Freespace Detection
Authors Yi Feng, Yu Ma, Qijun Chen, Ioannis Pitas, Rui Fan
具有双工编码器的特征融合网络已被证明是解决自由空间检测问题的有效技术。然而，尽管先前的研究工作取得了令人信服的成果，但对充分且有区别的异质特征融合的探索以及易错意识损失函数的开发仍然相对较少。本文为解决这些局限性做出了几项重大贡献1它提出了一种新颖的异构特征融合块，包括整体注意模块、异构特征对比度描述符和亲和力加权特征重新校准器，从而能够更深入地利用异构特征的固有特征。提取的特征，2它将尺度间和尺度内跳跃连接合并到解码器架构中，同时消除冗余，从而提高准确性和计算效率，3它引入了两个分别关注语义转换和深度的易错性损失函数不一致的区域，共同有助于在模型训练期间加强监督。我们提出的异构特征融合网络 SNE RoadSegV2 结合了所有这些创新组件，与跨多个公共数据集的所有其他自由空间检测算法相比，表现出了卓越的性能。

Aligning Knowledge Graph with Visual Perception for Object-goal Navigation
Authors Nuo Xu, Wen Wang, Rong Yang, Mengjie Qin, Zheyuan Lin, Wei Song, Chunlong Zhang, Jason Gu, Chao Li
对象目标导航是一项具有挑战性的任务，需要根据第一人称视觉观察引导智能体到达特定对象。智能体理解周围环境的能力对于成功找到目标起着至关重要的作用。然而，现有的基于知识图的导航器通常依赖于离散分类一热向量和计票策略来构建场景的图形表示，这导致与视觉图像的不一致。为了提供更准确、连贯的场景描述并解决这种错位问题，我们提出了使用视觉感知 AKGVP 方法对齐知识图来进行对象目标导航。从技术上讲，我们的方法引入了分层场景架构的连续建模，并利用视觉语言预训练来使自然语言描述与视觉感知保持一致。连续知识图架构和多模态特征对齐的集成使导航器具有卓越的零射击导航能力。我们使用 AI2 THOR 模拟器广泛评估我们的方法，并进行一系列实验来证明我们的导航器的有效性和效率。

Dose Prediction Driven Radiotherapy Paramters Regression via Intra- and Inter-Relation Modeling
Authors Jiaqi Cui, Yuanyuan Xu, Jianghong Xiao, Yuchen Fei, Jiliu Zhou, Xingcheng Peng, Yan Wang
深度学习通过预测准确的剂量分布图促进了放射治疗的自动化。然而，现有方法无法导出理想的放疗参数并直接输入到治疗计划系统TPS中，阻碍了放疗的完全自动化。为了实现更彻底的自动放疗，在本文中，我们提出了一种新颖的两阶段框架来直接回归放疗参数，包括剂量图预测阶段和放疗参数回归阶段。在第一阶段，我们结合 Transformer 和卷积神经网络 CNN 来预测具有丰富全局和局部信息的真实剂量图，为后续参数回归提供准确的剂量学知识。在第二阶段，设计了两个复杂的模块，即内部关系建模Intra RM模块和相互关系建模Inter RM模块，以利用器官特定和器官共享特征进行精确参数回归。

Enhancing Steganographic Text Extraction: Evaluating the Impact of NLP Models on Accuracy and Semantic Coherence
Authors Mingyang Li, Maoqin Yuan, Luyao Li, Han Pengsihua
本研究探讨了一种将图像隐写技术与自然语言处理NLP大型模型相结合的新方法，旨在提高隐写文本提取的准确性和鲁棒性。传统的最低有效位LSB隐写技术在处理复杂的字符编码（例如汉字）时面临着信息提取的准确性和鲁棒性的挑战。为了解决这个问题，本研究提出了一种创新的 LSB NLP 混合框架。该框架集成了NLP大型模型的先进能力，如错误检测、纠正和语义一致性分析以及信息重构技术，从而显着增强了隐写文本提取的鲁棒性。实验结果表明，LSB NLP 混合框架在提高隐写文本的提取精度方面表现出色，尤其是在处理汉字方面。该研究结果不仅证实了图像隐写技术与NLP大模型相结合的有效性，而且为信息隐藏领域的研究和应用提出了新的思路。

SwitchLight: Co-design of Physics-driven Architecture and Pre-training Framework for Human Portrait Relighting
Authors Hoon Kim, Minje Jang, Wonjun Yoon, Jisoo Lee, Donghyun Na, Sanghyun Woo
我们引入了一种用于人体肖像重新照明的联合设计方法，该方法将物理引导架构与预训练框架相结合。借鉴库克托伦斯反射率模型，我们精心配置了架构设计，以精确模拟光表面相互作用。此外，为了克服高质量光舞台数据稀缺的限制，我们开发了一种自我监督的预训练策略。

Deep Learning for 3D Human Pose Estimation and Mesh Recovery: A Survey
Authors Yang Liu, Changzhen Qiu, Zhiyong Zhang
3D 人体姿态估计和网格恢复吸引了计算机视觉、自动驾驶和机器人等许多领域的广泛研究兴趣。 3D 人体姿势估计和网格恢复的深度学习最近蓬勃发展，提出了许多方法来解决该领域的不同问题。在本文中，为了激发未来的研究，我们通过深入研究 200 多篇参考文献，全面回顾了过去五年该领域深度学习方法的最新进展。据我们所知，这项调查可以说是第一个全面涵盖 3D 人体姿态估计深度学习方法的调查，包括单人和多人方法，以及人体网格恢复，包括基于显式模型和隐式表示的方法。我们还提供了几个公开数据集的比较结果，以及富有洞察力的观察和启发未来的研究方向。

ViewFusion: Towards Multi-View Consistency via Interpolated Denoising
Authors Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
通过扩散模型的新颖视图合成已显示出生成多样化和高质量图像的巨大潜力。然而，这些流行方法中图像生成的独立过程给维持多视图一致性带来了挑战。为了解决这个问题，我们引入了 ViewFusion，这是一种新颖的免训练算法，可以无缝集成到现有的预训练扩散模型中。我们的方法采用自回归方法，隐式地利用先前生成的视图作为下一个视图生成的上下文，确保新视图生成过程中稳健的多视图一致性。通过通过插值去噪融合已知视图信息的扩散过程，我们的框架成功地将单视图条件模型扩展为在多视图条件设置中工作，而无需任何额外的微调。

Debiased Novel Category Discovering and Localization
Authors Juexiao Feng, Yuhong Yang, Yanchun Xie, Yaqian Li, Yandong Guo, Yuchen Guo, Yuwei He, Liuyu Xiang, Guiguang Ding
近年来，深度学习中的目标检测得到了快速发展。然而，大多数现有的目标检测模型仅在封闭集数据集上表现良好，忽略了训练集中未定义类别的大量潜在目标。这些物体通常被检测器识别为背景或错误地分类为预定义的类别。在本文中，我们重点关注新类别发现和定位 NCDL 的挑战性问题，旨在训练能够检测训练数据中存在的类别的检测器，同时还主动发现、定位和聚类新类别。我们分析了现有的 NCDL 方法并确定了核心问题：目标检测器往往偏向于可见的目标，这导致忽略不可见的目标。为了解决这个问题，我们首先提出了一种去偏区域挖掘 DRM 方法，该方法以互补的方式结合了类无关的区域提议网络 RPN 和类感知 RPN。此外，我们建议通过利用未标记数据的半监督对比学习来改进表示网络。最后，我们采用简单高效的小批量 K 均值聚类方法进行新类发现。

Gradient Alignment for Cross-Domain Face Anti-Spoofing
Authors Binh M. Le, Simon S. Woo
用于面部反欺骗 FAS 的域泛化 DG 的最新进展引起了相当大的关注。传统方法侧重于设计学习目标和附加模块来隔离特定于领域的特征，同时在其表示中保留领域不变的特征。然而，此类方法通常缺乏对领域不变特征的一致维护或完全删除领域特定特征的保证。此外，FAS 的 DG 的大多数先前工作并不能确保收敛到局部平坦最小值，这已被证明对 DG 是有利的。在本文中，我们介绍了 GAC FAS，这是一种新颖的学习目标，它鼓励模型收敛到最佳平坦最小值，而无需额外的学习模块。与传统的锐度感知最小化器不同，GAC FAS 识别每个域的上升点，并调节这些点处的泛化梯度更新，以与经验风险最小化 ERM 梯度更新保持一致。这种独特的方法专门指导模型对域转移具有鲁棒性。我们通过对具有挑战性的跨域 FAS 数据集的严格测试来证明 GAC FAS 的功效，并在其中建立了最先进的性能。

BFRFormer: Transformer-based generator for Real-World Blind Face Restoration
Authors Guojing Ge, Qi Song, Guibo Zhu, Yuting Zhang, Jinglu Chen, Miao Xin, Ming Tang, Jinqiao Wang
由于未知且复杂的退化，盲人脸恢复是一项具有挑战性的任务。尽管基于人脸先验的方法和基于参考的方法最近已经证明了高质量的结果，但是当退化严重时，恢复的图像往往包含过度平滑的结果并丢失身份保留的细节。据观察，这是由于短程依赖性，即卷积神经网络的内在限制。为了模拟长距离依赖性，我们提出了一种基于 Transformer 的盲脸恢复方法，名为 BFRFormer，以端到端的方式重建具有更多身份保留细节的图像。在 BFRFormer 中，为了消除块效应，开发了小波鉴别器和聚合注意力模块，并自适应地应用谱归一化和平衡一致性调节来分别解决训练不稳定和过拟合问题。大量的实验表明，我们的方法在合成数据集和四个现实世界数据集上优于最先进的方法。

OpticalDR: A Deep Optical Imaging Model for Privacy-Protective Depression Recognition
Authors Yuchen Pan, Junjun Jiang, Kui Jiang, Zhihao Wu, Keyuan Yu, Xianming Liu
抑郁症识别 DR 提出了相当大的挑战，特别是在人们日益关注隐私的背景下。传统的DR技术自动诊断需要使用人脸图像，无疑暴露了患者的身份特征并带来隐私风险。为了减轻与不当披露患者面部图像相关的潜在风险，我们设计了一种新的成像系统，可以擦除捕获的面部图像的身份信息，同时保留疾病相关特征。身份信息恢复是不可逆的，同时保留准确 DR 所需的基本疾病相关特征。更具体地说，我们尝试通过可学习的镜头尽可能多地擦除可识别的特征来记录去识别的面部图像，该镜头结合以下DR任务以及一系列与人脸分析相关的辅助任务进行优化，以达到结束方式。这些上述策略构成了我们最终的光学深度凹陷识别网络 OpticalDR。在 CelebA、AVEC 2013 和 AVEC 2014 数据集上的实验表明，我们的 OpticalDR 已经实现了最先进的隐私保护性能，在流行的面部识别模型上平均 AUC 为 0.51，DR 的结果具有竞争力，在 AVEC 2013 上 MAE RMSE 为 7.53 8.48

A Quantitative Evaluation of Score Distillation Sampling Based Text-to-3D
Authors Xiaohan Fei, Chethan Parameshwara, Jiawei Mo, Xiaolong Li, Ashwin Swaminathan, CJ Taylor, Paolo Favaro, Stefano Soatto
由于在用于图像生成的预训练扩散模型上使用分数蒸馏采样 SDS 方法，从文本提示创建 3D 内容的生成模型的开发取得了长足的进步。然而，SDS 方法也是一些伪影的根源，例如 Janus 问题、文本提示与生成的 3D 模型之间的错位以及 3D 模型不准确。虽然现有的方法严重依赖于通过对有限样本集的目视检查来对这些工件进行定性评估，但在这项工作中，我们提出了更客观的定量评估指标，我们通过人工评级进行交叉验证，并显示了对失败案例的分析。 SDS 技术。

NARUTO: Neural Active Reconstruction from Uncertain Target Observations
Authors Ziyue Feng, Huangying Zhan, Zheng Chen, Qingan Yan, Xiangyu Xu, Changjiang Cai, Bing Li, Qilun Zhu, Yi Xu
我们推出了 NARUTO，一种神经主动重建系统，它将混合神经表示与不确定性学习相结合，从而实现高保真度表面重建。我们的方法利用多分辨率哈希网格作为映射主干，选择它是因为其卓越的收敛速度和捕获高频局部特征的能力。我们工作的核心是结合不确定性学习模块，该模块动态量化重建不确定性，同时主动重建环境。通过利用学习到的不确定性，我们提出了一种新颖的不确定性聚合策略，用于目标搜索和有效的路径规划。我们的系统通过针对不确定的观测进行自主探索，并以卓越的完整性和保真度重建环境。我们还通过主动射线采样策略增强 SOTA 神经 SLAM 系统，展示了这种不确定性感知方法的实用性。

Comparing Importance Sampling Based Methods for Mitigating the Effect of Class Imbalance
Authors Indu Panigrahi, Richard Zhu
大多数最先进的计算机视觉模型严重依赖于数据。然而，许多数据集表现出极端的类别不平衡，这已被证明会对模型性能产生负面影响。在已探索的训练时间和数据生成解决方案中，利用现有数据的一个子集是重要性采样。这项工作的大部分内容主要集中在 CIFAR 10 和 CIFAR 100 数据集上，这些数据集无法代表当前最先进数据集的规模、组成和复杂性。在这项工作中，我们探索并比较了源自重要性采样损失重新加权、欠采样和过采样的三种技术。具体来说，我们比较了这些技术对两个编码器在有影响力的卫星图像数据集（Planet s Amazon Rainforest 数据集）上的性能的影响，为另一项工作做准备。此外，我们对场景分类数据集 ADE20K 进行补充实验，以在对比域上进行测试并阐明我们的结果。在这两种类型的编码器中，我们发现增加损失加权和欠采样对代表性不足的类的性能影响可以忽略不计。此外，我们的结果表明，过采样通常可以提高相同代表性不足类别的性能。有趣的是，我们的发现还表明 Planet 数据集中的数据可能存在一些冗余。我们的工作旨在为行星数据集和类似领域特定数据集的进一步工作提供基础。

Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks
Authors Alexander Unnervik, Hatef Otroshi Shahreza, Anjith George, S bastien Marcel
后门攻击允许攻击者在机器学习算法中嵌入特定漏洞，当攻击者选择的模式出现时，该漏洞就会被激活，从而导致特定的错误预测。由于需要识别生物识别场景中的后门，我们提出了一种具有不同权衡的新技术。在本文中，我们建议在开放集分类任务上使用模型对来检测后门。使用简单的线性运算将嵌入从探测模型的嵌入空间投影到参考模型的嵌入空间，我们可以比较这两个嵌入并计算相似度得分。我们表明，尽管模型具有不同的架构，并在不同的数据集上进行了独立训练，但该分数可以作为后门存在的指标。此外，我们还表明，即使两个模型都存在后门，也可以检测到后门。

Spatial Coherence Loss for Salient and Camouflaged Object Detection and Beyond
Authors Ziyun Yang, Kevin Choy, Sina Farsiu
通用对象检测是一项独立于类别的任务，依赖于对象性的准确建模。大多数相关的基于 CNN 的对象性模型都利用损失函数，例如专注于单个响应（即单个像素的损失响应）的二元交叉熵。受人类视觉系统的启发，人类视觉系统在深入研究语义之前首先识别模糊区域（即硬区域）的边界，我们提出了一种新颖的损失函数，空间相干损失 SCLoss ，它使用相邻像素之间的相互响应来抑制或强调像素的单一响应。我们证明了所提出的 SCLoss 可以通过检测和强调硬区域的边界来逐渐学习硬区域。通过综合实验，我们证明用 SCLoss 替换流行的损失函数可以提高当前最先进的 SOTA 显着或伪装对象检测 SOD 或 COD 模型的性能。我们还证明，将 SCLoss 与其他损失函数相结合可以进一步提高性能，并为不同的应用带来 SOTA 结果。

Grounding Language Models for Visual Entity Recognition
Authors Zilin Xiao, Ming Gong, Paola Cascante Bonilla, Xingyao Zhang, Jie Wu, Vicente Ordonez
我们介绍 AutoVER，一种用于视觉实体识别的自回归模型。我们的模型通过采用检索增强约束生成来扩展自回归多模态大语言模型。它可以缓解域外实体的低性能，同时在需要视觉定位推理的查询中表现出色。我们的方法通过在没有外部检索器的情况下与序列到序列目标并行地对硬负对进行对比训练，学习区分巨大标签空间中的相似实体。在推理过程中，检索到的候选答案列表通过删除无效的解码路径来明确指导语言生成。所提出的方法在最近提出的 Oven Wiki 基准测试中跨不同数据集分割实现了显着改进。实体分裂的准确度从 32.7 上升到 61.5 。

Trends, Applications, and Challenges in Human Attention Modelling
Authors Giuseppe Cartella, Marcella Cornia, Vittorio Cuculo, Alessandro D Amelio, Dario Zanca, Giuseppe Boccignone, Rita Cucchiara
近年来，人类注意力模型已被证明不仅对于理解视觉探索背后的认知过程特别有用，而且还可以为旨在解决各个领域问题的人工智能模型提供支持，包括图像和视频处理、视觉以及语言应用和语言建模。这项调查对最近将人类注意力机制整合到当代深度学习模型中的努力进行了合理的概述，并讨论了未来的研究方向和挑战。

Wilcoxon Nonparametric CFAR Scheme for Ship Detection in SAR Image
Authors Xiangwei Meng
基于高斯分布、伽玛分布、威布尔分布、对数正态分布、G0分布、α稳定分布等各种统计分布的参数恒虚警率恒虚警检测算法，最广泛地应用于SAR图像中的船舶目标检测。展示。然而SAR图像中的杂波背景复杂多变。当实际杂波背景偏离假设的统计分布时，参数CFAR检测器的性能将会恶化。除了参数CFAR方案之外，还有另一类非参数CFAR检测器，它可以在不假设已知杂波分布的情况下保持目标检测恒定的误报率。在这项工作中，提出并分析了用于SAR图像中船舶检测的Wilcoxon非参数CFAR方案，并提出了用于Wilcoxon非参数检测器确定决策阈值的误报率的闭合形式。通过与Radarsat 2、ICEYE X6和高分3号SAR图像上几种典型参数CFAR方案的比较，揭示了Wilcoxon非参数探测器在不同探测背景下保持良好虚警性能的鲁棒性，以及其对弱船的探测性能。波涛汹涌的海面得到一定程度的改善。

Motion Guided Token Compression for Efficient Masked Video Modeling
Authors Yukun Feng, Yangming Shi, Fengze Liu, Tan Yan
变形金刚的最新发展在增强视频理解方面取得了显着的进步。尽管如此，在处理高维视频时，与注意力机制相关的 O N 2 计算复杂性带来了巨大的计算障碍。当努力提高每秒帧数 FPS 以增强动作捕捉能力时，这一挑战变得尤为明显。这种追求可能会引入冗余并加剧现有的计算限制。在本文中，我们首先展示通过提高 FPS 速率所实现的增强性能。此外，我们提出了一种新颖的方法，即运动引导令牌压缩 MGTC，使 Transformer 模型能够利用更小但更具代表性的令牌集来进行全面的视频表示。因此，这会大幅减少计算负担，并保持无缝适应增加的 FPS 速率。具体来说，我们从视频压缩算法中汲取灵感，并仔细检查时间维度上连续视频帧中的补丁之间的差异。然后，表现出低于预定阈值的差异的标记被屏蔽。值得注意的是，这种屏蔽策略有效地解决了视频冗余问题，同时保留了重要信息。我们在广泛检查的视频识别数据集 Kinetics 400、UCF101 和 HMDB51 上进行的实验表明，提高 FPS 速率会导致 top 1 准确度分数显着提高超过 1.6、1.6 和 4.0。通过实施掩蔽比为 25 的 MGTC，我们将 Kinetics 400 上的精度进一步提高了 0.1，同时将计算成本降低了 31 以上。即使在固定的计算预算内，与较低 FPS 设置相比，较高的 FPS 速率与 MGTC 相结合也能维持性能增益

Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress
Authors Ameya Prabhu, Vishaal Udandarao, Philip Torr, Matthias Bethge, Adel Bibi, Samuel Albanie
标准化基准推动机器学习的进步。然而，通过重复测试，随着算法过度利用基准特性，过度拟合的风险也会增加。在我们的工作中，我们寻求通过编制不断扩大的大规模基准（称为“终身基准”）来缓解这一挑战。作为我们方法的范例，我们创建了 Lifelong CIFAR10 和 Lifelong ImageNet，目前分别包含 169 万和 198 万个测试样本。在减少过度拟合的同时，终身基准带来了一个关键挑战，即在不断扩大的样本集中评估越来越多的模型的成本很高。为了应对这一挑战，我们还引入了一个高效的评估框架 Sort Search S S ，该框架通过利用动态编程算法有选择地排名和子选择测试样本来重用以前评估的模型，从而实现具有成本效益的终身基准测试。对 31,000 个模型的广泛实证评估表明，SS 实现了高效的近似精度测量，将计算成本从 180 个 GPU 天减少到 5 个 GPU 小时，在单个 A100 GPU 上减少了 1000 倍，并且近似误差较低。

Towards Generalizable Tumor Synthesis
Authors Qi Chen, Xiaoxi Chen, Haorui Song, Zhiwei Xiong, Alan Yuille, Chen Wei, Zongwei Zhou
肿瘤合成可以在医学图像中创建人造肿瘤，从而促进用于肿瘤检测和分割的人工智能模型的训练。然而，肿瘤合成的成功取决于创建视觉上真实的肿瘤，这些肿瘤可以推广到多个器官，此外，由此产生的人工智能模型能够检测来自不同领域（例如医院）的图像中的真实肿瘤。本文利用关键观察，在计算机断层扫描 CT 中往往具有相似的成像特征，无论它们起源于肝脏、胰腺还是肾脏，这篇论文在广义肿瘤合成方面迈出了一步。我们已经确定，生成式 AI 模型（例如扩散模型）可以创建泛化到一系列器官的真实肿瘤，即使仅对来自一个器官的有限数量的肿瘤示例进行训练。

Humanoid Locomotion as Next Token Prediction
Authors Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
我们将现实世界的人形控制视为下一个标记预测问题，类似于预测语言中的下一个单词。我们的模型是通过感觉运动轨迹的自回归预测训练的因果变换器。为了考虑数据的多模态性质，我们以模态对齐的方式执行预测，并且对于每个输入标记从相同模态预测下一个标记。这种通用的公式使我们能够利用缺少模式的数据，例如没有动作的视频轨迹。我们根据来自先前神经网络策略、基于模型的控制器、动作捕捉数据和人类 YouTube 视频的一组模拟轨迹来训练我们的模型。我们展示了我们的模型能够让全尺寸的人形机器人零镜头地在旧金山行走。即使仅使用 27 小时的步行数据进行训练，我们的模型也可以转移到现实世界，并且可以泛化到训练期间未见过的命令，例如倒退行走。

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning
Authors Kate Sanders, Nathaniel Weir, Benjamin Van Durme
对电视剪辑等复杂的多模式内容进行问答具有挑战性。部分原因是当前的视频语言模型依赖于单一模态推理，在长输入上的性能降低，并且缺乏互用性。我们提出了 TV TREES，这是第一个多模态蕴涵树生成器。 TV TREES 是一种视频理解方法，通过在视频直接蕴涵的简单前提和更高层次的结论之间生成蕴涵关系树，促进可解释的联合模态推理。然后，我们引入多模态蕴涵树生成的任务来评估此类方法的推理质量。

Listening to the Noise: Blind Denoising with Gibbs Diffusion
Authors David Heurtel Depeiges, Charles C. Margossian, Ruben Ohana, Bruno R galdo Saint Blancard
近年来，去噪问题与深度生成模型的发展交织在一起。特别是，扩散模型像降噪器一样进行训练，并且它们建模的分布与贝叶斯图像中的降噪先验一致。然而，通过基于扩散的后验采样去噪需要已知噪声水平和协方差，以防止盲目去噪。我们通过引入吉布斯扩散 GDiff 克服了这一限制，这是一种解决信号和噪声参数后验采样的通用方法。假设存在任意参数高斯噪声，我们开发了一种吉布斯算法，该算法从经过训练的条件扩散模型中交替采样步骤，以将信号先于噪声分布族映射，并使用蒙特卡洛采样器来推断噪声参数。我们的理论分析强调了潜在的陷阱，指导诊断使用，并量化由扩散模型引起的吉布斯平稳分布中的误差。我们展示了我们的方法：1 对涉及幅度和光谱指数未知的有色噪声的自然图像进行盲去噪，以及 2 宇宙学问题，即宇宙微波背景数据的分析，其中噪声参数的贝叶斯推断意味着约束宇宙演化的模型。

SeD: Semantic-Aware Discriminator for Image Super-Resolution
Authors Bingchen Li, Xin Li, Hanxin Zhu, Yeying Jin, Ruoyu Feng, Zhizheng Zhang, Zhibo Chen
生成对抗网络 GAN 已被广泛用于在图像超分辨率 SR 任务中恢复生动的纹理。特别是，利用一个判别器使 SR 网络能够以对抗性训练的方式学习现实世界高质量图像的分布。然而，分布学习粒度过于粗，容易受到虚拟纹理的影响，导致生成结果与直观相反。为了缓解这个问题，我们提出了简单有效的语义感知判别器，表示为 SeD ，它鼓励 SR 网络通过引入图像语义作为条件来学习细粒度分布。具体来说，我们的目标是从训练有素的语义提取器中挖掘图像的语义。在不同的语义下，鉴别器能够自适应地单独区分真假图像，从而引导 SR 网络学习更细粒度的语义感知纹理。为了获得准确和丰富的语义，我们充分利用最近流行的具有广泛数据集的预训练视觉模型PVM，然后通过精心设计的空间交叉注意模块将其语义特征合并到鉴别器中。通过这种方式，我们提出的语义感知鉴别器使 SR 网络能够生成更加逼真和令人愉悦的图像。

Towards Safe and Reliable Autonomous Driving: Dynamic Occupancy Set Prediction
Authors Wenbo Shao, Jiahui Xu, Wenhao Yu, Jun Li, Hong Wang
在快速发展的自动驾驶领域，准确的轨迹预测对于车辆安全至关重要。然而，轨迹预测通常会偏离实际路径，特别是在复杂且具有挑战性的环境中，从而导致重大错误。为了解决这个问题，我们的研究引入了一种动态占用集 DOS 预测的新方法，增强了轨迹预测能力。该方法有效地将先进的轨迹预测网络与DOS预测模块结合起来，克服了现有模型的缺点。它提供了一个全面且适应性强的框架，用于预测交通参与者的潜在占用集。这项研究的主要贡献包括 1 为复杂场景量身定制的新型 DOS 预测模型，增强了传统的轨迹预测 2 开发了独特的 DOS 表示和评估指标 3 通过实验进行了广泛的验证，展示了增强的性能和适应性。

Structure Preserving Diffusion Models
Authors Haoye Lu, Spencer Szabados, Yaoliang Yu
近年来，扩散模型已成为领先的分布学习方法。在这里，我们引入了结构保持扩散过程，这是一系列用于学习具有附加结构（例如群对称性）的分布的扩散过程，通过开发扩散过渡步骤保持所述对称性的理论条件。在实现等变数据采样轨迹的同时，我们通过开发一系列能够学习本质上对称的分布的不同对称等变扩散模型来举例说明这些结果。对合成数据集和现实世界数据集的实证研究用于验证开发的模型是否符合所提出的理论，并且能够在样本平等方面比现有方法实现更高的性能。

RoadRunner -- Learning Traversability Estimation for Autonomous Off-road Driving
Authors Jonas Frey, Shehryar Khattak, Manthan Patel, Deegan Atha, Julian Nubert, Curtis Padgett, Marco Hutter, Patrick Spieler
在越野环境中高速自主导航需要机器人仅使用机载传感来全面了解周围环境。越野环境造成的极端条件可能会导致相机图像质量下降，原因是照明不佳和运动模糊，以及高速行驶时激光雷达传感提供的稀疏几何信息有限。在这项工作中，我们提出了 RoadRunner，这是一种能够直接根据相机和 LiDAR 传感器输入预测地形可穿越性和高程图的新颖框架。 RoadRunner 通过融合感知信息、处理不确定性以及生成有关地形几何形状和可通行性的上下文预测，同时以低延迟运行，实现可靠的自主导航。与依赖于对手工语义类进行分类并使用启发式方法来预测可遍历性成本的现有方法相比，我们的方法以自我监督的方式进行端到端训练。 RoadRunner 网络架构建立在自动驾驶领域流行的传感器融合网络架构之上，该架构将 LiDAR 和摄像头信息嵌入到通用鸟瞰视角中。训练是通过利用现有的可通行性估计堆栈来实现的，以可扩展的方式从现实世界的越野驾驶数据集中生成事后训练数据。此外，RoadRunner 将系统延迟提高了大约 4 倍，从 500 毫秒缩短到 140 毫秒，同时提高了可通行成本和高程图预测的准确性。

Loss-Free Machine Unlearning
Authors Jack Foster, Stefan Schoepf, Alexandra Brintrup
我们提出了一种机器取消学习方法，既无需再训练，又无需标签。大多数现有的机器去学习方法都需要对模型进行微调，以在保持性能的同时删除信息。这在计算上是昂贵的，并且需要在模型的生命周期内存储整个数据集。无再训练方法通常利用费舍尔信息，该信息来自损失，并且需要可能无法获得的标记数据。因此，我们提出了选择性突触抑制算法的扩展，用 Fisher 信息矩阵的对角线替换模型输出的 l2 范数的梯度以近似灵敏度。我们使用 ResNet18 和 Vision Transformer 在一系列实验中评估我们的方法。

CAMixerSR: Only Details Need More "Attention"
Authors Yan Wang, Shijie Zhao, Yi Liu, Junlin Li, Li Zhang
为了满足对大图像 2K 8K 超分辨率 SR 快速增长的需求，主流方法遵循两个独立的轨道：1 通过内容感知路由加速现有网络，2 通过令牌混合器细化设计更好的超分辨率网络。尽管直接，但它们遇到了不可避免的缺陷，例如，不灵活的路线或非歧视性的处理限制了质量复杂性权衡的进一步改进。为了消除这些缺点，我们通过提出一个内容感知混合器 CAMixer 来集成这些方案，它为简单的上下文分配卷积，并为稀疏纹理分配额外的可变形窗口注意。具体来说，CAMixer 使用可学习的预测器来生成多个引导程序，包括窗口扭曲的偏移量、用于分类窗口的掩模以及赋予卷积动态属性的卷积注意力，从而自适应地调节注意力以包含更有用的纹理并改进表示卷积能力。我们进一步引入全局分类损失来提高预测器的准确性。

PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology Segmentation
Authors Ruining Deng, Quan Liu, Can Cui, Tianyuan Yao, Jialin Yue, Juming Xiong, Lining Yu, Yifei Wu, Mengmeng Yin, Yu Wang, Shilin Zhao, Yucheng Tang, Haichun Yang, Yuankai Huo
了解肾脏病理学的解剖结构对于推进疾病诊断、治疗评估和临床研究至关重要。复杂的肾脏系统由多个层面的各种组成部分组成，包括皮质、髓质、肾小球功能单位、肾小管、足细胞、肾小球中的系膜细胞。先前的研究主要忽视了临床知识中对象之间复杂的空间相互关系。

Modular Blind Video Quality Assessment
Authors Wen Wen, Mu Li, Yabin Zhang, Yiting Liao, Junlin Li, Li Zhang, Kede Ma
盲视频质量评估 BVQA 在评估和改善各种基于视频的平台和服务的最终用户的观看体验方面发挥着关键作用。现代基于深度学习的模型主要以积极下采样的格式分析视频内容，而忽视了实际空间分辨率和帧速率对视频质量的影响。在本文中，我们提出了一种模块化 BVQA 模型，以及一种训练它以提高其模块化性的方法。具体来说，我们的模型包括基本质量预测器、空间整流器和时间整流器，分别响应视频质量的视觉内容和失真、空间分辨率和帧速率变化。在训练过程中，空间和时间整流器会以一定的概率被丢弃，以使基本质量预测器成为独立的 BVQA 模型，该模型应该与整流器一起更好地工作。对专业生成的内容和用户生成的内容视频数据库的广泛实验表明，我们的质量模型实现了优于当前方法或可比的性能。此外，我们模型的模块化提供了一个很好的机会来分析现有视频质量数据库的空间和时间复杂性。

Training Generative Image Super-Resolution Models by Wavelet-Domain Losses Enables Better Control of Artifacts
Authors Cansu Korkmaz, A. Murat Tekalp, Zafer Dogan
超分辨率 SR 是一个病态反问题，其中与给定低分辨率图像一致的可行解集的大小非常大。人们提出了许多算法来在可行的解决方案中找到一个好的解决方案，在保真度和感知质量之间取得平衡。不幸的是，所有已知的方法在尝试重建高频高频图像细节时都会产生伪影和幻觉。一个基本问题是模型能否学会区分真实图像细节和伪影虽然最近的一些工作专注于区分细节和伪影，但这是一个非常具有挑战性的问题，尚未找到令人满意的解决方案。本文表明，与 RGB 域或傅里叶空间损失相比，通过使用小波域损失函数训练基于 GAN 的 SR 模型，可以更好地学习真实 HF 细节与伪影的表征。尽管小波域损失之前已在文献中使用过，但尚未在 SR 任务中使用过。更具体地说，我们仅在 HF 小波子带上而不是在 RGB 图像上训练鉴别器，并且通过小波子带上的保真度损失来训练生成器，以使其对结构的尺度和方向敏感。

Deep Network for Image Compressed Sensing Coding Using Local Structural Sampling
Authors Wenxue Cui, Xingtao Wang, Xiaopeng Fan, Shaohui Liu, Xinwei Gao, Debin Zhao
现有的图像压缩感知CS编码框架通常解决基于测量编码和基于优化的图像重建的逆问题，仍然存在以下两个挑战1广泛使用的随机采样矩阵，例如高斯随机矩阵GRM，通常导致测量值较低编码效率。 2 基于优化的重建方法通常保持较高的计算复杂度。在本文中，我们提出了一种新的基于 CNN 的使用局部结构采样的图像 CS 编码框架，称为 CSCNet，它包括局部结构采样、测量编码和拉普拉斯金字塔重建三个功能模块。在所提出的框架中，首先开发了一种新的局部结构采样矩阵，而不是GRM，它能够通过局部感知采样策略增强测量之间的相关性。此外，设计的局部结构采样矩阵可以在训练过程中与其他功能模块联合优化。采样后，产生具有高相关性的测量结果，然后由第三方图像编解码器将其编码为最终比特流。最后，提出了拉普拉斯金字塔重建网络，以有效地将目标图像从测量域恢复到图像域。

FlatNAS: optimizing Flatness in Neural Architecture Search for Out-of-Distribution Robustness
Authors Matteo Gambella, Fabrizio Pittorino, Manuel Roveri
神经架构搜索 NAS 为神经网络 NN 架构的自动定义铺平了道路，吸引了越来越多的研究关注并提供了各种场景的解决方案。本研究介绍了一种新颖的 NAS 解决方案，称为“平面神经架构搜索 FlatNAS”，该解决方案探索了基于权重扰动鲁棒性的新颖品质因数与使用锐度感知最小化 SAM 的单神经网络优化之间的相互作用。 FlatNAS 是文献中第一个在 NAS 过程中系统地探索 NN 损失景观中平坦区域的工作，同时联合优化它们在分布数据、分布外 OOD 鲁棒性方面的性能，并限制其架构中的参数数量。与当前主要关注 OOD 算法的研究不同，FlatNAS 成功评估了 NN 架构对 OOD 鲁棒性的影响，这是机器和深度学习现实世界应用中的一个关键方面。 FlatNAS 通过仅使用 NAS 探索中的分布数据，在性能、OOD 泛化和参数数量之间实现了良好的权衡。

Graph Convolutional Neural Networks for Automated Echocardiography View Recognition: A Holistic Approach
Authors Sarina Thomas, Cristiana Tiago, B rge Solli Andreassen, Svein Arne Aase, Jurica Sprem, Erik Steen, Anne Solberg, Guy Ben Yosef
为了便于心脏超声诊断，临床实践已经建立了几个标准的心脏视图，它们用作诊断测量的参考点并定义从中获取图像的视口。自动视图识别涉及将这些图像分组为标准视图类别。尽管深度学习技术已经成功实现了这一目标，但由于心脏结构的正确位置、姿势和潜在闭塞等因素，它们仍然难以充分验证图像对于特定测量的适用性。我们的方法超越了视图分类，并结合了心脏的 3D 网格重建，可以实现更多下游任务，例如分割和姿势估计。在这项工作中，我们探索通过图卷积学习 3D 心脏网格，使用类似的技术来学习自然图像中的 3D 网格，例如人体姿势估计。由于完全注释的 3D 图像的可用性有限，我们通过训练对抗性去噪扩散模型从 3D 网格生成合成 US 图像。在合成和临床案例上进行了视图识别和结构检测的实验。该方法在合成图像上产生了良好的性能，尽管专门针对合成数据进行了训练，但它在应用于临床图像时已经显示出潜力。

WDM: 3D Wavelet Diffusion Models for High-Resolution Medical Image Synthesis
Authors Paul Friedrich, Julia Wolleb, Florentin Bieder, Alicia Durrer, Philippe C. Cattin
由于 CT 或 MR 扫描的三维性质，医学图像的生成建模是一项特别具有挑战性的任务。现有方法大多采用 patchwise、slicewise 或级联生成技术来将高维数据放入有限的 GPU 内存中。然而，这些方法可能会引入工件，并可能限制模型对某些下游任务的适用性。这项工作提出了 WDM，一种基于小波的医学图像合成框架，它将扩散模型应用于小波分解图像。所提出的方法是将扩散模型扩展到高分辨率的简单而有效的方法，并且可以在单个 40 GB GPU 上进行训练。分辨率为 128 × 128 × 128 的 BraTS 和 LIDC IDRI 无条件图像生成的实验结果显示了与 GAN、扩散模型和潜在扩散模型相比，最先进的图像保真度 FID 和样本多样性 MS SSIM 分数。

Unsupervised Learning of High-resolution Light Field Imaging via Beam Splitter-based Hybrid Lenses
Authors Jianxin Lei, Chengcai Xu, Langqing Shi, Junhui Hou, Ping Zhou
在本文中，我们设计了一种基于分束器的混合光场成像原型，以同时记录4D光场图像和高分辨率2D图像，并制作混合光场数据集。 2D图像可以被认为是4D光场图像的低分辨率中心子孔径图像对应的高分辨率地面实况。随后，我们提出了一种基于混合光场数据集的无监督学习超分辨率框架，它通过复杂的退化模型自适应地解决了光场空间超分辨率问题。具体来说，我们基于预先训练的模型设计了两个损失函数，使超分辨率网络能够仅用一个基本事实来学习详细特征和光场视差结构。大量的实验证明了我们的方法与基于监督学习的最先进方法具有相同的优越性。据我们所知，这是光场成像研究中第一个基于端到端无监督学习的空间超分辨率方法，其输入可从我们基于分束器的混合光场系统获得。

Variable-Rate Learned Image Compression with Multi-Objective Optimization and Quantization-Reconstruction Offsets
Authors Fatih Kamisli, Fabien Racape, Hyomin Choi
使用计算简单的算法从单个端到端学习的图像或视频压缩模型实现成功的可变比特率压缩仍然是一个挑战。已经提出了许多方法，包括条件自动编码器、潜在张量的通道自适应增益或均匀量化潜在张量的所有元素。本文遵循传统方法来改变单个量化步长，以对所有潜在张量元素进行均匀量化。然而，提出了三种修改来提高可变率压缩性能。首先，使用多目标优化进行后期训练。其次，将量化重建偏移引入到量化操作中。第三，可变速率量化也用于超潜伏。所有这些修改都可以通过执行后训练在预训练的单速率压缩模型上进行。这些算法被实施到三个众所周知的图像压缩模型中，所获得的可变速率压缩结果表明与训练多个模型相比，压缩性能损失可以忽略不计或最小。

Anatomy-guided fiber trajectory distribution estimation for cranial nerves tractography
Authors Lei Xie, Qingrun Zeng, Huajun Zhou, Guoqiang Xie, Mingchu Li, Jiahao Huang, Jianan Cui, Hao Chen, Yuanjing Feng
扩散MRI纤维束成像是识别和分析颅神经CNs颅内走行的重要工具。然而，复杂的颅底环境导致扩散方向和纤维几何形状之间的空间对应关系不明确，现有的CNs识别扩散纤维束成像方法容易产生错误的轨迹并丢失真正的正连接。为了克服上述挑战，我们提出了一种具有解剖学引导纤维轨迹分布的新型 CNs 识别框架，该框架在 CNs 追踪过程中结合了解剖形状先验知识来构建扩散张量矢量场。我们引入了连续流场表示的高阶流线微分方程，以直接从基于区域的水平表征 CN 的纤维轨迹分布。在体内 HCP 数据集和临床 MDM 数据集上的实验结果表明，与竞争方法相比，所提出的方法减少了假阳性纤维的产生，并产生了重建的 CN，即 CN II、CN III、CN V 和 CN VII VIII，这些 CN 被认为是更好的

Rethinking Multi-domain Generalization with A General Learning Objective
Authors Zhaorui Tan, Xi Yang, Kaizhu Huang
多域泛化 mDG 的普遍目标是最小化训练和测试分布之间的差异，以增强边缘到标签分布的映射。然而，现有的 mDG 文献缺乏通用的学习目标范式，并且经常对静态目标边缘分布施加约束。在本文中，我们建议利用 Y 映射来放松约束。我们重新思考 mDG 的学习目标，并设计一个新的文本一般学习目标来解释和分析大多数现有的 mDG 智慧。这个总体目标分为两个协同的amis学习域独立条件特征和最大化后验。探索还扩展到两个有效的正则化项，它们包含先验信息并抑制无效因果关系，从而缓解宽松约束带来的问题。理论上，我们为域独立条件特征的域对齐提供了一个上限，揭示了许多以前的 mDG 努力实际上 textbf 部分优化了目标，从而导致性能有限。因此，我们的研究将一般学习目标提炼为四个实用组成部分，提供通用、稳健且灵活的机制来处理复杂的领域转换。

GDCNet: Calibrationless geometric distortion correction of echo planar imaging data using deep learning
Authors Marina Manso Jimeno, Keren Bachi, George Gardner, Yasmin L. Hurd, John Thomas Vaughan Jr., Sairam Geethanath
功能磁共振成像技术受益于回波平面成像的快速图像采集，但容易受到主磁场不均匀性的影响，导致图像中出现几何失真和信号丢失伪影。传统方法利用场图或体素位移图进行畸变校正。然而，体素位移图估计需要额外的序列采集，并且估计的准确性影响校正性能。这项工作实现了一种称为 GDCNet 的新颖方法，该方法通过非线性配准到 T1 加权解剖图像来估计几何畸变图，并将其应用于畸变校正。 GDCNet 在回顾性和前瞻性获取的数据集中展示了功能图像的快速畸变校正。在比较的模型中，与基准方法 FUGUE 和 TOPUP 相比，2D 自监督配置导致失真校正功能图像和 T1 加权图像之间的归一化互信息在统计上显着改善。

Exploration of Learned Lifting-Based Transform Structures for Fully Scalable and Accessible Wavelet-Like Image Compression
Authors Xinyue Li, Aous Naman, David Taubman
本文在完全可扩展和可访问的图像压缩的背景下，对将神经网络纳入基于提升的小波类变换的不同方法的特征和性能进行了全面的研究。具体来说，我们探索了提升步骤的不同安排，以及学习提升操作员的各种网络架构。此外，我们还检查了学习提升步骤数量、通道数量、层数以及每个学习提升算子中内核支持的影响。为了促进研究，我们研究了两种通用的训练方法，它们同时适用于所考虑的各种举升结构。实验结果最终表明，保留基础小波变换的固定提升步骤是非常有益的。此外，我们证明，在每个学习的提升算子中采用更多的学习提升步骤和更多的层对压缩性能没有太大贡献。然而，通过利用每个有学识的起重操作员的更多渠道可以获得好处。

Multi-Sensor and Multi-temporal High-Throughput Phenotyping for Monitoring and Early Detection of Water-Limiting Stress in Soybean
Authors Sarah E. Jones, Timilehin Ayanlade, Benjamin Fallen, Talukder Z. Jubery, Arti Singh, Baskar Ganapathysubramanian, Soumik Sarkar, Asheesh K. Singh
大豆生产容易受到生物和非生物胁迫的影响，极端天气事件会加剧这种胁迫。限水胁迫（即干旱）成为大豆生产的重大风险，这凸显了在作物育种和生产胁迫监测方面取得进展的必要性。该项目结合了多模式信息，以确定最有效和高效的自动化方法来调查干旱响应。我们使用多个传感器以时间序列高通量表型方式研究了一组不同的大豆品种，以 1 开发用于大豆干旱胁迫症状快速分类的管道，2 研究早期检测干旱胁迫的方法。我们利用无人机和传感器结合机器学习 ML 分析进行高通量时间序列表型分析，这提供了一种快速有效的表型分析方法。红边和绿带对于对冠层枯萎胁迫进行分类最有效。红边叶绿素植被指数 RECI 在视觉症状出现之前成功区分了易感和耐受大豆种质。我们报告使用不同植被指数的组合对大豆枯萎进行视觉预检测。

Deep Neural Network Models Trained With A Fixed Random Classifier Transfer Better Across Domains
Authors Hafiz Tiomoko Ali, Umberto Michieli, Ji Joong Moon, Daehyun Kim, Mete Ozay
最近发现的神经崩溃 NC 现象表明，深度神经网络 DNN 的最后一层权重在训练的最后阶段收敛到所谓的等角紧框架 ETF 单纯形。该 ETF 几何结构相当于最后一层激活的类变异性消失。受 NC 特性的启发，我们在本文中探讨了根据 ETF 固定最后一层权重训练的 DNN 模型的可迁移性。这通过消除类协方差信息来强制类分离，有效地提供隐式正则化。我们表明，使用此类固定分类器训练的 DNN 模型可显着提高传输性能，尤其是在域外数据集上。在广泛的细粒度图像分类数据集上，我们的方法优于不执行任何高达 22 的协方差正则化的基线方法，以及在高达 19 的整个训练过程中显式白化激活协方差的方法。

DiffuseRAW: End-to-End Generative RAW Image Processing for Low-Light Images
Authors Rishit Dagli
极低光照条件下的成像提出了重大挑战，并且由于最小光子捕获导致信噪比 SNR 较低，因此是一个不适定的问题。以前，扩散模型已用于多种生成任务和图像到图像任务，但是，这些模型作为后处理步骤。这些扩散模型在处理后的图像上进行训练并在处理后的图像上进行学习。然而，这种方法通常不太适合极弱光任务。与低光图像增强或图像到图像增强的任务不同，我们处理学习整个图像处理流程的任务，从原始图像到处理后的图像。对于此任务，传统的图像处理管道通常由多个过度依赖下游任务的专用部分组成。与这些不同的是，我们开发了一种新的生成 ISP，它依赖于对 RAW 图像进行微调潜在扩散模型并生成经过处理的长曝光图像，从而可以适当使用从大文本到图像生成模型的先验。我们在流行的端到端低光数据集上评估了我们的方法，我们看到了有希望的结果，并在 See in Dark SID 数据集上设置了新的 SoTA。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com