【AI视野·今日CV 计算机视觉论文速览第279期】Tue, 31 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 31 Oct 2023
Totally 165 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

SimMMDG: A Simple and Effective Framework for Multi-modal Domain Generalization
Authors Hao Dong, Ismail Nejjar, Han Sun, Eleni Chatzi, Olga Fink
在现实场景中，实现领域泛化 DG 提出了重大挑战，因为模型需要泛化到未知的目标分布。由于不同模态表现出不同的属性，推广到看不见的多模态分布会带来更大的困难。为了克服在多模态场景中实现领域泛化的挑战，我们提出了 SimMMDG，一个简单而有效的多模态 DG 框架。我们认为，将不同模态的特征映射到相同的嵌入空间会阻碍模型泛化。为了解决这个问题，我们建议将每种模态内的特征分为模态特定组件和模态共享组件。我们对模态共享特征采用监督对比学习，以确保它们具有联合属性，并对模态特定特征施加距离约束以促进多样性。此外，我们引入了跨模态翻译模块来规范学习的特征，这也可用于缺失的模态泛化。我们证明了我们的框架在理论上得到了很好的支持，并且在 EPIC Kitchens 数据集和本文介绍的新型人类动物卡通 HAC 数据集上的多模态 DG 中实现了强大的性能。

CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models
Authors Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan
将定制对象合并到图像生成中在文本到图像生成中呈现出一个有吸引力的功能。然而，现有的基于优化和基于编码器的方法存在诸如优化耗时、身份保存不足以及普遍的复制粘贴效应等缺点的阻碍。为了克服这些限制，我们引入了 CustomNet，这是一种新颖的对象定制方法，它明确地将 3D 新颖视图合成功能合并到对象定制过程中。这种集成有利于空间位置关系和视点的调整，产生不同的输出，同时有效地保留对象身份。此外，我们引入了精致的设计，通过文本描述或特定的用户定义图像来实现位置控制和灵活的背景控制，克服了现有3D新颖视图合成方法的局限性。我们进一步利用数据集构建管道，可以更好地处理现实世界的对象和复杂的背景。配备这些设计，我们的方法有助于零镜头对象定制，无需测试时间优化，提供对视点、位置和背景的同步控制。

Learn to Categorize or Categorize to Learn? Self-Coding for Generalized Category Discovery
Authors Sarah Rastegar, Hazel Doughty, Cees G. M. Snoek
在寻求在测试时揭示新类别的过程中，我们面临着传统监督识别模型的固有局限性，这些模型受到预定义类别集的限制。虽然在自我监督和开放世界学习领域在测试时间类别发现方面取得了长足的进步，但一个关键但经常被忽视的问题仍然存在，即到底什么是文本类别。在本文中，我们通过优化、查看的角度来概念化文本类别。它作为一个明确定义的问题的最佳解决方案。利用这种独特的概念，我们提出了一种新颖、高效和自我监督的方法，能够在测试时发现以前未知的类别。我们方法的一个显着特征是将最小长度类别代码分配给各个数据实例，这封装了现实世界数据集中普遍存在的隐式类别层次结构。这种机制使我们能够增强对类别粒度的控制，从而使我们的模型能够熟练地处理细粒度的类别。由最先进的基准比较支持的实验评估证明了我们的解决方案在测试时管理未知类别的有效性。此外，我们用理论基础强化了我们的命题，并提供了其最优性的证明。

MM-VID: Advancing Video Understanding with GPT-4V(ision)
Authors Kevin Lin, Faisal Ahmed, Linjie Li, Chung Ching Lin, Ehsan Azarnasab, Zhengyuan Yang, Jianfeng Wang, Lin Liang, Zicheng Liu, Yumao Lu, Ce Liu, Lijuan Wang
我们推出 MM VID，这是一个集成系统，它利用 GPT 4V 的功能，结合视觉、音频和语音方面的专用工具，以促进高级视频理解。 MM VID 旨在解决长视频和复杂任务带来的挑战，例如在长达一小时的内容内进行推理以及掌握跨多个剧集的故事情节。 MM VID 使用 GPT 4V 生成视频脚本，将多模式元素转录为长文本脚本。生成的脚本详细描述了角色的动作、动作、表情和对话，为大型语言模型法学硕士实现视频理解铺平了道路。这可实现高级功能，包括音频描述、字符识别和多模式高级理解。实验结果证明了 MM VID 在处理具有不同视频长度的不同视频类型方面的有效性。

Intra-Modal Proxy Learning for Zero-Shot Visual Categorization with CLIP
Authors Qi Qian, Yuanhong Xu, Juhua Hu
视觉语言预训练方法，例如 CLIP，通过类名称文本嵌入的类代理在视觉分类上展示了令人印象深刻的零样本性能。然而，文本和视觉空间之间的模态差距可能会导致性能不佳。我们从理论上证明，通过最小化 CLIP 中的对比损失并不能充分减小差距，并且视觉任务的最佳代理可能仅存在于视觉空间中。因此，给定未标记的目标视觉数据，我们建议在文本代理的帮助下直接学习视觉代理，以实现零镜头传输。此外，根据我们的理论分析，开发了策略来进一步细化文本代理获得的伪标签，以促进模内代理学习视觉 InMaP。对广泛下游任务的实验证实了我们建议的有效性和效率。具体来说，InMaP 可以在单个 GPU 上在一分钟内获得视觉代理，同时使用 CLIP 预训练的 ViT L 14 336 将 ImageNet 上的零镜头精度从 77.02 提高到 80.21。

ViR: Vision Retention Networks
Authors Ali Hatamizadeh, Michael Ranzinger, Jan Kautz
近年来，Vision Transformers ViT 因其在建模长期空间依赖性和大规模训练的可扩展性方面的卓越能力而受到广泛欢迎。尽管自注意力机制的训练并行性在保持良好性能方面发挥着重要作用，但其二次复杂度阻碍了 ViT 在许多需要快速推理的场景中的应用。在需要对输入特征进行自回归建模的应用中，这种效果更加明显。在自然语言处理 NLP 领域，一系列新的努力提出了具有循环公式的可并行模型，可以在生成应用程序中进行有效的推理。受这一趋势的启发，我们提出了一类新型计算机视觉模型，称为视觉保留网络 ViR，具有双重并行和循环公式，在快速推理和并行训练之间取得了最佳平衡，并具有竞争性能。特别是，由于 ViR 在处理大序列长度方面的灵活公式，因此在需要更高分辨率图像的任务中可以有利地扩展图像吞吐量和内存消耗。 ViR 是在识别任务的通用视觉主干中实现双并行和循环等效性的首次尝试。我们通过不同数据集大小和各种图像分辨率的大量实验验证了 ViR 的有效性，并取得了具有竞争力的性能。

Deep-learning-based decomposition of overlapping-sparse images: application at the vertex of neutrino interactions
Authors Sa l Alonso Monsalve, Davide Sgalaberna, Xingyu Zhao, Adrien Molines, Clark McGrew, Andr Rubbia
图像分解在各种计算机视觉任务中发挥着至关重要的作用，可以从根本上分析和操作视觉内容。当多个对象或场景部分相互遮挡时会发生重叠图像，这给分解算法带来了独特的挑战。当处理稀疏图像时，任务会加剧，其中有意义信息的稀缺使组件的精确提取变得复杂。本文提出了一种解决方案，利用深度学习的力量来准确提取多维重叠稀疏图像中的单个对象，并直接应用于高能物理，分解从成像探测器获得的重叠基本粒子。特别是，所提出的方法解决了一个高度复杂但尚未解决的问题，即识别和测量中微子相互作用顶点的独立粒子，人们期望观察具有多个难以辨别的重叠带电粒子的探测器图像。通过深度学习分解顶点处探测器活动的图像，可以推断出所识别的低动量粒子的运动学参数，否则这些粒子将被忽略，并增强中微子事件的重建能量分辨率。我们还提出了一个额外的步骤，可以直接根据探测器数据进行调整，将上述方法与完全可微的生成模型相结合，以进一步改进图像分解，从而提高测量参数的分辨率，从而实现前所未有的结果。

MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval
Authors Youbo Lei, Feifei He, Chen Chen, Yingbin Mo, Si Jia Li, Defeng Xie, Haonan Lu
随着大规模视觉语言预训练模型的成功以及图像文本检索在工业领域的广泛应用，减小模型大小并简化其终端设备部署已成为迫切需要。图像文本检索的主流模型结构是单流和双流，两者都旨在缩小视觉模态和文本模态之间的语义差距。双流模型擅长离线索引和快速推理，而单流模型通过充分的特征融合实现更准确的跨模型对齐。我们提出了一种多教师跨模态对齐蒸馏 MCAD 技术来集成单流和双流模型的优点。通过将融合的单流特征合并到双流模型的图像和文本特征中，我们制定了新的修改后的教师特征和逻辑。然后，我们进行逻辑和特征蒸馏来提高学生双流模型的能力，在不增加推理复杂性的情况下实现高检索性能。大量实验证明了MCAD在图像文本检索任务上的卓越性能和高效率。

DistNet2D: Leveraging long-range temporal information for efficient segmentation and tracking
Authors Jean Ollion, Martin Maliet, Caroline Giuglaris, Elise Vacher, Maxime Deforet
从视频显微镜中提取长轨迹和谱系需要极低的错误率，这对于密集或变形细胞的复杂数据集来说是一个挑战。利用时间上下文是克服这一挑战的关键。我们提出了 DistNet2D，这是一种新的深度神经网络 DNN 架构，用于利用中长期时间上下文进行 2D 细胞分割和跟踪。 DistNet2D 在输入时考虑七个帧，并使用后处理过程，利用整个电影的信息来纠正分割错误。 DistNet2D 在两个实验数据集上的表现优于两种最新方法，一个包含密集的细菌细胞，另一个包含真核细胞。它已集成到基于 ImageJ 的图形用户界面中，用于 2D 数据可视化、管理和培训。

Leave No Stone Unturned: Mine Extra Knowledge for Imbalanced Facial Expression Recognition
Authors Yuhang Zhang, Yaqi Li, Lixiong Qin, Xuannan Liu, Weihong Deng
面部表情数据的特点是显着不平衡，大多数收集的数据显示快乐或中性的表情，较少出现恐惧或厌恶的情况。这种不平衡给面部表情识别 FER 模型带来了挑战，阻碍了它们充分理解人类各种情绪状态的能力。现有的 FER 方法通常报告高度不平衡的测试集的总体准确性，但在所有表达类别的平均准确性方面表现出较低的性能。在本文中，我们的目标是解决 FER 不平衡问题。现有的方法主要集中于仅从小类样本中学习小类知识。然而，我们提出了一种新的方法来从主要和次要类别样本中提取与次要类别相关的额外知识。我们的动机源于这样的信念：FER 类似于分布式学习任务，其中样本可能包含有关多个类别的信息。例如，来自主要类别惊喜的样本也可能包含次要类别恐惧的有用特征。受此启发，我们提出了一种新颖的方法，利用重新平衡的注意力图来正则化模型，使其能够从所有训练样本中提取有关次要类别的变换不变信息。此外，我们引入了重新平衡的平滑标签来调节交叉熵损失，通过利用有关不平衡训练数据的标签分布的额外信息来引导模型更多地关注次要类别。对不同数据集和主干网的大量实验表明，两个提出的模块可以共同规范模型，并在不平衡的 FER 任务下实现最先进的性能。

Bidirectional Captioning for Clinically Accurate and Interpretable Models
Authors Keegan Quigley, Miriam Cha, Josh Barua, Geeticka Chauhan, Seth Berkowitz, Steven Horng, Polina Golland
视觉语言预训练已被证明可以产生高质量的视觉编码器，可以有效地传输到下游计算机视觉任务。虽然生成语言模型已获得广泛关注，但图像字幕作为一种有利于对比学习的跨模式预训练形式，迄今为止大多被忽视，尤其是在医学图像分析中。在本文中，我们尝试将放射学报告的双向字幕作为预训练的一种形式，并将学习嵌入与对比预训练方法的质量和实用性进行比较。我们针对放射学领域优化了名为 RadTex 的 CNN 编码器、变压器解码器架构。结果表明，字幕预训练不仅能产生与对比预训练 CheXpert 竞赛多标签 AUC 89.4 相媲美的视觉编码器，而且我们的 Transformer 解码器能够使用 CheXpert 标记器生成临床相关的报告，字幕宏 F1 得分为 0.349，并响应

Convolutional Neural Networks for Automatic Detection of Intact Adenovirus from TEM Imaging with Debris, Broken and Artefacts Particles
Authors Olivier Rukundo, Andrea Behanova, Riccardo De Feo, Seppo Ronkko, Joni Oja, Jussi Tohka
在开发和制造过程中定期监测药品的初级颗粒和纯度曲线对于制造商避免产品变异和污染至关重要。透射电子显微镜 TEM 成像可帮助制造商预测变化如何影响基于病毒的基因治疗载体产品和中间体的颗粒特征和纯度。由于完整的颗粒可以表征有效的产品，因此针对与碎片、破碎和人工颗粒混合的非完整病毒背景自动检测完整的腺病毒是有益的。在存在此类颗粒的情况下，检测完整的腺病毒变得更具挑战性。为了克服这一挑战，由于这种存在，我们开发了一种用于腺病毒半自动注释和分割的软件工具，以及一种用于在 TEM 成像系统中自动分割和检测完整腺病毒的软件工具。所开发的半自动工具利用了传统的图像分析技术，而自动工具则基于卷积神经网络和图像分析技术构建。

RayDF: Neural Ray-surface Distance Fields with Multi-view Consistency
Authors Zhuoman Liu, Bo Yang
在本文中，我们研究连续 3D 形状表示的问题。大多数现有的成功方法都是基于坐标的隐式神经表示。然而，它们在渲染新视图或恢复显式表面点方面效率低下。一些工作开始将 3D 形状制定为基于射线的神经函数，但由于缺乏多视图几何一致性，学习到的结构较差。为了应对这些挑战，我们提出了一个名为 RayDF 的新框架。它由三个主要组件组成：1 简单的光线表面距离场；2 新颖的双光线可见性分类器；3 多视图一致性优化模块，用于驱动学习的光线表面距离达到多视图几何一致。我们在三个公共数据集上广泛评估了我们的方法，在合成和具有挑战性的现实世界 3D 场景上展示了 3D 表面点重建的卓越性能，明显超越了现有的基于坐标和基于射线的基线。最值得注意的是，我们的方法渲染 800x800 深度图像的速度比基于坐标的方法快 1000 倍，显示了我们的方法在 3D 形状表示方面的优越性。

GC-MVSNet: Multi-View, Multi-Scale, Geometrically-Consistent Multi-View Stereo
Authors Vibhas K. Vats, Sripad Joshi, David J. Crandall, Md. Alimoor Reza, Soon heung Jung
传统的多视图立体 MVS 方法严重依赖于光度和几何一致性约束，但基于机器学习的 MVS 方法仅将跨多个源视图的几何一致性检查作为后处理步骤。在本文中，我们提出了一种新颖的方法，该方法明确鼓励学习过程中不同尺度的多个源视图之间的参考视图深度图的几何一致性，见图1。我们发现，添加这种几何一致性损失可以通过明确惩罚几何不一致的像素来显着加速学习，将训练迭代要求减少到其他 MVS 方法的近一半。我们广泛的实验表明，我们的方法在 DTU 和 BlendedMVS 数据集上达到了新的最先进水平，并在 Tanks 和 Temples 基准测试上取得了具有竞争力的结果。

Human-interpretable and deep features for image privacy classification
Authors Darya Baranouskaya, Andrea Cavallaro
隐私是一个复杂的、主观的、上下文相关的概念，很难定义。因此，通过图像注释来训练隐私分类器是一项具有挑战性的任务。在本文中，我们分析了隐私分类数据集以及由不同评估者用对比隐私标签注释的有争议图像的属性。我们讨论了图像隐私分类的合适特征，并提出了八种隐私特定且人类可解释的特征。

A Perceptual Shape Loss for Monocular 3D Face Reconstruction
Authors Christopher Otto, Prashanth Chandran, Gaspard Zoss, Markus Gross, Paulo Gotardo, Derek Bradley
单目 3D 人脸重建是一个广泛传播的话题，现有方法通过快速神经网络推理或人脸几何形状的离线迭代重建来解决该问题。在任何一种情况下，精心设计的能量函数都会被最小化，通常包括光度损失、地标重投影损失等损失项。在这项工作中，我们提出了一种用于单眼面部捕捉的新损失函数，其灵感来自于人类如何感知给定特定图像的 3D 面部重建的质量。众所周知，阴影为人类视觉系统中的 3D 形状提供了强有力的指示。因此，我们新的感知形状损失旨在仅使用阴影线索来判断 3D 面部估计的质量。我们的损失被实现为鉴别器风格的神经网络，它获取输入的面部图像和几何估计的着色渲染，然后预测一个分数，该分数在感知上评估着色渲染与给定图像的匹配程度。该批评家网络仅对 RGB 图像和几何渲染进行操作，无需估计场景中的反照率或照明。此外，我们的损失完全在图像空间中运行，因此与网格拓扑无关。

Skip-WaveNet: A Wavelet based Multi-scale Architecture to Trace Firn Layers in Radar Echograms
Authors Debvrat Varshney, Masoud Yari, Oluwanisola Ibikunle, Jilu Li, John Paden, Maryam Rahnemoonfar
机载雷达传感器创建的回波图捕获冰盖顶部冰层的轮廓。准确跟踪这些层对于计算积雪率至关重要，这是研究极地冰盖融化对海平面上升的影响所必需的。然而，自动处理雷达回波图以检测下面的云层是一个具有挑战性的问题。在我们的工作中，我们为这些雷达回波图开发了基于小波的多尺度深度学习架构，以改进第一层检测。我们表明，与非小波架构相比，基于小波的架构将最佳数据集尺度 ODS 和最佳图像尺度 OIS F 分数分别提高了 3.99 和 3.7。此外，我们提出的 Skip WaveNet 架构在每次迭代中生成新的小波，与最先进的层检测网络相比，实现了更高的通用性，并以 3.31 像素的平均绝对误差和 94.3 的平均精度估计层深度。

Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning
Authors Changsheng Lv, Shuai Zhang, Yapeng Tian, Mengshi Qi, Huadong Ma
在本文中，我们提出了一种用于物理视听常识推理的解缠反事实学习 DCL 方法。该任务旨在基于视频和音频输入推断物体物理常识，主要挑战是如何模仿人类的推理能力。目前大多数方法未能充分利用多模态数据的不同特征，模型缺乏因果推理能力阻碍了隐性物理知识推理的进展。为了解决这些问题，我们提出的 DCL 方法通过解耦顺序编码器将视频解耦为潜在空间中的静态时不变和动态时变因素，该编码器采用变分自动编码器 VAE 来最大化具有对比损失函数的互信息。此外，我们引入了反事实学习模块，通过在反事实干预下对不同对象之间的物理知识关系进行建模来增强模型的推理能力。我们提出的方法是一个即插即用模块，可以合并到任何基线中。在实验中，我们表明我们提出的方法改进了基线方法并实现了最先进的性能。

Harvest Video Foundation Models via Efficient Post-Pretraining
Authors Yizhuo Li, Kunchang Li, Yinan He, Yi Wang, Yali Wang, Limin Wang, Yu Qiao, Ping Luo
由于视频数据的冗余性和高质量视频语言数据集的缺乏，构建视频语言基础模型成本高昂且困难。在本文中，我们提出了一种有效的框架，用于从图像基础模型中获取视频基础模型。我们的方法直观上很简单，通过在后期预训练过程中随机丢弃输入视频补丁并屏蔽输入文本。补丁丢弃显着提高了训练效率，文本掩码加强了跨模态融合的学习。我们进行了大量的实验，以验证我们的方法在各种视频语言下游任务上的有效性，包括各种零镜头任务、视频问答和视频文本检索。尽管它很简单，但我们的方法实现了最先进的性能，可与一些经过大量预训练的视频基础模型相媲美。我们的方法非常高效，可以在不到一天的时间内在 8 个 GPU 上进行训练，仅需要 WebVid 10M 作为预训练数据。我们希望我们的方法可以作为流行视频基础模型的简单而强大的对应物，在构建它们时提供有用的见解，并使大型预训练模型更易于访问和可持续。

MENTOR: Human Perception-Guided Pretraining for Iris Presentation Detection
Authors Colton R. Crum, Adam Czajka
将人类显着性纳入 CNN 的训练中，提高了生物识别呈现攻击检测等困难任务的性能。然而，收集人工注释是一项艰巨的任务，更不用说一旦获得注释，模型架构中如何以及在何处有效地将这些信息合并到模型训练中的问题。在本文中，我们介绍了用于虹膜呈现攻击检测的导师人类感知引导预训练，它通过两轮独特的训练解决了这两个问题。首先，我们训练一个自动编码器来学习人类显着性图，给定输入虹膜图像的真实和虚假示例。一旦学习了这种表示，我们就以两种不同的方式利用经过训练的自动编码器：a 作为虹膜呈现攻击检测器的预训练主干，b 作为未知数据显着特征的人类启发注释器。我们表明，与通用权重（例如，使用人类感知训练的编码器权重）相比，MENTOR 的优势在使用经过人类感知训练的编码器权重时，虹膜 PAD 性能显着提升了三倍。 ImageNet 来源，或随机，b 能够为看不见的虹膜 PAD 样本生成无限数量的类似人类的显着图，以用于任何人类显着性引导训练范例，并且 c 提高虹膜 PAD 模型训练的效率。

Exploiting Image-Related Inductive Biases in Single-Branch Visual Tracking
Authors Chuanming Tang, Kai Wang, Joost van de Weijer, Jianlin Zhang, Yongmei Huang
尽管在视觉跟踪方面实现了最先进的性能，但最近的单分支跟踪器往往忽略了与 Vision Transformer ViT 编码器和推理管道相关的较弱的先验假设。此外，由于采用双分支管道，区分跟踪器的有效性仍然受到限制。为了解决普通 ViT 的较差有效性，我们提出了一种自适应 ViT 模型预测跟踪器 AViTMP，以弥合单分支网络和判别模型之间的差距。具体来说，在提出的编码器 AViT Enc 中，我们引入了适配器模块和联合目标状态嵌入，以丰富基于 ViT 的密集嵌入范式。然后，我们将 AViT Enc 与密集融合解码器和判别目标模型相结合来预测准确位置。此外，为了减轻传统推理实践的局限性，我们提出了一种名为 CycleTrack 的新颖推理管道，它通过双向循环跟踪验证增强了干扰因素存在下的跟踪鲁棒性。最后，我们提出了一种双帧更新推理策略，可以灵活地应对长期场景中的重大挑战。

IterInv: Iterative Inversion for Pixel-Level T2I Models
Authors Chuanming Tang, Kai Wang, Joost van de Weijer
大规模文本到图像扩散模型在根据输入文本提示生成令人信服的图像方面取得了突破性进展。图像编辑研究的目标是让用户通过修改文本提示来控制生成的图像。当前的图像编辑技术依赖于 DDIM 反演，作为基于潜在扩散模型 LDM 的常见做法。然而，由于使用自动编码器机制的第一个压缩阶段，在潜在空间上工作的大型预训练 T2I 模型（如 LDM）会丢失细节。相反，另一个工作在像素级的主流T2I管道，例如Imagen和DeepFloyd IF，避免了这个问题。它们通常由多个阶段组成，通常是文本到图像阶段，后面跟着几个超分辨率阶段。在这种情况下，由于超分辨率扩散模型与 DDIM 技术不兼容，DDIM 反演无法找到初始噪声来生成原始图像。根据我们的实验结果，迭代连接噪声图像作为条件是这个问题的根源。基于这一观察，我们为该 T2I 模型流开发了迭代反演 IterInv 技术，并使用开源 DeepFloyd IF 模型验证了 IterInv。通过将我们的方法 IterInv 与流行的图像编辑方法相结合，我们证明了 IterInv 的应用前景。

Revitalizing Legacy Video Content: Deinterlacing with Bidirectional Information Propagation
Authors Zhaowei Gao, Mingyang Song, Christopher Schroers, Yang Zhang
由于CRT显示技术陈旧且传输带宽有限，早期的影视广播普遍采用隔行扫描。这意味着每个字段只包含一半的信息。由于现代显示器需要全帧，这刺激了对去隔行的研究，即恢复传统视频内容中丢失的信息。在本文中，我们提出了一种基于深度学习的方法，用于消除动画和真人内容的隔行扫描。我们提出的方法支持跨多个尺度的双向时空信息传播，以利用空间和时间上的信息。更具体地说，我们设计了一个流引导细化块 FRB，它执行特征细化，包括对齐、融合和校正。此外，我们的方法可以同时处理多个字段，减少每帧处理时间，并有可能实现实时处理。

Are Natural Domain Foundation Models Useful for Medical Image Classification?
Authors Joana Pal s Huix, Adithya Raju Ganeshan, Johan Fredin Haslum, Magnus S derberg, Christos Matsoukas, Kevin Smith
深度学习领域正在趋向于使用可以轻松适应不同任务的通用基础模型。虽然这种范式转变已成为自然语言处理领域的常见做法，但计算机视觉领域的进展却较慢。在本文中，我们试图通过研究各种最先进的基础模型到医学图像分类任务的可迁移性来解决这个问题。具体来说，我们在四个完善的医学成像数据集中评估了五个基础模型的性能，即 SAM、SEEM、DINOv2、BLIP 和 OpenCLIP。我们探索不同的训练设置，以充分利用这些模型的潜力。我们的研究结果好坏参半。尤其是 DINOv2，始终优于 ImageNet 预训练的标准做法。

Generating Context-Aware Natural Answers for Questions in 3D Scenes
Authors Mohammed Munzer Dwedari, Matthias Niessner, Dave Zhenyu Chen
3D 问答是 3D 视觉语言中一个尚待探索的年轻领域。以前的方法仅限于预先定义的答案空间，无法自然地生成答案。在这项工作中，我们将问答任务转向序列生成任务，以便为 3D 场景 Gen3DQA 中的问题生成自由形式的自然答案。为此，我们直接在语言奖励上优化我们的模型，以确保全局句子语义。在这里，我们还采用了语用语言理解奖励来进一步提高句子质量。

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
Authors Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
视频生成越来越引起学术界和工业界的兴趣。尽管商业工具可以生成可信的视频，但可供研究人员和工程师使用的开源模型数量有限。在这项工作中，我们介绍了两种用于高质量视频生成的扩散模型，即文本到视频 T2V 和图像到视频 I2V 模型。 T2V 模型根据给定的文本输入合成视频，而 I2V 模型则包含额外的图像输入。我们提出的 T2V 模型可以生成分辨率为 1024 乘以 576 的逼真和电影质量的视频，在质量方面优于其他开源 T2V 模型。 I2V 模型旨在生成严格遵循所提供的参考图像内容的视频，保留其内容、结构和风格。该模型是第一个开源 I2V 基础模型，能够将给定图像转换为视频剪辑，同时保持内容保留约束。

VDIP-TGV: Blind Image Deconvolution via Variational Deep Image Prior Empowered by Total Generalized Variation
Authors Tingting Wu, Zhiyan Du, Zhi Li, Feng Lei Fan, Tieyong Zeng
从模糊内核未知的模糊图像中恢复清晰图像是一个具有挑战性的问题。深度图像先验 DIP 提出使用深度网络作为单个图像的正则化器，而不是作为监督模型，这在非盲去模糊问题上取得了令人鼓舞的结果。然而，由于图像和网络架构之间的关系尚不清楚，因此很难找到合适的架构来为估计的模糊核和干净图像提供足够的约束。此外，DIP 使用稀疏最大后验 MAP，这不足以强制选择恢复图像。最近，提出了变分深度图像先验VDIP，对模糊核和恢复图像施加约束，并根据变分原理在优化过程中考虑图像的标准偏差。然而，我们凭经验发现，VDIP 难以处理图像细节，并且当模糊核较大时往往会产生次优结果。因此，本文将全广义变分TGV正则化与VDIP相结合来克服VDIP的这些缺点。 TGV是一种灵活的正则化，利用不同阶偏导数的特点对不同尺度的图像进行正则化，在保持锐利边缘的同时减少油画伪影。所提出的VDIP TGV通过TGV补充额外的梯度信息，有效地恢复图像边缘和细节。此外，该模型采用乘子ADMM交替方向法求解，有效结合了传统算法和深度学习方法。

Towards Grouping in Large Scenes with Occlusion-aware Spatio-temporal Transformers
Authors Jinsong Zhang, Lingfeng Gu, Yu Kun Lai, Xueyang Wang, Kun Li
群体检测，尤其是大规模场景的群体检测，在公共安全和智慧城市方面具有许多潜在的应用。现有方法无法应对大规模多人场景中的频繁遮挡，并且难以有效利用时空信息。在本文中，我们提出了一种端到端框架 GroupTransformer，用于大规模场景中的群体检测。为了应对多人造成的频繁遮挡，我们设计了遮挡编码器来检测和抑制严重遮挡的人体作物。为了探索潜在的时空关系，我们提出了时空转换器来同时提取轨迹信息并以分层方式融合人际特征。大规模和小规模场景的实验结果表明，与最先进的方法相比，我们的方法取得了更好的性能。在大规模场景中，我们的方法在精度和 F1 分数方面显着提高了 10 以上的性能。在小规模场景上，我们的方法仍然将 F1 分数的性能提高了 5 以上。

One-for-All: Bridge the Gap Between Heterogeneous Architectures in Knowledge Distillation
Authors Zhiwei Hao, Jianyuan Guo, Kai Han, Yehui Tang, Han Hu, Yunhe Wang, Chang Xu
知识蒸馏 KD 已被证明是通过师生培训计划增强模型性能的高效方法。然而，大多数现有的蒸馏方法是在教师和学生模型属于同一模型系列的假设下设计的，特别是基于提示的方法。通过使用中心核对齐 CKA 来比较异构教师和学生模型之间的学习特征，我们观察到显着的特征差异。这种分歧说明了先前基于提示的方法在跨架构蒸馏中的无效性。为了解决异构模型蒸馏的挑战，我们提出了一种简单而有效的全 KD 框架，称为 OFA KD，它显着提高了异构架构之间的蒸馏性能。具体来说，我们将中间特征投影到对齐的潜在空间（例如 logits 空间）中，其中架构特定的信息被丢弃。此外，我们引入了自适应目标增强方案，以防止学生受到不相关信息的干扰。对各种架构（包括 CNN、Transformer 和 MLP）的广泛实验证明了我们的 OFA KD 框架在实现异构架构之间的蒸馏方面的优越性。具体来说，当配备我们的 OFA KD 时，学生模型实现了显着的性能改进，在 CIFAR 100 数据集上的最大增益为 8.0，在 ImageNet 1K 数据集上的最大增益为 0.7。

Dynamic Gaussian Splatting from Markerless Motion Capture can Reconstruct Infants Movements
Authors R. James Cotton, Colleen Peyton
轻松获得精确的 3D 运动跟踪可以使康复的许多方面受益。实现这一目标的一个挑战是，虽然有许多针对身体健全成年人的数据集和预训练算法，但在这些数据集上训练的算法通常无法推广到包括残疾人、婴儿和新生儿在内的临床人群。对婴儿和新生儿进行可靠的运动分析非常重要，因为自发运动行为是神经功能和神经发育障碍的重要指标，有助于指导早期干预。我们探索了动态高斯泼溅在稀疏无标记运动捕捉 MMC 数据中的应用。我们的方法利用语义分割掩模来关注婴儿，显着改善场景的初始化。我们的结果证明了这种方法在呈现新颖的场景视图和跟踪婴儿运动方面的潜力。

GaitFormer: Learning Gait Representations with Noisy Multi-Task Learning
Authors Adrian Cosma, Emilian Radoi
步态分析被证明是一种无需依赖主体合作即可进行人员识别的可靠方法。步行是一种生物特征，在短时间内不会发生显着变化，可以被视为每个人独有的。到目前为止，步态分析的研究主要集中在识别和人口统计估计上，而没有考虑基于外观的方法所依赖的许多行人属性。在这项工作中，除了基于步态的人员识别之外，我们还仅从运动模式中探索行人属性识别。我们提出了 DenseGait，这是用于预训练步态分析系统的最大数据集，包含 217K 个匿名轨迹，并自动注释了 42 个外观属性。 DenseGait 通过自动处理视频流构建，并提供现实世界中存在的全套步态协变量。我们向研究界提供数据集。此外，我们提出了 GaitFormer，一种基于 Transformer 的模型，在 DenseGait 上以多任务方式进行预训练后，在 CASIA B 上达到 92.5 的准确率，在 FVG 上达到 85.33 的准确率，而无需使用任何手动注释的数据。与类似方法相比，这相当于准确率提高了 14.2 和 9.67。此外，GaitFormer 能够仅利用运动模式准确识别性别信息和多种外观属性。

Text-to-3D with classifier score distillation
Authors Xin Yu, Yuan Chen Guo, Yangguang Li, Ding Liang, Song Hai Zhang, Xiaojuan Qi
文本到 3D 生成最近取得了显着进展，特别是基于利用预先训练的 2D 扩散模型的分数蒸馏采样 SDS 的方法。虽然众所周知，使用无分类器指导对于成功优化至关重要，但它被认为是一种辅助技巧，而不是最重要的组成部分。在本文中，我们重新评估了无分类器指导在分数蒸馏中的作用，并发现了一个令人惊讶的发现，仅指导就足以完成有效的文本到 3D 生成任务。我们将这种方法命名为 Classifier Score Distillation CSD ，可以理解为使用隐式分类模型进行生成。这种新视角揭示了理解现有技术的新见解。我们验证了 CSD 在各种文本到 3D 任务中的有效性，包括形状生成、纹理合成和形状编辑，取得了优于最先进方法的结果。

CARPE-ID: Continuously Adaptable Re-identification for Personalized Robot Assistance
Authors Federico Rollo, Andrea Zunino, Nikolaos Tsagarakis, Enrico Mingo Hoffman, Arash Ajoudani
在当今的人机交互 HRI 场景中，普遍存在的趋势是假设机器人应与最近的个体合作，或者场景仅涉及单个人类演员。然而，在现实场景中，例如车间操作，这种假设可能不成立，并且需要机器人在拥挤的环境中进行个性化目标识别。为了满足这一要求，在这项工作中，我们提出了一种基于持续视觉适应技术的人员重新识别模块，以确保机器人与适当的个人无缝合作，即使受到不同的视觉外观或部分或完全遮挡的影响。我们在实验室环境和 HRI 场景（即一个人通过移动机器人执行任务）中单独使用录制的视频来测试该框架。要求目标在跟踪过程中改变其外观并从摄像机视野中消失，以测试遮挡和服装变化的挑战性情况。我们将我们的框架与最先进的多目标跟踪 MOT 方法之一进行比较，结果表明 CARPE ID 可以在除两种极限情况外的所有情况下在整个实验中准确跟踪每个选定的目标。

Resource Constrained Semantic Segmentation for Waste Sorting
Authors Elisa Cascina, Andrea Pellegrino, Lorenzo Tozzi
这项工作解决了材料回收设施中有效废物分类策略的需求，以尽量减少废物增加对环境的影响。我们提出了资源受限的语义分割模型，用于分割工业环境中的可回收废物。我们的目标是开发适合 10MB 内存限制的模型，适用于处理能力有限的边缘应用程序。我们在三个网络 ICNet、BiSeNet Xception39backbone 和 ENet 上进行了实验。鉴于上述限制，我们在更广泛的网络上实施量化和剪枝技术，取得了积极的结果，同时对平均 IoU 指标产生了轻微影响。

Radar-Lidar Fusion for Object Detection by Designing Effective Convolution Networks
Authors Farzeen Munir, Shoaib Azam, Tomasz Kucner, Ville Kyrki, Moongu Jeon
物体检测是感知系统的核心组成部分，为自我车辆提供周围环境的信息，以确保安全的路线规划。虽然摄像头和激光雷达拥有非常先进的感知系统，但它们的性能在恶劣的天气条件下可能会受到限制。相比之下，毫米波技术使雷达能够在这种条件下有效运行。然而，由于数据的稀疏性，仅仅依靠雷达构建感知系统并不能完全捕获环境。为了解决这个问题，引入了传感器融合策略。我们提出了一个双分支框架来集成雷达和激光雷达数据以增强对象检测。主分支专注于提取雷达特征，而辅助分支则提取激光雷达特征。然后使用附加注意力将它们组合起来。随后，通过新颖的并行分叉结构 PFS 处理集成特征，以管理尺度变化。然后使用区域提议头进行对象检测。我们使用 COCO 指标评估了我们提出的方法在 Radiate 数据集上的有效性。结果表明，在有利和不利的天气条件下，它分别比最先进的方法高出 1.89 和 2.61。

TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition
Authors Meng Lou, Hong Yu Zhou, Sibei Yang, Yizhou Yu
最近的研究已将卷积集成到变压器中，以引入感应偏置并提高泛化性能。然而，传统卷积的静态性质使其无法动态适应输入变化，导致卷积和自注意力之间的表示差异，因为自注意力动态计算注意力矩阵。此外，当堆叠由卷积和自注意力组成的令牌混合器形成深度网络时，卷积的静态性质阻碍了先前由自注意力生成的特征融合到卷积核中。这两个限制导致所构建的网络的表示能力不理想。为了找到解决方案，我们提出了一种轻量级的双动态令牌混合器 D Mixer，它以依赖于输入的方式聚合全局信息和局部细节。 D Mixer 的工作原理是在均匀分割的特征片段上分别应用高效的全局注意力模块和输入依赖的深度卷积，赋予网络强大的归纳偏差和扩大的有效感受野。我们使用 D Mixer 作为设计 TransXNet 的基本构建块，这是一种新颖的混合 CNN Transformer 视觉骨干网络，可提供引人注目的性能。在 ImageNet 1K 图像分类任务中，TransXNet T 在 top 1 准确率上超越 Swin T 0.3，而所需的计算成本不到一半。此外，TransXNet S 和 TransXNet B 表现出出色的模型可扩展性，分别达到 83.8 和 84.6 的 top 1 精度，且计算成本合理。

Few-shot Hybrid Domain Adaptation of Image Generators
Authors Hengjia Li, Yang Liu, Linxuan Xia, Yuqi Lin, Tu Zheng, Zheng Yang, Wenxiao Wang, Xiaohui Zhong, Xiaobo Ren, Xiaofei He
预训练的生成器能否适应多个目标域的混合并生成具有它们的综合属性的图像在这项工作中，我们引入了一个新任务 Few shot Hybrid Domain Adaptation HDA 。给定一个源生成器和多个目标域，HDA 的目标是获取一个自适应生成器，该生成器保留所有目标域的集成属性，而不覆盖源域的特征。与域适应 DA 相比，HDA 提供了更大的灵活性和多功能性，可以使生成器适应更复合和更广泛的域。同时，HDA 也比 DA 提出了更多挑战，因为我们只能访问来自单个目标域的图像，而缺乏来自混合域的真实图像。为了解决这个问题，我们引入了一个无判别器的框架，该框架直接将不同的域图像编码到可良好分离的子空间中。为了实现 HDA，我们提出了一种新颖的方向子空间损失，由距离损失和方向损失组成。具体来说，距离损失通过减少生成图像到所有目标子空间的距离来混合所有目标域的属性。方向损失通过引导沿垂直于子空间的适应来保留源域的特征。

RGB-X Object Detection via Scene-Specific Fusion Modules
Authors Sri Aditya Deevi, Connor Lee, Lu Gan, Sushruth Nagesh, Gaurav Pandey, Soon Jo Chung
多模态深度传感器融合有潜力使自动驾驶汽车能够在所有天气条件下直观地了解周围环境。然而，现有的深度传感器融合方法通常采用具有混合多模态特征的卷积架构，需要大型共配多模态数据集进行训练。在这项工作中，我们提出了一种高效且模块化的 RGB X 融合网络，该网络可以通过场景特定的融合模块利用和融合预训练的单模态模型，从而能够使用小型、共同配准的多模态数据集创建联合输入自适应网络架构。我们的实验证明了我们的方法与 RGB 热数据集和 RGB 门控数据集上的现有工作相比的优越性，仅使用少量附加参数进行融合。

Color Equivariant Convolutional Networks
Authors Attila Lengyel, Ombretta Strafforello, Robert Jan Bruintjes, Alexander Gielisse, Jan van Gemert
颜色是一种重要的视觉线索，很容易被卷积神经网络 CNN 用于对象识别。然而，如果意外记录条件导致的颜色变化之间存在数据不平衡，CNN 就会陷入困境。颜色不变性解决了这个问题，但这样做的代价是删除所有颜色信息，从而牺牲了辨别力。在本文中，我们提出了颜色等变卷积 CEConvs，这是一种新颖的深度学习构建块，可以在整个色谱中共享形状特征，同时保留重要的颜色信息。我们通过在神经网络中结合色调变化的参数共享，将等方差的概念从几何变换扩展到光度变换。我们展示了 CEConvs 在各种任务的下游性能和改进的颜色变化鲁棒性方面的优势，包括训练测试分布变化。

Introducing instance label correlation in multiple instance learning. Application to cancer detection on histopathological images
Authors Pablo Morales lvarez, Arne Schmidt, Jos Miguel Hern ndez Lobato, Rafael Molina
在过去的几年里，多实例学习 MIL 的弱监督范式在许多不同领域变得非常流行。一个典型的例子是计算病理学，其中整个幻灯片图像缺乏补丁级标签阻碍了监督模型的应用。基于高斯过程 GP 的概率 MIL 方法由于其出色的不确定性估计能力而获得了有希望的结果。然而，这些是通用 MIL 方法，没有考虑组织病理学图像中的一个重要事实，即相邻斑块的标签预计是相关的。在这项工作中，我们扩展了一种最先进的基于 GP 的 MIL 方法（称为 VGPMIL PR）来利用这种相关性。为此，我们受统计物理伊辛模型的启发，开发了一种新颖的耦合项。我们使用变分推理来估计所有模型参数。有趣的是，当调节伊辛项强度的权重消失时，VGPMIL PR 公式会恢复。该方法的性能在前列腺癌检测的两个现实问题中进行了评估。我们表明，我们的模型比其他最先进的概率 MIL 方法取得了更好的结果。我们还提供不同的可视化和分析，以深入了解伊辛一词的影响。

Semi- and Weakly-Supervised Domain Generalization for Object Detection
Authors Ryosuke Furuta, Yoichi Sato
当训练数据和测试数据领域存在很大差异时，对象检测器无法正常工作。为了解决这个问题，人们提出了领域泛化方法，它需要带有来自多个领域的真实标签的训练数据。然而，收集这些数据用于对象检测非常耗时且费力，因为不仅需要注释类标签，还需要注释边界框。为了克服对象检测中的域差距问题而不需要昂贵的注释，我们建议考虑两个新的问题设置：半监督域可泛化对象检测 SS DGOD 和弱监督 DGOD WS DGOD 。与需要来自多个域的标记数据的传统目标检测领域泛化不同，SS DGOD 和 WS DGOD 仅需要来自一个域的标记数据和来自多个域的未标记或弱标记数据进行训练。我们表明，可以使用相同的学生教师学习框架在所提出的设置上有效地训练对象检测器，其中学生网络使用教师在未标记或弱标记数据上输出的伪标签进行训练。实验结果表明，在所提出的设置上训练的对象检测器显着优于在一个标记域数据上训练的基线检测器，并且与在无监督域适应 UDA 设置上训练的对象检测器相当或更好，而我们的不使用目标域数据进行训练

A High-Resolution Dataset for Instance Detection with Multi-View Instance Capture
Authors Qianqian Shen, Yunhan Zhao, Nahyun Kwon, Jeeeun Kim, Yanan Li, Shu Kong
实例检测 InsDet 是机器人学和计算机视觉中一个长期存在的问题，旨在检测杂乱场景中由一些视觉示例预定义的对象实例。尽管具有实际意义，但其进步被对象检测所掩盖，对象检测旨在检测属于某些预定义类别的对象。一个主要原因是，按照今天的标准，当前的 InsDet 数据集规模太小。例如，2016 年发布的流行的 InsDet 数据集 GMU 只有 23 个实例，远远少于 2014 年发布的著名目标检测数据集 COCO 80 类。我们有动力引入新的 InsDet 数据集和协议。首先，我们为 InsDet 训练数据定义了一个真实的设置，其中包含多视图实例捕获以及不同的场景图像，允许通过在实例图像上粘贴带有免费框注释的实例图像来合成训练图像。其次，我们发布了一个真实世界数据库，其中包含 100 个对象实例的多视图捕获，以及高分辨率 6k x 8k 测试图像。第三，我们在数据集上广泛研究了 InsDet 的基线方法，分析其性能并建议未来的工作。

Revisiting Evaluation Metrics for Semantic Segmentation: Optimization and Evaluation of Fine-grained Intersection over Union
Authors Zifu Wang, Maxim Berman, Amal Rannen Triki, Philip H.S. Torr, Devis Tuia, Tinne Tuytelaars, Luc Van Gool, Jiaqian Yu, Matthew B. Blaschko
语义分割数据集通常表现出两种类型的不平衡：文本类不平衡（某些类比其他类出现更频繁）和文本大小不平衡（某些对象比其他对象占用更多像素）。这导致传统的评估指标偏向于文本大多数类别，例如整体像素精度和文本大对象，例如平均像素精度和每个数据集平均交集联合。为了解决这些缺点，我们建议使用细粒度的 MIoU 以及相应的最坏情况指标，从而对分割技术提供更全面的评估。这些细粒度的指标减少了对大型对象的偏见，提供了更丰富的统计信息以及对模型和数据集审核的宝贵见解。此外，我们还开展了广泛的基准研究，在 12 个不同的自然和航空分割数据集上使用建议的指标来训练和评估 15 个现代神经网络。我们的基准研究强调了不基于单一指标进行评估的必要性，并证实细粒度的 MIoU 减少了对大对象的偏见。此外，我们确定了架构设计和损失函数所发挥的关键作用，这导致了优化细粒度指标的最佳实践。

IMPRESS: Evaluating the Resilience of Imperceptible Perturbations Against Unauthorized Data Usage in Diffusion-Based Generative AI
Authors Bochuan Cao, Changjiang Li, Ting Wang, Jinyuan Jia, Bo Li, Jinghui Chen
基于扩散的图像生成模型，例如稳定扩散或 DALL E 2，能够从给定的图像中学习并按照提示的指导生成高质量的样本。例如，它们可用于根据艺术家的原创作品创建模仿艺术家风格的艺术图像，或恶意编辑原始图像以获取虚假内容。然而，在未经原始图像所有者适当授权的情况下，这种能力也会带来严重的道德问题。作为回应，人们已经做出了一些尝试，通过添加难以察觉的扰动来保护原始图像免受此类未经授权的数据使用，这些扰动旨在误导扩散模型并使其无法正确生成新样本。在这项工作中，我们引入了一个名为 IMPRESS 的扰动净化平台，用于评估难以察觉的扰动作为保护措施的有效性。 IMPRESS基于以下关键观察：不可察觉的扰动可能导致原始图像和扩散重建图像之间可察觉的不一致，可以用来设计一种新的优化策略来净化图像，这可能会削弱对原始图像的保护防止未经授权的数据使用，例如风格模仿、恶意编辑。

There Are No Data Like More Data- Datasets for Deep Learning in Earth Observation
Authors Michael Schmitt, Seyed Ali Ahmadi, Yonghao Xu, Gulsen Taskin, Ujjwal Verma, Francescopaolo Sica, Ronny Hansch
精心策划和注释的数据集是机器学习的基础，特别需要数据的深度神经网络构成了通常所说的人工智能的核心。由于深度学习在地球观测 EO 问题中的应用取得了巨大成功，社区的重点主要集中在开发更加复杂的深度神经网络架构和训练策略上，而在很大程度上忽略了数据集的整体重要性。为此，创建了许多特定于任务的数据集，这些数据集在很大程度上被之前发表的关于地球观测人工智能的评论文章所忽略。通过本文，我们希望改变视角，将专用于地球观测数据和应用的机器学习数据集置于聚光灯下。在回顾历史发展的基础上，描述了当前可用的资源，并形成了未来发展的前景。我们希望有助于理解我们的数据的性质是地球观测社区与许多其他将深度学习技术应用于图像数据的社区的区别，并且对EO数据特性的详细理解是我们学科的核心能力之一

CHAMMI: A benchmark for channel-adaptive models in microscopy imaging
Authors Zitong Chen, Chau Pham, Siqi Wang, Michael Doron, Nikita Moshkov, Bryan A. Plummer, Juan C. Caicedo
大多数神经网络假设输入图像具有固定数量的通道（RGB 图像为 3）。然而，在许多设置中，通道数可能会有所不同，例如显微图像中通道数根据仪器和实验目标而变化。然而，还没有系统地尝试创建和评估对通道数量和类型不变的神经网络。因此，经过训练的模型仍然特定于个别研究，并且很难重复用于其他显微镜设置。在本文中，我们提出了研究显微成像中通道自适应模型的基准，该基准由 1 个不同通道单细胞图像的数据集和 2 个生物学相关的评估框架组成。此外，我们采用了几种现有技术来创建通道自适应模型，并将其在此基准测试中的性能与固定通道、基线模型进行比较。我们发现通道自适应模型可以更好地推广到域外任务，并且计算效率高。

Modular Anti-noise Deep Learning Network for Robotic Grasp Detection Based on RGB Images
Authors Zhaocong Li
虽然传统方法依赖于深度传感器，但当前的趋势倾向于使用具有成本效益的 RGB 图像，尽管它们缺乏深度线索。本文介绍了一种从单个 RGB 图像中检测抓取姿势的有趣方法。为此，我们提出了一种模块化学习网络，增强了抓取检测和语义分割，专为配备平行板夹具的机器人量身定制。我们的网络不仅识别可抓取的物体，还将先前的抓取分析与语义分割融合在一起，从而提高抓取检测的精度。值得注意的是，我们的设计表现出弹性，能够熟练地处理模糊和嘈杂的视觉效果。主要贡献包括用于从 RGB 图像中进行抓取检测的可训练网络、促进可行抓取实现的模块化设计以及针对常见图像失真的稳健架构。

Generalized Category Discovery with Clustering Assignment Consistency
Authors Xiangli Yang, Xinglin Pan, Irwin King, Zenglin Xu
广义类别发现 GCD 是最近提出的一项开放世界任务。给定一组由标记和未标记实例组成的图像，GCD 的目标是使用从标记数据集传输的信息自动对未标记样本进行聚类。未标记的数据集包含已知类和新类。主要挑战是未标记的新类样本和未标记的已知类样本在未标记的数据集中混合在一起。为了在不知道未标记数据集的类数的情况下解决 GCD，我们提出了一个基于协同训练的框架，该框架鼓励聚类一致性。具体来说，我们首先引入弱增强变换和强增强变换，为同一样本生成两个足够不同的视图。然后，基于协同训练假设，我们提出了一种一致性表示学习策略，该策略鼓励特征原型相似性和聚类分配之间的一致性。最后，我们使用从半监督表示学习过程中学到的判别嵌入来构建原始稀疏网络，并使用社区检测方法同时获得聚类结果和类别数。大量的实验表明，我们的方法在三个通用基准和三个细粒度视觉识别数据集上实现了最先进的性能。

3DMiner: Discovering Shapes from Large-Scale Unannotated Image Datasets
Authors Ta Ying Cheng, Matheus Gadelha, Soren Pirk, Thibault Groueix, Radomir Mech, Andrew Markham, Niki Trigoni
我们提出 3DMiner 是一种从具有挑战性的大规模未注释图像数据集中挖掘 3D 形状的管道。与其他无监督 3D 重建方法不同，我们假设在足够大的数据集中，必须存在形状相似但背景、纹理和视点不同的物体图像。我们的方法利用学习自监督图像表示的最新进展，对具有几何相似形状的图像进行聚类，并找到它们之间的常见图像对应关系。然后，我们利用这些对应关系来获得粗略的相机估计，作为束调整的初始化。最后，对于每个图像簇，我们应用渐进束调整重建方法来学习代表基础形状的神经占用场。我们表明，该过程对于先前步骤中引入的几种类型的错误具有鲁棒性，例如错误的相机姿势、包含不同形状的图像等，使我们能够在野外获得图像的形状和姿势注释。当使用 Pix3D 椅子的图像时，我们的方法能够产生比最先进的无监督 3D 重建技术更好的结果，无论是定量还是定性。此外，我们还展示了如何通过重建 LAION 5B 数据集图像中存在的形状来将 3DMiner 应用于野外数据。

Fast Trainable Projection for Robust Fine-Tuning
Authors Junjiao Tian, Yen Cheng Liu, James Seale Smith, Zsolt Kira
鲁棒微调的目的是在分发 ID 性能方面取得竞争力，同时在将预训练模型转移到下游任务时保持预训练模型的分发外 OOD 鲁棒性。最近，通过投影显式地限制微调模型初始化的偏差，投影梯度下降已成功用于鲁棒微调。然而，从算法上来说，有两个限制阻碍了该方法得到更广泛的采用：可扩展性和效率。在本文中，我们提出了一种新的基于投影的微调算法，即快速可训练投影 FTP，用于计算高效地学习每层投影约束，与之前的工作相比，我们的基准测试平均加速 35。 FTP 可以与 AdamW 等现有优化器结合使用，并以即插即用的方式使用。最后，我们证明 FTP 是超级优化器的一个特殊实例，它通过嵌套微分以可学习的方式调整优化器的超级参数。根据经验，我们在使用五种不同预训练模型的四种不同视觉任务中，在 OOD 数据集上表现出了卓越的鲁棒性，包括域转移和自然损坏。此外，我们还证明 FTP 具有广泛的适用性，并且由于其简单的适应性而有益于其他学习场景，例如低标签和持续学习设置。

BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species Classification and Mapping
Authors Srikumar Sastry, Subash Khanal, Aayush Dhakal, Di Huang, Nathan Jacobs
我们提出了一种元数据感知的自监督学习 SSL 框架，可用于世界各地鸟类的细粒度分类和生态制图。我们的框架统一了两种 SSL 策略：对比学习 CL 和蒙版图像建模 MIM，同时还通过鸟类地面图像可用的元数据丰富了嵌入空间。我们在一个新颖的交叉视图全球鸟类物种数据集上分别训练单模态和跨模态 ViT，其中包含地面图像、元数据位置、时间和相应的卫星图像。我们通过评估两个下游任务（细粒度视觉分类 FGVC 和跨模态检索）来证明我们的模型可以学习鸟类的细粒度和地理条件特征。使用我们的框架学习的预训练模型在 iNAT 2021 鸟类的 FGVC 上以及 CUB 200 2011 和 NABirds 数据集的迁移学习设置中实现了 SotA 性能。此外，我们的模型令人印象深刻的跨模式检索性能使得能够创建跨任何地理区域的物种分布图。

Dynamic V2X Autonomous Perception from Road-to-Vehicle Vision
Authors Jiayao Tan, Fan Lyu, Linyan Li, Fuyuan Hu, Tingliang Feng, Fenglei Xu, Rui Yao
车联网V2X感知是一项创新技术，可提高车辆感知准确性，从而提高自动驾驶系统的安全性和可靠性。然而，现有的V2X感知方法主要关注基于车辆视觉的静态场景，这受到传感器能力和通信负载的限制。为了使V2X感知模型适应动态场景，我们建议构建从道路到车辆视觉的V2X感知，并提出自适应道路到车辆感知AR2VP方法。在 AR2VP 中，我们利用路边单元提供稳定、广泛的传感能力并充当通信枢纽。 AR2VP 旨在解决场景内和场景间的变化。对于前者，我们构建了一个动态感知表示模块，该模块有效地集成了车辆感知，使车辆能够捕获场景内更全面的动态因素。此外，我们引入了道路到车辆感知补偿模块，旨在保持最大化在存在场景内变化的情况下，路边单元感知信息。对于场景间变化，我们实现了一种体验重放机制，利用路边单元的存储容量来保留历史场景数据的子集，保持模型响应场景间变化的鲁棒性。

Efficient IoT Inference via Context-Awareness
Authors Mohammad Mehdi Rastikerdar, Jin Huang, Shiwei Fang, Hui Guan, Deepak Ganesan
虽然在低功耗平台上优化基于深度学习的分类模型的现有策略假设模型在所有感兴趣的类别上进行了训练，但本文认为采用上下文感知，即仅关注当前上下文中可能的类别，可以显着提高资源性能受限的环境。我们提出了一种新的范例 CACTUS，用于可扩展且高效的上下文感知分类，其中微分类器识别与当前上下文相关的一小组类别，并且当发生上下文变化时，快速切换到另一个合适的微分类器。 CACTUS 具有多项创新，包括优化上下文感知分类器的训练成本、实现分类器之间的动态上下文感知切换以及在资源有限的情况下选择最佳上下文感知分类器。

Dynamic Task and Weight Prioritization Curriculum Learning for Multimodal Imagery
Authors Huseyin Fuat Alsan, Taner Arsan
本文探索使用通过课程学习方法训练的多模态深度学习模型进行灾后分析。研究灾后分析非常重要，因为它可以及时准确地了解损失程度和资源分配，从而在减轻灾害影响方面发挥着至关重要的作用。我们提出了一种课程学习策略来提高多模态深度学习模型的性能。课程学习通过在日益复杂的数据上训练深度学习模型来模拟人类教育中的渐进式学习序列。

Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery
Authors Katie Z Luo, Zhenzhen Liu, Xiangyu Chen, Yurong You, Sagie Benaim, Cheng Perng Phoo, Mark Campbell, Wen Sun, Bharath Hariharan, Kilian Q. Weinberger
机器学习的最新进展表明，基于人类反馈的强化学习 RLHF 可以改进机器学习模型并使其与人类偏好保持一致。尽管大型语言模型法学硕士非常成功，但这些进步并没有对自动驾驶汽车的研究产生可比的影响，因为自动驾驶汽车必须符合人类的期望。在本文中，我们建议将类似的基于强化学习的方法应用于无监督对象发现，即学习在没有任何训练标签的情况下从 LiDAR 点检测对象。我们不使用标签，而是使用简单的启发式方法来模仿人类反馈。更明确地说，我们将多种启发式方法组合成一个简单的奖励函数，该函数将其得分与边界框准确性正相关，即包含对象的框的得分高于不含对象的框。我们从检测器自身的预测开始探索空间，并通过梯度更新强化具有高奖励的框。

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection
Authors Yuanze Li, Haolin Wang, Shihao Yuan, Ming Liu, Yiwen Guo, Chen Xu, Guangming Shi, Wangmeng Zuo
现有的工业异常检测 IAD 方法可以预测异常检测和定位的异常分数。然而，他们很难对异常区域进行多轮对话和详细描述，例如工业异常的颜色、形状和类别。最近，大型多模态（即视觉和语言模型）LMM 在图像字幕、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力，使其成为更易于理解的异常检测的有竞争力的潜在选择。然而，现有的通用 LMM 中缺乏有关异常检测的知识，而训练特定的 LMM 进行异常检测需要大量的注释数据和大量的计算资源。在本文中，我们通过应用视觉专家提出了一种新颖的大型多模态模型，称为 Myriad ，用于工业异常检测，从而实现明确的异常检测和高质量的异常描述。具体来说，我们采用 MiniGPT 4 作为基础 LMM，并设计一个专家感知模块，将视觉专家的先验知识嵌入到大型语言模型 LLM 可以理解的标记中。为了弥补视觉专家的错误和困惑，我们引入了域适配器来弥合通用图像和工业图像之间的视觉表示差距。此外，我们提出了一个 Vision Expert Instructor，它使 Q Former 能够根据视觉专家先验生成 IAD 域视觉语言标记。

Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V
Authors Zhiling Yan, Kai Zhang, Rong Zhou, Lifang He, Xiang Li, Lichao Sun
在本文中，我们批判性地评估了最先进的多模态大语言模型（即 GPT 4 和 Vision GPT 4V）在视觉问答 VQA 任务上的能力。我们的实验使用来自 11 种模式的病理学和放射学数据集彻底评估了 GPT 4V 回答与图像配对的问题的能力。显微镜、皮肤镜、X射线、CT等以及脑、肝、肺等十五个感兴趣的对象。我们的数据集涵盖全面的医学询问，包括十六种不同的问题类型。在整个评估过程中，我们为 GPT 4V 设计了文本提示，指导其协同视觉和文本信息。准确度评分实验得出的结论是，当前版本的 GPT 4V 不推荐用于现实世界的诊断，因为它在响应诊断医学问题方面不可靠且准确度欠佳。此外，我们描述了 GPT 4V 在医学 VQA 中行为的七个独特方面，强调了它在这个复杂领域的局限性。

TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding
Authors Shuhuai Ren, Sishuo Chen, Shicheng Li, Xu Sun, Lu Hou
大规模视频语言预训练在推进视频语言理解任务方面取得了显着进展。然而，视频编码的繁重计算负担仍然是一个巨大的效率瓶颈，特别是对于长格式视频。这些视频由于其固有的 3D 属性和时空冗余而包含大量视觉标记，使得捕捉复杂的时空关系具有挑战性。为了解决这个问题，我们提出了一种名为 TEmporal Spatial Token Aggregation TESTA 的有效方法。 TESTA 通过自适应聚合相似帧以及每帧内的相似补丁来压缩视频语义。 TESTA 可以减少 75 个视觉标记的数量，从而加速视频编码。在 TESTA 的基础上，我们引入了一个预训练的视频语言模型，在每个视频编码器块中配备了划分的时空令牌聚合模块。我们在五个数据集上评估我们的模型，用于段落视频检索和长格式 VideoQA 任务。

FPGAN-Control: A Controllable Fingerprint Generator for Training with Synthetic Data
Authors Alon Shoshan, Nadav Bhonker, Emanuel Ben Baruch, Ori Nizan, Igor Kviatkovsky, Joshua Engelsma, Manoj Aggarwal, Gerard Medioni
使用合成数据训练指纹识别模型最近在生物识别界引起了越来越多的关注，因为它减轻了对敏感个人数据的依赖。现有的指纹生成方法受限于生成同一手指的不同印象的能力，这是为训练识别模型提供有效数据的关键属性。为了解决这一差距，我们提出了 FPGAN Control，这是一种身份保留图像生成框架，可以控制指纹的图像外观，例如指纹类型、采集设备、生成的指纹的压力级别。我们引入了一种新颖的外观损失，可以促进指纹的身份和外观属性之间的分离。在我们的实验中，我们使用公开的 NIST SD302 N2N 数据集来训练 FPGAN 控制模型。我们从数量和质量上展示了 FPGAN 控制在身份保留水平、外观控制程度以及低合成域与真实域差距方面的优点。最后，仅使用 FPGAN Control 生成的合成数据集训练识别模型可实现与使用真实数据训练的模型相当甚至超过的识别精度。

Efficient Test-Time Adaptation for Super-Resolution with Second-Order Degradation and Reconstruction
Authors Zeshuai Deng, Zhuokun Chen, Shuaicheng Niu, Thomas H. Li, Bohan Zhuang, Mingkui Tan
图像超分辨率 SR 旨在使用成对的 HR LR 训练图像学习从低分辨率 LR 到高分辨率 HR 的映射。传统的 SR 方法通常通过使用预定的退化模型（例如双三次下采样）从 HR 图像合成 LR 图像来收集配对训练数据。然而，由于现实世界场景的动态变化，测试图像的真实退化类型可能与训练时间退化类型不匹配，导致SR图像质量较差。为了解决这个问题，现有的方法尝试估计退化模型并训练图像特定模型，然而，这非常耗时并且对于处理快速变化的域转移是不切实际的。此外，这些方法主要集中于估计一种退化类型，例如模糊退化，而忽略了现实世界测试时间场景中的其他退化类型，例如噪声和 JPEG，从而限制了它们的实用性。为了解决这些问题，我们提出了一种有效的 SR 测试时间自适应框架，名为 SRTTA，它能够快速调整 SR 模型以测试具有不同未知退化类型的域。具体来说，我们设计了一个二阶退化方案来根据测试图像的退化类型构造配对数据，该退化类型是由预先训练的退化分类器预测的。然后，我们通过从初始测试图像到其二阶退化对应图像实施特征级重建学习来调整 SR 模型，这有助于 SR 模型生成合理的 HR 图像。在新合成的具有 8 种不同退化的损坏 DIV2K 数据集和几个真实世界数据集上进行了大量实验，证明我们的 SRTTA 框架以令人满意的速度实现了对现有方法的令人印象深刻的改进。

Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation
Authors Fei Zhang, Tianfei Zhou, Boyang Li, Hao He, Chaofan Ma, Tianjiao Zhang, Jiangchao Yao, Ya Zhang, Yanfeng Wang
本文研究了弱开放词汇语义分割 WOVSS 的问题，它学习仅使用图像文本对来分割任意类别的对象。现有的工作转向通过引入显式分组识别来增强普通视觉变换器，即采用多个组标记质心来对图像标记进行聚类并执行组文本对齐。然而，这些方法在组令牌的使用方面存在粒度不一致的问题，这些令牌在全对一与多对一中是一致的。分别在训练和推理阶段采用一对一的方式。我们认为，这种差异是由于缺乏对每个群体代币的精细监管而造成的。为了弥补这种粒度差距，本文从原型知识中探索了对组令牌的显式监督。为此，本文提出了不可学习的原型正则化 NPR，其中从源特征估计不可学习的原型以充当监督并实现组标记的对比匹配。这种正则化鼓励组标记以更少的冗余来分割对象并捕获更全面的语义区域，从而提高紧凑性和丰富性。基于 NPR，我们提出了原型引导分割网络 PGSeg，它通过利用不同级别的图像和文本的原型源，结合多模态正则化，逐步增强具有不同原型模式的分割能力。实验结果表明，我们提出的方法在多个基准数据集上实现了最先进的性能。

Controllable Group Choreography using Contrastive Diffusion
Authors Nhat Le, Tuong Do, Khoa Do, Hien Nguyen, Erman Tjiputra, Quang D. Tran, Anh Nguyen
音乐驱动的集体编舞提出了相当大的挑战，但在广泛的工业应用中具有巨大的潜力。生成与音乐同步且具有视觉吸引力的集体舞蹈动作的能力为娱乐、广告和虚拟表演等许多领域带来了机遇。然而，最近的大多数作品无法产生高保真度的长期运动，或者无法实现可控的体验。在这项工作中，我们的目标是通过有效管理团体编排的一致性和多样性来满足高质量和可定制的团体舞蹈生成的需求。特别是，我们利用基于扩散的生成方法来合成灵活数量的舞者和长期的集体舞蹈，同时确保输入音乐的连贯性。最终，我们引入了群体对比扩散 GCD 策略来增强舞者与其群体之间的联系，呈现出通过分类器引导采样技术控制合成群体动画的一致性或多样性水平的能力。通过密集的实验和评估，我们证明了我们的方法在产生视觉上迷人且一致的集体舞蹈动作方面的有效性。

Blacksmith: Fast Adversarial Training of Vision Transformers via a Mixture of Single-step and Multi-step Methods
Authors Mahdi Salmani, Alireza Dehghanpour Farashah, Mohammad Azizmalayeri, Mahdi Amiri, Navid Eslami, Mohammad Taghi Manzuri, Mohammad Hossein Rohban
尽管深度学习算法在计算机视觉等各个领域取得了显着的成功，但它们仍然容易受到对抗性扰动的影响。对抗性训练 AT 是解决这一问题的最有效的解决方案之一，然而，单步 AT 可能会导致灾难性的过度拟合 CO 。当经过对抗性训练的网络突然失去针对投影梯度下降 PGD 等多步攻击的鲁棒性时，就会出现这种情况。尽管已经提出了几种方法来解决卷积神经网络 CNN 中的这个问题，但我们发现它们在应用于 Vision Transformers ViT 时表现不佳。在本文中，我们提出了 Blacksmith，这是一种克服 CO 问题的新颖训练策略，特别是在 ViT 中。我们的方法在神经网络的对抗训练期间以小批量方式随机使用 PGD 2 或快速梯度符号方法 FGSM。这将增加我们训练攻击的多样性，从而有可能缓解 CO 问题。为了管理由于这种组合而增加的训练时间，我们仅基于前半层来设计 PGD 2 攻击，而 FGSM 则采用端到端的方式。

Analyzing Vision Transformers for Image Classification in Class Embedding Space
Authors Martina G. Vilas, Timothy Schauml ffel, Gemma Roig
尽管变压器模型在计算机视觉中的使用越来越多，但仍然需要对这些网络有机械的理解。这项工作介绍了一种对经过训练来解决图像分类任务的 Vision Transformer 进行逆向工程的方法。受先前 NLP 研究的启发，我们演示了如何将层次结构任何级别的内部表示投影到学习的类嵌入空间上，以揭示这些网络如何为其预测构建分类表示。我们使用我们的框架来展示图像标记如何开发依赖于注意力机制和上下文信息的类特定表示，并深入了解自注意力和 MLP 层如何对这种分类组成做出不同的贡献。我们还证明了该方法 1 可用于确定图像中对于检测感兴趣类别很重要的部分，并且 2 与传统的线性探测方法相比具有显着的优势。

Mask Propagation for Efficient Video Semantic Segmentation
Authors Yuetian Weng, Mingfei Han, Haoyu He, Mingjie Li, Lina Yao, Xiaojun Chang, Bohan Zhuang
视频语义分割 VSS 涉及为视频序列中的每个像素分配语义标签。该领域的先前工作通过扩展图像语义分割模型以利用视频帧之间的时间关系已经证明了有希望的结果，但是这些方法通常会产生大量的计算成本。在本文中，我们提出了一种有效的 VSS 掩模传播框架，称为 MPVSS。我们的方法首先在稀疏关键帧上采用基于强大查询的图像分割器来生成准确的二进制掩模和类别预测。然后，我们设计一个流量估计模块，利用学习到的查询来生成一组分段感知流量图，每个流量图都与关键帧的掩模预测相关联。最后，掩模流对被扭曲以用作非关键帧的掩模预测。通过重用关键帧的预测，我们无需使用资源密集型分段器单独处理大量视频帧，从而减轻时间冗余并显着降低计算成本。对 VSPW 和 Cityscapes 的大量实验表明，我们的掩模传播框架实现了 SOTA 精度和效率的权衡。例如，我们使用 Swin L 主干的最佳模型比使用 MiT B5 的 SOTA MRCFA 性能高出 4.0 mIoU，在 VSPW 数据集上仅需要 26 次 FLOP。此外，与每帧 Mask2Former 基线相比，我们的框架减少了高达 4 倍的 FLOP，而在 Cityscapes 验证集上仅降低了 2 mIoU。

Customize StyleGAN with One Hand Sketch
Authors Shaocong Zhang
从人体草图生成图像通常需要从头开始训练的专用网络。相比之下，预训练视觉语言模型（例如 CLIP）的出现推动了基于使用文本输入或参考图像控制现有 StyleGAN 模型的输出图像的生成应用程序。与此同时，我们的工作提出了一个使用单个用户草图控制 StyleGAN 图像的框架。特别是，我们通过基于能量的学习学习了预训练 StyleGAN 模型的潜在空间中的条件分布，并提出了两种利用 CLIP 进行跨域语义监督的新颖能量函数。经过训练后，我们的模型可以生成与输入草图语义一致的多模态图像。对合成数据集的定量评估表明，我们的方法比一次性方案中以前的方法有了显着改进。当对不同风格和姿势的各种人体素描进行实验时，我们的方法的优越性得到了进一步的强调。

Video Frame Interpolation with Many-to-many Splatting and Spatial Selective Refinement
Authors Ping Hu, Simon Niklaus, Lu Zhang, Stan Sclaroff, Kate Saenko
在这项工作中，我们首先提出了一个完全可微的多对多 M2M splatting 框架来有效地插值帧。给定帧对，我们估计多个双向流，以在融合重叠像素之前将像素直接转发到所需的时间步长。这样做时，每个源像素渲染多个目标像素，并且每个目标像素可以从更大的视觉上下文区域合成，从而建立对不良伪影具有鲁棒性的多对多泼溅方案。对于每个输入帧对，M2M 在帧间插值任意数量的帧时具有极小的计算开销，从而实现快速多帧插值。然而，直接扭曲和融合强度域中的像素对运动估计的质量敏感，并且可能会受到较低有效表示能力的影响。为了提高插值精度，我们通过引入灵活的空间选择性细化 SSR 组件来进一步扩展 M2M 框架，该组件允许以计算效率换取插值质量，反之亦然。 SSR 不细化整个插值帧，而是仅处理在估计误差图的指导下选择的困难区域，从而避免冗余计算。

A transfer learning approach with convolutional neural network for Face Mask Detection
Authors Abolfazl Younesi, Reza Afrouzian, Yousef Seyfari
由于冠状病毒Covid 19的流行及其在全球的迅速传播，世界面临着巨大的危机。为了防止冠状病毒传播，世界卫生组织WHO提出使用口罩和保持社交距离作为最佳预防方法。因此，开发一种自动监测系统来检测一些人群密集场所的口罩情况是很有必要的。为此，我们提出了一种基于迁移学习和 Inception v3 架构的口罩识别系统。在所提出的方法中，同时使用两个数据集进行训练，包括模拟掩模人脸数据集 SMFD 和 MaskedFace Net MFN。本文试图通过优化设置超参数和准确设计全连接层来提高所提出系统的准确性。该方法的主要优点是，除了遮盖和未遮盖的人脸之外，它还可以检测错误使用遮盖的情况。因此，所提出的方法将输入的人脸图像分为三类。

QWID: Quantized Weed Identification Deep neural network
Authors Parikshit Singh Rathore
在本文中，我们提出了一种农业杂草分类的有效解决方案。我们专注于优化模型的推理性能，同时尊重农业领域的约束。我们提出了一种量化深度神经网络模型，该模型使用 8 位整数 int8 量化对 9 种杂草类别的数据集进行分类，这与标准 32 位浮点 fp32 模型不同。认识到农业中硬件资源的限制，我们的模型平衡了模型大小、推理时间和准确性，符合实际要求。我们在 ResNet 50 和 InceptionV3 架构上评估该方法，将它们的性能与其 int8 量化版本进行比较。使用 DeepWeeds 数据集应用迁移学习和微调。结果显示，模型大小和推理时间显着减少，同时在桌面、移动和 Raspberry Pi 等现实生产场景中保持准确性。

Improving Multi-Person Pose Tracking with A Confidence Network
Authors Zehua Fu, Wenhang Zuo, Zhenghui Hu, Qingjie Liu, Yunhong Wang
人体姿势估计和跟踪是理解视频中人类行为的基本任务。现有的基于自顶向下框架的方法通常执行三个阶段的任务：人体检测、姿态估计和跟踪。尽管已经取得了有希望的结果，但这些方法严重依赖高性能检测器，并且可能无法跟踪被遮挡或漏检的人。为了克服这些问题，在本文中，我们开发了一种新颖的关键点置信网络和跟踪管道，以改进自上而下方法中的人体检测和姿势估计。具体来说，关键点置信网络被设计来确定每个关键点是否被遮挡，并将其纳入姿态估计模块中。在跟踪管道中，我们提出了 Bbox 修订模块来减少丢失检测，并提出 ID 检索模块来纠正丢失的轨迹，从而提高检测阶段的性能。

TiV-NeRF: Tracking and Mapping via Time-Varying Representation with Dynamic Neural Radiance Fields
Authors Chengyao Duan, Zhiliu Yang
之前将神经辐射场 NeRF 集成到同步定位和建图 SLAM 框架中的尝试要么依赖于静态场景的假设，要么将动态对象视为异常值。然而，大多数现实世界场景是动态的。在本文中，我们提出了一种时变表示来跟踪和重建动态场景。我们的系统同时维护两个进程，跟踪进程和绘图进程。对于跟踪过程，对整个输入图像进行均匀采样，并对 RGB 图像的训练进行自监督。对于映射过程，我们利用已知的掩模来区分动态对象和静态背景，并对两种类型的区域应用不同的采样策略。这两个过程的参数优化均由两个阶段组成，第一阶段将时间与 3D 位置相关联，将变形场转换为规范场。第二个将时间与规范场中的 3D 位置相关联以获得颜色和有符号距离函数 SDF 。此外，我们提出了一种基于重叠率的新颖的关键帧选择策略。

Identifiable Contrastive Learning with Automatic Feature Importance Discovery
Authors Qi Zhang, Yifei Wang, Yisen Wang
现有的对比学习方法依赖于成对样本对比 z x top z x 来学习数据表示，但从人类的角度来看，学习到的特征往往缺乏清晰的可解释性。理论上，它缺乏特征可识别性，不同的初始化可能会导致完全不同的特征。在本文中，我们研究了一种名为三因素对比学习 triCL 的新方法，该方法涉及 z x top S z x 形式的三因素对比，其中 S text diag s 1,dots,sk 是一个可学习的对角矩阵，可自动捕获重要性每个功能。我们证明，通过这个简单的扩展，triCL 不仅可以获得消除随机性的可识别特征，还可以获得根据重要性矩阵 S 排序的更多可解释特征。我们表明，通过捕获常见的分类特征，具有高重要性的特征具有良好的可解释性，并且在使用一些特征进行图像检索评估时获得优异的性能。提出的 triCL 目标是通用的，可以应用于不同的对比学习方法，如 SimCLR 和 CLIP。我们相信，通过以最小的开销提高其可识别性和可解释性，它是现有二因素对比学习的更好替代方案。

Multi-task deep learning for large-scale building detail extraction from high-resolution satellite imagery
Authors Zhen Qian, Min Chen, Zhuo Sun, Fan Zhang, Qingsong Xu, Jinzhao Guo, Zhiwei Xie, Zhixin Zhang
了解城市动态并促进可持续发展需要对建筑的全面洞察。虽然地理空间人工智能已经促进了从地球观测数据中提取此类细节，但现有方法在为实际应用编译统一的建筑相关数据集时常常面临计算效率低下和不一致的问题。为了弥补这一差距，我们引入了多任务 Building Refiner MT BR，这是一种适应性强的神经网络，专门用于从高分辨率卫星图像中同时提取空间和属性建筑细节，例如建筑屋顶、城市功能类型和屋顶建筑类型。值得注意的是，MT BR 可以进行微调以纳入额外的建筑细节，从而扩展其适用性。对于大规模应用，我们设计了一种新颖的空间采样方案，策略性地选择有限但具有代表性的图像样本。该过程优化了样本的空间分布及其所包含的城市环境特征，从而提高了提取效率，同时减少了数据准备支出。我们通过集成先进的增强技术进一步增强 MT BR 的预测性能和泛化能力。我们的定量结果凸显了所提出方法的有效性。具体来说，使用通过我们的采样方法管理的数据集进行训练的网络相对于使用替代采样方法的网络表现出更高的预测准确性，并且无需更改网络架构。此外，MT BR 在跨各种指标提取建筑细节方面始终优于其他最先进的方法。

Emergence of Shape Bias in Convolutional Neural Networks through Activation Sparsity
Authors Tianqin Li, Ziqi Wen, Yangfan Li, Tai Sing Lee
众所周知，当前用于对象识别的深度学习模型严重偏向于纹理。相比之下，人类视觉系统偏向于形状和结构。人类视觉系统中的设计原理是什么导致了这种差异我们如何在深度学习模型中引入更多的形状偏差在本文中，我们报告稀疏编码是大脑中普遍存在的原理，它本身可以引入形状偏差进入网络。我们发现，使用非差分 Top K 运算强制执行稀疏编码约束可以导致卷积神经网络中神经元中结构编码的出现，从而将对象平滑地分解为部分和子部分，并赋予网络形状偏差。我们展示了形状偏差的出现及其对于具有各种数据集的不同网络结构的功能优势。对于对象识别卷积神经网络，形状偏差导致对样式和模式变化干扰的鲁棒性更强。对于图像合成生成对抗网络，出现的形状偏差导致合成图像中更加连贯和可分解的结构。消融研究表明，稀疏代码倾向于对结构进行编码，而更分布式的代码则倾向于对纹理进行编码。

Towards Generalized Multi-stage Clustering: Multi-view Self-distillation
Authors Jiatai Wang, Zhiwei Xu, Xin Wang
现有的多阶段聚类方法独立地从多个视图中学习显着特征，然后执行聚类任务。特别是，多视图聚类MVC在多视图或多模态场景中引起了很多关注。 MVC 旨在以自我监督的方式从多个视图和聚类中探索共同语义和伪标签。然而，受到噪声数据和不充分的特征学习的限制，这种聚类范式会产生过度自信的伪标签，从而错误地引导模型产生不准确的预测。因此，希望有一种方法能够纠正多阶段聚类中的这种伪标签误导，以避免偏差累积。为了减轻过度自信的伪标签的影响并提高模型的泛化能力，本文提出了一种新颖的多阶段深度MVC框架，其中引入多视图自蒸馏DistilMVC来提取标签分布的暗知识。具体来说，在不同层次的特征子空间中，我们通过对比学习探索多个视图的共同语义，并通过最大化视图之间的互信息来获得伪标签。此外，教师网络负责将伪标签提炼成暗知识，监督学生网络并提高其预测能力以增强鲁棒性。

Dynamo-Depth: Fixing Unsupervised Depth Estimation for Dynamical Scenes
Authors Yihong Sun, Bharath Hariharan
无监督单目深度估计技术已经展示了令人鼓舞的结果，但通常假设场景是静态的。这些技术在动态场景中训练时会受到影响，其中明显的物体运动同样可以通过假设物体的独立运动或改变其深度来解释。这种模糊性导致深度估计器预测移动物体的错误深度。为了解决这个问题，我们引入了 Dynamo Depth，这是一种统一方法，通过联合学习单目深度、3D 独立流场和未标记单目视频的运动分割来消除动态运动的歧义。具体来说，我们提供了我们的关键见解，即尽管存在根本性的模糊性，但良好的运动分割初始估计足以联合学习深度和独立运动。我们提出的方法在 Waymo Open 和 nuScenes 数据集上的单目深度估计方面实现了最先进的性能，并显着改善了移动物体的深度。

HDMNet: A Hierarchical Matching Network with Double Attention for Large-scale Outdoor LiDAR Point Cloud Registration
Authors Weiyi Xue, Fan Lu, Guang Chen
室外激光雷达点云通常规模较大且分布复杂。为了实现高效准确的配准，强调局部区域之间的相似性并优先考虑全局局部到局部匹配是至关重要的，随后可以通过具有成本效益的精细配准来提高准确性。本文提出了一种新型的双重注意力分层神经网络 HDMNet，用于大规模室外 LiDAR 点云配准。具体来说，引入了一种新颖的特征一致性增强双软匹配网络，以补丁到补丁的方式实现了高度灵活性的两级匹配，同时高效地扩大了感受野，从而显着提高了配准性能。此外，为了进一步利用来自更深层的稀疏匹配信息，我们开发了一种新颖的可训练嵌入掩模来合并从更深层的姿态估计获得的对应关系的置信度分数，从而消除了额外的计算。深层稀疏点云中的高置信度关键点对应于较浅层的高置信度空间邻域区域，该区域将受到更多关注，而非关键区域的特征将被掩盖。

Exploring Data Augmentations on Self-/Semi-/Fully- Supervised Pre-trained Models
Authors Shentong Mo, Zhun Sun, Chao Li
数据增强已成为视觉预训练模型的标准组成部分，以捕获增强视图之间的不变性。在实践中，用零平均值或来自其他样本的补丁掩盖样本区域的增强技术通常用于具有自半完全监督对比损失的预训练模型中。然而，这些增强技术有效性背后的潜在机制仍然缺乏探索。为了调查这些问题，我们进行了实证研究来量化数据增强如何影响性能。具体来说，我们将随机擦除、CutOut、CutMix 和 MixUp 四种类型的数据增强应用于一系列自半完全监督的预训练模型。我们报告了他们在图像分类、对象检测、实例分割和语义分割等视觉任务上的表现。然后，我们明确评估特征嵌入的不变性和多样性。我们观察到 1 图像的掩蔽区域降低了学习到的特征嵌入的不变性，同时提供了更大的多样性。 2 手动注释不会改变学习到的特征嵌入的不变性或多样性。

Deep Learning-based Compressed Domain Multimedia for Man and Machine: A Taxonomy and Application to Point Cloud Classification
Authors Abdelrahman Seleem 1, 2, 4 , Andr F. R. Guarda 2 , Nuno M. M. Rodrigues 2, 3 , Fernando Pereira 1, 2 1 Instituto Superior T cnico Universidade de Lisboa, Lisbon, Portugal, 2 Instituto de Telecomunica es, Portugal, 3 ESTG, Polit cnico de Leiria, Leiria, Portugal, 4 Faculty of Computers and Information, South Valley University, Qena, Egypt
在当前多媒体的黄金时代，人类可视化不再是单一的主要目标，最终消费者通常是执行某些处理或计算机视觉任务的机器。在这两种情况下，深度学习在从多媒体表示数据中提取特征方面发挥着基本作用，通常会产生称为潜在表示的压缩表示。基于深度学习的解决方案在多媒体应用领域的不断发展和采用，开启了令人兴奋的新愿景，其中通用的压缩多媒体表示可用于人和机器。这种视觉的主要好处是，计算机视觉任务的性能提高了两倍，因为编码伪像的影响得到了减轻，并且计算复杂性降低了，因为不需要事先解码。本文提出了第一个用于设计压缩域计算机视觉解决方案的分类法，该解决方案由与可用时空计算机视觉处理器的架构和权重兼容性驱动。通过使用在 PointGrid 分类器的开发和改编下的 JPEG Pleno 点云编码标准设计新颖的压缩域处理器，在点云分类的具体情况下展示了所提出的分类法的潜力。

Customizing 360-Degree Panoramas through Text-to-Image Diffusion Models
Authors Hai Wang, Xiaoyu Xiang, Yuchen Fan, Jing Hao Xue
基于扩散模型的个性化文本到图像 T2I 合成在最近的研究中引起了广泛的关注。然而，现有的方法主要集中于定制主题或风格，忽视了对全局几何的探索。在本研究中，我们提出了一种专注于 360 度全景图定制的方法，该方法本质上具有全局几何特性，使用 T2I 扩散模型。为了实现这一目标，我们策划了专门为该任务设计的配对图像文本数据集，然后使用它来微调使用 LoRA 预先训练的 T2I 扩散模型。然而，仅微调模型并不能确保合成图像最左侧和最右侧之间的连续性，而这是 360 度全景图的关键特征。为了解决这个问题，我们提出了一种称为 StitchDiffusion 的方法。具体来说，我们在去噪过程的每个时间步对由最左边和最右边图像区域组成的缝合块执行两次预去噪操作。此外，采用全局裁剪来合成无缝的360度全景图。实验结果证明了我们的定制模型与所提出的 StitchDiffusion 相结合在生成高质量 360 度全景图像方面的有效性。此外，我们的定制模型在生成微调数据集中未见过的场景方面表现出了卓越的泛化能力。

UniCat: Crafting a Stronger Fusion Baseline for Multimodal Re-Identification
Authors Jennifer Crawford, Haoli Yin, Luke McDermott, Daniel Cummings
多模态重新识别 ReID 是一项流行的检索任务，旨在跨不同数据流重新识别对象，促使许多研究人员将多种模态集成到统一的表示中。虽然这种融合带来了整体视角，但我们的调查揭示了潜在的陷阱。我们发现，与单独训练模态的方法相比，流行的后期融合技术通常会产生次优的潜在表示。我们认为，这种影响很大程度上是由于在使用融合时无意中放松了个体模态的训练目标，其他人称之为模态惰性。我们提出了一个微妙的观点，即这种放松可能导致某些模式无法充分利用可用的任务相关信息，但为嘈杂的模式提供了保护性的面纱，防止它们过度拟合与任务无关的数据。我们的研究结果还表明，单模态串联 UniCat 和其他单模态主干的后期融合集成在与最著名的训练技术相结合时，在多个多模态 ReID 基准测试中超过了当前最先进的性能。

CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data
Authors Taiki Miyanishi, Fumiya Kitamori, Shuhei Kurita, Jungdae Lee, Motoaki Kawanabe, Nakamasa Inoue
城市规模 3D 点云是表达详细且复杂的室外结构的一种有前途的方法。它包含分段城市组件（包括汽车、街道和建筑物）的外观和几何特征，可用于有吸引力的应用，例如自动驾驶汽车和无人机的用户交互式导航。然而，与可用于图像和室内场景的大量文本注释相比，室外场景文本注释的稀缺对实现这些应用提出了重大挑战。为了解决这个问题，我们引入了用于城市级视觉基础的 CityRefer 数据集。该数据集包含 SensatUrban 城市场景中出现的 3D 对象的 35k 个自然语言描述以及与 OpenStreetMap 同步的 5k 个地标标签。为了确保数据集的质量和准确性，CityRefer数据集中的所有描述和标签均经过人工验证。我们还开发了一个基线系统，可以学习编码语言描述、3D 对象实例和有关城市地标的地理信息，以在 CityRefer 数据集上执行视觉基础。

Pre-training with Random Orthogonal Projection Image Modeling
Authors Maryam Haghighat, Peyman Moghadam, Shaheer Mohamed, Piotr Koniusz
蒙版图像建模 MIM 是一种强大的自监督策略，无需使用标签即可进行视觉预训练。 MIM 将随机裁剪应用于输入图像，使用编码器对其进行处理，然后使用解码器恢复屏蔽的输入，这鼓励网络捕获和学习有关对象和场景的结构信息。从 MIM 获得的中间特征表示适用于下游任务的微调。在本文中，我们提出了一种基于随机正交投影而不是 MIM 中的二进制掩模的图像建模框架。我们提出的随机正交投影图像建模 ROPIM 在噪声方差的保证范围内减少了空间明智的标记信息，并且可以被视为在局部变化的掩蔽度下掩蔽整个空间图像区域。由于 ROPIM 使用随机子空间进行投影来实现掩蔽步骤，因此可以在去掩蔽期间使用子空间的容易获得的补集来促进删除信息的恢复。在本文中，我们表明，与基于裁剪的遮罩相比，使用随机正交投影具有更优越的性能。

Audio-Visual Instance Segmentation
Authors Ruohao Guo, Yaru Chen, Yanyu Qi, Wenzhen Yue, Dantong Niu, Xianghua Ying
在本文中，我们提出了一种新的多模态任务，即视听实例分割AVIS，其目标是同时识别、分割和跟踪可听视频中的各个发声对象实例。据我们所知，这是实例分割首次扩展到视听领域。为了更好地促进这项研究，我们构建了第一个视听实例分割基准 AVISeg 。具体来说，AVISeg 由来自 YouTube 和公共视听数据集的 1,258 个平均时长为 62.6 秒的视频组成，其中 117 个视频使用基于 Segment Anything Model SAM 的交互式半自动标记工具进行了注释。此外，我们还为 AVIS 任务提供了一个简单的基线模型。我们的新模型向 Mask2Former 引入了音频分支和跨模态融合模块来定位所有发声对象。最后，我们在 AVISeg 上使用两个骨干网评估所提出的方法。

Triplet Attention Transformer for Spatiotemporal Predictive Learning
Authors Xuesong Nie, Xi Chen, Haoyuan Jin, Zhihang Zhu, Yunfeng Yan, Donglian Qi
时空预测学习提供了一种自我监督的学习范式，使模型能够通过基于历史序列预测未来序列来学习空间和时间模式。主流方法以循环单元为主，但由于缺乏并行性而受到限制，并且在现实场景中通常表现不佳。为了提高预测质量，同时保持计算效率，我们提出了一种创新的三元组注意力变换器，旨在捕获帧间动态和帧内静态特征。具体来说，该模型结合了 Triplet Attention Module TAM，通过探索时间、空间和通道维度的自注意力机制来取代传统的循环单元。在此配置中，时间标记包含帧间的抽象表示，有助于捕获固有的时间依赖性；空间和通道注意结合起来，通过跨空间和通道维度执行细粒度交互来细化帧内表示。交替的时间、空间和通道级别的注意力使我们的方法能够学习更复杂的短期和长期时空依赖性。

Foundational Models in Medical Imaging: A Comprehensive Survey and Future Vision
Authors Bobby Azad, Reza Azad, Sania Eskandari, Afshin Bozorgpour, Amirhossein Kazerouni, Islem Rekik, Dorit Merhof
基础模型、大规模、预训练的深度学习模型适用于广泛的下游任务，最近在随着这些模型的兴起而经历范式转变的各种深度学习问题中引起了极大的兴趣。基础模型在大规模数据集上进行训练，以弥合不同模式之间的差距，促进测试时的上下文推理、泛化和提示功能。通过使用称为提示的任务特定提示来增强模型输入，可以调整这些模型的预测以适应新任务，而无需大量标记数据和重新训练。利用计算机视觉的进步，医学成像也标志着人们对这些模型越来越感兴趣。为了帮助研究人员朝着这个方向前进，本次调查旨在提供医学成像领域基础模型的全面概述。具体来说，我们通过阐述构成基础模型基础的基本概念来开始我们的探索。随后，我们提供了医学领域内基础模型的系统分类，提出了一个主要围绕训练策略构建的分类系统，同时还纳入了其他方面，例如应用领域、成像模式、特定感兴趣的器官以及这些模型中不可或缺的算法。此外，我们强调一些选定方法的实际用例，然后讨论这些大规模预训练模型用于分析医学图像的机会、应用和未来方向。同样，我们解决与医学成像基础模型相关的普遍挑战和研究途径。

Efficient Object Detection in Optical Remote Sensing Imagery via Attention-based Feature Distillation
Authors Pourya Shamsolmoali, Jocelyn Chanussot, Huiyu Zhou, Yue Lu
高效的目标检测方法最近在遥感领域受到了极大的关注。尽管深度卷积网络通常具有出色的检测精度，但它们在资源有限的边缘设备上的部署很困难。知识蒸馏 KD 是解决这个问题的一种策略，因为它使模型轻量化，同时保持准确性。然而，现有的目标检测 KD 方法遇到了两个限制。首先，他们丢弃潜在重要的背景信息，只提取附近的前景区域。其次，它们仅依赖于全局上下文，这限制了学生检测器从教师检测器获取本地信息的能力。为了解决上述挑战，我们提出了基于注意力的特征蒸馏 AFD，这是一种新的 KD 方法，可以从教师检测器中提取本地和全局信息。为了增强局部蒸馏，我们引入了多实例注意机制，可以有效地区分背景和前景元素。这种方法促使学生检测器关注教师检测器识别的相关通道和像素。局部蒸馏缺乏全局信息，因此提出了注意力全局蒸馏来重建各个像素之间的关系并将其从教师检测器传递给学生检测器。

Feature Guided Masked Autoencoder for Self-supervised Learning in Remote Sensing
Authors Yi Wang, Hugo Hern ndez Hern ndez, Conrad M Albrecht, Xiao Xiang Zhu
以蒙版图像建模为指导的自监督学习（例如蒙版自动编码器 MAE）在遥感中预训练视觉变换器引起了广泛关注。然而，MAE 往往过度关注像素细节，从而限制了模型的语义理解能力，特别是对于噪声 SAR 图像。在本文中，我们探索光谱和空间遥感图像特征作为改进的 MAE 重建目标。我们首先对重建各种图像特征进行研究，所有图像特征的表现都与原始像素相当或更好。基于这些观察，我们提出了特征引导掩码自动编码器 FG MAE，重建多光谱图像的定向梯度直方图 HOG 和归一化差异指数 NDI 的组合，并重建 SAR 图像的 HOG。三个下游任务的实验结果说明了 FG MAE 的有效性，特别是对 SAR 图像的提升。

Local-Global Self-Supervised Visual Representation Learning
Authors Ali Javidani, Mohammad Amin Sadeghi, Babak Nadjar Araabi
自监督表示学习方法主要关注图像级实例判别。本研究探讨了将斑块级别辨别纳入现有方法的潜在好处，以通过同时查看局部和全局视觉特征来提高学习表示的质量。为了这个想法，我们提出了一种简单而有效的补丁匹配算法，可以在图像的增强视图中找到相应的补丁。随后，增强的视图被输入到以 Vision Transformer ViT 作为骨干的自监督学习框架中。结果是生成图像级和块级表示。利用所提出的补丁匹配算法，该模型不仅最小化了 CLS 标记之间的表示距离，还最小化了相应补丁之间的表示距离。因此，模型可以更全面地了解图像的整体及其更精细的细节。我们在小型、中型和大型数据集上对所提出的方法进行预训练。结果表明，我们的方法在图像分类和下游任务方面都优于最先进的图像级表示学习方法。

One-shot Localization and Segmentation of Medical Images with Foundation Models
Authors Deepa Anand, Gurunath Reddy M, Vanika Singhal, Dattesh D. Shanbhag, Shriram KS, Uday Patil, Chitresh Bhushan, Kavitha Manickam, Dawei Gui, Rakesh Mullick, Avinash Gopal, Parminder Bhatia, Taha Kass Hout
Vision Transformers ViT 和 Stable Diffusion SD 模型的最新进展能够捕获图像的丰富语义特征，已用于自然图像上的图像对应任务。在本文中，我们研究了专门针对自然图像进行训练的各种预训练 ViT DINO、DINOv2、SAM、CLIP 和 SD 模型解决医学图像对应问题的能力。虽然许多工作都为领域训练提供了案例，但我们表明，在自然图像上训练的模型可以在来自不同制造商的不同模式 CT、MR、超声、大脑、胸部、腹部等多个解剖区域的医学图像上提供良好的性能、四肢以及各种任务。此外，我们利用与模板图像的对应关系来提示 Segment Anything SAM 模型实现单次分割，仅使用一张图像作为参考，在任务中实现 62 90 的骰子范围。

Benchmark Generation Framework with Customizable Distortions for Image Classifier Robustness
Authors Soumyendu Sarkar, Ashwin Ramesh Babu, Sajad Mousavi, Zachariah Carmichael, Vineet Gundecha, Sahand Ghorbanpour, Ricardo Luna, Gutierrez Antonio Guillen, Avisek Naug
我们提出了一种新颖的框架，用于生成对抗性基准来评估图像分类模型的鲁棒性。我们的框架允许用户自定义最适合图像的扭曲类型，这有助于解决与其部署相关的特定扭曲。该基准可以生成各种失真级别的数据集，以评估不同图像分类器的鲁棒性。我们的结果表明，我们的框架使用任何图像分类模型（例如 ResNet 50、Inception V3 和 VGG 16）生成的对抗样本都是有效的，并且可以转移到其他模型，从而导致它们失败。即使使用最先进的技术对这些模型进行对抗性再训练，这些失败也会发生，这证明了我们的对抗性样本的普遍性。与 CIFAR 10 和 ImageNet 上最先进的基准技术相比，我们在净 L 2 失真方面实现了具有竞争力的性能，但是，我们证明我们的框架可以通过简单的失真（如高斯噪声）实现这样的结果，而不会引入不自然的伪影或渗色。这是通过基于模型的强化学习 RL 代理和一种技术来实现的，该技术可将图像的深度树搜索（模型对扰动的敏感性）减少到一级分析和操作。

ODM3D: Alleviating Foreground Sparsity for Enhanced Semi-Supervised Monocular 3D Object Detection
Authors Weijia Zhang, Dongnan Liu, Chao Ma, Weidong Cai
由于单个 RGB 图像中缺乏隐式深度线索，单目 3D 物体检测 M3OD 是自动驾驶中一项重要但本质上具有挑战性的任务。在本文中，我们致力于通过半监督学习利用大量未标记数据来提升目前表现不佳的单目 3D 物体检测器。我们提出的 ODM3D 框架需要在各个级别进行跨模式知识蒸馏，以便在训练期间将 LiDAR 领域知识注入单目探测器中。通过将前景稀疏性确定为现有方法次优训练背后的罪魁祸首，我们利用 LiDAR 点中嵌入的精确定位信息，通过所提出的 BEV 占用引导掩模实现更多的前景注意力和高效蒸馏，从而显着提高知识传输和 M3OD 性能。此外，出于对现有跨模态 GT 采样技术为何无法完成我们手头任务的深入了解，我们进一步设计了一种新颖的跨模态对象明智数据增强策略，用于有效的 RGB LiDAR 联合学习。

This Looks Like Those: Illuminating Prototypical Concepts Using Multiple Visualizations
Authors Chiyu Ma, Brandon Zhao, Chaofan Chen, Cynthia Rudin
我们提出了 ProtoConcepts，一种使用原型部件结合深度学习和基于案例的推理的可解释图像分类方法。基于原型的图像分类的现有工作使用看起来像这样的推理过程，该过程通过查找原型部分并结合这些原型的证据来剖析测试图像以进行最终分类。然而，所有现有的基于原型部分的图像分类器仅提供一对一的比较，其中单个训练图像块作为原型与我们的测试图像的一部分进行比较。通过这些单个图像比较，通常很难识别所比较的基本概念，例如比较颜色还是形状。我们提出的方法修改了基于原型的网络的体系结构，以学习使用多个图像块可视化的原型概念。拥有同一原型的多个可视化使我们能够更轻松地识别该原型捕获的概念，例如测试图像和相关的训练补丁都是相同的蓝色阴影，并允许我们的模型创建更丰富、更可解释的视觉解释。

Visual Explanations via Iterated Integrated Attributions
Authors Oren Barkan, Yehonatan Elisha, Yuval Asher, Amit Eshel, Noam Koenigstein
我们引入迭代综合归因 IIA，这是一种解释视觉模型预测的通用方法。 IIA 对输入图像、模型生成的内部表示及其梯度进行迭代集成，产生精确且集中的解释图。我们通过对各种任务、数据集和网络架构的综合评估来证明 IIA 的有效性。

Self-Supervised Multi-Modality Learning for Multi-Label Skin Lesion Classification
Authors Hao Wang, Euijoon Ahn, Lei Bi, Jinman Kim
皮肤病变的临床诊断涉及皮肤镜和临床方法的分析。皮肤镜图像提供表面结构的详细视图，而临床图像提供补充的宏观信息。黑色素瘤的视觉诊断也基于七点检查表，其中涉及识别不同的视觉属性。最近，卷积神经网络 CNN 等监督学习方法在使用皮肤镜和临床模式（多模式）时表现出了出色的性能。检查表中的七种不同的视觉属性也用于进一步改进诊断。然而，这些方法的性能仍然依赖于大规模标记数据的可用性。获取带注释的数据集是一项昂贵且耗时的任务，对于多属性进行注释更是如此。为了克服这一限制，我们提出了一种用于多模态皮肤病变分类的自监督学习 SSL 算法。我们的算法通过最大化来自不同视图的配对皮肤镜和临床图像之间的相似性来实现多模态学习。此外，我们通过聚类分析生成代表七个属性的代理伪多标签。我们还提出了一个标签关系感知模块来细化每个伪标签嵌入并捕获伪多标签之间的相互关系。我们使用经过良好基准测试的七点皮肤病变数据集验证了我们算法的有效性。

MultiScale Spectral-Spatial Convolutional Transformer for Hyperspectral Image Classification
Authors Zhiqiang Gong, Xian Zhou, Wen Yao
由于捕获全局信息的强大能力，Transformer 已成为高光谱图像分类 CNN 的替代架构。然而，一般的Transformer主要考虑全局光谱信息，而忽略了高光谱图像的多尺度空间信息。在本文中，我们提出了一种用于高光谱图像分类的多尺度光谱空间卷积变换器MultiscaleFormer。首先，所开发的方法利用多尺度空间补丁作为令牌来制定空间变换器并生成每个像素中每个波段的多尺度空间表示。其次，给定像素中所有波段的空间表示被用作令牌来制定光谱变换器并生成每个像素的多尺度光谱空间表示。此外，在MultiFormer中构建了一个改进的光谱空间CAF模块来融合跨层光谱和空间信息。因此，所提出的 MultiFormer 可以捕获多尺度光谱空间信息，并为高光谱图像分类提供比大多数其他架构更好的性能。

Deep Intrinsic Decomposition with Adversarial Learning for Hyperspectral Image Classification
Authors Zhiqiang Gong, Xian Zhou, Wen Yao
卷积神经网络 CNN 已被证明具有提取高光谱图像分类判别特征的强大能力。然而，一般的CNN深度学习方法忽略了复杂环境因素的影响，导致类内方差增大，类间方差减小。这增加了提取判别特征的难度。为了克服这个问题，这项工作开发了一种新颖的具有对抗性学习的深度内在分解，即 AdverDecom，用于高光谱图像分类，以减轻环境因素对分类性能的负面影响。首先，我们开发了一个用于高光谱图像 HyperNet 的生成网络，以从图像中提取环境相关特征和类别相关特征。然后，构建判别网络来区分不同的环境类别。最后，为对抗性学习开发了环境和类别联合学习损失，以使深度模型学习判别性特征。在三个常用的现实世界数据集上进行了实验，比较结果表明了该方法的优越性。

MEDAVET: Traffic Vehicle Anomaly Detection Mechanism based on spatial and temporal structures in vehicle traffic
Authors Ana Rosal a Huam n Reyna, Alex Josu Fl rez Farf n, Geraldo Pereira Rocha Filho, Sandra Sampaio, Robson de Grande, Luis Hideo, Vasconcelos Nakamura, Rodolfo Ipolito Meneguette
目前，计算机视觉系统可以帮助我们完成对人类来说枯燥的任务，例如监视和车辆跟踪。此分析的一个重要部分是识别流量异常。异常现象告诉我们发生了一些不寻常的事情，在本例中是在高速公路上。本文旨在使用计算机视觉对车辆跟踪进行建模，以检测高速公路上的交通异常。我们开发了交通检测、跟踪和分析的步骤，从城市交通视频中检测车辆，使用二分图和凸包算法来跟踪车辆来界定移动区域。最后，对于异常检测，我们使用两个数据结构来检测异常的开始和结束。第一个是四叉树，它将在道路上长时间停车的车辆分组，第二个是接近被遮挡的车辆。

Learning to recognize occluded and small objects with partial inputs
Authors Hasib Zunair, A. Ben Hamza
由于遮挡，识别图像中的多个对象非常具有挑战性，当对象很小时，情况会变得更加困难。虽然很有希望，但现有的多标签图像识别模型并没有明确学习基于上下文的表示，因此很难正确识别小的和被遮挡的物体。直观上，识别被遮挡的对象需要了解部分输入，因此需要了解上下文。受这种直觉的启发，我们提出了掩蔽监督学习 MSL，这是一种用于多标签图像识别的单阶段、模型不可知的学习范例。关键思想是使用屏蔽分支学习基于上下文的表示，并使用标签一致性对标签共现进行建模。实验结果证明了 MSL 的简单性、适用性，更重要的是，在标准多标签图像识别基准上，MSL 相对于先前最先进的方法具有竞争性能。此外，我们还证明 MSL 对于随机掩蔽具有鲁棒性，并证明其在识别非掩蔽对象方面的有效性。

3DCoMPaT$^{++}$: An improved Large-scale 3D Vision Dataset for Compositional Recognition
Authors Habib Slim, Xiang Li, Yuchen Li, Mahmoud Ahmed, Mohamed Ayman, Ujjwal Upadhyay, Ahmed Abdelreheem, Arpit Prajapati, Suhail Pothigara, Peter Wonka, Mohamed Elhoseiny
在这项工作中，我们提出了 3DCoMPaT，这是一个多模态 2D 3D 数据集，其中包含超过 1000 万个风格化 3D 形状的 1.6 亿个渲染视图，并在零件实例级别仔细注释，以及匹配的 RGB 点云、3D 纹理网格、深度图和分割蒙版。 3DCoMPaT 涵盖 41 个形状类别、275 个细粒度零件类别和 293 个细粒度材料类别，可组合地应用于 3D 对象的零件。我们从四个等距视图和四个随机视图渲染一百万个风格化形状的子集，从而得到总共 1.6 亿个渲染。部件在实例级别进行分段，具有粗粒度和细粒度的语义级别。我们引入了一项名为“Grounded CoMPaT Recognition GCR”的新任务，用于集体识别和接地 3D 物体部件上的材料成分。此外，我们报告了 CVPR2023 组织的数据挑战的结果，展示了获胜方法对 6D 输入训练的修改后的 PointNet 模型的利用，并探索了 GCR 增强的替代技术。

GPT-4 Vision on Medical Image Classification -- A Case Study on COVID-19 Dataset
Authors Ruibo Chen, Tianyi Xiong, Yihan Wu, Guodong Liu, Zhengmian Hu, Lichang Chen, Yanshuo Chen, Chenxi Liu, Heng Huang

Semi-Synthetic Dataset Augmentation for Application-Specific Gaze Estimation
Authors Cedric Leblond Menard, Gabriel Picard Krashevski, Sofiane Achiche
尽管注视估计数据集的数量正在增长，但基于外观的注视估计方法的应用主要限于估计屏幕上的注视点。部分原因是大多数数据集都是以类似的方式生成的，其中凝视目标位于靠近相机原点的屏幕上。在辅助机器人或营销研究等其他应用中，3D 凝视点可能不靠近相机的原点，这意味着在当前数据集上训练的模型不能很好地推广到这些任务。因此，我们建议生成面部的纹理三维网格，并在与应用程序相关的特定位置和方向渲染来自虚拟相机的训练图像，作为增强现有数据集的方法。

Exploring Shape Embedding for Cloth-Changing Person Re-Identification via 2D-3D Correspondences
Authors Yubin Wang, Huimin Yu, Yuming Yan, Shuyi Song, Biyang Liu, Yichong Lu
换衣人重识别 CC ReID 是一个常见且现实的问题，因为时尚随着时间的推移不断变化，人们的审美偏好也不是一成不变的。虽然大多数现有的布料更换 ReID 方法侧重于从粗略的语义线索中学习与布料无关的身份表示，例如轮廓和零件分割图，它们忽略了像素级别的连续形状分布。在本文中，我们提出了连续表面对应学习 CSCL，这是一种用于换衣 ReID 的新形状嵌入范例。 CSCL 通过像素到顶点分类在 2D 图像平面和规范的 3D 人体表面之间建立连续对应关系，从而将人物图像自然地与 3D 人体模型的表面对齐，并同时获得像素级表面嵌入。我们进一步从学习的表面嵌入中提取细粒度的形状特征，然后通过精心设计的跨模态融合模块将它们与全局 RGB 特征集成。基于 2D 3D 对应关系的形状嵌入范式显着增强了模型对人体形状的全局理解。为了促进换衣下 ReID 的研究，我们构建了 3D Dense Persons DP3D ，这是第一个大规模换衣 ReID 数据集，它为每个人图像提供密集注释的 2D 3D 对应关系和精确的 3D 网格，同时包含不同的换衣案例整个四个季节。

DEFT: Dexterous Fine-Tuning for Real-World Hand Policies
Authors Aditya Kannan, Kenneth Shaw, Shikhar Bahl, Pragna Mannam, Deepak Pathak
敏捷性通常被视为复杂操作的基石。人类能够用手执行一系列技能，从制作食物到操作工具。在本文中，我们研究了这些挑战，特别是在柔软、可变形物体以及复杂、相对较长时间范围的任务的情况下。然而，从头开始学习此类行为可能会导致数据效率低下。为了解决这个问题，我们提出了一种新颖的方法，即 DEFT DExterous Fine Tuning for Hand Policies，它利用人类驱动的先验，这些先验直接在现实世界中执行。为了改进这些先验，DEFT 涉及高效的在线优化过程。通过将基于人的学习和在线微调相结合，再加上软机器人手，DEFT 在各种任务中取得了成功，为通用灵巧操作建立了一条强大的、数据有效的途径。

DiffEnc: Variational Diffusion with a Learned Encoder
Authors Beatrix M. G. Nielsen, Anders Christensen, Andrea Dittadi, Ole Winther
扩散模型可以被视为分层变分自动编码器 VAE，具有生成过程中条件分布的参数共享和作为分层结构上的独立项的损失的有效计算的两项改进。我们考虑对扩散模型进行两项更改，保留这些优点，同时增加模型的灵活性。首先，我们在扩散过程中引入数据和深度相关的平均函数，这会导致修正的扩散损失。我们提出的框架 DiffEnc 在 CIFAR 10 上实现了最先进的可能性。其次，我们让反向编码器过程和生成过程的噪声方差之比成为自由权重参数，而不是固定为 1。这导致理论见解对于有限深度层次结构，证据下限 ELBO 可用作加权扩散损失方法的目标，并可专门用于优化推理的噪声表。

What's "up" with vision-language models? Investigating their struggle with spatial reasoning
Authors Amita Kamath, Jack Hessel, Kai Wei Chang
最近的视觉语言 VL 模型很强大，但它们能否可靠地区分左右？我们策划了三个新的语料库来量化模型对此类基本空间关系的理解。这些测试比 VQAv2 等现有数据集更精确地隔离空间推理，例如，我们的 What sUp 基准测试包含仅改变对象空间关系的照片集，保持其身份固定（参见图 1）模型不仅必须理解狗的常见情况一张桌子，而且，同一张桌子上有同一条狗。我们评估了 18 个 VL 模型，发现所有模型都表现不佳，例如，在 VQAv2 上进行微调的 BLIP，其在 VQAv2 上接近人类同等水平，在我们的基准上达到 56 的准确度，而人类的准确度为 99。我们通过研究这种令人惊讶的行为的原因得出结论，发现 1 像 LAION 2B 这样的流行视觉语言预训练语料库几乎不包含用于学习空间关系的可靠数据，2 基本的建模干预措施（例如包含实例的加权介词或对我们的语料库进行微调）是不够的解决我们的基准带来的挑战。

Tell Me What Is Good About This Property: Leveraging Reviews For Segment-Personalized Image Collection Summarization
Authors Monika Wysoczanska, Moran Beladev, Karen Lastmann Assaraf, Fengjun Wang, Ofri Kleinfeld, Gil Amsalem, Hadas Harush Boker
图像收集摘要技术旨在通过精心选择的图像子集来捕获其语义内容，从而呈现图像库的紧凑表示。然而，当涉及到网络内容时，理想的选择可能会根据用户的具体意图和偏好而有所不同。

Promise:Prompt-driven 3D Medical Image Segmentation Using Image Models
Authors Hao Li, Han Liu, Dewei Hu, Jiacheng Wang, Ipek Oguz
为了解决医学成像中的普遍问题，例如数据采集挑战和标签可用性，从自然图像领域到医学图像领域的迁移学习是产生可靠分割结果的可行策略。然而，领域之间的一些现有障碍需要打破，包括解决对比度差异、管理解剖变异性以及针对 3D 分割任务调整 2D 预训练模型。在本文中，我们提出了 ProMISe，这是一种提示驱动的 3D 医学图像分割模型，仅使用单点提示来利用来自预训练的 2D 图像基础模型的知识。特别是，我们使用 Segment Anything Model SAM 中的预训练视觉转换器，并集成轻量级适配器来提取与深度相关的 3D 空间上下文，而无需更新预训练权重。为了获得稳健的结果，设计了具有互补编码器的混合网络，并提出了边界感知损失来实现精确的边界。我们分别在结肠和胰腺肿瘤分割的两个公共数据集上评估我们的模型。与有或没有即时工程的最先进的分割方法相比，我们提出的方法实现了优越的性能。

A Principled Hierarchical Deep Learning Approach to Joint Image Compression and Classification
Authors Siyu Qi, Achintha Wijesinghe, Lahiru D. Chamain, Zhi Ding
在涉及低成本传感器的深度学习 DL 应用中，远程图像分类涉及将边缘传感器和云分类器分开的物理通道。传统的深度学习模型必须分为传感器编码器和边缘服务器的解码器分类器。一个重要的挑战是当连接通道的速率容量有限时有效地训练这种分布式模型。我们的目标是优化深度学习模型，使编码器潜在需要低通道带宽，同时仍然提供高分类精度的特征信息。这项工作提出了一种三步联合学习策略，以指导编码器提取紧凑、有辨别力且适合常见增强变换的特征。我们在端到端端到端训练之前通过初始筛选阶段优化潜在维度。为了通过单个预部署的编码器获得可调整的比特率，我们对潜在表示应用基于熵的量化和/或手动截断。

Domain Generalization in Computational Pathology: Survey and Guidelines
Authors Mostafa Jahanifar, Manahil Raza, Kesi Xu, Trinh Vuong, Rob Jewsbury, Adam Shephard, Neda Zamanitajeddin, Jin Tae Kwak, Shan E Ahmed Raza, Fayyaz Minhas, Nasir Rajpoot
通过处理一系列组织学图像分析应用程序中的复杂任务，深度学习模型在计算病理学 CPath 中表现出了卓越的有效性。然而，来自多种来源（例如不同的成像设备和不同的组织制备方法）的分布外数据的存在可能会导致 emph 域移位 DS 。 DS 降低了训练模型对数据分布略有不同的未见数据集的泛化，从而促进了对创新 emph 域泛化 DG 解决方案的需求。认识到 DG 方法显着影响癌症研究和临床实践中的诊断和预后模型的潜力，我们提出了这项调查以及在 CPath 中实现 DG 的指南。我们严格定义各种 DS 类型，系统地审查和分类 CPath 中现有的 DG 方法和资源，并深入了解它们的优点、局限性和适用性。我们还使用 28 种尖端 DG 算法进行彻底的基准测试实验，以解决复杂的 DG 问题。我们的研究结果表明，仔细的实验设计和 CPath 特定的染色增强技术可能非常有效。然而，CPath 中的 DG 没有一种万能的解决方案。因此，我们根据不同的场景制定了明确的检测和管理DS的指南。

Upgrading VAE Training With Unlimited Data Plans Provided by Diffusion Models
Authors Tim Z. Xiao, Johannes Zenn, Robert Bamler
变分自动编码器 VAE 是表示学习的流行模型，但它们的编码器很容易过度拟合 Cremer 等人，2018，因为它们是在有限训练集上训练的，而不是真正的连续数据分布 p mathrm data mathbf x 。另一方面，扩散模型通过保持编码器固定来避免这个问题。这使得它们的表示难以解释，但它简化了训练，从而能够准确且连续地逼近 p mathrm 数据 mathbf x 。在本文中，我们表明，通过对预先训练的扩散模型中的样本进行训练，可以有效地减轻 VAE 中的过度拟合编码器。这些结果有些出乎意料，因为最近的发现 Alemohammad et al., 2023 Shumailov et al., 2023 观察到当模型根据另一个生成模型生成的数据进行训练时，生成性能会下降。我们分析了在三个不同数据集上使用我们提出的方法训练的 VAE 的泛化性能、摊销差距和鲁棒性。

Large Trajectory Models are Scalable Motion Predictors and Planners
Authors Qiao Sun, Shiduo Zhang, Danjiao Ma, Jingzhe Shi, Derun Li, Simian Luo, Yu Wang, Ningyi Xu, Guangzhi Cao, Hang Zhao
运动预测和规划是自动驾驶中的重要任务，最近的工作已经转向基于机器学习的方法。挑战包括理解不同的道路拓扑、推理长期的交通动态、解释异构行为以及在大型连续状态空间中生成策略。受到大型语言模型通过模型扩展解决类似复杂性的成功的启发，我们引入了一种名为 State Transformer STR 的可扩展轨迹模型。 STR 通过将观察、状态和动作安排到一个统一的序列建模任务中，重新表述了运动预测和运动规划问题。通过简单的模型设计，STR 在这两个问题上始终优于基线方法。值得注意的是，实验结果表明，大型轨迹模型 LTM（例如 STR）通过表现出出色的适应性和学习效率来遵循缩放定律。定性结果进一步表明，LTM 能够在与训练数据分布显着不同的场景中做出合理的预测。

Deep Learning for Visual Navigation of Underwater Robots
Authors M. Sunbeam
本文旨在简要概述水下机器人视觉导航的深度学习方法。本文的范围包括采用深度学习方法的水下机器人视觉感知、可用的视觉水下数据集、模仿学习和用于导航的强化学习方法。此外，相关工作将被归类为水下机器人的模仿学习或深度学习范式，以明确当前情况下的训练方法。

Generative Neural Fields by Mixtures of Neural Implicit Functions
Authors Tackgeun You, Mijeong Kim, Jungtaek Kim, Bohyung Han
我们提出了一种新的方法来学习由隐式基础网络的线性组合表示的生成神经场。我们的算法通过进行元学习或采用自动解码范例，以隐式神经表示形式及其系数在潜在空间中学习基础网络。该方法通过增加基础网络的数量，轻松扩大生成神经场的容量，同时通过加权模型平均保持推理网络的规模较小。因此，使用该模型对实例进行采样在延迟和内存占用方面非常高效。此外，我们为目标任务定制了去噪扩散概率模型来采样潜在的混合系数，这使得我们的最终模型能够有效地生成看不见的数据。

Intelligent Breast Cancer Diagnosis with Heuristic-assisted Trans-Res-U-Net and Multiscale DenseNet using Mammogram Images
Authors Muhammad Yaqub, Feng Jinchao
乳腺癌 BC 显着增加女性癌症相关死亡率，这凸显了早期检测对于最佳患者治疗结果的重要性。乳房X光检查是识别和诊断乳房异常的关键工具，然而，准确区分恶性肿块病变仍然具有挑战性。为了解决这个问题，我们提出了一种利用乳房 X 线摄影图像进行 BC 筛查的新颖深度学习方法。我们提出的模型包括从已建立的基准源收集数据的三个不同阶段、采用基于 Atrous Convolution 的 Atrous Convolution Attentive 和 Adaptive Trans Res UNet ACA ATRUNet 架构的图像分割，以及通过基于 Atrous Convolution 的 Atrous Convolution Attentive 和 Adaptive Multi-scale DenseNet ACA AMDN 模型进行 BC 识别。 ACA ATRUNet 和 ACA AMDN 模型中的超参数使用基于修改贻贝长度的欧亚蛎鹬优化 MML EOO 算法进行优化。利用多个指标进行绩效评估，并与传统方法进行比较分析。

Generated Distributions Are All You Need for Membership Inference Attacks Against Generative Models
Authors Minxing Zhang, Ning Yu, Rui Wen, Michael Backes, Yang Zhang
生成模型在各种视觉创作任务中展现了革命性的成功，但与此同时，它们也面临着泄露训练数据私人信息的威胁。已经提出了几种成员推理攻击 MIA，通过将查询图像分类为训练数据集成员或非成员来展示生成模型的隐私漏洞。然而，这些攻击受到很大的限制，例如需要影子模型和白盒访问，并且忽略或只关注扩散模型的独特属性，这阻碍了它们推广到多个生成模型。相比之下，我们提出了针对各种生成模型的第一个广义成员推理攻击，例如生成对抗网络、变分自动编码器、隐式函数和新兴的扩散模型。我们仅利用目标生成器和辅助非成员数据集生成的分布，因此将目标生成器视为黑匣子并且对其架构或应用场景不可知。实验验证所有生成模型都容易受到我们的攻击。例如，我们的工作针对在 CIFAR 10 和 CelebA 上训练的 DDPM、DDIM 和 FastDPM 实现了攻击 AUC 0.99。针对VQGAN、用于文本条件生成的LDM和LIIF的攻击达到了AUC 0.90。

A Clinical Guideline Driven Automated Linear Feature Extraction for Vestibular Schwannoma
Authors Navodini Wijethilake, Steve Connor, Anna Oviedova, Rebecca Burger, Tom Vercauteren, Jonathan Shapey
前庭神经鞘瘤是一种良性脑肿瘤，从平衡神经之一生长。患者可以通过手术、放射外科或保守的等待和扫描策略进行治疗。临床医生通常使用手动提取的线性测量来帮助临床决策。这项工作旨在通过使用基于深度学习的分割通过计算算法提取相关的临床特征来自动化和改进这一过程。据我们所知，我们的研究是第一个提出一种自动化方法来复制当地临床指南的研究。我们基于深度学习的分割为 T2 加权 MRI 的肉外和整个肿瘤区域提供的 Dice 分数分别为 0.8124 0.2343 和 0.8969 0.0521，而 T1 加权 MRI 的 Dice 分数为 0.8222 0.2108 和 0.9049 0.0646。我们提出了一种新的算法，根据肿瘤肉外部分的大小从分割区域中选择和提取最合适的最大线性测量。使用该工具，将为临床医生提供与肿瘤进展相关的视觉指南和相关指标，作为临床决策辅助。在这项研究中，我们利用了 50 名转诊至英国三级专科神经外科服务机构的患者的 187 次扫描结果。

Balance, Imbalance, and Rebalance: Understanding Robust Overfitting from a Minimax Game Perspective
Authors Yifei Wang, Liangchen Li, Jiansheng Yang, Zhouchen Lin, Yisen Wang
对抗性训练 AT 可以说已经成为提取鲁棒特征的最先进算法。然而，研究人员最近注意到 AT 存在严重的鲁棒过拟合问题，特别是在学习率 LR 衰减之后。在本文中，我们通过将对抗训练视为模型训练者和攻击者之间的动态极小极大博弈来解释这一现象。具体来说，我们分析了 LR 衰减如何通过赋予训练者更强的记忆能力来打破极小极大游戏之间的平衡，并表明这种不平衡会由于记忆非鲁棒特征而导致鲁棒过拟合。我们通过大量的实验验证了这种理解，并从两个游戏玩家的动态中提供了稳健过度拟合的整体视图。这种理解进一步启发我们通过调整训练器的能力或提高攻击强度来重新平衡两个玩家来减轻鲁棒的过度拟合。实验表明，所提出的 ReBalanced Adversarial Training ReBAT 可以获得良好的鲁棒性，即使经过很长时间的训练也不会出现鲁棒过拟合的情况。

Label-Only Model Inversion Attacks via Knowledge Transfer
Authors Ngoc Bao Nguyen, Keshigeyan Chandrasegaran, Milad Abdollahzadeh, Ngai Man Cheung
在模型反转 MI 攻击中，攻击者滥用机器学习 ML 模型的访问权限来推断和重建私有训练数据。白盒和黑盒设置取得了显着进展，对手可以分别访问完整模型或模型的软输出。

On Measuring Fairness in Generative Models
Authors Christopher T. H. Teo, Milad Abdollahzadeh, Ngai Man Cheung
最近，人们对公平生成模型的兴趣日益浓厚。在这项工作中，我们首次对公平性测量进行了深入研究，这是衡量公平生成模型进展的关键组成部分。我们做出三项贡献。首先，我们进行的一项研究表明，即使使用高精度的敏感属性 SA 分类器，现有的公平性测量框架也存在相当大的测量误差。这些发现对之前报道的公平性改进提出了质疑。其次，为了解决这个问题，我们提出了 CLassifier Error AwareMeasurement CLEAM，这是一个新框架，它使用统计模型来解释 SA 分类器中的不准确性。我们提出的 CLEAM 显着减少了测量误差，例如，StyleGAN2 w.r.t. 为 4.98 rightarrow 0.62。性别。此外，CLEAM 以最小的额外开销实现了这一点。第三，我们利用 CLEAM 来衡量重要文本与图像生成器和 GAN 的公平性，揭示了这些模型中相当大的偏差，引起了人们对其应用的担忧。

FetusMapV2: Enhanced Fetal Pose Estimation in 3D Ultrasound
Authors Chaoyu Chen, Xin Yang, Yuhao Huang, Wenlong Shi, Yan Cao, Mingyuan Luo, Xindi Hu, Lei Zhue, Lequan Yu, Kejuan Yue, Yuanji Zhang, Yi Xiong, Dong Ni, Weijun Huang
3D 超声超声中的胎儿姿势估计涉及识别一组相关的胎儿解剖标志。其主要目标是通过地标连接提供有关胎儿的全面信息，从而有利于各种关键应用，例如生物识别测量、平面定位和胎儿运动监测。然而，准确估计 US 体积中的 3D 胎儿姿势存在一些挑战，包括图像质量差、处理高维数据的 GPU 内存有限、对称或模糊的解剖结构以及胎儿姿势的相当大的变化。在本研究中，我们提出了一种名为 FetusMapV2 的新型 3D 胎儿姿势估计框架来克服上述挑战。我们的贡献是三倍的。首先，我们提出了一种启发式方案，探索无约束的互补网络结构和激活无保留的 GPU 内存管理方法，可以在有限的 GPU 内存下扩大输入图像分辨率以获得更好的结果。其次，我们设计了一种新颖的配对丢失，以减轻由对称和相似的解剖结构引起的混乱。它将隐藏分类任务与地标定位任务分开，从而逐步简化模型学习。最后，我们提出了一种基于形状先验的自监督学习，通过选择相对稳定的地标来在线改进姿势。

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation
Authors Yao Yao, Peike Li, Boyu Chen, Alex Wang
随着生成人工智能的快速发展，文本到音乐合成任务已成为从头开始生成音乐的一个有前途的方向。然而，对多轨生成的更细粒度控制仍然是一个开放的挑战。现有模型表现出强大的原始生成能力，但缺乏创作单独曲目并以可控方式组合它们的灵活性，这与人类作曲家的典型工作流程不同。为了解决这个问题，我们提出了 JEN 1 Composer，这是一个统一的框架，可以通过单个模型有效地模拟多轨音乐的边际分布、条件分布和联合分布。 JEN 1 Composer 框架展示了无缝整合任何基于扩散的音乐生成系统（例如 textit）的能力。 Jen 1，增强了其多功能多轨音乐生成的能力。我们引入了一种课程培训策略，旨在逐步指导模型从单轨生成过渡到多轨组合的灵活生成。在推理过程中，用户能够迭代地制作和选择满足其偏好的音乐曲目，随后按照提议的人类人工智能协同创作工作流程逐步创建整个音乐作品。定量和定性评估展示了可控和高保真多轨音乐合成的最先进性能。拟议的 JEN 1 Composer 代表了交互式 AI 促进音乐创作和作曲的重大进步。

Learning to Follow Object-Centric Image Editing Instructions Faithfully
Authors Tuhin Chakrabarty, Kanishk Singh, Arkadiy Saakyan, Smaranda Muresan
自然语言指令是一个强大的界面，用于编辑文本到图像扩散模型的输出。然而，需要解决几个挑战 1 规范不足，需要对指令的隐含含义进行建模 2 需要本地化必须执行编辑的位置，3 忠实性需要保留不受编辑指令影响的图像元素。目前专注于使用自然语言指令进行图像编辑的方法依赖于自动生成的配对数据，正如我们的调查所示，这些数据充满噪音，有时甚至是无意义的，从而加剧了上述问题。基于分割、思维链提示和视觉问答方面的最新进展，我们显着提高了配对数据的质量。此外，我们通过突出显示需要由指令更改的图像部分来增强监督信号。根据改进的数据进行微调的模型能够比最先进的基线更好地执行以对象为中心的细粒度编辑，从而缓解上述问题，如自动和人工评估所示。

TIC-TAC: A Framework To Learn And Evaluate Your Covariance
Authors Megh Shukla, Mathieu Salzmann, Alexandre Alahi
我们研究无监督异方差协方差估计问题，其目标是在给定观测值 x 的情况下学习多元目标分布数学 N y, Sigma y x 。这个问题特别具有挑战性，因为 Sigma y 对于不同样本异方差而变化，并且在无监督的情况下无法提供协方差注释。通常，最先进的方法通过使用负对数似然训练的两个神经网络来预测目标分布的均值 f theta x 和协方差 textrm Cov f theta x。这就提出了两个问题 1 预测协方差是否真正捕获了预测均值的随机性 2 在没有真实注释的情况下，我们如何量化协方差估计的性能我们通过推导 TIC 泰勒诱导协方差来解决 1，它捕获了通过二阶泰勒多项式合并 x 周围的梯度和曲率，得到多元 f theta x。此外，我们通过引入 TAC 任务无关相关性来解决第二个问题，这是一种利用正态分布条件来评估协方差的指标。我们通过涵盖合成单变量、多变量和现实世界数据集 UCI 回归、LSP 和 MPII 人体姿势估计的多项实验验证了 TIC 的有效性。

Adversarial Examples Are Not Real Features
Authors Ang Li, Yifei Wang, Yiwen Guo, Yisen Wang
多年来，对抗性例子的存在一直是个谜，并引起了人们的广泛兴趣。 citet ilyas2019adversarial 的一项著名理论从数据角度解释了对抗性脆弱性，该理论表明人们可以从对抗性示例中提取非鲁棒特征，并且这些特征本身就可用于分类。然而，这种解释仍然非常违反直觉，因为非鲁棒特征对人类来说大多是噪声特征。在本文中，我们通过结合多种学习范式，从更大的背景下重新审视该理论。值得注意的是，我们发现，与监督学习下的良好用途相反，非鲁棒特征在转移到其他自监督学习范式（例如对比学习、掩模图像建模和扩散模型）时却变得很差。它揭示了非鲁棒特征实际上并不像在这些范式之间具有良好可转移性的鲁棒或自然特征那么有用。同时，为了鲁棒性，我们还表明，根据鲁棒特征自然训练的编码器在 AutoAttack 下很大程度上是不鲁棒的。我们的跨范式检查表明，非鲁棒特征并不是真正有用，而更像是范式明智的捷径，并且单独的鲁棒特征可能不足以获得可靠的模型鲁棒性。

Label Poisoning is All You Need
Authors Rishi D. Jha, Jonathan Hayase, Sewoong Oh
在后门攻击中，攻击者将损坏的数据注入模型的训练数据集中，以便通过特定的攻击者定义的触发器来控制其对图像的预测。典型的损坏的训练示例需要通过应用触发器来更改图像和标签。因此，在干净图像上训练的模型被认为不会受到后门攻击。然而，在一些常见的机器学习场景中，训练标签是由潜在的恶意第三方提供的。这包括众包注释和知识蒸馏。因此，我们研究一个基本问题：我们能否仅通过破坏标签来发起成功的后门攻击？我们引入了一种设计仅标签后门攻击的新颖方法，我们称之为 FLIP，并在三个数据集 CIFAR 10、CIFAR 100 和 CIFAR 100 上展示了其优势。 Tiny ImageNet 和四种架构 ResNet 32、ResNet 18、VGG 19 和 Vision Transformer 。由于只有 2 个 CIFAR 10 标签被损坏，FLIP 实现了 99.4 近乎完美的攻击成功率，而干净测试精度仅下降了 1.8。

InstanT: Semi-supervised Learning with Instance-dependent Thresholds
Authors Muyang Li, Runze Wu, Haoyu Liu, Jun Yu, Xun Yang, Bo Han, Tongliang Liu
半监督学习 SSL 几十年来一直是机器学习领域的一个基本挑战。 SSL 算法的主要系列称为伪标记，涉及将伪标签分配给可信的未标记实例并将其合并到训练集中。因此，可信实例的选择标准对于 SSL 的成功至关重要。最近，人们对开发使用动态或自适应阈值的 SSL 方法越来越感兴趣。然而，这些方法通常对所有样本应用相同的阈值，或者对属于特定类别的实例使用依赖于类别的阈值，同时忽略实例级别信息。在本文中，我们提出了实例相关阈值的研究，与现有方法相比，它具有最高的自由度。具体来说，我们通过利用实例级模糊性和伪标签的实例相关错误率，为所有未标记实例设计了一种新颖的实例相关阈值函数，因此更有可能具有不正确伪标签的实例将具有更高的阈值。

Differentiable Learning of Generalized Structured Matrices for Efficient Deep Neural Networks
Authors Changwoo Lee, Hun Seok Kim
本文研究了高效的深度神经网络 DNN，用具有所需属性的结构化矩阵取代密集的非结构化权重矩阵。之所以出现挑战，是因为流行的神经网络模型中的最佳权重矩阵结构在大多数情况下都是模糊的，并且即使在同一网络中，各层之间也可能有所不同。先前为高效 DNN 提出的结构化矩阵大多是手工制作的，没有通用框架来系统地学习它们。为了解决这个问题，我们提出了一个通用且可微的框架，通过梯度下降来学习权重矩阵的有效结构。我们首先通过调整结构参数定义了一类新的结构化矩阵，它涵盖了文献中广泛的结构化矩阵。然后，采用基于高斯狄利克雷核的频域可微参数化方案，通过近端梯度下降来学习结构参数。最后，我们为所提出的方案引入了一种有效的初始化方法。

Rethinking Semi-Supervised Federated Learning: How to co-train fully-labeled and fully-unlabeled client imaging data
Authors Pramit Saha, Divyanshu Mishra, J. Alison Noble
半监督联邦学习 SSFL 最具挑战性但最实用的设置是，少数客户端拥有完全标记的数据，而其他客户端则拥有完全未标记的数据。这在医疗保健环境中尤其常见，其中合作伙伴通常是医院可能有图像但没有注释。这种设置的瓶颈是标记和未标记客户端的联合训练，因为每个客户端的目标函数根据标签的可用性而变化。本文研究了一种在联合环境中对标记和未标记客户端进行有效培训的替代方法。我们提出了一种专门为 SSFL 设计的新颖学习方案，我们称之为隔离联合学习 IsoFed，它通过避免监督和半监督模型的简单平均来规避这个问题。特别是，我们的训练方法由两部分组成：标记和未标记客户端模型的孤立聚合，以及所有客户端中孤立全局模型的本地自监督预训练。我们在生物医学图像分类基准 MedMNIST 中公开提供的四种不同模式的医学图像数据集上评估我们的模型性能。

OC-NMN: Object-centric Compositional Neural Module Network for Generative Visual Analogical Reasoning
Authors Rim Assouel, Pau Rodriguez, Perouz Taslakian, David Vazquez, Yoshua Bengio
人类智力的一个关键方面是能够想象以新颖的方式构建所学概念以理解新场景的能力。机器学习系统尚未达到这种能力。在这项工作中，在视觉推理的背景下，我们展示了如何利用模块化来派生受想象力启发的组合数据增强框架。我们的方法，表示为以对象为中心的组合神经模块网络 OC NMN ，将视觉生成推理任务分解为一系列应用于对象的原语，而不使用特定领域的语言。我们表明，我们的模块化架构选择可用于生成新的训练任务，从而实现更好的分布泛化。

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting
Authors Hejie Cui, Xinyu Fang, Zihan Zhang, Ran Xu, Xuan Kan, Xin Liu, Yue Yu, Manling Li, Yangqiu Song, Carl Yang
图像包含丰富的关系知识，可以帮助机器理解世界。现有的视觉知识提取方法通常依赖于预定义的格式（例如子动词 obj 元组）或词汇（例如关系类型），限制了提取知识的表达能力。在这项工作中，我们首次探索开放视觉知识提取的新范式。为了实现这一目标，我们提出了 OpenVik，它由一个开放关系区域检测器和一个视觉知识生成器组成，开放关系区域检测器用于检测可能包含关系知识的区域，视觉知识生成器通过使用检测到的感兴趣区域提示大型多模态模型来生成格式无关的知识。我们还探索了两种数据增强技术，使生成的无格式视觉知识多样化。广泛的知识质量评估凸显了OpenVik提取的开放视觉知识的正确性和唯一性。

Online Multi-view Anomaly Detection with Disentangled Product-of-Experts Modeling
Authors Hao Wang, Zhi Qi Cheng, Jingdong Sun, Xin Yang, Xiao Wu, Hongyang Chen, Yan Yang
多视图甚至多模态数据对于现实世界的应用来说既有吸引力又具有挑战性。检测多视图数据中的异常是最近的一个突出研究主题。然而，大多数现有方法1仅适用于两种视图或特定类型的异常，2存在融合解缠问题，3不支持模型部署后的在线检测。为了应对这些挑战，我们在本文中的主要思想是三重多视图学习、解缠结表示学习和生成模型。为此，我们提出了 dPoE，一种新颖的多视图变分自动编码器模型，其中涉及 1 个处理多视图数据的专家 PoE 层，2 个解开视图公共和视图特定表示的总校正 TC 鉴别器，以及 3 个联合损失包装所有组件的功能。此外，我们设计了理论信息界限来控制视图公共和视图特定表示。

Electrical Impedance Tomography: A Fair Comparative Study on Deep Learning and Analytic-based Approaches
Authors Derick Nganyu Tanyu, Jianfeng Ning, Andreas Hauptmann, Bangti Jin, Peter Maass
电阻抗断层扫描 EIT 是一种强大的成像技术，具有多种应用，例如医学诊断、工业监测和环境研究。 EIT 反问题是根据物体边界上的测量来推断物体的内部电导率分布。它是严重不适定的，需要先进的计算方法来进行精确的图像重建。近年来，在基于分析的方法和深度学习的创新推动下，取得了重大进展。本综述探讨了解决 EIT 逆问题的技术，重点关注当代基于深度学习的策略与基于经典分析的方法之间的相互作用。四种最先进的深度学习算法经过严格检查，利用深度神经网络的表征能力来重建复杂的电导率分布。同时，对两种植根于数学公式和正则化技术的基于分析的方法进行了剖析，了解它们的优点和局限性。这些方法通过各种数值实验进行评估，涵盖反映现实世界复杂性的各种场景。采用一套性能指标来评估这些方法的有效性。这些指标共同提供了对捕获基本特征和描绘复杂电导率模式的方法能力的细致理解。该研究的一个新颖特点是结合了可变的电导率场景，引入了模仿纹理内含物的一定程度的异质性。这种与均匀电导率假设的偏离模拟了组织或材料表现出空间变化的电特性的现实场景。

Domain Generalisation via Risk Distribution Matching
Authors Toan Nguyen, Kien Do, Bao Duong, Thin Nguyen
我们提出了一种新的领域泛化 DG 方法，利用风险分布来表征领域，从而实现领域不变性。在我们的研究结果中，风险分布有效地突出了培训领域之间的差异并揭示了它们固有的复杂性。在测试中，我们可能会观察到风险分布之间存在类似的差异，或者程度可能加剧的差异。因此，我们提出了一个令人信服的命题：最小化跨训练领域的风险分布之间的差异，从而实现 DG 的稳健不变性。这个概念背后的关键原理是，在领域不变或稳定特征上训练的模型可以在不同领域一致地产生类似的风险分布。基于这个想法，我们提出了风险分布匹配 RDM。 RDM 使用最大平均差异 MMD 距离，旨在最小化训练域中风险分布的方差。然而，当域数量增加时，直接优化方差会导致MMD计算量线性增长，导致效率低下。相反，我们提出了一种仅需要一次 MMD 计算的近似值，只需对齐最坏情况域的两个分布和所有域的聚合分布。值得注意的是，该方法在经验上优于优化分布方差，同时计算效率更高。与传统的 DG 匹配算法不同，RDM 因其专注于标量风险分布而增强的功效而脱颖而出，避开了特征或梯度匹配中出现的高维挑战的陷阱。

A General Framework for Robust G-Invariance in G-Equivariant Networks
Authors Sophia Sanborn, Nina Miolane
我们介绍了一种在群等变卷积神经网络 G CNN 中实现鲁棒群不变性的通用方法，我们将其称为 G 三重相关 G TC 层。该方法利用了群的三重相关理论，这是唯一的、也是完整的最低次多项式不变图。许多常用的不变图（例如最大值）是不完整的，它们删除了组和信号结构。相比之下，完全不变量仅消除由于群体行为而产生的变化，同时保留有关信号结构的所有信息。三重相关性的完整性赋予了 G TC 层强大的鲁棒性，这可以从其对基于不变性的对抗性攻击的抵抗力中观察到。此外，我们观察到，与 G CNN 架构中的标准 Max G Pooling 相比，它在分类精度方面产生了可测量的改进。我们为任何离散群提供了该方法的通用且有效的实现，这仅需要一个定义群的产品结构的表。我们证明了这种方法对于在交换基团和非交换基团 SO 2 、 O 2 、 SO 3 和 O 3 上定义的 G CNN 的好处，这些基团离散为循环 C8 、二面体 D16 、手性八面体 O 和全八面体 O h 基团

Optimization-Free Test-Time Adaptation for Cross-Person Activity Recognition
Authors Shuoyuan Wang, Jindong Wang, HuaJun Xi, Bob Zhang, Lei Zhang, Hongxin Wei
人类活动识别 HAR 模型在现实世界的应用中经常会因个体活动模式的分布变化而出现性能下降。测试时间适应 TTA 是一种新兴的学习范式，旨在利用测试流来调整实时推理中的预测，这在 HAR 中尚未被探索过。然而，基于优化的 TTA 算法的高计算成本使其难以在资源受限的边缘设备上运行。在本文中，我们提出了一种用于基于传感器的 HAR 的优化免费测试时间适应 OFTTA 框架。 OFTTA 以免优化的方式同时调整特征提取器和线性分类器。对于特征提取器，我们提出指数衰减测试时间归一化 EDTN 来取代传统的批量归一化 CBN 层。 EDTN 结合了 CBN 和测试时间批量归一化 TBN，针对域转移提取可靠的特征，TBN 的影响在更深的层中呈指数级下降。对于分类器，我们通过计算特征和原型之间的距离来调整预测，该距离是通过维护的支持集计算的。此外，支持集的更新是基于伪标签的，这可以受益于EDTN提取的可靠特征。对三个公共跨人 HAR 数据集和两个不同 TTA 设置的广泛实验表明，OFTTA 在分类性能和计算效率方面均优于最先进的 TTA 方法。最后，我们验证了我们提出的 OFTTA 在边缘设备上的优越性，表明了在实际应用中的可能部署。

Apollo: Zero-shot MultiModal Reasoning with Multiple Experts
Authors Daniela Ben David, Tzuf Paz Argaman, Reut Tsarfaty
我们提出了一个模块化框架，利用不同模式和领域的不同基础模型的专业知识，以便执行单一、复杂、多模式任务，而不依赖于即时工程或其他定制的多模式训练。我们的方法可以实现分散的命令执行，并允许每个模型都可以从其他模型的专业知识中做出贡献并从中受益。我们的方法可以扩展到各种基础模型，包括音频和视觉，不仅仅是语言模型，因为它不依赖于提示。我们在两项任务上展示了我们的方法。在众所周知的风格化图像字幕任务中，我们的实验表明，我们的方法优于半监督的最先进模型，同时是零样本并避免了昂贵的培训、数据收集和即时工程。我们在一项新颖的任务（音频感知图像字幕）上进一步演示了这种方法，其中给出图像和音频，任务是生成在所提供的音频上下文中描述图像的文本。

Unsupervised Learning of Molecular Embeddings for Enhanced Clustering and Emergent Properties for Chemical Compounds
Authors Jaiveer Gill, Ratul Chakraborty, Reetham Gubba, Amy Liu, Shrey Jain, Chirag Iyer, Obaid Khwaja, Saurav Kumar
对分子结构和性质的详细分析对于通过机器学习进行药物开发发现具有巨大的潜力。在模型中开发新的属性来理解分子将拓宽新计算工具的开发视野。我们介绍了根据 SMILES 数据检测和聚类化合物的各种方法。我们的第一种方法是使用嵌入数据分析化合物的图形结构，采用矢量搜索来满足我们的阈值。结果产生了明显、集中的簇，并且该方法在查询和理解化合物方面产生了良好的结果。我们还使用了存储在 GPT3.5 向量数据库中的自然语言描述嵌入，其性能优于基本模型。

Meaning Representations from Trajectories in Autoregressive Models
Authors Tian Yu Liu, Matthew Trager, Alessandro Achille, Pramuditha Perera, Luca Zancato, Stefano Soatto
我们建议通过考虑扩展输入文本的所有可能轨迹的分布，从自回归语言模型中提取含义表示。该策略是免费的，不需要微调，并且适用于任何预先训练的自回归模型。此外，与基于向量的表示不同，基于分布的表示还可以通过使用似然函数之间的代数运算来建模不对称关系，例如逻辑蕴涵的方向、上位下位关系。这些想法基于语义的分布视角，并与自动机理论中的标准结构相关，但据我们所知，它们尚未应用于现代语言模型。我们凭经验表明，从大型模型获得的表示与人类注释非常吻合，在语义相似性任务上优于其他零样本和无提示方法，并且可用于解决标准嵌入无法处理的更复杂的蕴含和包含任务。

Data-Free Distillation Improves Efficiency and Privacy in Federated Thorax Disease Analysis
Authors Ming Li, Guang Yang
大规模、多中心和多扫描仪设置中的胸部疾病分析通常受到严格的隐私政策的限制。联邦学习 FL 提供了一种潜在的解决方案，而传统的基于参数的 FL 可能会受到通信成本高、数据泄漏和异构性等问题的限制。基于蒸馏的 FL 可以提高效率，但它依赖于代理数据集，这在临床实践中通常不切实际。为了应对这些挑战，我们引入了一种基于无数据蒸馏的 FL 方法 FedKDF。在 FedKDF 中，服务器采用轻量级生成器来聚合来自不同客户端的知识，而无需访问其私有数据或代理数据集。 FedKDF 将来自客户端的预测器组合成一个统一的预测器，并使用轻量级生成器中学到的知识进一步优化该预测器。

WordArt Designer: User-Driven Artistic Typography Synthesis using Large Language Models
Authors Jun Yan He, Zhi Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Yusen Hu, Bin Luo, Yifeng Geng, Xuansong Xie, Jingren Zhou
本文介绍了 WordArt Designer，这是一个用户驱动的艺术排版合成框架，依赖于大型语言模型法学硕士。该系统包含四个关键模块：LLM Engine、SemTypo、StyTypo 和 TexTypo 模块。 1 LLM Engine 由 LLM（例如 GPT 3.5 Turbo）支持，解释用户输入并为其他模块生成可操作的提示，从而将抽象概念转化为有形设计。 2 SemTypo 模块利用语义概念优化字体设计，在艺术转化和可读性之间取得平衡。 3 StyTypo 模块以 SemTypo 模块提供的语义布局为基础，创建平滑、精致的图像。 4 TexTypo 模块通过纹理渲染进一步增强设计美感，从而能够生成创造性的纹理字体。值得注意的是，艺术字设计器强调了生成式人工智能与艺术排版的融合。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com