【AI视野·今日CV 计算机视觉论文速览第257期】Fri, 29 Sep 2023

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 29 Sep 2023
Totally 99 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Learning to Transform for Generalizable Instance-wise Invariance
Authors Utkarsh Singhal, Carlos Esteves, Ameesh Makadia, Stella X. Yu
计算机视觉研究长期以来一直致力于构建对自然数据中的空间变换具有鲁棒性的系统。传统上，这是通过使用数据增强或将不变性硬编码到架构中来完成的。然而，太多或太少的不变性都会造成伤害，并且正确的数量是先验未知的并且取决于实例。

Demystifying CLIP Data
Authors Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po Yao Huang, Russell Howes, Vasu Sharma, Shang Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer
对比语言图像预训练 CLIP 是一种在计算机视觉领域拥有先进研究和应用的方法，为现代识别系统和生成模型提供了动力。我们相信 CLIP 成功的主要因素是它的数据，而不是模型架构或预训练目标。然而，CLIP 仅提供有关其数据及其收集方式的非常有限的信息，从而导致了旨在通过使用其模型参数进行过滤来重现 CLIP 数据的工作。在这项工作中，我们打算揭示 CLIP 的数据管理方法，并为了向社区开放，引入元数据管理语言图像预训练 MetaCLIP。 MetaCLIP 采用原始数据池和源自 CLIP 概念的元数据，并在元数据分布上生成平衡的子集。我们的实验研究严格隔离模型和训练设置，仅关注数据。 MetaCLIP 应用于具有 400M 图像文本数据对的 CommonCrawl，在多个标准基准测试中优于 CLIP 的数据。在零样本 ImageNet 分类中，MetaCLIP 达到了 70.8 的准确率，超过了 ViT B 模型上 CLIP 的 68.3。扩展到 1B 数据，同时保持相同的训练预算，达到 72.4 。我们的观察结果适用于各种模型尺寸，例如 ViT H 达到 80.5，没有任何附加功能。

Decaf: Monocular Deformation Capture for Face and Hand Interactions
Authors Soshi Shimada, Vladislav Golyanik, Patrick P rez, Christian Theobalt
现有的单目 RGB 视频 3D 跟踪方法主要考虑铰接式物体和刚性物体。到目前为止，在这种情况下对密集非刚性物体变形进行建模在很大程度上仍未得到解决，尽管这种效果可以提高 AR VR 和头像通信等下游应用的真实感。这是由于单眼视图设置的严重不适以及相关的挑战。虽然可以使用 3D 模板或参数化 3D 模型来独立跟踪多个非刚性对象，但这种方法会在生成的 3D 估计中遭受多种伪影的影响，例如深度模糊、不自然的对象内碰撞以及丢失或不可信的变形。因此，本文介绍了第一种方法，该方法可解决上述基本挑战，并允许从单目 RGB 视频中以 3D 方式跟踪人手与人脸的交互。我们将手建模为铰接物体，在主动交互过程中引起非刚性面部变形。我们的方法依赖于新的手部面部运动和交互捕获数据集，以及通过无标记多视图相机系统获取的真实面部变形。作为其创建过程中的关键步骤，我们使用基于位置的动力学和头部组织非均匀刚度估计方法来处理重建的原始 3D 形状，从而对表面变形、手脸接触区域和头手位置进行合理的注释。我们神经方法的核心是提供手脸深度先验的变分自动编码器和通过估计接触和变形来指导 3D 跟踪的模块。

Training a Large Video Model on a Single Machine in a Day
Authors Yue Zhao, Philipp Kr henb hl
视频很大，预处理复杂，训练速度也很慢。最先进的大规模视频模型在 32 个或更多 GPU 的集群上进行了几天的训练。因此，学术界很大程度上将大型视频模型的训练交给了工业界。在本文中，我们展示了如何在一天内在具有 8 个消费级 GPU 的单台机器上训练最先进的视频模型。我们确定了三个瓶颈：IO、CPU 和 GPU 计算，并对每个瓶颈进行优化。其结果是一个高效的视频训练管道。对于可比较的架构，与之前的工作相比，我们的管道通过 frac 1 8 的计算实现了更高的精度。

RealFill: Reference-Driven Generation for Authentic Image Completion
Authors Luming Tang, Nataniel Ruiz, Qinghao Chu, Yuanzhen Li, Aleksander Holynski, David E. Jacobs, Bharath Hariharan, Yael Pritch, Neal Wadhwa, Kfir Aberman, Michael Rubinstein
生成图像的最新进展带来了修复和修复模型，这些模型可以在未知区域生成高质量、可信的图像内容，但这些模型幻觉的内容必然是不真实的，因为这些模型缺乏关于真实场景的足够背景。在这项工作中，我们提出了 RealFill，这是一种新颖的图像补全生成方法，可以用本应存在的内容填充图像的缺失区域。 RealFill 是一种生成修复模型，仅使用场景的一些参考图像即可实现个性化。这些参考图像不必与目标图像对齐，并且可以使用截然不同的视点、照明条件、相机光圈或图像风格来拍摄。一旦个性化，RealFill 就能够完成具有视觉上引人注目的内容且忠实于原始场景的目标图像。我们在新的图像完成基准上评估 RealFill，该基准涵盖了一系列多样化且具有挑战性的场景，并发现它大幅优于现有方法。

Geodesic Regression Characterizes 3D Shape Changes in the Female Brain During Menstruation
Authors Adele Myers, Caitlin Taylor, Emily Jacobs, Nina Miolane
绝经后女性患阿尔茨海默病和其他神经系统疾病的风险较高，但将女性大脑健康与性激素波动联系起来的研究仍然有限。我们试图通过开发量化性激素波动期间大脑中发生的 3D 形状变化的工具来研究这种联系。 3D 离散曲面空间上的测地线回归提供了一种表征大脑形状演化的原则性方法。然而，就目前的形式而言，这种方法的计算成本太高，不适合实际使用。在本文中，我们提出了加速 3D 离散曲面形状空间上的测地线回归的近似方案。我们还提供了何时可以使用每种近似值的经验法则。我们在合成数据上测试了我们的方法，以量化这些近似值的速度精度权衡，并表明从业者可以期望非常显着的速度提升，而只牺牲很少的精度。最后，我们将该方法应用于真实的大脑形状数据，并首次表征了女性海马体在月经周期中如何随着黄体酮的变化而改变形状，这一表征通过我们的近似方案实际上成为可能。我们的工作为生物医学和计算机视觉领域全面、实用的形状分析铺平了道路。

SA2-Net: Scale-aware Attention Network for Microscopic Image Segmentation
Authors Mustansar Fiaz, Moein Heidari, Rao Muhammad Anwer, Hisham Cholakkal
显微图像分割是一项具有挑战性的任务，其中目标是为给定显微图像中的每个像素分配语义标签。虽然卷积神经网络 CNN 构成了许多现有框架的基础，但它们通常难以明确捕获长范围依赖性。尽管 Transformer 最初是为了利用自注意力来解决这个问题而设计的，但事实证明，局部和全局特征对于解决显微图像中的各种挑战至关重要，包括形状、大小、外观和目标区域密度的变化。在本文中，我们介绍了 SA2 Net，这是一种注意力引导方法，利用多尺度特征学习来有效处理显微图像中的不同结构。具体来说，我们提出了尺度感知注意力 SA2 模块，旨在捕获微观区域（例如细胞）尺度和形状的固有变化，以进行准确分割。该模块结合了多阶段特征每个级别的局部注意力，以及跨多个分辨率的全局注意力。此外，我们通过引入一种称为自适应向上注意力 AuA 模块的新型上采样策略来解决模糊区域边界（例如单元边界）的问题。该模块使用显式注意机制增强了改善微观区域定位的辨别能力。对五个具有挑战性的数据集的广泛实验证明了我们 SA2 Net 模型的优势。

Visual In-Context Learning for Few-Shot Eczema Segmentation
Authors Neelesh Kumar, Oya Aran, Venugopal Vasudevan
根据数码相机图像自动诊断湿疹对于开发允许患者自我监控其康复情况的应用程序至关重要。其中一个重要组成部分是从此类图像中分割湿疹区域。当前的湿疹分割方法依赖于深度神经网络，例如基于卷积 CNN 的 U Net 或基于 Transformer 的 Swin U Net。这些方法虽然有效，但需要大量注释数据，而这些数据很难获得。在这里，我们研究了上下文学习中的视觉功能，只需少量示例即可执行少量湿疹分割，并且无需重新训练模型。具体来说，我们提出了一种策略，通过称为 SegGPT 的通用视觉模型应用于湿疹分割的上下文学习。当对带注释的湿疹图像数据集进行基准测试时，我们表明仅使用训练数据集中的 2 个代表性示例图像的 SegGPT 比在 428 个图像上训练的 CNN U Net 表现更好 mIoU 36.69 mIoU 32.60 。我们还发现，使用更多数量的 SegGPT 示例实际上可能对其性能有害。我们的结果强调了上下文学习中的视觉对于开发更快更好的皮肤成像任务解决方案的重要性。

Novel Deep Learning Pipeline for Automatic Weapon Detection
Authors Haribharathi Sivakumar, Vijay Arvind.R, Pawan Ragavendhar V, G.Balamurugan
武器和枪支暴力最近已成为当今的一个紧迫问题。这些犯罪和活动的程度已经达到了被称为流行病的程度。这种普遍存在的武器滥用现象需要一种能够实时检测武器的自动系统。几乎所有公共论坛和场所都有实时监控视频被捕获和记录。这些视频包含丰富的原始数据，可以提取并处理成有意义的信息。本文提出了一种新颖的管道，由具有不同架构的卷积神经网络集合组成。每个神经网络都使用独特的小批量进行训练，训练样本中几乎没有重叠。本文将使用与比较所提出的架构和最先进的 SoA 模型相关的多个数据集来呈现一些有希望的结果。

DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation
Authors Jiaxiang Tang, Jiawei Ren, Hang Zhou, Ziwei Liu, Gang Zeng
3D 内容创建的最新进展主要利用通过分数蒸馏采样 SDS 进行基于优化的 3D 生成。尽管已经展现出有希望的结果，但这些方法通常会受到每个样本优化缓慢的影响，限制了它们的实际使用。在本文中，我们提出了 DreamGaussian，一种新颖的 3D 内容生成框架，可以同时实现效率和质量。我们的主要见解是设计一个生成 3D 高斯泼溅模型，并在 UV 空间中进行网格提取和纹理细化。与神经辐射场中使用的占用修剪相反，我们证明了 3D 高斯的渐进致密化对于 3D 生成任务的收敛速度明显更快。为了进一步提高纹理质量并促进下游应用，我们引入了一种有效的算法将 3D 高斯转换为纹理网格，并应用微调阶段来细化细节。大量的实验证明了我们提出的方法具有卓越的效率和有竞争力的发电质量。

FLIP: Cross-domain Face Anti-spoofing with Language Guidance
Authors Koushik Srivatsan, Muzammal Naseer, Karthik Nandakumar
人脸反欺骗 FAS 或演示攻击检测是安全关键应用中部署的人脸识别系统的重要组成部分。现有的 FAS 方法对于看不见的欺骗类型、摄像头传感器和环境条件的通用性较差。最近，视觉变换器 ViT 模型已被证明对 FAS 任务有效，因为它们能够捕获图像块之间的长距离依赖性。然而，通常需要自适应模块或辅助损失函数来适应在 ImageNet 等大规模数据集上学习的预训练 ViT 权重。在这项工作中，我们首先表明，使用多模态（例如 CLIP 预训练权重）初始化 ViT 可以提高 FAS 任务的通用性，这与视觉语言预训练 VLP 模型的零镜头传输能力一致。然后，我们通过在自然语言的帮助下奠定视觉表示的基础，提出了一种用于鲁棒跨域 FAS 的新方法。具体来说，我们表明，将图像表示与基于自然语言语义的类描述集合对齐可以提高 FAS 在低数据状态下的通用性。最后，我们提出了一种多模态对比学习策略，以进一步促进特征泛化并弥合源域和目标域之间的差距。对三个标准协议的大量实验表明，我们的方法显着优于最先进的方法，比自适应 ViT 的五次传输实现了更好的零次传输性能。

Improving Equivariance in State-of-the-Art Supervised Depth and Normal Predictors
Authors Yuanyi Zhong, Anand Bhattad, Yu Xiong Wang, David Forsyth
密集深度和表面法线预测器应具有裁剪和调整大小的等变属性，裁剪输入图像应导致裁剪相同的输出图像。然而，我们发现最先进的深度和正常预测器尽管具有很强的性能，但令人惊讶的是不尊重等方差。即使在训练过程中使用裁剪和调整数据增强，问题仍然存在。为了解决这个问题，我们提出了一种等变正则化技术，包括平均过程和自一致性损失，以明确促进深度和正常网络中等方差的裁剪和调整大小。我们的方法可以应用于 CNN 和 Transformer 架构，在测试过程中不会产生额外成本，并且显着提高了密集预测器在 Taskonomy 任务上的监督和半监督学习性能。最后，在 NYU v2 上评估时，对未标记图像的损失进行微调不仅提高了等方差，而且提高了最先进深度和正常预测器的准确性。

Deep Geometrized Cartoon Line Inbetweening
Authors Li Siyao, Tianpei Gu, Weiye Xiao, Henghui Ding, Ziwei Liu, Chen Change Loy
我们的目标是解决动漫行业中一个重要但尚未得到充分研究的问题，即卡通线条画的中间问题。中间处理涉及在两个黑白线条图之间生成中间帧，这是一个耗时且昂贵的过程，可以从自动化中受益。然而，现有的依赖于匹配和扭曲整个光栅图像的帧插值方法不适合线中间，并且经常产生模糊伪影，从而损坏复杂的线结构。为了保持线条图的精度和细节，我们提出了一种新方法 AnimeInbet，它将光栅线条图几何化为端点图，并将中间任务重新构建为具有顶点重新定位的图融合问题。我们的方法可以有效地捕捉线条图的稀疏性和独特结构，同时保留中间的细节。这是通过我们的新颖模块实现的，即顶点几何嵌入、顶点对应变换器、顶点重新定位的有效机制和可见性预测器。为了训练我们的方法，我们引入了 MixamoLine240，这是一个具有地面实况矢量化和匹配标签的新线条图数据集。我们的实验表明，AnimeInbet 合成了高质量、干净且完整的中间线图，在数量和质量上都优于现有方法，尤其是在大动作的情况下。

End-to-End (Instance)-Image Goal Navigation through Correspondence as an Emergent Phenomenon
Authors Guillaume Bono, Leonid Antsfeld, Boris Chidlovskii, Philippe Weinzaepfel, Christian Wolf
面向目标的视觉导航的最新工作诉诸于模拟环境中的大规模机器学习。主要挑战在于学习可推广到不可见环境的紧凑表示以及学习能够对高维输入进行推理的高容量感知模块。当目标不是作为类别 ObjectNav 而是作为示例图像 ImageNav 给出时，后者尤其困难，因为感知模块需要学习需要解决潜在视觉对应问题的比较策略。事实证明，仅靠奖励或标准辅助任务来实现这一点是很困难的。我们通过一系列两个借口任务来解决这个问题，这些任务作为我们认为感知的主要瓶颈之一、复杂场景中极宽基线相对姿态估计和可见性预测的先验。第一个借口任务，交叉视图完成是底层视觉对应问题的代理，而第二个任务直接解决目标检测和发现。我们提出了一种具有大容量双目 ViT 模型的新双编码器，并表明对应解决方案自然地从训练信号中产生。

KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image Action Editing
Authors Jiancheng Huang, Yifan Liu, Jin Qin, Shifeng Chen
文本条件图像编辑是最近出现的一项高度实用的任务，其潜力是不可估量的。然而，大多数并发方法无法执行动作编辑，即它们无法产生符合编辑提示的动作语义并保留原始图像内容的结果。为了解决动作编辑的问题，我们提出了KV Inversion，一种可以实现令人满意的重建性能和动作编辑的方法，它可以解决两个主要问题1编辑的结果可以匹配相应的动作，2编辑的对象可以保留纹理和原始真实图像的身份。

Tensor Factorization for Leveraging Cross-Modal Knowledge in Data-Constrained Infrared Object Detection
Authors Manish Sharma, Moitreya Chatterjee, Kuan Chuan Peng, Suhas Lohit, Michael Jones
在红外图像中获得良好识别性能的主要瓶颈是缺乏足够的标记训练数据，因为获取此类数据的成本很高。认识到 RGB 模态的对象检测方法至少对于一些常见的类别（例如人、汽车等）来说相当稳健，这要归功于现有的巨大训练集，在这项工作中，我们寻求利用 RGB 模态的线索来进行缩放将物体检测器转换为 IR 模态，同时保留 RGB 模态的模型性能。我们方法的核心是一种名为 TensorFact 的新型张量分解方法，它将卷积神经网络 CNN 层的卷积核分割为低秩因子矩阵，其参数比原始 CNN 更少。我们首先在 RGB 模态上预训练这些因子矩阵，假设存在大量训练数据，然后仅增加一些可训练参数以在 IR 模态上进行训练，以避免过度拟合，同时鼓励它们从训练过的数据中捕获补充线索仅在 RGB 模式上。我们通过首先评估我们的 TensorFact 分解网络相对于原始网络在检测 RGB 图像中的对象的任务中的表现如何，然后查看它对 FLIR ADAS v1 数据集的红外图像的适应程度来实证验证我们的方法。对于后者，我们在数据匮乏带来挑战的场景下训练模型。从实验中，我们观察到 TensorFact 在 RGB 图像上显示出性能提升 ii 此外，这种经过微调的预训练模型在 mAP 50 方面比 FLIR ADAS v1 数据集上最先进的标准对象检测器性能高出约 4 倍

Vision Transformers Need Registers
Authors Timoth e Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
变形金刚最近已成为学习视觉表示的强大工具。在本文中，我们识别并表征了监督和自监督 ViT 网络的特征图中的伪影。这些伪影对应于推理期间主要出现在图像的低信息背景区域中的高标准标记，这些标记被重新用于内部计算。我们提出了一个简单而有效的解决方案，基于向 Vision Transformer 的输入序列提供额外的令牌来填补该角色。我们表明，该解决方案完全解决了监督模型和自监督模型的问题，为密集视觉预测任务上的自监督视觉模型设定了新的技术水平，支持使用更大模型的对象发现方法，最重要的是导致更平滑的特征

Text-to-3D using Gaussian Splatting
Authors Zilong Chen, Feng Wang, Huaping Liu
在本文中，我们提出了基于高斯分布的文本到 3D 生成 GSGEN，这是一种生成高质量 3D 对象的新方法。由于缺乏 3D 事先和正确的表示，以前的方法存在几何不准确和保真度有限的问题。我们利用 3D 高斯分布（3D Gaussian Splatting）（一种最新的最先进的表示形式），通过利用能够合并 3D 先验的显式性质来解决现有的缺点。具体来说，我们的方法采用渐进优化策略，其中包括几何优化阶段和外观细化阶段。在几何优化中，先在 3D 几何结构下建立粗略表示以及普通 2D SDS 损失，确保合理且 3D 一致的粗糙形状。随后，对获得的高斯进行迭代细化以丰富细节。在此阶段，我们通过基于致密性的致密化来增加高斯的数量，以增强连续性并提高保真度。通过这些设计，我们的方法可以生成具有精致细节和更精确几何形状的 3D 内容。广泛的评估证明了我们的方法的有效性，特别是对于捕获高频分量。

Voting Network for Contour Levee Farmland Segmentation and Classification
Authors Abolfazl Meyarian, Xiaohui Yuan
高分辨率航空图像可实现农田分割的精细细节。然而，小对象和特征会给对象边界的描绘带来扭曲，并且需要更大的上下文视图来减轻类混乱。在这项工作中，我们提出了一个端到端的可训练网络，用于从高分辨率航空图像中分割具有轮廓堤坝的农田。设计了一个包含多个投票块的融合块来实现图像分割和分类。我们将融合块与主干集成，并生成语义预测和分割切片。分割切片用于对预测进行多数投票。网络经过训练，将片段最可能的类别标签分配给其像素，学习农田的概念，而不是单独分析本构像素。我们使用国家农业影像计划的图像评估我们的方法。我们的方法的平均准确度为 94.34 。

MatrixCity: A Large-scale City Dataset for City-scale Neural Rendering and Beyond
Authors Yixuan Li, Lihan Jiang, Linning Xu, Yuanbo Xiangli, Zhenzhi Wang, Dahua Lin, Bo Dai
神经辐射场 NeRF 及其后续变体在神经渲染方面取得了显着进展。虽然最近大多数神经渲染工作都集中在对象和小规模场景上，但开发针对城市规模场景的神经渲染方法在许多现实世界应用中具有巨大潜力。然而，由于缺乏全面且高质量的数据集，这方面的研究受到阻碍，而在真实城市规模的场景中收集这样的数据集成本高昂、敏感且技术困难。为此，我们为城市规模的神经渲染研究构建了大规模、全面、高质量的合成数据集。利用虚幻引擎 5 城市样本项目，我们开发了一个管道，可以轻松收集空中和街道城市视图，并附有地面实况相机姿势和一系列附加数据模式。我们的管道中还可以灵活控制光线、天气、人和车流等环境因素，支持涵盖城市规模神经渲染等各种任务的需求。生成的试点数据集 MatrixCity 包含来自总尺寸为 28km 2 的两个城市地图的 67k 航空图像和 452k 街道图像。在 MatrixCity 之上，还进行了彻底的基准测试，不仅揭示了城市规模神经渲染任务的独特挑战，而且还强调了未来作品的潜在改进。

MotionLM: Multi-Agent Motion Forecasting as Language Modeling
Authors Ari Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al Rfou, Benjamin Sapp
对道路代理未来行为的可靠预测是自动驾驶车辆安全规划的关键组成部分。在这里，我们将连续轨迹表示为离散运动标记序列，并将多智能体运动预测作为该领域的语言建模任务。我们的模型 MotionLM 具有几个优点：首先，它不需要锚或显式潜变量优化来学习多模态分布。相反，我们利用单一标准语言建模目标，最大化序列标记的平均对数概率。其次，我们的方法绕过了事后交互启发法，其中个体代理轨迹生成是在交互评分之前进行的。相反，MotionLM 在单个自回归解码过程中生成交互式代理未来的联合分布。此外，模型的顺序分解可以实现临时因果条件推出。

HOI4ABOT: Human-Object Interaction Anticipation for Human Intention Reading Collaborative roBOTs
Authors Esteve Valls Mascaro, Daniel Sliwowski, Dongheui Lee
机器人越来越融入我们的生活，协助我们完成各种任务。为了确保人类和机器人之间的有效协作，他们必须理解我们的意图并预测我们的行动。在本文中，我们提出了一种用于协作机器人的人机交互 HOI 预期框架。我们提出了一种高效且稳健的基于 Transformer 的模型来检测和预测视频中的 HOI。这种增强的预期使机器人能够主动协助人类，从而实现更高效、更直观的协作。我们的模型在 VidHOI 数据集中的 HOI 检测和预测方面优于最先进的结果，mAP 分别增加了 1.76 和 1.04，同时速度提高了 15.4 倍。我们通过真实机器人的实验结果展示了我们方法的有效性，证明机器人预测 HOI 的能力是更好的人机交互的关键。

Latent Noise Segmentation: How Neural Noise Leads to the Emergence of Segmentation and Grouping
Authors Ben Lonnqvist, Zhengqing Wu, Michael H. Herzog
深度神经网络在对象分割等一般任务中实现人类水平性能的 DNN 通常需要监督标签。相比之下，人类能够在没有监督的情况下毫不费力地执行这些任务。为了实现这一点，人类视觉系统利用感知分组。了解感知分组如何以无监督的方式产生对于改进视觉系统模型和计算机视觉模型至关重要。在这项工作中，我们提出了一种反直觉的方法来进行无监督的感知分组和分割，它们是由于神经噪声而产生的，而不是无视神经噪声。我们 1 从数学上证明，在现实的假设下，神经噪声可用于将对象彼此分开，并且 2 表明，在 DNN 中添加噪声使网络能够分割图像，即使它从未接受过任何分割标签的训练。有趣的是，我们发现使用噪声进行 3 个分割对象的分割性能与在人类中观察到的感知分组现象相一致。我们引入了 Good Gestalt GG 数据集，这六个数据集专门用于测试感知分组，并表明我们的 DNN 模型再现了人类感知中的许多重要现象，例如虚幻轮廓、闭合、连续性、邻近性和遮挡。最后，我们 4 通过分析 DNN 对不同噪声强度的敏感性证明了该方法的生态合理性。我们发现，一些模型变体在神经噪声 sigma 0.001 水平非常低的情况下始终取得成功，令人惊讶的是，这种分割方式只需要少量样本。

Toloka Visual Question Answering Benchmark
Authors Dmitry Ustalov, Nikita Pavlichenko, Sergey Koshelev, Daniil Likhobaba, Alisa Smirnova
在本文中，我们提出了 Toloka Visual Question Answering，这是一个新的众包数据集，可以将机器学习系统的性能与人类在基础视觉问答任务中的专业水平进行比较。在此任务中，给定图像和文本问题，必须在正确响应该问题的对象周围绘制边界框。每个图像问题对都包含答案，每个图像只有一个正确答案。我们的数据集包含 45,199 对英语图像和问题，提供真实边界框，分为训练子集和两个测试子集。除了描述数据集并在 CC BY 许可下发布之外，我们还对开源零样本基线模型进行了一系列实验，并在 WSDM Cup 上组织了多阶段竞赛，吸引了全球 48 名参与者。

Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for Cross-City Semantic Segmentation using High-Resolution Domain Adaptation Networks
Authors Danfeng Hong, Bing Zhang, Hao Li, Yuxuan Li, Jing Yao, Chenyu Li, Martin Werner, Jocelyn Chanussote, Alexander Zipf, Xiao Xiang Zhu
如今，人工智能方法在单一模式主导的遥感遥感应用中取得了显着的成功，特别是强调单个城市环境，例如单个城市或地区。然而，由于缺乏多样化的遥感信息和具有高泛化能力的前沿解决方案，这些人工智能模型在跨城市或跨地区的案例研究中往往会遇到性能瓶颈。为此，我们构建了一套新的多模态遥感基准数据集，包括高光谱、多光谱、SAR，用于跨城市语义分割任务的研究目的，称为 C2Seg 数据集，该数据集由两个跨城市场景组成，即德国柏林奥格斯堡和中国北京武汉。除了单城市之外，我们提出了一种高分辨率域适应网络，简称 HighDAN，以提升 AI 模型在多城市环境中的泛化能力。 HighDAN 能够以并行的高低分辨率融合方式很好地保留所研究的城市场景的空间拓扑结构，而且还可以通过对抗性学习来缩小不同城市之间 RS 图像表示的巨大差异所产生的差距。此外，HighDAN中还考虑了Dice损失，以缓解跨城市因素造成的类别不平衡问题。在 C2Seg 数据集上进行的大量实验表明，与最先进的竞争对手相比，我们的 HighDAN 在分割性能和泛化能力方面具有优越性。

CCEdit: Creative and Controllable Video Editing via Diffusion Models
Authors Ruoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen, Baining Guo
在这项工作中，我们提出了 CCEdit，这是一个多功能框架，旨在解决创造性和可控视频编辑的挑战。 CCEdit 可满足广泛的用户编辑需求，并通过分离视频结构和外观的创新方法来增强创意控制。我们利用基础 ControlNet 架构来保持结构完整性，同时无缝集成与最先进的文本到图像生成个性化技术（例如 DreamBooth 和 LoRA）兼容的适应性时间模块。此外，我们引入了参考条件视频编辑，使用户能够锻炼通过更易于管理的关键帧编辑过程，对视频编辑进行精确的创意控制。我们广泛的实验评估证实了所提出的 CCEdit 框架的卓越功能和编辑能力。

Deep Single Models vs. Ensembles: Insights for a Fast Deployment of Parking Monitoring Systems
Authors Andre Gustavo Hochuli, Jean Paul Barddal, Gillian Cezar Palhano, Leonardo Matheus Mendes, Paulo Ricardo Lisboa de Almeida

Accurate and lightweight dehazing via multi-receptive-field non-local network and novel contrastive regularization
Authors Zewei He, Zixuan Chen, Ziqian Lu, Xuecheng Sun, Zhe Ming Lu
最近，基于深度学习的方法主导了图像去雾领域。尽管复杂的模型已经实现了非常有竞争力的去雾性能，但提取有用特征的有效解决方案仍在探索中。此外，在许多视觉任务中取得突破的非本地网络还没有适当地应用于图像去雾。因此，本文提出了一种由多流特征注意块MSFAB和跨非局部块CNLB组成的多感受野非局部网络MRFNLN。我们首先提取更丰富的特征进行去雾。具体来说，我们设计了一个多流特征提取MSFE子块，其中包含三个具有不同感受野的并行卷积，即1×1、3×3、5×5，用于提取多尺度特征。在 MSFE 之后，我们采用了一个注意力子块来使模型自适应地关注重要的通道区域。 MSFE 和注意力子块构成了我们的 MSFAB。然后，我们设计了一个跨非本地块 CNLB ，它可以捕获查询之外的长范围依赖关系。键和值分支不是使用相同的查询分支输入源，而是通过融合更多前面的特征来增强。 CNLB 通过利用空间金字塔下采样 SPDS 策略来减少计算和内存消耗，而不牺牲性能，因此计算友好。最后但并非最不重要的一点是，通过强调表示空间中的低级细节并忽略高级语义信息，提出了一种新颖的注重细节的对比正则化 DFCR。

HTC-DC Net: Monocular Height Estimation from Single Remote Sensing Images
Authors Sining Chen, Yilei Shi, Zhitong Xiong, Xiao Xiang Zhu
3D地理信息对于了解生活环境具有重要意义，然而，遥感数据的3D感知，尤其是大范围的3D感知，受到限制。为了解决这个问题，我们提出了一种根据光学图像估计单目高度的方法，光学图像是目前最丰富的遥感数据来源之一。作为一个病态问题，单目高度估计需要精心设计的网络来增强表示以提高性能。此外，高度值的分布是长尾的，以低高度像素（例如背景）作为头部，因此训练后的网络通常有偏差并且倾向于低估建筑物高度。为了解决这些问题，我们没有将问题形式化为回归任务，而是提出遵循分类回归范式的 HTC DC Net，以头尾切割 HTC 和基于分布的约束 DC 作为主要贡献。 HTC DC Net 由作为特征提取器的主干网络、HTC AdaBins 模块和混合回归过程组成。 HTC AdaBins 模块用作分类阶段，以确定适合每个输入图像的 bin。它配备了视觉变换编码器，将局部上下文与整体信息结合起来，并涉及 HTC 来解决单目高度估计中的长尾问题，以平衡前景和背景像素的性能。混合回归过程通过分类阶段的箱的平滑来进行回归，分类阶段是通过 DC 进行训练的。所提出的网络在不同分辨率的三个数据集上进行了测试，即 ISPRS Vaihingen 0.09 m 、DFC19 1.3 m 和 GBH 3 m 。实验结果表明，所提出的网络相对于现有方法具有很大的优越性。

Rethinking Domain Generalization: Discriminability and Generalizability
Authors Shaocong Long, Qianyu Zhou, Chenhao Ying, Lizhuang Ma, Yuan Luo
领域泛化 DG 致力于开发具有强大泛化性的鲁棒模型，同时保持出色的区分性。尽管如此，关键的 DG 技术倾向于通过学习域不变表示来提高特征的泛化性，无意中忽视了特征的可辨别性。一方面，同时实现特征的普遍性和可区分性提出了复杂的挑战，通常会带来固有的矛盾。当域不变特征由于包含不稳定因素（emph，即虚假相关性）而表现出可辨别性降低时，这一挑战变得尤为明显。另一方面，流行的领域不变方法可以归类为类别级别对齐，容易丢弃具有实质性概括性的不可或缺的特征并缩小类内差异。为了克服这些障碍，我们从一个新的角度重新思考 DG，同时赋予特征强大的辨别力和鲁棒的泛化性，并提出了一个新颖的框架，即判别性微观分布对齐 DMDA。 DMDA包含两个核心组件选择性通道修剪SCP和微观级分布对齐MDA。具体来说，SCP 试图减少神经网络内的冗余，优先考虑有利于准确分类的稳定属性。这种方法减轻了伪域不变性的不利影响，并增强了特征的可辨别性。此外，MDA 强调每个类别内的微观级别对齐，而不仅仅是类别级别对齐。该策略容纳了足够的通用特征并促进了类内的变化。

Diverse Target and Contribution Scheduling for Domain Generalization
Authors Shaocong Long, Qianyu Zhou, Chenhao Ying, Lizhuang Ma, Yuan Luo
分布转移下的泛化一直是计算机视觉领域的巨大挑战。领域泛化 DG 中直接采用热门标签作为训练目标的普遍做法会导致梯度冲突，使其不足以捕获内在的类特征，并且难以增加类内变异。此外，DG 中的现有方法大多忽略了源可见域的独特贡献，导致这些域的学习不均匀。为了解决这些问题，我们首先对 DG 中梯度冲突的存在进行了理论和实证分析，揭示了优化过程中分布变化和梯度冲突之间先前未探索的关系。在本文中，我们从经验源域风险的角度提出了 DG 的新视角，并提出了一种新的 DG 范式，称为多样化目标和贡献调度 DTCS。 DTCS由多元化目标监管DTS和多元化贡献平衡DCB两个创新模块组成，旨在解决DG中单一热标签共同使用和源域平等贡献的局限性。具体来说，DTS采用不同的软标签作为训练目标来考虑跨域的各种特征分布，从而减轻梯度冲突，而DCB通过确保不同源域的损失的公平下降来动态平衡源域的贡献。

Towards Novel Class Discovery: A Study in Novel Skin Lesions Clustering
Authors Wei Feng, Lie Ju, Lin Wang, Kaimin Song, Zongyuan Ge
现有的深度学习模型在从皮肤镜图像识别皮肤疾病方面取得了良好的表现。然而，这些模型只能识别预定义类别的样本，当它们部署到临床时，新的未知类别的数据不断出现。因此，从新数据中自动发现和识别新的语义类别至关重要。在本文中，我们提出了一种新的新颖的类发现框架，用于根据已知类的知识从皮肤镜图像数据集中自动发现新的语义类。具体来说，我们首先使用对比学习来基于已知和未知类别的所有数据来学习稳健且无偏见的特征表示。然后，我们提出了一种不确定性感知多视图交叉伪监督策略，该策略使用自标记策略生成的伪标签对所有数据类别进行联合训练。最后，我们通过局部样本相似度聚合邻域信息来进一步细化伪标签，以提高模型对未知类别的聚类性能。我们在皮肤病学数据集 ISIC 2019 上进行了广泛的实验，实验结果表明我们的方法可以有效地利用已知类别的知识来发现新的语义类别。我们还通过广泛的消融实验进一步验证了不同模块的有效性。

Radar Instance Transformer: Reliable Moving Instance Segmentation in Sparse Radar Point Clouds
Authors Matthias Zeller, Vardeep S. Sandhu, Benedikt Mersch, Jens Behley, Michael Heidingsfeld, Cyrill Stachniss
对移动物体的感知对于自主机器人在动态环境中执行防撞至关重要。激光雷达和摄像头极大地增强了场景解释，但不提供直接运动信息，并且在恶劣天气下面临限制。雷达传感器克服了这些限制并提供多普勒速度，提供有关动态物体的直接信息。在本文中，我们解决了雷达点云中的移动实例分割问题，以增强安全关键任务的场景解释。我们的雷达实例转换器利用时间信息丰富了当前的雷达扫描，而无需通过神经网络传递聚合扫描。我们提出了一个全分辨率主干来防止稀疏点云处理中的信息丢失。我们的实例转换器头包含了增强分割的基本信息，但也实现了可靠的、与类无关的实例分配。总之，我们的方法在新的移动实例分割基准（包括不同的环境）上显示出卓越的性能，并提供与模型无关的模块来增强场景解释。

Distilling ODE Solvers of Diffusion Models into Smaller Steps
Authors Sanghwan Kim, Hao Tang, Fisher Yu
蒸馏技术大大提高了扩散模型的采样速度，只需一步或几步即可生成。然而，这些蒸馏方法需要对每个数据集、采样器和网络进行大量训练，这限制了它们的实际适用性。为了解决这个限制，我们提出了一种简单的蒸馏方法，即蒸馏 ODE 求解器 D ODE 求解器，它优化 ODE 求解器而不是训练去噪网络。 D ODE 求解器只需对现有 ODE 求解器应用单个参数调整即可制定。随后，通过对一批样品进行蒸馏，用较大步长的 ODE 求解器对较小步长的 D ODE 求解器进行优化。我们的综合实验表明，D ODE 求解器优于现有的 ODE 求解器，包括 DDIM、PNDM、DPM 求解器、DEIS 和 EDM，特别是在生成步骤较少的样本时。与以前的蒸馏技术相比，我们的方法产生的计算开销可以忽略不计，从而能够与以前的采样器简单快速地集成。

AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models
Authors Jan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi
基于 CLIP 等视觉语言模型构建的分类器在广泛的图像分类任务中表现出了卓越的零样本性能。先前的工作研究了基于提示模板为每个类自动创建描述符集的不同方法，从从大型语言模型获得的模板上手动设计的模板到从随机单词和字符构建的模板。相反，从相应的编码类描述符导出零镜头分类器几乎保持不变，即分类到最大化其平均编码类描述符和编码图像之间的余弦相似度的类。然而，当某些描述符比其他描述符更好地匹配给定图像上的视觉线索时，对所有类描述符进行同等加权可能不是最佳的。在这项工作中，我们提出了 AutoCLIP，一种自动调整零样本分类器的方法。 AutoCLIP 为每个图像的每个提示模板分配权重，这些权重是从推理时的类描述符图像相似性的统计数据得出的。 AutoCLIP 是完全无监督的，开销非常低，并且可以通过几行代码轻松实现。

HIC-YOLOv5: Improved YOLOv5 For Small Object Detection
Authors Shiyi Tang, Yini Fang, Shu Zhang
小物体检测一直是物体检测领域的一个具有挑战性的问题。已经有一些工作提出了对该任务的改进，例如添加几个注意力块或改变特征融合网络的整体结构。然而，这些模型的计算成本很大，这使得部署实时目标检测系统不可行，同时还有改进的空间。为此，提出一种改进的YOLOv5模型HIC YOLOv5来解决上述问题。首先，添加一个针对小物体的额外预测头，以提供更高分辨率的特征图，以实现更好的预测。其次，在backbone和neck之间采用involution block来增加特征图的通道信息。此外，在主干网末端应用了一种名为 CBAM 的注意力机制，与之前的工作相比，不仅降低了计算成本，而且还强调了通道和空间域中的重要信息。

An Enhanced Low-Resolution Image Recognition Method for Traffic Environments
Authors Zongcai Tan, Zhenhai Gao
目前，低分辨率图像识别在智能交通感知领域面临着重大挑战。与高分辨率图像相比，低分辨率图像尺寸小、质量低、缺乏细节，导致传统神经网络识别算法的准确率显着下降。低分辨率图像识别的关键在于有效的特征提取。因此，本文深入研究了残差模块的基本维度及其对特征提取和计算效率的影响。基于实验，我们引入了一种双分支残差网络结构，该结构利用残差网络的基本架构和通用特征子空间算法。此外，它还利用中间层特征来提高低分辨率图像识别的准确性。此外，我们采用知识蒸馏来减少网络参数和计算开销。

Biomedical Image Splicing Detection using Uncertainty-Guided Refinement
Authors Xun Lin, Wenzhong Tang, Shuai Wang, Zitong Yu, Yizhong Liu, Haoran Wang, Ying Fu, Alex Kot
近年来，涉嫌图像篡改的生物医学学术出版物激增，导致大量撤稿，使生物医学图像取证成为研究热点。虽然操纵检测器令人担忧，但生物医学图像中拼接痕迹的具体检测仍未得到充分探索。生物医学图像中的破坏性因素，例如伪影、异常图案和噪声，显示出拼接痕迹等误导性特征，大大增加了这项任务的挑战。此外，高质量拼接生物医学图像的稀缺也限制了该领域的潜在进步。在这项工作中，我们提出了一种不确定性引导的细化网络 URN 来减轻这些破坏性因素的影响。我们的URN可以显式地抑制区域间破坏性因素引起的不可靠信息流的传播，从而获得鲁棒的特征。此外，URN 能够在解码阶段集中改进不确定预测区域。此外，我们构建了一个用于生物医学图像拼接BioSp检测的数据集，其中包含1,290张拼接图像。与现有数据集相比，BioSp 包含最多数量的拼接图像和最多样化的来源。对三个基准数据集的综合实验证明了该方法的优越性。同时，我们验证了 URN 在对抗跨数据集域转移时的通用性及其抵抗后处理方法的鲁棒性。

A Comprehensive Review on Tree Detection Methods Using Point Cloud and Aerial Imagery from Unmanned Aerial Vehicles
Authors Weijie Kuang, Hann Woei Ho, Ye Zhou, Shahrel Azmin Suandi, Farzad Ismail
无人机被认为是尖端技术，具有极高的成本效益和灵活的使用场景。尽管许多论文对无人机在农业中的应用进行了综述，但对树木检测应用的综述仍然不足。本文重点研究应用于无人机采集的无人机数据的树木检测方法。有两种数据，点云和图像，分别由光探测和测距激光雷达传感器和相机获取。在利用点云数据的检测方法中，本文主要按照LiDAR和数字航空摄影DAP对这些方法进行分类。对于直接使用图像的检测方法，本文通过是否使用深度学习DL方法来回顾这些方法。我们的综述总结并分析了基于LiDAR和基于DAP的点云数据的应用的比较和组合。还介绍了这些方法的性能、相对优点和应用领域。同时，本文还统计了近年来使用不同方法进行的树木检测研究的数量。从我们的统计数据来看，到 2022 年，随着基于 DL 的检测研究数量增加到树木检测研究总数的 45 个，在图像上使用 DL 方法的检测任务已成为主流趋势。因此，这篇综述可以帮助和

Aperture Diffraction for Compact Snapshot Spectral Imaging
Authors Tao Lv, Hao Ye, Quan Yuan, Zhan Shi, Yibo Wang, Shuming Wang, Xun Cao
我们展示了一种紧凑、经济高效的快照光谱成像系统，名为孔径衍射成像光谱仪 ADIS，该系统仅由具有超薄正交孔径掩模的成像镜头和马赛克滤光片传感器组成，与普通 RGB 相机相比，不需要额外的物理占地面积。然后，我们引入了一种新的光学设计，通过从正交掩模生成的基于衍射的空间光谱投影工程，将物体空间中的每个点复用到马赛克滤波器传感器上的离散编码位置。正交投影被一致接受以获得弱校准相关的数据形式以增强调制鲁棒性。同时，具有强衍射退化感知能力的级联移位洗牌光谱变换器CSST旨在解决稀疏约束逆问题，实现大量混叠的二维测量的体积重建。我们的系统通过阐述成像光学理论和重建算法并演示单次曝光下的实验成像来进行评估。最终，我们实现了亚超像素空间分辨率和高光谱分辨率成像。

FG-NeRF: Flow-GAN based Probabilistic Neural Radiance Field for Independence-Assumption-Free Uncertainty Estimation
Authors Songlin Wei, Jiazhao Zhang, Yang Wang, Fanbo Xiang, Hao Su, He Wang
通过对合理的辐射场进行采样并量化下游任务的不确定性，具有随机性的神经辐射场引起了人们的极大兴趣。现有的工作依赖于辐射场中的点或输入视图中的像素的独立假设来获得概率密度函数的易于处理的形式。然而，在处理复杂的几何形状和纹理时，这种假设会无意中影响性能。在这项工作中，我们提出了一种基于 Flow GAN 的独立假设自由概率神经辐射场。通过结合对抗性学习的生成能力和归一化流的强大表达能力，我们的方法明确地模拟了整个场景的密度辐射分布。我们将概率 NeRF 表示为均值平移概率残差神经模型。我们的模型在没有显式似然函数的情况下进行训练，从而避免了独立性假设。具体来说，我们对具有不同步幅和中心的训练图像进行下采样，以形成固定大小的补丁，用于通过基于补丁的对抗性学习来训练生成器。

Dark Side Augmentation: Generating Diverse Night Examples for Metric Learning
Authors Albert Mohwald, Tomas Jenicek, Ond ej Chum
基于 CNN 描述符的图像检索方法依赖于从大量正负图像对的不同示例中进行度量学习。诸如夜间图像之类的领域，训练数据的可用性和可变性有限，即使方法在标准基准上表现良好，检索性能也很差。我们建议训练一个基于 GAN 的合成图像生成器，将可用的白天图像示例转换为夜间图像。这样的生成器在度量学习中用作增强形式，为稀缺领域提供训练数据。对各种类型的发电机进行了评估和分析。我们贡献了一种新颖的轻量级 GAN 架构，该架构通过边缘一致性来增强原始图像和翻译图像之间的一致性。所提出的架构还允许同时训练在夜间和白天图像上运行的边缘检测器。

Logarithm-transform aided Gaussian Sampling for Few-Shot Learning
Authors Vaibhav Ganatra
最近，很少有镜头图像分类见证了表示学习的兴起，该模型仅使用几个训练示例即可适应新的类别。因此，表示的属性，例如它们的潜在概率分布，显得至关重要。从高斯分布采样的表示已在最近的工作中使用，19 来训练分类器进行少量镜头分类。这些方法依赖于将实验数据的分布转换为近似高斯分布以实现其功能。在本文中，我提出了一种新颖的高斯变换，它在将实验数据变换为类高斯分布方面优于现有方法。

Weakly-Supervised Video Anomaly Detection with Snippet Anomalous Attention
Authors Yidan Fan, Yongxin Yu, Wenhuan Lu, Yahong Han
随着对未修剪视频中包含的异常事件的关注，研究人员对视频异常检测的兴趣日益浓厚。在不同的视频异常检测场景中，弱监督视频异常检测提出了重大挑战，因为它在训练阶段缺乏逐帧标签，仅依靠视频级标签作为粗监督。以前的方法已经尝试以端到端的方式学习判别性特征或采用两阶段自训练策略来生成片段级伪标签。然而，这两种方法都有一定的局限性。前者往往会忽略片段级别的信息特征，而后者可能容易受到噪音的影响。在本文中，我们提出了一种用于弱监督异常检测的异常注意机制来解决上述问题。我们的方法考虑了片段级编码特征，而无需伪标签的监督。具体来说，我们的方法首先生成片段级别的异常注意力，然后将其与原始异常分数一起输入多分支监督模块。该模块学习视频的不同区域，包括难以检测的区域，并协助注意力优化。在基准数据集 XDViolence 和 UCF Crime 上的实验验证了我们方法的有效性。

Can the Query-based Object Detector Be Designed with Fewer Stages?
Authors Jialin Li, Weifu Fu, Yuhuan Lin, Qiang Nie, Yong Liu
自 DETR 发布以来，基于查询的对象检测器已经取得了显着的进步。然而，大多数现有方法仍然依赖于多级编码器和解码器，或两者的组合。尽管实现了高精度，但通常由 6 个阶段组成的多阶段范例存在计算负担过重等问题，促使我们重新考虑其必要性。在本文中，我们探索了多种技术来增强基于查询的检测器，并基于这些发现提出了一种称为 GOLO Global Once 和 Local Once 的新颖模型，该模型遵循两阶段解码范例。与其他具有多级解码器的主流基于查询的模型相比，我们的模型采用更少的解码器级，同时仍然实现了相当可观的性能。

Multi-scale Recurrent LSTM and Transformer Network for Depth Completion
Authors Xiaogang Jia, Yusong Tan, Songlei Jian, Yonggang Che
激光雷达深度补全是深度估计的一个新的热门话题。在这个任务中，融合颜色空间和深度空间的特征是重点和难点。在本文中，我们将经典的 LSTM 和 Transformer 模块从 NLP 迁移到深度补全，并进行适当的重新设计。具体来说，我们使用忘记门、更新门、输出门和跳过门来实现颜色和深度特征的高效融合，并在多个尺度上进行循环优化。最后，我们通过 Transformer 多头注意力机制进一步融合深层特征。实验结果表明，无需重复的网络结构和后处理步骤，我们的方法可以通过将我们的模块添加到简单的编码器解码器网络结构中来实现最先进的性能。我们的方法在当前主流自动驾驶KITTI基准数据集上排名第一。

Self-supervised Cross-view Representation Reconstruction for Change Captioning
Authors Yunbin Tu, Liang Li, Li Su, Zheng Jun Zha, Chenggang Yan, Qingming Huang
更改字幕旨在描述一对相似图像之间的差异。其关键挑战是如何在视点变化引起的伪变化下学习稳定的差异表示。在本文中，我们通过提出一种自监督交叉视图表示重建 SCORER 网络来解决这个问题。具体来说，我们首先设计一个多头标记明智匹配来模拟来自相似不同图像的交叉视图特征之间的关系。然后，通过最大化两个相似图像的交叉视图对比对齐，SCORER 以自我监督的方式学习两个视图不变图像表示。在此基础上，我们通过交叉注意力重建未变化对象的表示，从而学习用于字幕生成的稳定差异表示。此外，我们设计了一种跨模态反向推理来提高字幕的质量。该模块对带有标题和之前表示的幻觉表示进行反向建模。通过将其推近后表示，我们强制标题以自我监督的方式提供有关差异的信息。大量的实验表明我们的方法在四个数据集上取得了最先进的结果。

Nondestructive chicken egg fertility detection using CNN-transfer learning algorithms
Authors Shoffan Saifullah, Rafal Drezewski, Anton Yudhana, Andri Pranolo, Wilis Kaswijanti, Andiko Putro Suryotomo, Seno Aji Putra, Alin Khaliduzzaman, Anton Satria Prabuwono, Nathalie Japkowicz
本研究探讨了 CNN 迁移学习在无损鸡蛋受精率检测中的应用，以实现精准家禽孵化场实践。使用增强图像旋转、翻转、缩放、平移和反射，在包含 200 张单鸡蛋图像的数据集上训练和评估四个模型：VGG16、ResNet50、InceptionNet 和 MobileNet。尽管训练结果表明所有模型都达到了很高的准确性，表明它们能够准确学习和分类鸡蛋的受精状态，但在测试集上进行评估时，观察到准确性和性能的变化。 InceptionNet 展现了最佳的整体性能，准确地对受精卵和非受精卵进行分类。它在评估指标的所有参数的训练和测试集中都表现出了出色的性能。在测试集中，它的准确度为 0.98，检测受精卵的灵敏度为 1，识别非受精卵的特异性为 0.96。更高的性能归功于其独特的架构，可以有效捕获不同尺度的特征，从而提高准确性和鲁棒性。可能需要对模型进行进一步优化和微调，以解决其他模型在准确检测受精卵和非受精卵方面的局限性。

FORB: A Flat Object Retrieval Benchmark for Universal Image Embedding
Authors Pengxiang Wu, Siman Wang, Kevin Dela Rosa, Derek Hao Hu
图像检索是计算机视觉中的一项基本任务。尽管该领域最近取得了进展，但许多技术都是在有限数量的领域和少量实例类别上进行评估的。值得注意的是，大多数现有作品仅考虑 3D 地标等领域，因此很难将这些作品得出的结论推广到其他领域，例如徽标和其他 2D 平面对象。为了弥补这一差距，我们引入了一个新的数据集，用于对具有不同模式的平面图像上的视觉搜索方法进行基准测试。我们的平面对象检索基准 FORB 补充了常用的 3D 对象域，更重要的是，它可以作为评估分布域外图像嵌入质量的测试平台。在这个基准测试中，我们研究了代表性方法在候选排名以及匹配分数裕度方面的检索准确性，这是许多工作很大程度上忽视的一个观点。我们的实验不仅凸显了 FORB 的挑战和丰富的异质性，而且揭示了不同检索策略的隐藏特性。拟议的基准是一个不断发展的项目，我们预计对象的数量和种类都会增加。

Object Motion Guided Human Motion Synthesis
Authors Jiaman Li, Jiajun Wu, C. Karen Liu
在情境环境中对人类行为进行建模在角色动画、具体人工智能、VR AR 和机器人领域有着广泛的应用。在现实世界场景中，人类频繁与环境交互并操纵各种物体来完成日常任务。在这项工作中，我们研究了用于操纵大型物体的全身人体运动合成问题。我们提出了对象运动引导的人体运动合成 OMOMO，这是一种条件扩散框架，可以仅根据对象运动生成全身操纵行为。由于单纯应用扩散模型无法精确地强制手部和物体之间的接触约束，因此 OMOMO 学习了两个独立的去噪过程，首先根据物体运动预测手部位置，然后根据预测的手部位置合成全身姿势。通过使用手部位置作为两个去噪过程之间的中间表示，我们可以明确地强制执行接触约束，从而产生物理上更合理的操纵运动。利用学习到的模型，我们开发了一种新颖的系统，只需将智能手机连接到被操纵的物体即可捕获人体的全身操纵动作。通过大量的实验，我们证明了我们提出的管道的有效性及其泛化到不可见物体的能力。此外，由于高质量的人体交互数据集很稀缺，我们收集了由 3D 物体几何、物体运动和人体运动组成的大规模数据集。

VDC: Versatile Data Cleanser for Detecting Dirty Samples via Visual-Linguistic Inconsistency
Authors Zihao Zhu, Mingda Zhang, Shaokui Wei, Bingzhe Wu, Baoyuan Wu
最近以数据为中心的人工智能这一新兴概念强调了数据在构建人工智能系统中的作用。不幸的是，在现实世界中，数据集可能包含脏样本，例如后门攻击的中毒样本、众包中的噪声标签，甚至是它们的混合体。此类脏样本的存在使得 DNN 变得脆弱且不可靠。因此，检测脏样本对于提高数据集的质量和可靠性至关重要。

Nonconvex third-order Tensor Recovery Based on Logarithmic Minimax Function
Authors Hongbing Zhang
最近的研究表明，基于非凸松弛的低阶张量恢复得到了广泛的关注。在此背景下，我们提出了一种新的对数极小极大 LM 函数。 LM函数与对数、最小最大凹惩罚MCP和最小最大对数凹惩罚MLCP函数的比较分析表明，所提出的函数可以保护大奇异值，同时对小奇异值施加更强的惩罚。基于此，我们将加权张量LM范数定义为张量输卵管等级的非凸松弛。随后，我们分别提出了基于TLM的低秩张量完成LRTC模型和基于TLM的张量鲁棒主成分分析TRPCA模型。此外，我们为所提出的方法提供了理论收敛保证。在各种真实数据集上进行了综合实验，并与类似的EMLCP方法进行了对比分析。

Parameter-Saving Adversarial Training: Reinforcing Multi-Perturbation Robustness via Hypernetworks
Authors Huihui Gong, Minjing Dong, Siqi Ma, Seyit Camtepe, Surya Nepal, Chang Xu
对抗性训练是防御对抗性扰动最流行、最有效的方法之一。然而，大多数防御机制仅考虑单一类型的扰动，而可能采用各种攻击方法来对现实场景中的部署模型执行更强的对抗性攻击，例如 ell 2 或 ell infty 。防御各种攻击可能是一个具有挑战性的问题，因为由于单个模型的多扰动鲁棒性的理论限制，多扰动对抗训练及其变体只能实现次优的鲁棒性权衡。此外，在一些存储高效的场景中部署大型模型是不切实际的。为了解决这些缺点，在本文中，我们提出了一种新颖的多扰动对抗训练框架，即参数保存对抗训练 PSAT，以通过节省参数的有利副作用来增强多扰动鲁棒性，该框架利用超网络来训练针对单个扰动的专用模型并聚合这些专门的模型来防御多重扰动。最终，我们针对不同数据集上的各种最新攻击方法，对我们提出的方法与最先进的单多扰动鲁棒方法进行了广泛的评估和比较，显示了我们提出的方法的鲁棒性优越性和参数效率，例如，对于带有 ResNet 的 CIFAR 10 数据集

DiffGAN-F2S: Symmetric and Efficient Denoising Diffusion GANs for Structural Connectivity Prediction from Brain fMRI
Authors Qiankun Zuo, Ruiheng Li, Yi Di, Hao Tian, Changhong Jing, Xuhang Chen, Shuqiang Wang
从功能连接 FC 到结构连接 SC 的映射可以促进多模式脑网络融合并发现具有临床意义的潜在生物标志物。然而，直接桥接 SC 和功能磁共振成像 fMRI 之间可靠的非线性映射关系具有挑战性。本文提出了一种基于 fMRI 到 SC DiffGAN F2S 模型的新型扩散生成对抗网络，以端到端的方式从大脑 fMRI 预测 SC。具体来说，所提出的 DiffGAN F2S 利用去噪扩散概率模型 DDPM 和对抗性学习，通过 fMRI 的几个步骤有效地生成高保真 SC。通过设计双通道多头空间注意力 DMSA 和图卷积模块，对称图生成器首先捕获直接和间接连接的大脑区域之间的全局关系，然后对局部大脑区域交互进行建模。它可以揭示功能磁共振成像和结构连接之间复杂的映射关系。此外，设计空间连接一致性损失来约束生成器保留全局局部拓扑信息，以实现准确的内在 SC 预测。在公共阿尔茨海默病神经影像倡议 ADNI 数据集上进行测试，所提出的模型可以有效地从四维成像数据生成经验性 SC 保留连接，并且与其他相关模型相比，在 SC 预测方面表现出优越的性能。

Cloth2Body: Generating 3D Human Body Mesh from 2D Clothing
Authors Lu Dai, Liqian Ma, Shenhan Qian, Hao Liu, Ziwei Liu, Hui Xiong
在本文中，我们定义并研究了一个新的 Cloth2Body 问题，其目标是从 2D 服装图像生成 3D 人体网格。与现有的人体网格恢复问题不同，Cloth2Body 需要解决由输入的部分观察和输出的高度多样性带来的新的和正在出现的挑战。事实上，存在三个具体挑战。首先，如何在衣服中定位人体并摆好姿势。其次，如何从各种服装类型中有效地估计体型。最后，如何从 2D 服装图像生成多样化且合理的结果。为此，我们提出了一个端到端框架，可以根据 2D 服装图像中的姿势和形状准确估计 3D 身体网格参数。沿着这条线，我们首先利用运动学感知姿势估计来估计身体姿势参数。采用 3D 骨架作为代理，然后采用逆运动学模块来提高估计精度。我们还设计了一种自适应深度技巧，通过消除对象大小和相机外部因素的影响，将重新投影的 3D 网格与 2D 服装图像更好地对齐。接下来，我们提出基于物理学的形状估计来估计身体形状参数。 3D 形状参数是根据 RGB 图像估计的局部身体测量值来预测的，这不仅改进了像素级人体布料对齐，而且还支持灵活的用户编辑。最后，我们设计了基于进化的姿势生成方法，这是一种受遗传算法启发的骨架移植方法，可在推理过程中生成各种合理的姿势。

BEVHeight++: Toward Robust Visual Centric 3D Object Detection
Authors Lei Yang, Tao Tang, Jun Li, Peng Chen, Kun Yuan, Li Wang, Yi Huang, Xinyu Zhang, Kaicheng Yu
虽然最近的自动驾驶系统专注于开发自我车辆传感器的感知方法，但人们往往忽视了利用智能路边摄像头将感知能力扩展到视觉范围之外的替代方法。我们发现最先进的以视觉为中心的鸟瞰检测方法在路边摄像机上的性能较差。这是因为这些方法主要侧重于恢复相机中心的深度，随着距离的增加，汽车和地面之间的深度差迅速缩小。在本文中，我们提出了一种简单而有效的方法，称为 BEVHeight 来解决这个问题。本质上，我们回归到地面的高度以实现与距离无关的公式，以简化仅相机感知方法的优化过程。通过结合高度和深度编码技术，我们实现了从 2D 到 BEV 空间的更准确、更稳健的投影。在流行的路边摄像头 3D 检测基准上，我们的方法大幅超越了之前所有以视觉为中心的方法。就自我车辆场景而言，我们的 BEVHeight 拥有优于仅深度方法的优势。具体来说，在 nuScenes 验证集上进行评估时，它比 BEVDepth 显着提高了 1.9 NDS 和 1.1 mAP。

OSM-Net: One-to-Many One-shot Talking Head Generation with Spontaneous Head Motions
Authors Jin Liu, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong Han
一次头部特写生成没有明确的头部运动参考，因此很难生成具有头部运动的头部特写。一些现有的作品仅编辑嘴部区域并生成静止的头像，导致不真实的头像表演。其他作品在音频信号和头部运动序列之间构建一对一的映射，在映射中引入模糊对应关系，因为人们在说出相同内容时头部运动的行为可能不同。这种不合理的映射形式无法模拟多样性，并且产生近乎静态甚至夸张的头部运动，这是不自然和奇怪的。因此，一次性头部生成任务实际上是一个一对多的不适定问题，人们在说话时会呈现不同的头部运动。基于上述观察，我们提出了 OSM Net，一种具有自然头部运动的文本一对多单镜头说话头部生成网络。 OSM Net构建了一个包含丰富多样的剪辑级头部运动特征的运动空间。空间的每个基础代表剪辑中有意义的头部运动的特征，而不仅仅是帧，从而为说话的头部提供更连贯和自然的运动变化。将驾驶音频映射到运动空间，围绕运动空间在合理范围内采样各种运动特征，实现一对多映射。此外，地标约束和时间窗特征输入提高了表情特征提取和视频生成的准确度。

Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search
Authors Yuanmin Tang, Jing Yu, Keke Gai, Yujing Wang, Yue Hu, Gang Xiong, Qi Wu
当消费者在搜索引擎中通过自然语言查询寻找所需的产品时，跨模式赞助搜索会显示多模式广告。由于多模式广告为查询广告匹配带来了补充细节，因此在图像和文本中对齐广告特定信息的能力对于准确和灵活的赞助搜索至关重要。

Two-Step Active Learning for Instance Segmentation with Uncertainty and Diversity Sampling
Authors Ke Yu, Stephen Albro, Giulia DeSalvo, Suraj Kothawade, Abdullah Rashwan, Sasan Tavakkol, Kayhan Batmanghelich, Xiaoqi Yin
训练高质量的实例分割模型需要大量带有实例掩模和分类的标记图像，而这些图像的采购成本通常很高。主动学习通过选择最具信息性和代表性的图像进行标记，以最小的标记成本争取最佳性能，从而解决了这一挑战。尽管主动学习具有潜力，但与图像分类等需要较少标签的其他任务相比，主动学习在实例分割中的探索较少。在本研究中，我们提出了一种事后主动学习算法，它将基于不确定性的采样与基于多样性的采样相结合。我们提出的算法不仅简单且易于实现，而且还在各种数据集上提供了卓越的性能。

Context-I2W: Mapping Images to Context-dependent Words for Accurate Zero-Shot Composed Image Retrieval
Authors Yuanmin Tang, Jing Yu, Keke Gai, Zhuang Jiamin, Gang Xiong, Yue Hu, Qi Wu
与需要昂贵的标签来训练任务特定模型的合成图像检索任务不同，零镜头合成图像检索 ZS CIR 涉及具有广泛视觉内容操作意图的多种任务，这些任务可能与域、场景、对象和属性相关。 ZS CIR 任务的关键挑战是学习更准确的图像表示，该表示对各种操作描述的参考图像具有适应性关注。在本文中，我们提出了一种新颖的上下文相关映射网络，名为 Context I2W，用于自适应地将描述相关图像信息转换为由准确 ZS CIR 的描述组成的伪词标记。具体来说，意图视图选择器首先动态学习旋转规则，以将相同的图像映射到特定于任务的操作视图。然后，视觉目标提取器在多个可学习查询的指导下进一步捕获覆盖 ZS CIR 任务中主要目标的本地信息。这两个互补模块协同工作，将图像映射到上下文相关的伪词标记，而无需额外的监督。我们的模型在四个 ZS CIR 任务上显示出强大的泛化能力，包括域转换、对象组合、对象操作和属性操作。与最佳方法相比，它获得了一致且显着的性能提升，范围从 1.88 到 3.60，并在 ZS CIR 上实现了新的最先进结果。

A dual-branch model with inter- and intra-branch contrastive loss for long-tailed recognition
Authors Qiong Chen, Tianlin Huang, Geren Zhu, Enlu Lin
现实世界的数据通常呈现长尾分布，其中头类占据大部分数据，而尾类仅具有很少的样本。在长尾数据集上训练的模型对尾类的适应性较差，并且决策边界不明确。因此，在本文中，我们提出了一种简单而有效的模型，称为双分支长尾识别 DB LTR ，其中包括不平衡学习分支和对比学习分支 CoLB 。不平衡学习分支由共享主干和线性分类器组成，利用常见的不平衡学习方法来解决数据不平衡问题。在 CoLB 中，我们学习每个尾类的原型，并计算分支间对比损失、分支内对比损失和度量损失。 CoLB可以提高模型适应尾类的能力，并协助不平衡学习分支学习良好表示的特征空间和判别性决策边界。

MASK4D: Mask Transformer for 4D Panoptic Segmentation
Authors Kadir Yilmaz, Jonas Schult, Alexey Nekrasov, Bastian Leibe
随着时间的推移准确感知和跟踪实例对于动态环境中安全交互的自主代理的决策过程至关重要。出于这个目的，我们提出 Mask4D 来解决 LiDAR 点云 4D 全景分割的挑战性任务。 Mask4D 是第一个基于 Transformer 的方法，将语义实例分割和稀疏且不规则的 3D 点云序列跟踪统一到单个联合模型中。我们的模型直接预测语义实例及其时间关联，而不依赖于任何手工制作的非学习关联策略，例如概率聚类或基于投票的中心预测。相反，Mask4D 引入了时空实例查询，对序列中每个语义轨迹的语义和几何属性进行编码。在深入研究中，我们发现促进空间紧凑的实例预测至关重要，因为时空实例查询倾向于合并多个语义相似的实例，即使它们在空间上相距较远。为此，我们从时空实例查询中回归 6 DOF 边界框参数，这被用作促进空间紧凑预测的辅助任务。

Joint Correcting and Refinement for Balanced Low-Light Image Enhancement
Authors Nana Yu, Hong Shi, Jie Wang, Yahong Han
低光图像增强任务需要亮度、颜色和照明之间的适当平衡。而现有的方法往往只关注图像的某一方面，而没有考虑如何关注这种平衡，这会导致颜色失真和过度曝光等问题，严重影响人类视觉感知和高级视觉模型的性能。在这项工作中，提出了一种新颖的协同结构，可以更有效地平衡亮度、颜色和照明。具体来说，所提出的方法称为联合校正和细化网络 JCRNet，主要由三个阶段组成，以平衡增强的亮度、颜色和照明。第一阶段，我们利用基本的编码器解码器和局部监督机制来提取局部信息和更全面的细节以进行增强。第2阶段跨阶段特征传输和空间特征变换进一步促进色彩校正和特征细化。第三阶段，我们采用动态照明调整方法将预测图像和地面真实图像之间的残差嵌入到模型中，自适应调整照明平衡。大量实验表明，所提出的方法在 9 个基准数据集上比 21 种最先进的方法表现出综合性能优势。此外，还进行了更具说服力的实验来验证我们的方法在下游视觉任务（例如显着性检测）中的有效性。与几种增强模型相比，该方法有效改善了显着性检测的分割结果和定量指标。

Open Compound Domain Adaptation with Object Style Compensation for Semantic Segmentation
Authors Tingliang Feng, Hao Shi, Xueyang Liu, Wei Feng, Liang Wan, Yanlin Zhou, Di Lin
许多语义图像分割方法都借鉴了开放复合域适应的成功。它们最大限度地减少了源域和目标域图像之间的风格差距，更轻松地预测训练分割网络的目标域图像的准确伪注释。现有方法全局适应图像的场景风格，而不同类别或实例的对象风格适应不当。本文提出了对象风格补偿，其中我们构建了具有多组差异特征的对象级差异记忆。集合中的差异特征捕获从目标域适应到源域的相同类别的对象实例的样式变化。我们从源域和目标域的图像中学习差异特征，并将差异特征存储在内存中。有了这个记忆，我们选择合适的差异特征来补偿各个类别的对象实例的样式信息，使对象样式适应源域的统一样式。

UVL: A Unified Framework for Video Tampering Localization
Authors Pengfei Pei, Xianfeng Zhao, Jinchuan Li, Yun Cao
随着深度学习技术的发展，各种伪造方法层出不穷。同时，检测这些假视频的方法也在一些数据集上取得了优异的性能。然而，这些方法对未知视频的泛化性较差，并且对于新的伪造方法效率低下。为了解决这个具有挑战性的问题，我们提出了 UVL，一种用于合成伪造品的新型统一视频篡改定位框架。具体来说，UVL 提取合成边缘的合成伪造边界伪影、生成像素的不自然分布以及伪造区域与原始区域之间的不相关性的共同特征。这些特征广泛存在于不同类型的合成伪造品中，有助于提高检测未知视频的泛化能力。

Learning Effective NeRFs and SDFs Representations with 3D Generative Adversarial Networks for 3D Object Generation: Technical Report for ICCV 2023 OmniObject3D Challenge
Authors Zheyuan Yang, Yibo Liu, Guile Wu, Tongtong Cao, Yuan Ren, Yang Liu, Bingbing Liu
在本技术报告中，我们提出了 ICCV 2023 OmniObject3D 挑战赛的 3D 对象生成解决方案。近年来，3D 对象生成取得了巨大的进展并取得了可喜的结果，但由于生成复杂、纹理和高保真结果的困难，它仍然是一项具有挑战性的任务。为了解决这个问题，我们研究使用 3D 生成对抗网络 GAN 来学习有效的 NeRF 和 SDF 表示，以生成 3D 对象。具体来说，受最近工作的启发，我们使用高效的几何感知 3D GAN 作为骨干，结合标签嵌入和颜色映射，这使得能够同时在不同的分类法上训练模型。然后，通过解码器，我们聚合所得特征以生成基于神经辐射场 NeRF 的表示，以渲染高保真合成图像。同时，我们优化了有符号距离函数 SDF，以有效地用 3D 网格表示对象。此外，我们观察到，只需使用各个类别的每个对象的少量图像即可有效地训练该模型，而不是每个对象使用大量图像或每个类别训练一个模型。通过这个管道，我们可以优化 3D 对象生成的有效模型。

Channel Vision Transformers: An Image Is Worth C x 16 x 16 Words
Authors Yujia Bao, Srinivasan Sivanandan, Theofanis Karaletsos
Vision Transformer ViT 已成为现代计算机视觉领域的强大架构。然而，它在某些成像领域（例如显微镜和卫星成像）的应用提出了独特的挑战。在这些领域中，图像通常包含多个通道，每个通道都携带语义上不同且独立的信息。此外，模型必须表现出对输入通道稀疏性的鲁棒性，因为它们在训练或测试期间可能并不密集可用。在本文中，我们提出了对 ViT 架构的修改，以增强跨输入通道的推理，并引入分层通道采样 HCS 作为附加正则化技术，以确保在测试期间仅呈现部分通道时的鲁棒性。我们提出的模型 ChannelViT 独立于每个输入通道构建补丁标记，并利用添加到补丁标记中的可学习通道嵌入，类似于位置嵌入。我们评估了 ChannelViT 在 ImageNet、JUMP CP 显微镜细胞成像和 So2Sat 卫星成像上的性能。我们的结果表明，即使在测试期间使用输入通道的子集，ChannelViT 在分类任务上也优于 ViT，并且具有良好的泛化能力。在我们的实验中，HCS 被证明是一个强大的正则化器，独立于所使用的架构，这表明它是一种用于稳健 ViT 训练的简单技术。

Masked autoencoders are scalable learners of cellular morphology
Authors Oren Kraus, Kian Kenyon Dean, Saber Saberian, Maryam Fallah, Peter McLean, Jess Leung, Vasudev Sharma, Ayla Khan, Jia Balakrishnan, Safiye Celik, Maciej Sypetkowski, Chi Vicky Cheng, Kristen Morse, Maureen Makes, Ben Mabey, Berton Earnshaw
从高内涵显微镜屏幕中的细胞表型推断生物学关系为生物学研究提供了重大机遇和挑战。先前的结果表明，深度视觉模型可以比手工制作的特征更好地捕获生物信号。这项工作探讨了在更大的数据集上训练更大的模型时，弱监督和自监督的深度学习方法如何扩展。我们的结果表明，基于 CNN 和 ViT 的屏蔽自动编码器都显着优于弱监督模型。

Handbook on Leveraging Lines for Two-View Relative Pose Estimation
Authors Petr Hruby, Shaohui Liu, R mi Pautrat, Marc Pollefeys, Daniel Barath
我们提出了一种通过以混合方式联合利用点、线及其重合来估计校准图像对之间的相对姿态的方法。我们研究了这些数据模式可以一起使用的所有可能的配置，并回顾了文献中可用的最小求解器。我们的混合框架结合了所有配置的优点，能够在充满挑战的环境中实现稳健而准确的估计。此外，我们设计了一种联合估计两幅图像中多个消失点对应的方法，以及考虑所有相关数据模态的捆绑调整。对各种室内和室外数据集的实验表明，我们的方法优于基于点的方法，在以相当的速度运行时，将 AUC 10 circ 提高了 1 7 个点。

Q-REG: End-to-End Trainable Point Cloud Registration with Surface Curvature
Authors Shengze Jin, Daniel Barath, Marc Pollefeys, Iro Armeni
点云配准最近通过几种基于学习的方法取得了成功，这些方法专注于对应匹配，因此仅针对此目标进行优化。在对应匹配的学习步骤之后，他们使用类似 RANSAC 的框架评估估计的刚性变换。虽然它是这些方法中不可或缺的组成部分，但它阻止了完全的端到端训练，从而使最小化姿态误差的目标无法实现。我们提出了一种新颖的解决方案 Q REG，它利用丰富的几何信息从单个对应关系中估计刚性姿势。 Q REG 允许将鲁棒估计形式化为详尽的搜索，从而实现端到端训练，从而优化对应匹配和刚性姿态估计的目标。我们在实验中证明，Q REG 与对应匹配方法无关，并且仅在推理和端到端训练中使用时都能提供一致的改进。

GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
Authors Vicente Vivanco Cepeda, Gaurav Kumar Nayak, Mubarak Shah
全球地理定位旨在查明在地球任何地方拍摄的图像的精确位置。由于地理景观的巨大差异，这项任务面临相当大的挑战。基于图像到图像检索的方法无法在全球范围内解决这个问题，因为构建覆盖整个世界的大型图像库是不可行的。相反，现有方法将地球划分为离散的地理单元，将问题转化为分类任务。然而，它们的性能受到预定义类别的限制，并且当图像的位置明显偏离其类别中心时，通常会导致定位不准确。为了克服这些限制，我们提出了 GeoCLIP，这是一种受 CLIP 启发的新型图像到 GPS 检索方法，可强制图像与其相应的 GPS 位置之间的对齐。 GeoCLIP 的位置编码器将地球建模为连续函数，通过随机傅立叶特征使用位置编码，并构建分层表示，以不同的分辨率捕获信息，从而产生语义丰富的高维特征，甚至适合在地理定位之外使用。据我们所知，这是第一个采用 GPS 编码进行地理定位的工作。我们通过对基准数据集的广泛实验和消融来证明我们方法的有效性。我们仅用 20 个训练数据就实现了具有竞争力的性能，即使在有限的数据设置中也凸显了其有效性。

GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for Indoor Scenes
Authors Chaoqiang Zhao, Matteo Poggi, Fabio Tosi, Lei Zhou, Qiyu Sun, Yang Tang, Stefano Mattoccia
本文解决了室内场景中由帧间大旋转和低纹理引起的自监督单目深度估计的挑战。我们通过多视图几何从单目序列获得粗略的相机姿势来处理前者，从而简化了学习过程。然而，我们发现，受限于训练数据集中不同场景的尺度模糊性，简单地引入几何粗略姿势并不能对性能提升发挥积极作用，这是违反直觉的。为了解决这个问题，我们建议在训练期间通过旋转和平移尺度优化来完善这些姿势。为了减轻低纹理的影响，我们将视觉变换器的全局推理与过度拟合感知的迭代自蒸馏机制相结合，提供来自网络本身的更准确的深度指导。在 NYUv2、ScanNet、7scenes 和 KITTI 数据集上的实验支持了我们框架中每个组件的有效性，这为室内自监督单目深度估计设定了新的技术水平，以及出色的泛化能力。

Targeted Image Data Augmentation Increases Basic Skills Captioning Robustness
Authors Valentin Barriere, Felipe del Rio, Andres Carvallo De Ferari, Carlos Aspillaga, Eugenio Herrera Berg, Cristian Buc Calderon
人工神经网络通常难以推广到上下文之外的示例。造成这种限制的原因之一是数据集仅包含有关世界潜在相关结构的部分信息。在这项工作中，我们提出了 TIDA 有针对性的图像编辑数据增强，这是一种有针对性的数据增强方法，专注于通过使用文本到图像生成模型填充相关结构差距来改进模型的类人能力，例如性别识别。更具体地说，TIDA 识别描述图像的标题中的特定技能（例如图像中特定性别的存在），更改标题（例如从女人到男人），然后使用文本到图像模型来编辑图像以匹配小说标题例如，在保持上下文相同的情况下将女性独特地改变为男性。基于 Flickr30K 基准测试，我们表明，与原始数据集相比，与性别、颜色和计数能力相关的 TIDA 增强数据集在多个图像字幕指标中具有更好的性能。此外，除了依赖经典的 BLEU 指标之外，我们还以不同的方式对模型相对于基线的改进进行了细粒度分析。

Assessment of Local Climate Zone Products via Simplified Classification Rule with 3D Building Maps
Authors Hunsoo Song, Gaia Cervini, Jinha Jung
本研究评估了全球当地气候区 LCZ 产品的性能。我们检查了美国三个主要大都市区的 LCZ 的建筑类型类别。使用基于高分辨率 3D 建筑地图的简单规则方法构建了参考 LCZ。我们的评估表明，全球 LCZ 产品很难区分需要精确建筑占地面积信息的类别（6 类和 9 类）以及需要识别建筑物标高细微差别的类别（4 类 6）。此外，我们还发现了不一致的趋势，即不同城市的类别分布存在不同的偏差，这表明基于机器学习的 LCZ 分类器中存在数据分布转移问题。

The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data Filtering
Authors Haichao Yu, Yu Tian, Sateesh Kumar, Linjie Yang, Heng Wang
预训练数据的质量对于基础模型的性能起着至关重要的作用。流行的基础模型通常设计自己的数据过滤方案，这使得分析和比较不同的数据过滤方法变得困难。 DataComp 是一个新的基准测试，致力于评估不同的数据过滤方法。本文介绍了我们在参加DataComp挑战时的学习和解决方案。我们的过滤策略包括三个阶段的单模态过滤、跨模态过滤和数据分布对齐。我们整合现有方法并提出新的解决方案，例如计算水平翻转图像的CLIP分数以减轻场景文本的干扰，使用视觉和语言模型检索目标下游任务的训练样本，重新平衡数据分布以提高分配效率计算预算等。我们对设计选择进行切片和切块，提供深入分析，并讨论悬而未决的问题。

AutoEncoding Tree for City Generation and Applications
Authors Wenyu Han, Congcong Wen, Lazarus Chok, Yan Liang Tan, Sheung Lung Chan, Hang Zhao, Chen Feng
城市建模和生成引起了人们对游戏、城市规划和自动驾驶等各种应用的日益浓厚的兴趣。与之前专注于生成单个物体或室内场景的作品不同，城市中大量的空间数据对生成模型提出了挑战。此外，很少有公开可用的 3D 现实世界城市数据集也阻碍了城市生成方法的开发。在本文中，我们首先收集了纽约、苏黎世、东京、柏林、波士顿和其他几个大城市的超过 3,000,000 个地理参考对象。基于该数据集，我们提出了 AETree，一种用于城市生成的树结构自动编码器神经网络。具体来说，我们首先提出了一种新的空间几何距离 SGD 度量来测量建筑物布局之间的相似性，然后基于 SGD 度量在建筑物的原始几何数据上构建二叉树。接下来，我们提出一个树结构网络，其编码器学习自下而上迭代地提取和合并空间信息。所得到的全局表示被反向解码以用于重建或生成。为了解决随着树的级别增加而产生的长依赖性问题，采用长短期记忆 LSTM 单元作为所提出的 AETree 的基本网络元素。此外，我们引入了一种新颖的指标——重叠面积比 OAR 来定量评估生成结果。对收集的数据集进行的实验证明了所提出的模型在 2D 和 3D 城市生成方面的有效性。

Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts
Authors Deniz Engin, Yannis Avrithis
最近的视觉语言模型是由大规模预训练模型驱动的。然而，在有限的数据上调整预训练模型会带来一些挑战，例如过度拟合、灾难性遗忘以及视觉和语言之间的跨模态差距。我们引入了一种参数有效的方法来解决这些挑战，结合多模态即时学习和基于变压器的映射网络，同时保持预训练模型的冻结。我们对几个视频问答基准的实验证明了我们的方法在零镜头和少镜头设置的性能和参数效率方面的优越性。

Highly Efficient SNNs for High-speed Object Detection
Authors Nemin Qiu, Zhiguo Li, Yuan Li, Chuang Zhu
尖峰神经网络SNNs的高生物学特性和低能耗近年来引起了广泛关注。然而，转换后的 SNN 通常需要较大的时间步长才能获得满意的性能，这将导致较高的推理延迟和计算资源的增加。在这项工作中，我们提出了一种高效、快速的 SNN 来进行对象检测。首先，我们通过使用卷积层折叠批量归一化层和神经网络修改的量化训练方法构建了一个初始紧凑的人工神经网络。其次，我们从理论上分析了如何正确获取低复杂度SNN。然后，我们提出了一种尺度感知伪量化方案来保证紧凑型 ANN 到 SNN 的正确性。第三，我们提出了一种使用前馈积分和 Fire FewdIF 神经元的连续推理方案来实现高速目标检测。实验结果表明，我们的高效 SNN 可以在 GPU 上实现 118 倍的加速，而对象检测任务的参数仅为 1.5MB。

Reflection Invariance Learning for Few-shot Semantic Segmentation
Authors Qinglong Cao, Yuntian Chen, Chao Ma, Xiaokang Yang
Few shot 语义分割 FSS 旨在仅使用少量带注释的支持图像来分割查询图像中不可见类的对象。现有的 FSS 算法通常侧重于从单视图支持中挖掘类别表示以匹配单视图查询的语义对象。然而，有限的注释样本使得单视图匹配难以感知新对象的反射不变性，这导致新类别的学习空间受到限制，并进一步导致解析性能下降的有偏差的分割。为了应对这一挑战，本文提出了一种新的少镜头分割框架，以多视图匹配方式挖掘反射不变性。具体来说，将具有相同语义的不同视角的原始支持特征和反射支持特征进行可学习融合，以获得具有更强类别表示能力的反射不变性原型。同时，为了提供更好的先验指导，提出了反射不变先验掩模生成 RIPMG 模块，从不同角度整合先验知识。最后，来自不同视图的分割预测互补地合并到反射不变语义预测 RISP 模块中，以产生精确的分割预测。在 PASCAL 5 textit i 和 COCO 20 textit i 数据集上进行的大量实验证明了我们方法的有效性，并表明我们的方法可以实现最先进的性能。

ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning
Authors Qiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull
为了使机器人能够执行各种任务，它们需要对世界进行 3D 表示，该表示在语义上丰富，但紧凑且高效，以实现任务驱动的感知和规划。最近的方法尝试利用大型视觉语言模型的特征来编码 3D 表示中的语义。然而，这些方法往往会生成具有每点特征向量的地图，这些地图在较大的环境中不能很好地扩展，也不包含环境中实体之间的语义空间关系，而这对于下游规划很有用。在这项工作中，我们提出了 ConceptGraphs，一种用于 3D 场景的开放词汇图结构化表示。 ConceptGraphs 是通过利用 2D 基础模型并通过多视图关联将其输出融合到 3D 来构建的。所得表示可推广到新颖的语义类，无需收集大型 3D 数据集或微调模型。我们通过许多下游规划任务演示了这种表示的实用性，这些任务通过抽象语言提示指定，并且需要对空间和语义概念进行复杂的推理。

Mixup Your Own Pairs
Authors Yilei Wu, Zijian Dong, Chongyao Chen, Wangchunshu Zhou, Juan Helen Zhou
在表示学习中，回归传统上受到的关注少于分类。直接将专为分类而设计的表示学习技术应用于回归通常会导致潜在空间中的表示碎片化，从而产生次优性能。在本文中，我们认为，由于忽视了序数意识和硬度两个关键方面，对比学习在回归中的潜力被掩盖了。为了应对这些挑战，我们提倡混合您自己的对比对进行监督对比回归，而不是仅仅依赖真实的增强样本。具体来说，我们提出使用 Mixup SupReMix 进行监督对比学习回归。在嵌入级别，它将锚和不同负样本的锚包含混合混合作为硬负对，将两个不同负样本的锚排除混合混合作为硬正对。该策略通过整合更丰富的序数信息来制定更难的对比对。通过对二维图像、体积图像、文本、表格数据和时间序列信号等六个回归数据集的广泛实验，结合理论分析，我们证明 SupReMix 预训练可以促进回归数据的连续有序表示，从而显着提高回归性能。

Class Activation Map-based Weakly supervised Hemorrhage Segmentation using Resnet-LSTM in Non-Contrast Computed Tomography images
Authors Shreyas H Ramananda, Vaanathi Sundaresan
在临床环境中，颅内出血 ICH 通常使用非对比 CT NCCT 进行诊断，以评估严重程度。 ICH 病变的准确自动分割是初始且重要的步骤，对于此类评估非常有用。然而，与 MRI 等其他结构成像方式相比，在 NCCT 图像中 ICH 的对比度非常低，信噪比也很差。近年来，基于深度学习的方法显示出巨大的潜力，然而，训练它们需要大量手动注释的病变级别标签，并且具有足够的多样性来捕获 ICH 的特征。在这项工作中，我们提出了一种新的弱监督深度学习方法，用于 NCCT 扫描上的 ICH 分割，使用图像级二元分类标签，与手动标记单个 ICH 病灶相比，该方法耗时更少，劳动效率更高。我们的方法最初使用分类网络中的类激活图来确定 ICH 的大致位置，分类网络经过训练可以学习相邻切片之间的依赖关系。我们使用以无监督方式获得的伪 ICH 掩码进一步细化 ICH 分割。该方法非常灵活，并且在测试期间使用计算量小的架构。

Audio-Visual Speaker Verification via Joint Cross-Attention
Authors R. Gnana Praveen, Jahangir Alam
使用语音信号进行了说话人验证的广泛探索，使用深度模型已显示出显着的改进。最近，人们对面孔和声音的探索激增，因为与仅依赖单一语音信号模态相比，它们可以提供更多补充和更全面的信息。尽管目前文献中有关面部和声音融合的方法已经显示出比个人面部或语音模态的方法有所改进，但视听融合在说话人验证方面的潜力尚未得到充分开发。大多数基于视听融合的现有方法要么依赖于分数级别融合，要么依赖于简单的特征串联。在这项工作中，我们探索了跨模态联合注意力，以充分利用模间互补信息和模内信息进行说话人验证。具体来说，我们根据联合特征表示和个体特征表示之间的相关性来估计交叉注意力权重，以便有效地捕获面部和声音之间的模内以及模间关系。我们已经证明，有效利用模内和模间关系可以显着提高用于说话人验证的视听融合的性能。该方法的性能已在 Voxceleb1 数据集上进行了评估。

Uncertainty Quantification for Eosinophil Segmentation
Authors Kevin Lin, Donald Brown, Sana Syed, Adam Greene
嗜酸性粒细胞性食管炎 EoE 是一种患病率不断增加的过敏性疾病。为了诊断 EoE，病理学家必须在 400 倍放大倍率的单个高倍视野内找到 15 个或更多嗜酸性粒细胞。确定患者是否患有 EoE 可能是一个艰巨的过程，任何用于辅助诊断的医学成像方法都必须考虑效率和精度。我们提出了对 Adorno 等人使用深度图像分割量化嗜酸性粒细胞的方法的改进。我们的新方法利用蒙特卡罗 Dropout（深度学习中减少过度拟合的常用方法）来为当前深度学习模型提供不确定性量化。

Transformer-VQ: Linear-Time Transformers via Vector Quantization
Authors Lucas D. Lingle
我们介绍 Transformer VQ，这是一种仅解码器的变压器，在线性时间内计算基于 softmax 的密集自注意力。 Transformer VQ 的高效注意力是通过矢量量化密钥和新颖的缓存机制实现的。在大规模实验中，Transformer VQ 在质量上表现出很强的竞争力，在 Enwik8 0.99 bpb 、 PG 19 26.6 ppl 和 ImageNet64 3.16 bpb 上取得了强劲的结果。

GAMMA: Generalizable Articulation Modeling and Manipulation for Articulated Objects
Authors Qiaojun Yu, Junbo Wang, Wenhai Liu, Ce Hao, Liu Liu, Lin Shao, Weiming Wang, Cewu Lu
橱柜和门等铰接式物体在日常生活中很常见。然而，直接操纵 3D 关节对象具有挑战性，因为它们具有不同的几何形状、语义类别和动力学约束。之前的工作主要集中在识别和操纵具有特定关节类型的铰接物体。他们可以估计关节参数或区分合适的抓取姿势以促进轨迹规划。尽管这些方法在某些类型的铰接物体上取得了成功，但它们缺乏对看不见的物体的通用性，这极大地阻碍了它们在更广泛的场景中的应用。在本文中，我们提出了一种针对关节对象的通用关节建模和操纵的新颖框架 GAMMA，它从不同类别的各种关节对象中学习关节建模和掌握姿势可供性。此外，GAMMA采用自适应操纵来迭代减少建模误差并增强操纵性能。我们使用 PartNet Mobility 数据集训练 GAMMA，并通过 SAPIEN 模拟和现实世界 Franka 机器人手臂的综合实验进行评估。结果表明，在看不见的跨类别关节对象中，GAMMA 显着优于 SOTA 关节建模和操作算法。我们将开源模拟机器人和真实机器人中的所有代码和数据集，以便在最终版本中重现。

Off-the-shelf bin picking workcell with visual pose estimation: A case study on the world robot summit 2018 kitting task
Authors Frederik Hagelskj r, Kasper H j Lorenzen, Dirk Kraft
2018 年世界机器人峰会装配挑战赛包括四项不同的任务。配套任务需要分箱拣选，是获得分数最少的任务。然而，垃圾箱拣选是一项至关重要的技能，可以显着提高机器人设置的灵活性，因此是一个重要的研究领域。近年来，传感器技术和姿态估计算法取得了进步。

Abdominal multi-organ segmentation in CT using Swinunter
Authors Mingjin Chen, Yongkang He, Yongyi Lu
计算机断层扫描 CT 中的腹部多器官分割对于许多临床应用（包括疾病检测和治疗计划）至关重要。从这个角度来看，深度学习方法表现出了前所未有的性能。然而，由于器官边界模糊、背景复杂、器官大小尺度差异很大，利用单一网络准确分割不同器官仍然具有相当的挑战性。在这项工作中，我们使用基于变压器的模型进行训练。通过往年的比赛发现，前5名的方法基本上都是基于CNN的方法，这可能是由于数据量的缺乏导致基于Transformer的方法无法充分发挥优势。本次比赛的上千个样本或许能让基于Transformer的模型取得更加优异的成绩。

Cross-Modal Transformer GAN: Brain Structural-Functional Deep Fusing Network for Alzheimer's Disease Analysis
Authors Qiankun Zuo, Junren Pan, Shuqiang Wang
融合大脑的结构功能图像显示出分析阿尔茨海默病 AD 恶化的巨大潜力。然而，有效融合多模态神经图像的相关和互补信息是一个巨大的挑战。本文提出了一种称为跨模态变压器生成对抗网络 CT GAN 的新模型，以有效融合功能磁共振成像 fMRI 和扩散张量成像 DTI 中包含的功能和结构信息。 CT GAN 可以学习拓扑特征，并以高效的端到端方式从多模态成像数据生成多模态连接。此外，交换双注意力机制旨在逐渐对齐共同特征并有效增强模态之间的互补特征。通过分析生成的连接特征，所提出的模型可以识别 AD 相关的大脑连接。对公共 ADNI 数据集的评估表明，所提出的 CT GAN 可以显着提高预测性能并有效检测 AD 相关的大脑区域。

Learning to Terminate in Object Navigation
Authors Yuhang Song, Anh Nguyen, Chun Yi Lee
本文解决了自主导航系统中目标导航的关键挑战，特别关注基于深度强化学习 DRL 的方法中具有长最佳情节长度的环境中的目标接近和情节终止问题。虽然传统的 DRL 方法在环境探索和对象定位方面有效，但由于缺乏深度信息，常常难以实现最佳路径规划和终止识别。为了克服这些限制，我们提出了一种新颖的方法，即深度推理终止代理 DITA，它结合了称为判断模型的监督模型来隐式推断对象深度并与强化学习联合决定终止。我们并行训练我们的判断模型和强化学习，并通过奖励信号有效地监督前者。我们的评估表明，该方法表现出卓越的性能，在所有房间类型中，我们的成功率比基准方法提高了 9.3，在长剧集环境中获得了 51.2 的改进，同时保持了稍微更好的按路径长度 SPL 加权的成功率。

Generative Semi-supervised Learning with Meta-Optimized Synthetic Samples
Authors Shin ya Yamaguchi
半监督学习 SSL 是一种使用标记和未标记数据集训练深度分类模型的有前景的方法。然而，现有的 SSL 方法依赖于大量未标记的数据集，由于 GDPR 等法律限制，这些数据集在许多现实世界的应用程序中可能并不总是可用。在本文中，我们研究了研究问题：我们是否可以在没有真实未标记数据集的情况下训练 SSL 模型？我们不使用真实的未标记数据集，而是提出了一种 SSL 方法，该方法使用从生成基础模型生成的合成数据集，该生成基础模型在包含不同领域的数百万个样本的数据集上进行训练，例如，图像网。我们的主要概念是识别来自生成基础模型的模拟未标记样本的合成样本，并使用这些合成样本训练分类器。为了实现这一目标，我们的方法被公式化为交替优化问题，即生成基础模型的元学习和使用真实标记和合成未标记样本的分类器的 SSL。对于 i ，我们提出了一个元学习目标，该目标优化潜在变量以生成类似于真实标记样本的样本并最小化验证损失。对于 ii ，我们提出了一个简单的无监督损失函数，该函数对分类器的特征提取器进行正则化，以最大限度地提高从合成样本中获得的性能改进。我们确认我们的方法优于在 SSL 上使用生成基础模型的基线。我们还证明，在具有极少量标记数据集的场景中，我们的方法优于使用真实未标记数据集的 SSL。

CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware Prompting
Authors Shaoxiang Guo, Qing Cai, Lin Qi, Junyu Dong
对比语言图像预训练 CLIP 开始出现在许多计算机视觉任务中，并取得了可喜的性能。然而，CLIP 是否可以推广到 3D 手部姿势估计仍有待探索，因为由于 3D 空间中关节位置的离散性质，将文本提示与姿势感知特征桥接会带来重大挑战。在本文中，我们首次尝试根据单目图像提出一种新颖的 3D 手部姿势估计器，称为 CLIP Hand3D，它成功地弥合了文本提示和不规则详细姿势分布之间的差距。特别是，手部关节在各个3D空间方向上的分布顺序是从姿势标签导出的，形成相应的文本提示，随后将其编码为文本表示。同时，检索 3D 空间中的 21 个手关节，并对它们在 x、y 和 z 轴上的空间分布进行编码以形成姿势感知特征。随后，我们遵循基于 CLIP 的对比学习范式，最大化一对姿势文本特征的语义一致性。此外，还设计了一个从粗到细的网格回归器，它能够有效地从特征金字塔中查询关节感知线索。

D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Robotic Manipulation
Authors Yixuan Wang, Zhuoran Li, Mingtong Zhang, Katherine Driggs Campbell, Jiajun Wu, Li Fei Fei, Yunzhu Li
场景表示一直是机器人操纵系统中至关重要的设计选择。理想的表示应该是 3D、动态和语义的，以满足不同操作任务的需求。然而，以前的作品往往同时缺乏这三个属性。在这项工作中，我们引入了 D 3 Fields 动态 3D 描述符字段。这些字段捕获底层 3D 环境的动态并对语义特征和实例掩码进行编码。具体来说，我们将工作空间中的任意 3D 点投影到多视图 2D 视觉观察上，并插入从基础模型派生的特征。由此产生的融合描述符字段允许使用具有不同上下文、样式和实例的 2D 图像来实现灵活的目标规范。为了评估这些描述符字段的有效性，我们以零样本的方式将我们的表示应用于广泛的机器人操作任务。通过对现实世界场景和模拟的广泛评估，我们证明了 D 3 场对于零射击机器人操作任务来说既可推广又有效。

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
Authors Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
我们提出了任何模态增强语言模型 AnyMAL，这是一个统一模型，可以对不同的输入模态信号（即文本、图像、视频、音频、IMU 运动传感器）进行推理，并生成文本响应。 AnyMAL 继承了包括 LLaMA 2 70B 在内的最先进的 LLM 强大的基于文本的推理能力，并通过预训练的对齐器模块将模态特定信号转换到联合文本空间。为了进一步加强多模态法学硕士的能力，我们使用手动收集的多模态指令集对模型进行微调，以涵盖简单问答之外的各种主题和任务。

Diagnosis of Helicobacter pylori using AutoEncoders for the Detection of Anomalous Staining Patterns in Immunohistochemistry Images
Authors Pau Cano, lvaro Caravaca, Debora Gil, Eva Musulen
这项工作致力于检测幽门螺杆菌，这种细菌自 1994 年起就被列为人类 1 类致癌物。由于其最高的特异性和敏感性，首选的诊断技术是通过免疫组织化学染色分析组织学图像，在该过程中某些染色的抗体与感兴趣的生物元件的抗原结合。

Neural Acoustic Context Field: Rendering Realistic Room Impulse Response With Neural Fields
Authors Susan Liang, Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu
房间脉冲响应 RIR 用于测量环境内的声音传播，对于合成给定环境的高保真音频至关重要。之前的一些工作提出将 RIR 表示为声音发射器和接收器位置的神经场函数。然而，这些方法没有充分考虑音频场景的声学特性，导致性能不理想。这封信提出了一种新颖的神经声学上下文场方法，称为 NACF，通过利用多个声学上下文（例如几何、材料属性和空间信息）来参数化音频场景。在 RIR 独特属性（即时间不平滑性和单调能量衰减）的驱动下，我们设计了时间相关模块和多尺度能量衰减准则。实验结果表明，NACF 明显优于现有的基于现场的方法。

Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs
Authors Haonan Chang, Kowndinya Boyalakuntla, Shiyang Lu, Siwei Cai, Eric Jing, Shreesh Keskar, Shijie Geng, Adeeb Abbas, Lifeng Zhou, Kostas Bekris, Abdeslam Boularias
我们提出了一个开放词汇 3D 场景图 OVSG，这是一个正式框架，用于通过基于自由格式文本的查询来支持各种实体，例如对象实例、代理和区域。与传统的基于语义的对象定位方法不同，我们的系统促进了上下文感知实体定位，允许进行查询，例如拿起厨房桌子上的杯子或导航到某人坐的沙发。与现有的 3D 场景图研究相比，OVSG 支持自由格式文本输入和开放词汇查询。通过使用 ScanNet 数据集和自收集数据集的一系列比较实验，我们证明我们提出的方法显着超越了以前基于语义的定位技术的性能。

High Perceptual Quality Wireless Image Delivery with Denoising Diffusion Models
Authors Selim F. Yilmaz, Xueyan Niu, Bo Bai, Wei Han, Lei Deng, Deniz Gunduz
我们通过基于深度学习的联合源信道编码 DeepJSCC 以及接收器处的去噪扩散概率模型 DDPM 来考虑噪声无线信道上的图像传输问题。具体来说，我们对实际有限块长度机制中的感知失真权衡感兴趣，其中单独的源编码和通道编码可能是非常次优的。我们引入了一种利用目标图像的距离零空间分解的新颖方案。我们在编码后传输图像的范围空间，并使用 DDPM 逐步细化其零空间内容。通过大量的实验，我们证明了与标准 DeepJSCC 和最先进的基于生成学习的方法相比，重建图像的失真和感知质量有了显着改善。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com