【AI视野·今日CV 计算机视觉论文速览第251期】Thu, 21 Sep 2023

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 21 Sep 2023
Totally 76 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚FreeU, Diffusion U-Net提升生成模型的质量。(from 南洋理工)
在这里插入图片描述

Daily Computer Vision Papers

DreamLLM: Synergistic Multimodal Comprehension and Creation
Authors Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, Xiangwen Kong, Xiangyu Zhang, Kaisheng Ma, Li Yi
本文介绍了 DreamLLM，这是一个学习框架，它首先实现了多功能多模态大语言模型 MLLM，该模型具有多模态理解和创建之间经常被忽视的协同作用。 DreamLLM 的运作遵循两个基本原则。第一个重点是通过在原始多模态空间中直接采样来对语言和图像后验进行生成建模。这种方法规避了 CLIP 等外部特征提取器固有的限制和信息丢失，并且获得了更彻底的多模态理解。其次，DreamLLM 促进原始交错文档的生成，对文本和图像内容以及非结构化布局进行建模。这使得 DreamLLM 能够有效地学习所有条件、边际和联合多模态分布。因此，DreamLLM 是第一个能够生成自由格式交错内容的 MLLM。

FreeU: Free Lunch in Diffusion U-Net
Authors Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu
在本文中，我们揭示了扩散 U Net 的未开发潜力，它作为免费午餐，可以大幅提高动态生成质量。我们首先研究了 U Net 架构对去噪过程的关键贡献，并发现其主干主要有助于去噪，而其跳跃连接主要将高频特征引入解码器模块，导致网络忽略主干语义。利用这一发现，我们提出了一种简单而有效的方法，称为 FreeU，无需额外的训练或微调即可提高生成质量。我们的主要见解是战略性地重新权衡来自 U Net 的跳跃连接和骨干特征图的贡献，以利用 U Net 架构的两个组件的优势。在图像和视频生成任务上的良好结果表明，我们的 FreeU 可以轻松集成到现有的扩散模型中，例如 Stable Diffusion、DreamBooth、ModelScope、Rerender 和 ReVersion，只需几行代码即可提高生成质量。您所需要的只是在推理过程中调整两个缩放因子。

Budget-Aware Pruning: Handling Multiple Domains with Less Parameters
Authors Samuel Felipe dos Santos, Rodrigo Berriel, Thiago Oliveira Santos, Nicu Sebe, Jurandy Almeida
深度学习在多个计算机视觉任务和领域取得了最先进的性能。尽管如此，它仍然具有较高的计算成本并且需要大量的参数。这些要求阻碍了在资源有限的环境中的使用，并且需要软件和硬件的优化。另一个限制是深度模型通常专门针对单个领域或任务，要求它们为每个新领域或任务学习和存储新参数。多领域学习 MDL 试图通过学习能够在多个领域表现良好的单一模型来解决这个问题。然而，这些模型通常大于单个域的基线。这项工作解决了这两个问题，我们的目标是根据用户定义的预算修剪能够处理多个域的模型，使它们在计算上更加经济实惠，同时保持类似的分类性能。我们通过鼓励所有领域使用基线模型中类似的过滤器子集来实现这一目标，最高可达用户预算定义的数量。然后，不被任何域使用的过滤器将从网络中删除。

SkeleTR: Towrads Skeleton-based Action Recognition in the Wild
Authors Haodong Duan, Mingze Xu, Bing Shuai, Davide Modolo, Zhuowen Tu, Joseph Tighe, Alessandro Bergamo
我们提出了 SkeleTR，一个基于骨架的动作识别的新框架。与之前主要关注受控环境的工作相比，我们的目标是更一般的场景，通常涉及可变数量的人员以及人与人之间各种形式的交互。 SkeleTR 采用两阶段范例。它首先使用图卷积对每个骨架序列的人内骨架动力学进行建模，然后使用堆叠的 Transformer 编码器来捕获对于一般场景中的动作识别很重要的人交互。为了减轻骨架关联不准确的负面影响，SkeleTR 采用相对较短的骨架序列作为输入，并增加序列数量。作为一个统一的解决方案，SkeleTR可以直接应用于多个基于骨架的动作任务，包括视频级动作分类、实例级动作检测和群体级活动识别。它还支持跨不同动作任务和数据集的迁移学习和联合训练，从而提高性能。

Signature Activation: A Sparse Signal View for Holistic Saliency
Authors Jose Roberto Tello Ayala, Akl C. Fahed, Weiwei Pan, Eugene V. Pomerantsev, Patrick T. Ellinor, Anthony Philippakis, Finale Doshi Velez
在医疗保健领域采用机器学习需要模型的透明度和可解释性。在这项工作中，我们引入了签名激活，这是一种显着性方法，可为卷积神经网络 CNN 输出生成整体且与类别无关的解释。我们的方法利用了某些类型的医学图像（例如血管造影照片）具有清晰的前景和背景对象的事实。我们给出理论解释来证明我们的方法的合理性。

A Systematic Review of Few-Shot Learning in Medical Imaging
Authors Eva Pachetti, Sara Colantonio
缺乏带注释的医学图像限制了深度学习模型的性能，深度学习模型通常需要大规模的标记数据集。很少有镜头学习技术可以减少数据稀缺问题并增强医学图像分析，尤其是元学习。这篇系统综述对医学成像中的少数镜头学习进行了全面的概述。我们系统地检索了文献，选择了 2018 年至 2023 年发表的 80 篇相关文章。我们根据医疗结果对文章进行了聚类，例如肿瘤分割、疾病分类、图像配准、研究的心脏、肺等解剖结构以及元学习使用的方法。对于每个集群，我们检查了论文分布和现有技术提供的结果。此外，我们还确定了所有研究共享的通用流程。该评论表明，少量样本学习可以克服大多数结果中的数据稀缺性，并且元学习是执行少量样本学习的流行选择，因为它可以适应带有少量标记样本的新任务。此外，继元学习之后，监督学习和半监督学习脱颖而出，成为用于解决医学成像中少数镜头学习挑战且表现最佳的主要技术。最后，我们观察到主要应用领域主要包括心脏、肺和腹部领域。

CNNs for JPEGs: A Study in Computational Cost
Authors Samuel Felipe dos Santos, Nicu Sebe, Jurandy Almeida
卷积神经网络 CNN 在过去十年中取得了惊人的进步，定义了多项计算机视觉任务的最新技术。 CNN 能够直接从 RGB 像素学习数据的鲁棒表示。然而，大多数图像数据通常以压缩格式提供，其中JPEG是最广泛使用的，因为传输和存储目的需要具有高计算负载和存储器使用量的初步解码过程。因此，能够直接从压缩域学习的深度学习方法近年来受到关注。这些方法通常通过部分解码来提取图像的频域表示，例如 DCT，然后适应典型的 CNN 架构来使用它们。当前这些工作的一个局限性是，为了适应频域数据，对原始模型所做的修改显着增加了参数量和计算复杂性。一方面，这些方法具有更快的预处理速度，因为避免了完全解码图像的成本，但另一方面，通过模型传递图像的成本增加了，从而减轻了加速该方法可能带来的好处。在本文中，我们提出进一步研究为频域设计的深度模型的计算成本，评估解码和通过网络传递图像的成本。

3D Face Reconstruction: the Road to Forensics
Authors Simone Maurizio La Cava, Giulia Orr , Martin Drahansky, Gian Luca Marcialis, Fabio Roli
基于图像和视频的3D人脸重建算法凭借其优势特点，被应用于从整形外科到娱乐领域的许多领域。然而，在考虑法医应用时，3D 人脸重建必须遵守严格的要求，这仍然使其在为诉讼提供证据方面可能发挥的作用尚不清楚。目前仍缺乏对其在法医学中应用的限制、潜力和限制的广泛调查。本次调查的目的是阐明这个问题，首先澄清法医应用和生物识别技术之间的关系，重点是人脸识别。因此，本文分析了监控视频和面部照片图像中的 3D 人脸重建算法的成就，并讨论了当前阻碍 3D 人脸重建在取证应用中发挥积极作用的障碍。

Self-supervised learning unveils change in urban housing from street-level images
Authors Steven Stalder, Michele Volpi, Nicolas B ttner, Stephen Law, Kenneth Harttgen, Esra Suel
世界各地的城市都面临着经济适用房和体面住房的严重短缺。尽管它对政策至关重要，但我们有效监测和跟踪城市住房进展的能力有限。基于深度学习的计算机视觉方法应用于街道图像，在测量社会经济和环境不平等方面取得了成功，但没有充分利用时间图像来跟踪城市变化，因为时变标签通常不可用。我们使用自监督方法，使用 2008 年至 2021 年间拍摄的 1500 万张街道图像来衡量伦敦的变化。我们对 Barlow Twins 的新颖改编版本 Street2Vec 嵌入了城市结构，同时不受季节和日常变化的影响，无需手动注释。它的性能优于通用嵌入，成功地从街道图像中识别出伦敦住房供应的点级变化，并区分了主要变化和次要变化。

You can have your ensemble and run it too -- Deep Ensembles Spread Over Time
Authors Isak Meding, Alexander Bodin, Adam Tonderski, Joakim Johnander, Christoffer Petersson, Lennart Svensson
独立训练的深度神经网络的集合产生的不确定性估计在性能上可与贝叶斯网络相媲美。与单一模型相比，它们在预测性能方面也提供了相当大的改进。然而，深度集成在计算预算有限的环境（例如自动驾驶）中并不常用，因为复杂性随着集成成员的数量线性增长。对于机器人应用程序（例如自动驾驶）可以进行的一个重要观察是数据通常是连续的。例如，当要识别物体时，自动驾驶车辆通常会观察一系列图像，而不是单个图像。

Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism
Authors Chengcheng Wang, Wei He, Ying Nie, Jianyuan Guo, Chuanjian Liu, Kai Han, Yunhe Wang
在过去的几年中，YOLO 系列模型已成为实时目标检测领域的领先方法。许多研究通过修改架构、增加数据和设计新的损失，将基线提升到更高的水平。然而，我们发现以前的模型仍然存在信息融合问题，尽管特征金字塔网络 FPN 和路径聚合网络 PANet 缓解了这一问题。因此，本研究提供了一种先进的Gatherand Distribute机制GD机制，通过卷积和自注意力操作来实现。这种新设计的模型被命名为 Gold YOLO，它增强了多尺度特征融合能力，并在所有模型尺度上实现了延迟和准确性之间的理想平衡。此外，我们首次在 YOLO 系列中实现了 MAE 风格的预训练，使 YOLO 系列模型可以从无监督预训练中受益。 Gold YOLO N 在 COCO val2017 数据集上获得了出色的 39.9 AP，在 T4 GPU 上获得了 1030 FPS，比之前具有类似 FPS 的 SOTA 模型 YOLOv6 3.0 N 提高了 2.4 。

How to turn your camera into a perfect pinhole model
Authors Ivan De Boi, Stuti Pathak, Marina Oliveira, Rudi Penne
相机校准是各种计算机视觉应用中的第一步也是基本步骤。尽管是一个活跃的研究领域，但张的方法由于在流行的工具箱中实现，仍然广泛用于相机校准。然而，该方法最初假设具有过于简化的畸变模型的针孔模型。在这项工作中，我们提出了一种新颖的方法，该方法涉及预处理步骤，通过高斯过程消除图像的失真。我们的方法不需要假设任何畸变模型，并且可以应用于严重扭曲的图像，即使在多个畸变源的情况下，例如曲面镜反射的鱼眼图像。高斯过程捕获所有失真和相机缺陷，从而产生虚拟图像，就像由具有方形像素的理想针孔相机拍摄的一样。此外，这种理想的 GP 相机只需要一张方形网格校准图案的图像。该模型允许对许多算法和应用程序进行重大升级，这些算法和应用程序是在纯投影几何设置中设计的，但其性能对非线性镜头畸变非常敏感。我们通过简化张氏标定方法、减少参数数量、去掉畸变参数和迭代优化来证明我们方法的有效性。我们通过合成数据和现实世界图像进行验证。

Face Aging via Diffusion-based Editing
Authors Xiangyi Chen, St phane Lathuili re
在本文中，我们通过将与年龄相关的变化结合到给定面部来解决面部老化生成过去或未来面部图像的问题。以前的老化方法仅依赖于人类面部图像数据集，因此受到其固有规模和偏差的限制。这将它们的应用限制在有限的可生成年龄范围内，并且无法处理较大的年龄差距。我们提出了 FADING，这是一种通过基于扩散的编辑来解决面部老化问题的新方法。我们通过利用大规模语言图像扩散模型的丰富先验超越了现有方法。首先，我们通过使用年龄感知微调方案，专门针对面部年龄编辑任务专门训练了一个预训练的扩散模型。接下来，我们将输入图像反转为潜在噪声并获得优化的空文本嵌入。最后，我们通过注意力控制执行文本引导的本地年龄编辑。

Uncovering the effects of model initialization on deep model generalization: A study with adult and pediatric Chest X-ray images
Authors Sivaramakrishnan Rajaraman, Ghada Zamzmi, Feng Yang, Zhaohui Liang, Zhiyun Xue, Sameer Antani
模型初始化技术对于提高医学计算机视觉应用中深度学习模型的性能和可靠性至关重要。虽然有很多关于非医学图像的文献，但对医学图像，特别是胸部 X 射线 CXR 的影响却知之甚少。为了解决这一差距，我们的研究探索了三种深度模型初始化技术：冷启动、热启动以及收缩和扰动启动，重点关注成人和儿童群体。我们特别关注定期到达训练数据的场景，从而适应持续数据流入和模型更新需求的现实世界场景。我们根据外部成人和儿童 CXR 数据集评估这些模型的通用性。我们还提出了新颖的集成方法 F 分数加权序列最小二乘二次规划 F SLSQP 和具有可学习模糊 Softmax 的注意力引导集成，以聚合来自多个模型的权重参数，以利用它们的集体知识和互补表示。我们使用 95 个置信区间和 p 值进行统计显着性检验，以分析模型性能。我们的评估表明，使用 ImageNet 预训练权重初始化的模型比随机初始化的模型表现出更好的泛化性，这与非医学图像的一些发现相矛盾。值得注意的是，ImageNet 预训练模型在不同训练场景的内部和外部测试中表现出一致的性能。与单个模型相比，这些模型的权重水平集合在测试过程中显示出显着更高的召回率 p 0.05。

FaceDiffuser: Speech-Driven 3D Facial Animation Synthesis Using Diffusion
Authors Stefan Stan, Kazi Injamamul Haque, Zerrin Yumak
语音驱动的 3D 面部动画合成在工业和研究领域都是一项具有挑战性的任务。最近的方法主要集中在确定性深度学习方法，这意味着给定语音输入，输出始终相同。然而，实际上，存在于整个面部的非语言面部线索本质上是不确定的。此外，大多数方法都专注于基于 3D 顶点的数据集，而与现有的带有已装备角色的面部动画管道兼容的方法很少。为了消除这些问题，我们提出了 FaceDiffuser，这是一种非确定性深度学习模型，用于生成语音驱动的面部动画，并使用基于 3D 顶点和混合形状的数据集进行训练。我们的方法基于扩散技术，并使用预先训练的大型语音表示模型 HuBERT 对音频输入进行编码。据我们所知，我们是第一个采用扩散方法来完成语音驱动的 3D 面部动画合成任务的人。我们进行了广泛的客观和主观分析，并表明与最先进的方法相比，我们的方法取得了更好或可比的结果。我们还引入了一个新的内部数据集，该数据集基于基于混合形状的装配角色。我们建议您观看随附的补充视频。

Generalizing Across Domains in Diabetic Retinopathy via Variational Autoencoders
Authors Sharon Chokuwa, Muhammad H. Khan
糖尿病视网膜病变 DR 分类的域泛化允许模型熟练地对来自以前未见过的具有各种成像条件和患者人口统计数据的域的视网膜图像进行分类，从而增强其在广泛的临床环境中的适用性。在本研究中，我们探索了变分自编码器解开眼底图像潜在空间的固有能力，目的是获得更鲁棒、适应性更强的域不变表示，以有效解决 DR 数据集中遇到的域移位。尽管我们的方法很简单，但我们探索了这种经典方法的功效，并使用公开的数据集证明了其优于当代最先进的方法来完成此任务的能力。我们的研究结果挑战了普遍的假设，即高度复杂的 DR 分类方法本质上更适合领域泛化。

Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset Updates
Authors Ka Chun Shum, Jaeyeon Kim, Binh Son Hua, Duc Thanh Nguyen, Sai Kit Yeung
神经辐射场是一种新兴的渲染方法，它通过神经场景表示和体积渲染生成高质量的多视图一致图像。尽管基于神经辐射场的技术对于场景重建来说很强大，但它们添加或删除对象的能力仍然有限。本文提出了一种新的语言驱动方法，通过数据集更新使用神经辐射场进行对象操作。具体来说，为了将由一组多视图图像表示的新前景对象插入到背景辐射场中，我们使用文本到图像扩散模型来学习和生成组合图像，将感兴趣的对象跨视图融合到给定的背景中。然后，这些组合图像用于细化背景辐射场，以便我们可以渲染包含对象和背景的视图一致图像。为了确保视图一致性，我们提出了一种数据集更新策略，该策略在将训练传播到剩余视图之前，优先使用接近已训练视图的相机视图进行辐射场训练。我们表明，在相同的数据集更新策略下，我们可以轻松地调整我们的方法，使用从文本到 3D 模型的数据以及对象删除来插入对象。

Towards Real-Time Neural Video Codec for Cross-Platform Application Using Calibration Information
Authors Kuan Tian, Yonghang Guan, Jinxi Xiang, Jun Zhang, Xiao Han, Wei Yang
在某些情况下，最先进的神经视频编解码器在 RD 性能方面优于最复杂的传统编解码器。然而，由于两个主要原因，将它们用于实际应用仍然具有挑战性。 1 浮点运算导致的跨平台计算错误可能导致比特流解码不准确。 2 编码和解码过程的高计算复杂度对实现实时性能提出了挑战。在本文中，我们提出了一种实时跨平台神经视频编解码器，它能够在消费级 GPU 上高效解码来自其他编码平台的 720P 视频比特流。首先，为了解决跨平台浮点计算的不确定性导致编解码器不一致的问题，我们设计了校准传输系统，以保证编码和解码阶段之间熵参数量化的一致。编码和解码之间可能存在跨界量化的参数在编码阶段被识别，并且它们的坐标将由辅助传输的比特流传递。这样，这些不一致的参数就可以在解码阶段得到正确的处理。此外，为了降低辅助比特流的比特率，我们使用分段高斯约束来校正熵参数的分布。其次，为了匹配实时视频编解码器解码端的计算限制，我们设计了一个轻量级模型。一系列效率技术使我们的模型能够在 NVIDIA RTX 2080 GPU 上实现 25 FPS 的解码速度。实验结果表明，我们的模型可以在另一个平台上编码的同时实现720P视频的实时解码。

StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding
Authors Renqiu Xia, Bo Zhang, Haoyang Peng, Ning Liao, Peng Ye, Botian Shi, Junchi Yan, Yu Qiao
图表在不同科学领域的文献中很常见，可以向读者轻松传达丰富的信息。当前与图表相关的任务侧重于图表感知（即从可视图表中提取信息）或根据提取的数据进行推理，例如以表格形式。在本文中，我们的目标是为联合感知和推理任务建立一个统一的、标签有效的学习范式，它可以普遍适用于不同的下游任务，超越同行工作中专门研究的问答任务。具体来说，StructChart 首先将图表信息从流行的管状形式、专门线性化的 CSV 重新表述为提出的结构化三元组表示 STR ，由于采用了图表的结构化信息提取，这对于减少图表感知和推理之间的任务差距更加友好。然后，我们提出了一种面向结构化图表的表示度量 SCRM，以定量评估图表感知任务的性能。为了丰富训练数据集，我们进一步探索利用大型语言模型 LLM 的可能性，增强图表视觉风格及其统计信息方面的图表多样性。

From Classification to Segmentation with Explainable AI: A Study on Crack Detection and Growth Monitoring
Authors Florent Forest, Hugo Porta, Devis Tuia, Olga Fink
监测基础设施的表面裂缝对于结构健康监测至关重要。自动视觉检测提供了一种有效的解决方案，特别是在难以到达的区域。机器学习方法已证明其有效性，但通常需要大量带注释的数据集进行监督训练。一旦检测到裂纹，监测其严重程度通常需要对损坏进行精确分割。然而，用于分割的图像的像素级注释是劳动密集型的。为了降低这一成本，人们可以利用可解释的人工智能 XAI 从分类器的解释中导出分割，只需要弱图像级监督。本文建议应用这种方法来分割和监测表面裂纹。我们评估各种 XAI 方法的性能，并研究该方法如何促进严重性量化和增长监控。

Box2Poly: Memory-Efficient Polygon Prediction of Arbitrarily Shaped and Rotated Text
Authors Xuyang Chen, Dong Wang, Konrad Schindler, Mingwei Sun, Yongliang Wang, Nicolo Savioli, Liqiu Meng
最近，基于 Transformer 的文本检测技术试图通过使用不同的查询特征对各个边界顶点的坐标进行编码来预测多边形。然而，这种方法会产生大量的内存开销，并且难以有效地捕获属于同一实例的顶点之间的复杂关系。因此，不规则的文本布局通常会导致预测轮廓顶点，从而降低结果的质量。为了应对这些挑战，我们提出了一种植根于 Sparse R CNN 的创新方法，即用于多边形预测的级联解码管道。我们的方法通过迭代地细化多边形预测来确保精度，同时考虑先前结果的规模和位置。利用这种稳定的回归管道，即使仅使用单个特征向量来指导多边形实例回归也会产生有希望的检测结果。

Towards Robust Few-shot Point Cloud Semantic Segmentation
Authors Yating Xu, Na Zhao, Gim Hee Lee
Few Shot 点云语义分割旨在训练模型，仅用少量支持集样本即可快速适应新的未见过的类别。然而，在许多实际的现实世界设置中，支持集中的无噪声假设很容易被违反。在本文中，我们重点关注在测试期间噪声支持集的不利影响下提高少数镜头点云分割的鲁棒性。为此，我们首先提出组件级清洁噪声分离 CCNS 表示学习，以学习区分性特征表示，将目标类的干净样本与噪声样本分开。利用我们的 CCNS 中分离良好的干净和噪声支持样本，我们进一步提出了一种基于多尺度度的噪声抑制 MDNS 方案，以从支持集中去除噪声镜头。我们在两个基准数据集上对各种噪声设置进行了广泛的实验。我们的结果表明，CCNS 和 MDNS 的结合显着提高了性能。

Generalized Few-Shot Point Cloud Segmentation Via Geometric Words
Authors Yating Xu, Conghui Hu, Na Zhao, Gim Hee Lee
现有的完全监督的点云分割方法在不断出现的新类别的动态测试环境中受到影响。很少有射击点云分割算法通过学习适应新类来解决这个问题，而牺牲了基类的分割精度，这严重阻碍了其实用性。这在很大程度上促使我们首次尝试提出一种更实用的广义少镜头点云分割范例，这要求模型泛化到只有少数支持点云的新类别，同时保留分割基类的能力。我们提出几何词来表示基类和新类之间共享的几何组件，并将它们合并到一种新的几何感知语义表示中，以便更好地泛化到新类，而不会忘记旧类。此外，我们引入几何原型来指导利用几何先验知识进行分割。 S3DIS 和 ScanNet 上的大量实验一致证明了我们的方法比基线方法具有优越的性能。

Automatic Bat Call Classification using Transformer Networks
Authors Frank Fundel, Daniel A. Braun, Sebastian Gottwald
从回声定位呼叫中自动识别蝙蝠物种对于监测蝙蝠及其居住的生态系统来说是一项困难但重要的任务。自动蝙蝠呼叫识别的主要挑战是呼叫变异性高、物种之间的相似性、干扰呼叫和缺乏注释数据。由于是在单次调用数据集上进行训练，许多当前可用的模型在现实生活数据上的性能相对较差，而且对于实时分类来说通常太慢。在这里，我们提出了一种用于多标签分类的 Transformer 架构，在实时分类场景中具有潜在的应用。我们通过将多个蝙蝠呼叫合并到具有多个同时呼叫的单个录音中，在合成生成的多物种录音上训练我们的模型。我们的方法在我们的测试集上实现了单物种准确度 88.92 F1 得分 84.23 和多物种宏观 F1 得分 74.40。

Partition-A-Medical-Image: Extracting Multiple Representative Sub-regions for Few-shot Medical Image Segmentation
Authors Yazhou Zhu, Shidong Wang, Tong Xin, Zheng Zhang, Haofeng Zhang
对于高质量注释自然稀缺的医学图像分割任务来说，少镜头医学图像分割 FSMIS 是一种更有前景的解决方案。然而，当前的主流方法主要侧重于从外观和背景类内变化较大的支持图像中提取整体表示，并且在适应查询图像方面遇到困难。在这项工作中，我们提出了一种从给定的支持医学图像中提取多个代表性子区域的方法，从而能够对生成的图像区域进行细粒度选择。具体来说，支持图像的前景被分解为不同的区域，随后通过设计的区域原型学习 RPL 模块将其用于导出区域级别表示。然后，我们介绍了一种基于双向消除机制的新型原型表示去偏 PRD 模块，该模块通过自支持、多方向自去偏 MS 块和支持查询、交互式去偏 ID 块来抑制区域表示的干扰。最后，设计了一个组装预测 AP 模块来平衡和集成使用堆叠 PRD 模块学习的多个原型表示的预测。通过对三个可公开访问的医学成像数据集进行广泛实验获得的结果表明，与领先的 FSMIS 方法相比，该方法取得了一致的改进。

AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud Registration
Authors Zheng Dang, Mathieu Salzmann
在当前的深度学习范式中，训练数据的数量和质量与网络架构及其训练细节一样重要。然而，大规模收集、处理和注释真实数据是困难、昂贵且耗时的，特别是对于 3D 对象配准等任务。虽然可以创建合成数据集，但它们需要专业知识来设计并包含有限数量的类别。在本文中，我们介绍了一种称为 AutoSynth 的新方法，它可以自动生成用于点云配准的 3D 训练数据。

Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation
Authors Nian Liu, Kepan Nan, Wangbo Zhao, Yuanwei Liu, Xiwen Yao, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Junwei Han, Fahad Shahbaz Khan
少镜头视频对象分割 FSVOS 旨在将查询视频中的对象分割为由一些带注释的支持图像定义的相同类别。然而，这项任务很少被探索。在这项工作中，基于 IPMT（一种将外部支持指导信息与自适应查询指导线索相结合的最先进的少镜头图像分割方法），我们建议利用多粒度时间指导信息来处理视频数据的时间相关性。我们将查询视频信息分解为剪辑原型和内存原型，分别用于捕获本地和长期内部时间指导。框架原型进一步独立地用于每个框架，以处理细粒度的自适应指导并实现双向剪辑框架原型通信。为了减少噪声记忆的影响，我们建议利用不同预测区域之间的结构相似性关系以及对选择可靠记忆帧的支持。此外，还提出了一种新的分割损失来增强学习原型的类别辨别力。实验结果表明，我们提出的视频 IPMT 模型在两个基准数据集上显着优于以前的模型。

Learning Deformable 3D Graph Similarity to Track Plant Cells in Unregistered Time Lapse Images
Authors Md Shazid Islam, Arindam Dutta, Calvin Khang Ta, Kevin Rodriguez, Christian Michael, Mark Alber, G. Venugopala Reddy, Amit K. Roy Chowdhury
由于大量细胞、紧密堆积的植物细胞不同层的不均匀生长以及细胞分裂等生物现象，在显微镜获得的图像中跟踪植物细胞是一个具有挑战性的问题。此外，组织深层的图像存在噪声，并且成像过程中固有的不可避免的系统误差使问题进一步复杂化。在本文中，我们提出了一种新颖的基于学习的方法，该方法利用植物细胞紧密堆积的三维细胞结构来创建三维图，以便执行准确的细胞跟踪。我们进一步提出了用于细胞分裂检测和有效三维配准的新颖算法，该算法改进了最先进的算法。

CNN-based local features for navigation near an asteroid
Authors Olli Knuuttila, Antti Kestil , Esa Kallio
本文解决了小行星探索任务和轨道服务中基于视觉的邻近导航的挑战。由于散射光有限，传统的特征提取方法难以应对小行星的显着外观变化。为了克服这个问题，我们提出了一种专门为小行星邻近导航量身定制的轻量级特征提取器，旨在对照明变化和仿射变换具有鲁棒性。我们比较和评估小行星背景下最先进的特征提取网络和三种轻量级网络架构。我们提出的特征提取器及其评估利用了来自 NEAR Shoemaker、Hayabusa、Rosetta 和 OSIRIS REx 等任务的合成图像和真实世界数据。我们的贡献包括训练有素的特征提取器、对现有方法的增量改进以及用于训练特定领域特征提取器的管道。实验结果证明了我们的方法在实现精确导航和定位方面的有效性。

GraphEcho: Graph-Driven Unsupervised Domain Adaptation for Echocardiogram Video Segmentation
Authors Jiewen Yang, Xinpeng Ding, Ziyang Zheng, Xiaowei Xu, Xiaomeng Li
超声心动图视频分割在心脏病诊断中发挥着重要作用。本文研究了用于超声心动图视频分割的无监督域适应 UDA，其目标是将在源域上训练的模型推广到其他未标记的目标域。现有的 UDA 分割方法不适合此任务，因为它们没有对本地信息和心跳的循环一致性进行建模。在本文中，我们介绍了一个新收集的 CardiacUDA 数据集和一种用于心脏结构分割的新颖 GraphEcho 方法。我们的 GraphEcho 包括两个创新模块，即空间跨域图匹配 SCGM 和时间周期一致性 TCC 模块，它们分别利用超声心动图视频的先验知识，即患者和中心之间一致的心脏结构以及心跳周期一致性。这两个模块可以更好地对齐源域和目标域的全局和局部特征，从而改善 UDA 分割结果。实验结果表明，我们的 GraphEcho 优于现有最先进的 UDA 分割方法。我们收集的数据集和代码将在接受后公开发布。这项工作将为超声心动图视频的心脏结构分割奠定新的坚实的基石。

GL-Fusion: Global-Local Fusion Network for Multi-view Echocardiogram Video Segmentation
Authors Ziyang Zheng, Jiewen Yang, Xinpeng Ding, Xiaowei Xu, Xiaomeng Li
超声心动图视频中的心脏结构分割在诊断心脏病中起着至关重要的作用。多视图超声心动图数据的组合对于提高自动化方法的准确性和稳健性至关重要。然而，由于数据的视觉差异，导出跨视图上下文信息仍然是一项具有挑战性的任务，并且不复杂的融合策略甚至会降低性能。在本研究中，我们提出了一种新颖的全球局部融合 GL Fusion 网络，可以在全局和局部联合利用多视图信息，从而提高超声心动图分析的准确性。具体来说，提出了一种基于多视图全局的融合模块MGFM来提取全局上下文信息并探索超声心动图视频中不同心跳周期的循环关系。此外，基于多视图局部的融合模块 MLFM 旨在从不同视图中提取心脏结构的相关性。此外，我们收集了多视图超声心动图视频数据集 MvEVD 来评估我们的方法。我们的方法获得了 82.29 的平均骰子分数，这比基线方法提高了 7.83，并且优于其他现有的最先进方法。据我们所知，这是对超声心动图视频分割的多视图方法的首次探索。

Shape Anchor Guided Holistic Indoor Scene Understanding
Authors Mingyue Dong, Linxi Huan, Hanjiang Xiong, Shuhan Shen, Xianwei Zheng
本文提出了一种形状锚引导学习策略 AncLearn，用于稳健的整体室内场景理解。我们观察到，当前建议特征分组和实例点采样方法构建的搜索空间经常会给实例检测和网格重建带来大量噪声。因此，我们开发了 AncLearn 来生成锚点，这些锚点动态地适合实例表面，以分解噪声和目标相关特征，以便在检测阶段提供可靠的建议，并减少对象点采样中的异常值，以便在重建过程中直接提供结构良好的几何先验，而无需分割。我们将 AncLearn 嵌入到检测学习系统 AncRec 的重建中，以纯粹面向实例的方式生成高质量的语义场景模型。在具有挑战性的 ScanNetv2 数据集上进行的实验表明，我们基于形状锚点的方法在 3D 对象检测、布局估计和形状重建方面始终达到最先进的性能。

Contrastive Pseudo Learning for Open-World DeepFake Attribution
Authors Zhimin Sun, Shen Chen, Taiping Yao, Bangjie Yin, Ran Yi, Shouhong Ding, Lizhuang Ma
由于生成技术的快速发展，寻找伪造面孔归属的挑战已引起广泛关注。尽管最近的许多工作已经对 GAN 生成的面孔采取了重要步骤，但与身份交换或表情转移相关的更具威胁性的攻击仍然被忽视。来自开放世界的未标记面孔的未知攻击中隐藏的伪造痕迹仍有待探索。为了推动相关前沿研究，我们引入了一个名为 Open World DeepFake Attribution OW DFA 的新基准，旨在评估开放世界场景下针对各种类型假脸的归因性能。同时，我们为 OW DFA 任务提出了一种名为对比伪学习 CPL 的新颖框架，通过 1 引入全局局部投票模块来指导伪造人脸与不同操作区域的特征对齐，2 设计基于置信度的软伪标签策略来减轻未标记集中由类似方法引起的伪噪声。此外，我们还使用多阶段范例扩展了 CPL 框架，该范例利用预训练技术和迭代学习来进一步增强可追溯性性能。

Locate and Verify: A Two-Stream Network for Improved Deepfake Detection
Authors Chao Shuai, Jieming Zhong, Shuang Wu, Feng Lin, Zhibo Wang, Zhongjie Ba, Zhenguang Liu, Lorenzo Cavallaro, Kui Ren
Deepfake 席卷全球，引发信任危机。当前的深度换脸检测方法通常普遍性不足，容易过度拟合背景等图像内容，这种情况在训练数据集中经常出现但相对不重要。此外，当前的方法严重依赖于一些主要的伪造区域，并且可能忽略其他同等重要的区域，导致伪造线索的发现不充分。在本文中，我们努力从三个方面解决这些缺点：1我们提出了一种创新的双流网络，可以有效扩大模型提取伪造证据的潜在区域。 2 我们设计了三个功能模块来处理协作学习方案中的多流和多尺度特征。 3 面对获得伪造注释的挑战，我们提出了一种半监督的补丁相似性学习策略来估计补丁级别的伪造位置注释。根据经验，我们的方法表现出显着提高的鲁棒性和通用性，在六个基准上优于以前的方法，并将 Deepfake 检测挑战预览数据集上的帧级 AUC 从 0.797 提高到 0.835，将 CelebDF v1 数据集上的视频级 AUC 从 0.811 提高到 0.847。

PSDiff: Diffusion Model for Person Search with Iterative and Collaborative Refinement
Authors Chengyou Jia, Minnan Luo, Zhuohang Dang, Guang Dai, Xiaojun Chang, Jingdong Wang, Qinghua Zheng
主导人搜索方法旨在在统一网络中定位和识别查询人，该方法联合优化两个子任务，即检测和重新识别ReID。尽管取得了重大进展，但仍然存在两个主要挑战 1 先前方法中的检测先验模块对于 ReID 任务来说并不是最优的。 2 忽略两个子任务之间的协作。为了缓解这些问题，我们提出了一种基于扩散模型 PSDiff 的新型人员搜索框架。 PSDiff 将人员搜索制定为从噪声框和 ReID 嵌入到地面事实的双重去噪过程。与遵循检测到 ReID 范式的现有方法不同，我们的去噪范式消除了检测先验模块，以避免 ReID 任务的局部最优。遵循新的范式，我们进一步设计了一个新的协作去噪层CDL，以迭代和协作的方式优化检测和ReID子任务，这使得两个子任务互惠互利。

Hyperspectral Benchmark: Bridging the Gap between HSI Applications through Comprehensive Dataset and Pretraining
Authors Hannah Frank, Leon Amadeus Varga, Andreas Zell
高光谱成像 HSI 作为一种无损空间光谱技术，具有多种潜在应用。然而，一个反复出现的挑战在于目标数据集的大小有限，阻碍了详尽的架构搜索。因此，当尝试新的应用时，对已建立的方法的依赖变得司空见惯，希望它们表现出良好的泛化特性。

BroadBEV: Collaborative LiDAR-camera Fusion for Broad-sighted Bird's Eye View Map Construction
Authors Minsu Kim, Giseop Kim, Kyong Hwan Jin, Sunwook Choi
最近在鸟瞰 BEV 空间中进行的传感器融合已显示出其在 3D 检测、地图分割等各种任务中的实用性。然而，该方法面临着相机 BEV 估计不准确以及由于稀疏性而无法感知远处区域的问题。 LiDAR 点。在本文中，我们提出了一种广泛的 BEV 融合文本 BroadBEV，它解决了跨模态的空间同步方法的问题。我们的策略旨在增强相机 BEV 估计以获得宽广的视野感知，同时提高 LiDAR 在整个 BEV 空间中的稀疏性的完成度。为此，我们设计了点散射，将 LiDAR BEV 分布散射为相机深度分布。该方法促进了相机分支深度估计的学习，并诱导 BEV 空间中密集相机特征的准确定位。为了实现空间同步特征之间的有效 BEV 融合，我们建议 ColFusion 将 LiDAR 和相机 BEV 特征的自注意力权重相互应用。

PRAT: PRofiling Adversarial aTtacks
Authors Rahul Ambati, Naveed Akhtar, Ajmal Mian, Yogesh Singh Rawat
深度学习对对抗性示例的内在敏感性导致了大量攻击技术的出现，其广泛的共同目标是欺骗深度模型。然而，我们发现实现这一目标的算法之间存在细微的组成差异。这些差异留下的痕迹为现实生活场景中的攻击者分析提供了重要线索。受此启发，我们引入了一个新的问题：PROfiling Adversarial aAtacks PRAT。给定一个对抗性示例，PRAT 的目标是识别用于生成它的攻击。从这个角度来看，我们可以将现有的攻击系统地分为不同的家族，从而产生攻击家族识别的子问题，我们也对此进行了研究。为了实现 PRAT 分析，我们引入了一个大型对抗性识别数据集 AID，其中包含超过 18 万个对抗性样本，这些样本是通过 13 种流行的攻击生成的，用于图像特定的不可知白盒设置。我们使用 AID 为 PRAT 目标设计一个新颖的框架。我们的框架利用基于 Transformer 的全局局部特征 GLOF 模块来提取对抗性攻击的近似签名，进而用于识别攻击。

Self-supervised Domain-agnostic Domain Adaptation for Satellite Images
Authors Fahong Zhang, Yilei Shi, Xiao Xiang Zhu
由不同地理区域或采集条件等引起的域转移是全球规模卫星图像处理的机器学习中的常见问题。解决这个问题的一种有前途的方法是域适应，其中训练和测试数据集根据其分布分为两个或多个域，并应用适应方法来提高模型在测试数据集上的泛化能力。然而，定义每个卫星图像所属的域并不是微不足道的，特别是在大规模多时空和多感官场景下，可以从多个数据源生成单个图像马赛克。在本文中，我们提出了一种自监督的领域不可知领域适应 SS DA 2 方法，可以在没有这样的领域定义的情况下执行领域适应。为了实现这一目标，我们首先设计一种对比生成对抗损失来训练生成网络在任意两个卫星图像块之间执行图像到图像的转换。然后，我们通过增加具有不同测试光谱特征的训练数据来提高下游模型的通用性。

Forgery-aware Adaptive Vision Transformer for Face Forgery Detection
Authors Anwei Luo, Rizhao Cai, Chenqi Kong, Xiangui Kang, Jiwu Huang, Alex C. Kot
随着人脸操纵技术的进步，人脸伪造检测在保护身份验证完整性方面的重要性变得越来越明显。之前基于 Vision Transformer ViT 的检测器在跨数据库评估中表现出不佳的性能，主要是因为使用有限的 Deepfake 数据进行完全微调通常会导致忘记预先训练的知识并过度拟合特定于数据的知识。为了规避这些问题，我们提出了一种新型的伪造感知自适应视觉变换器 FA ViT 。在 FA ViT 中，普通 ViT 的参数被冻结以保留其预先训练的知识，同时采用两个专门设计的组件（本地感知伪造注入器 LFI 和全局感知伪造适配器 GFA）来适应伪造相关知识。我们提出的 FA ViT 有效地结合了这两种不同类型的知识，形成用于检测 Deepfakes 的通用伪造特征。具体来说，LFI 捕获局部判别信息，并通过 Neighborhood Preserving Cross Attention NPCA 将这些信息合并到 ViT 中。同时，GFA 在自注意力层中学习自适应知识，弥合了两个不同领域之间的差距。此外，我们设计了一种新颖的单域成对学习 SDPL，以促进 FA ViT 中的细粒度信息学习。

Learning Segment Similarity and Alignment in Large-Scale Content Based Video Retrieval
Authors Chen Jiang, Kaiming Huang, Sifeng He, Xudong Yang, Wei Zhang, Xiaobo Zhang, Yuan Cheng, Lei Yang, Qing Wang, Furong Xu, Tan Pan, Wei Chu
近年来，随着网络视频的爆炸式增长，大规模基于内容的视频检索CBVR在视频过滤、推荐和版权保护中变得越来越重要。片段级CBVR S CBVR更细粒度地定位相似片段的开始和结束时间，有利于用户浏览效率和侵权检测，尤其是在长视频场景下。 S CBVR任务的挑战是如何在高效计算和低存储消耗的情况下实现高时间对齐精度。在本文中，我们提出了一种分段相似性和对齐网络 SSAN 来应对首先在 S CBVR 中进行端到端训练的挑战。 SSAN 基于视频检索中两个新提出的模块：1 一个高效的自监督关键帧提取 SKE 模块，用于减少冗余帧特征；2 一个强大的相似性模式检测 SPD 模块，用于时间对齐。与统一帧提取相比，SKE不仅节省了特征存储和搜索时间，而且引入了可比的精度和有限的额外计算时间。在时间对齐方面，SPD比现有的深度学习方法以更高的精度和效率定位相似的片段。此外，我们与SKE和SPD联合训练SSAN，实现端到端的改进。同时，两个关键模块SKE和SPD也可以有效地插入到其他视频检索管道中并获得可观的性能提升。

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
Authors Chen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu, Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi
近年来，网络视频的爆炸式增长使得文本视频检索对于视频过滤、推荐和搜索变得越来越重要和流行。文本视频检索的目的是使相关文本视频的排名高于不相关文本视频的排名。该任务的核心是精确测量文本和视频之间的跨模态相似度。最近，对比学习方法在文本视频检索方面显示出了可喜的结果，其中大多数侧重于构建正负对来学习文本和视频表示。然而，他们对硬否定对没有给予足够的重视，并且缺乏对不同级别的语义相似性进行建模的能力。为了解决这两个问题，本文使用两种新颖的技术改进了对比学习。首先，为了利用硬样本获得强大的判别力，我们提出了一种新颖的双模态注意力增强模块 DMAE，从文本和视觉线索中挖掘硬负对。通过进一步引入负感知 InfoNCE NegNCE 损失，我们能够自适应地识别所有这些硬负数，并明确强调它们对训练损失的影响。其次，我们的工作认为，与成对样本相比，三元组样本可以更好地模拟细粒度的语义相似性。因此，我们提出了一种新的三重态部分边缘对比学习 TPM CL 模块，通过自动为匹配的文本视频对生成细粒度的硬底片来构造偏序三重态样本。所提出的 TPM CL 设计了一种具有跨模式交互的自适应令牌屏蔽策略，以对细微的语义差异进行建模。

Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal Distillation
Authors Heeseung Yun, Joonil Na, Gunhee Kim
声音可以在我们的日常生活中传达空间推理的重要信息。为了赋予深度网络这样的能力，我们通过跨模态知识蒸馏来解决 2D 和 3D 声音密集室内预测的挑战。在这项工作中，我们提出了一种通过匹配 SAM 蒸馏框架进行空间对齐，该框架可引发视觉到音频知识转移的两种模式之间的局部对应。 SAM 将音频特征与视觉连贯的可学习空间嵌入相集成，以解决学生模型多层中的不一致问题。我们的方法不依赖于特定的输入表示，允许输入形状或尺寸的灵活性，而不会降低性能。通过新策划的名为“周围环境密集听觉预测 DAPS”的基准测试，我们是第一个通过音频观察解决 2D 和 3D 全向环境密集室内预测问题的基准。

Visual Question Answering in the Medical Domain
Authors Louisa Canepa, Sonit Singh, Arcot Sowmya
医学视觉问答 Med VQA 是一项机器学习任务，旨在创建一个可以根据给定的医学图像回答自然语言问题的系统。尽管一般 VQA 任务取得了快速进展，但由于缺乏大规模注释数据集，Med VQA 进展较少。在本文中，我们提出了特定领域的预训练策略，包括一种新颖的对比学习预训练方法，以缓解 Med VQA 任务的小数据集问题。我们发现该模型受益于使用较少参数的组件。我们还使用证据验证技术评估和讨论模型的视觉推理。

Weak Supervision for Label Efficient Visual Bug Detection
Authors Farrukh Rahman
随着视频游戏发展到广阔、细致的世界，视觉质量变得至关重要，但也越来越具有挑战性。传统的测试方法受资源限制，在解决大量潜在错误方面面临困难。机器学习提供了可扩展的解决方案，但是，对大型标记数据集的严重依赖仍然是一个限制。为了解决这一挑战，我们提出了一种新颖的方法，利用未标记的游戏玩法和特定领域的增强来生成在预训练或多任务设置期间用于下游视觉错误检测的数据集自监督目标。我们的方法使用弱监督来扩展数据集以实现精心设计的目标，并促进自主和交互式弱监督，结合无监督聚类和/或基于文本和几何提示的交互式方法。我们在广阔的 Giantmap 游戏世界中的第一人称玩家剪切碰撞错误 FPPC 上证明，我们的方法非常有效，在实用、非常低的流行率、低数据制度 0.336 rightarrow 0.550 F1 分数中改进了强大的监督基线。只需 5 个标记的良好样本，即 0 个 bug，我们的自我监督目标就可以捕获足够的信号，从而优于低标记的监督设置。我们的方法建立在大型预训练视觉模型的基础上，可以适应各种视觉错误。

Dynamic Tiling: A Model-Agnostic, Adaptive, Scalable, and Inference-Data-Centric Approach for Efficient and Accurate Small Object Detection
Authors Son The Nguyen, Theja Tulabandhula, Duy Nguyen
我们引入了动态平铺，这是一种与模型无关、自适应且可扩展的小对象检测方法，植根于我们以推理数据为中心的理念。动态平铺从不重叠的平铺开始进行初始检测，并利用动态重叠率和平铺最小化器。这种双重方法有效地解决了碎片化的对象，提高了检测精度，并通过减少对象检测模型的前向传递次数来最小化计算开销。我们的方法适用于各种操作环境，无需费力地重新校准。此外，我们的大小型过滤机制提高了各种物体尺寸的检测质量。

Score Mismatching for Generative Modeling
Authors Senmao Ye, Fei Liu
我们提出了一种新的基于分数的一步采样模型。以前，由于迭代采样，基于分数的模型承受着繁重的计算负担。为了替代迭代过程，我们训练一个独立的生成器，用从得分网络反向传播的梯度来压缩所有时间步长。为了为生成器产生有意义的梯度，训练评分网络以同时匹配真实数据分布和不匹配假数据分布。该模型具有以下优点 1. 对于采样，仅向前一步生成假图像。 2 对于训练来说，它只需要10个扩散步骤。3 与一致性模型相比，它没有由于一致性损失而导致的不适定问题。在流行的 CIFAR 10 数据集上，我们的模型优于一致性模型和去噪分数匹配，这证明了该框架的潜力。我们进一步提供了有关 MINIST 和 LSUN 数据集的更多示例。

Controllable Dynamic Appearance for Neural 3D Portraits
Authors ShahRukh Athar, Zhixin Shu, Zexiang Xu, Fuji Luan, Sai Bi, Kalyan Sunkavalli, Dimitris Samaras
神经辐射场 NeRF 的最新进展使得通过控制头部姿势、面部表情和观看方向来重建和复活动态肖像场景成为可能。然而，训练此类模型假设变形区域的光度一致性，例如脸部必须均匀照明，因为脸部会随着头部姿势和面部表情的变化而变形。即使在工作室环境中，视频帧之间的这种光度一致性也很难维持，因此使得创建的可复活神经肖像在复活期间容易出现伪影。在这项工作中，我们提出了 CoDyNeRF，这是一个能够在现实世界捕捉条件下创建完全可控的 3D 肖像的系统。 CoDyNeRF 通过规范空间中的动态外观模型学习近似光照相关效果，该模型以预测的表面法线、面部表情和头部姿势变形为条件。表面法线预测是使用 3DMM 法线来指导的，3DMM 法线充当人体头部法线的粗略先验，由于头部姿势和面部表情变化引起的刚性和非刚性变形，直接预测法线很困难。仅使用智能手机拍摄的主题短视频进行训练，我们展示了我们的方法在具有明确的头部姿势和表情控制以及逼真的灯光效果的肖像场景的自由视图合成方面的有效性。

PPD: A New Valet Parking Pedestrian Fisheye Dataset for Autonomous Driving
Authors Zizhang Wu, Xinyuan Chen, Fan Song, Yuanzhu Gan, Tianhao Xu, Jian Pu, Rui Tang
代客泊车场景下的行人检测是自动驾驶的基础。然而，在不完善的环境条件下，行人的存在可能会以多种方式和姿势表现出来，这会对检测性能产生不利影响。此外，在包含行人的公共数据集上训练的模型通常为这些代客泊车场景提供次优结果。在本文中，我们提出了停车行人数据集 PPD，这是一个大型鱼眼数据集，用于支持处理现实世界行人的研究，特别是遮挡和不同姿势的研究。 PPD 包含使用鱼眼摄像机拍摄的几种独特类型的行人。此外，我们在 PPD 数据集上提出了行人检测基线，并引入了两种数据增强技术，通过增强原始数据集的多样性来改进基线。

COSE: A Consistency-Sensitivity Metric for Saliency on Image Classification
Authors Rangel Daroya, Aaron Sun, Subhransu Maji
我们提出了一组利用视觉先验来有效评估显着性方法在图像分类任务上的性能的指标。为了理解深度学习模型中的行为，许多方法提供了视觉显着图，强调对模型预测最有贡献的图像区域。然而，在分析显着性方法在解释模型决策方面的可靠性方面的工作有限。我们提出了度量 COnsistency SEnsitivity COSE，它使用简单的数据增强来量化视觉模型解释的等变和不变属性。通过我们的指标，我们表明，尽管显着性方法被认为是独立于体系结构的，但大多数方法可以比基于卷积的模型更好地解释基于变压器的模型。此外，GradCAM 在 COSE 方面优于其他方法，但也存在局限性，例如细粒度数据集缺乏可变性。一致性和敏感性之间的二元性允许从不同角度分析显着性方法。

SEMPART: Self-supervised Multi-resolution Partitioning of Image Semantics
Authors Sriram Ravindran, Debraj Basu
当标记数据稀缺时，准确确定图像的显着区域具有挑战性。基于 DINO 的自监督方法最近利用了由补丁特征捕获的有意义的图像语义来定位前景对象。最近的方法还结合了直观的先验，并证明了无监督对象划分方法的价值。在本文中，我们提出了 SEMPART，它在基于图像 DINO 的语义图上联合推断粗略和精细的 bi 分区。此外，SEMPART 使用图驱动正则化保留精细边界细节，并成功将粗掩模语义提炼为精细掩模。

A Geometric Flow Approach for Segmentation of Images with Inhomongeneous Intensity and Missing Boundaries
Authors Paramjyoti Mohapatra, Richard Lartey, Weihong Guo, Michael Judkovich, Xiaojuan Li
图像分割是一个复杂的数学问题，特别是对于包含强度不均匀性和紧密堆积且其间缺少边界的对象的图像。例如，磁共振 MR 肌肉图像通常包含这两个问题，使得肌肉分割特别困难。在本文中，我们提出了一种新颖的强度校正和基于半自动活动轮廓的分割方法。该方法使用几何流，该几何流结合了再现内核希尔伯特空间 RKHS 边缘检测器和来自一组标记和反标记的测地距离罚项。我们测试了所提出的 MR 肌肉分割方案，并与一些最先进的方法进行比较。为了帮助处理这种特定类型图像中的强度不均匀性，引入了一种使用脂肪分数图像估计偏差场的新方法，称为先验偏差校正模糊 C 表示 PBCFCM 。数值实验表明，所提出的方案比对比方案取得了明显更好的结果。

PLVS: A SLAM System with Points, Lines, Volumetric Mapping, and 3D Incremental Segmentation
Authors Luigi Freda
本文档介绍了 PLVS 一个利用稀疏 SLAM、体积映射和 3D 无监督增量分割的实时系统。 PLVS 代表点、线、体积映射和分割。它支持 RGB D 和立体相机，可以选择配备 IMU。 SLAM模块基于关键帧，提取并跟踪稀疏点和线段作为特征。体积映射与 SLAM 前端并行运行，并通过融合从关键帧反投影的点云来生成探索环境的 3D 重建。 PLVS 支持并集成不同的体积映射方法。我们使用一种新颖的重投影误差来捆绑调整线段。该错误利用可用的深度信息来稳定线段端点的位置估计。在 PLVS 框架中为 RGB D 相机实现并集成了增量和基于几何的分割方法。我们在一些公开数据集上对 PLVS 框架进行了定性和定量评估。附录详细介绍了所采用的立体线三角测量方法，并提供了我们用于线误差项的雅可比行列式的推导。

On-device Real-time Custom Hand Gesture Recognition
Authors Esha Uboweja, David Tian, Qifei Wang, Yi Chun Kuo, Joe Zou, Lu Wang, George Sung, Matthias Grundmann
大多数现有的手势识别 HGR 系统仅限于一组预定义的手势。然而，用户和开发人员通常希望识别新的、看不见的手势。由于所有可能的手形（例如，手形）的多样性，这是一项挑战。开发人员不可能将所有手势都包含在预定义列表中。在本文中，我们提出了一个用户友好的框架，使用户可以轻松定制和部署自己的手势识别管道。我们的框架提供了一个预先训练的单手嵌入模型，可以针对自定义手势识别进行微调。用户可以在网络摄像头前执行手势，以收集每个手势的少量图像。我们还提供低代码解决方案来训练和部署自定义手势识别模型。这使得机器学习专业知识有限的用户可以轻松使用我们的框架。我们还为没有任何 ML 专业知识的用户提供无代码 Web 前端。这使得构建和测试端到端管道变得更加容易。然后，生成的自定义 HGR 就可以在设备上运行以实现实时场景。这可以通过调用我们的开源模型推理 API MediaPipe Tasks 中的一个简单函数来完成。

CMRxRecon: An open cardiac MRI dataset for the competition of accelerated image reconstruction
Authors Chengyan Wang, Jun Lyu, Shuo Wang, Chen Qin, Kunyuan Guo, Xinyu Zhang, Xiaotong Yu, Yan Li, Fanwen Wang, Jianhua Jin, Zhang Shi, Ziqiang Xu, Yapeng Tian, Sha Hua, Zhensen Chen, Meng Liu, Mengting Sun, Xutong Kuang, Kang Wang, Haoran Wang, Hao Li, Yinghua Chu, Guang Yang, Wenjia Bai, Xiahai Zhuang, He Wang, Jing Qin, Xiaobo Qu
心脏磁共振成像 CMR 已成为心脏病的宝贵诊断工具。然而，CMR 的局限性在于其成像速度慢，这会导致患者不适并在图像中引入伪影。人们对基于深度学习的 CMR 成像算法越来越感兴趣，这些算法可以从高度欠采样的 k 空间数据重建高质量图像。然而，深度学习方法的开发需要大量的训练数据集，而这些数据集尚未公开用于 CMR。为了解决这一差距，我们发布了一个数据集，其中包括来自 300 名受试者的多对比度、多视图、多切片和多线圈 CMR 成像数据。成像研究包括心脏电影和绘图序列。数据集中还提供了所有受试者的心肌和心室的手动分割。还提供了最先进的重建算法的脚本作为参考。我们的目标是通过引入标准化评估标准并使研究界免费访问数据集来促进最先进的 CMR 图像重建的进步。

A Large-scale Dataset for Audio-Language Representation Learning
Authors Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie
在大规模多模式数据集的推动下，人工智能社区在开发强大的基础模型方面取得了重大进展。然而，在音频表示学习领域，现有的音频语言数据集存在容量不足、内容简单和收集过程繁琐等局限性。为了应对这些挑战，我们提出了一种基于一系列公共工具或 API 的创新型自动音频字幕生成管道，并构建了一个大规模、高质量的音频语言数据集，称为 Auto ACD，包含超过 190 万个音频文本对。为了证明所提出的数据集的有效性，我们在数据集上训练了流行的模型，并展示了各种下游任务的性能改进，即音频语言检索、音频字幕、环境分类。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了基准。

Weight Averaging Improves Knowledge Distillation under Domain Shift
Authors Valeriy Berezovskiy, Nikita Morozov
知识蒸馏KD是一种强大的模型压缩技术，广泛应用于实际的深度学习应用中。它的重点是训练小型学生网络来模仿更大的教师网络。虽然众所周知，KD 可以改进独立同分布环境中的学生泛化能力，但其在域转移下的性能，即学生网络在训练期间未见过的域数据上的性能，在文献中很少受到关注。在本文中，我们朝着连接知识蒸馏和领域泛化的研究领域迈出了一步。我们表明，领域泛化文献中提出的权重平均技术（例如 SWAD 和 SMA）也提高了领域转移下知识蒸馏的性能。此外，我们提出了一种简单的权重平均策略，不需要在训练期间对验证数据进行评估，并表明当应用于 KD 时，其性能与 SWAD 和 SMA 相当。

CalibFPA: A Focal Plane Array Imaging System based on Online Deep-Learning Calibration
Authors Alper G ng r, M. Umut Bahceci, Yasin Ergen, Ahmet S zak, O. Oner Ekiz, Tolga Yelboga, Tolga ukur
压缩焦平面阵列 FPA 通过在低分辨率 LR 传感器上采集多个多重测量结果，实现经济高效的高分辨率 HR 成像。视觉场景的复用编码通常通过电子可控空间光调制器SLM 来执行。然后，通过解决涉及成像系统正向模型的逆问题，根据编码测量结果重建 HR 图像。为了捕获系统非理想性（例如光学像差），主流方法是进行离线校准扫描，以测量成像网格上每个空间位置处的点源的系统响应。然而，使用结构化 SLM 时运行校准扫描具有挑战性，因为它们无法对单个网格位置进行编码。在这项研究中，我们提出了一种基于多路 LR 测量 CalibFPA 在线深度学习校准的新型压缩 FPA 系统。我们引入了一种压电平台，可移动预印的固定编码孔径。然后利用深度神经网络来校正多路测量中系统非理想性的影响，而无需离线校准扫描。最后，使用深度即插即用算法根据校正的测量结果重建图像。在模拟和实验数据集上，我们证明 CalibFPA 优于最先进的压缩 FPA 方法。

Kosmos-2.5: A Multimodal Literate Model
Authors Tengchao Lv, Yupan Huang, Jingye Chen, Lei Cui, Shuming Ma, Yaoyao Chang, Shaohan Huang, Wenhui Wang, Li Dong, Weiyao Luo, Shaoxiang Wu, Guoxin Wang, Cha Zhang, Furu Wei
我们推出了 Kosmos 2.5，这是一种用于机器阅读文本密集型图像的多模式读写模型。 Kosmos 2.5 在大规模文本密集型图像上进行了预训练，在两个不同但协作的转录任务中表现出色：1 生成空间感知文本块，其中每个文本块在图像中分配其空间坐标；2 生成捕获样式和内容的结构化文本输出。结构转换为 Markdown 格式。这种统一的多模式读写能力是通过共享 Transformer 架构、特定于任务的提示和灵活的文本表示来实现的。我们在端到端文档级文本识别和图像到 Markdown 文本生成方面评估 Kosmos 2.5。此外，该模型可以通过监督微调轻松适应任何具有不同提示的文本密集型图像理解任务，使其成为涉及文本丰富图像的现实世界应用的通用工具。

Enhancing motion trajectory segmentation of rigid bodies using a novel screw-based trajectory-shape representation
Authors Arno Verduyn, Maxim Vochten, Joris De Schutter
轨迹分割是指将一条轨迹划分为有意义的连续子轨迹。本文重点关注 3D 刚体运动的轨迹分割。文献中的大多数分割方法将身体的轨迹表示为点轨迹，仅考虑其平移而忽略其旋转。我们提出了一种新颖的刚体运动轨迹表示，它结合了平移和旋转，并且还表现出一些不变的属性。该表示由几何进度率和三阶轨迹形状描述符组成。螺旋理论的概念被用来使这种表示不随时间变化，并且对于身体参考点的选择也保持不变。这种新的表示形式经过了自我监督分割方法的验证，无论是在模拟中还是使用人类演示的倾倒运动的真实记录。结果显示，与传统表示相比，对具有不同特征的连续子运动的检测更加鲁棒，并且分割更加一致。

Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions
Authors Yuxing Long, Xiaoqi Li, Wenzhe Cai, Hao Dong
视觉语言导航 VLN 是一项具体任务，需要广泛的技能，包括理解、感知和规划。对于这样一个多方面的挑战，以前的VLN方法完全依靠一个模型自己的思维在一轮内做出预测。然而，现有的模型，即使是最先进的大语言模型 GPT4，仍然难以通过单轮自我思考来处理多个任务。在这项工作中，我们从专家咨询会议中汲取灵感，引入了一种新颖的零样本VLN框架。在这个框架内，具有独特能力的大型模型被充当领域专家。我们提出的导航代理，即 DiscussNav，可以在每一步行动之前与这些专家积极讨论以收集必要的信息。这些讨论涵盖了关键的导航子任务，例如指令理解、环境感知和完成度估计。通过全面的实验，我们证明与领域专家的讨论可以通过感知指令相关信息、纠正无意的错误以及筛选一致的运动决策来有效地促进导航。代表性 VLN 任务 R2R 的性能表明，我们的方法在所有指标上都大大超过了领先的零样本 VLN 模型。

TwinTex: Geometry-aware Texture Generation for Abstracted 3D Architectural Models
Authors Weidan Xiong, Hongqian Zhang, Botao Peng, Ziyu Hu, Yongli Wu, Jianwei Guo, Hui Huang
粗略的建筑模型通常以从单个建筑物到下游应用场景的规模生成，例如数字孪生城市、Metaverse、LOD 等。这种分段平面模型可以从 3D 密集重建中抽象为孪生。然而，这些模型通常缺乏相对于真实建筑物或场景的真实纹理，使得它们不适合生动显示或直接参考。在本文中，我们提出了 TwinTex，这是第一个自动纹理映射框架，用于为分段平面代理生成照片般逼真的纹理。我们的方法解决了这种孪生纹理生成中出现的大多数挑战。具体来说，对于每个原始平面，我们首先考虑光度质量、透视质量和立面纹理完整性，使用贪婪启发式选择一小组照片。然后，从所选照片集中提取不同级别的线条特征 LoL，以为后续步骤生成指导。对于 LoL，我们采用优化算法将纹理与从局部到全局的几何体对齐。最后，我们使用多掩模初始化组件和新数据集微调扩散模型以修复缺失区域。许多建筑物、室内场景和不同复杂度的人造物体的实验结果证明了我们算法的泛化能力。我们的方法在高保真质量方面超越了最先进的纹理映射方法，并且以更少的努力达到了人类专家的生产水平。

The Scenario Refiner: Grounding subjects in images at the morphological level
Authors Claudia Tagliaferri, Sofia Axioti, Albert Gatt, Denis Paperno
派生相关的单词，例如 runner 和 running ，表现出语义差异，也会引发不同的视觉场景。在本文中，我们询问 Vision 和 Language V L 模型是否使用新的方法和数据集在形态层面捕获了这种区别。我们将 VL 模型的结果与人类的判断进行比较，发现模型的预测与人类参与者的预测不同，特别是显示出语法偏差。我们进一步研究人体模型错位是否与模型架构有关。

Online Calibration of a Single-Track Ground Vehicle Dynamics Model by Tight Fusion with Visual-Inertial Odometry
Authors Haolong Li, Joerg Stueckler
轮式移动机器人需要能够估计其运动及其控制动作的效果以进行导航规划。在本文中，我们提出了 ST VIO，这是一种将轮式地面车辆的单轨动力学模型与视觉惯性里程计紧密融合的新颖方法。我们的方法在线校准和调整动态模型，并促进根据未来控制输入进行准确的前向预测。单轨动力学模型使用常微分方程在平坦地面上的特定控制输入下近似轮式车辆运动。我们使用单轨模型的无奇点和可微分变体，以实现作为动态因子无缝集成到 VIO 中，并与 VIO 状态变量一起在线优化模型参数。我们使用不同地形类型和车轮的室内和室外环境中的真实世界数据验证了我们的方法。

More complex encoder is not all you need
Authors Weibin Yang, Longwei Xu, Pengwei Wang, Dehua Geng, Yusong Li, Mingyuan Xu, Zhiqi Dong
U Net及其变体已广泛应用于医学图像分割。然而，当前大多数 U Net 变体将其改进策略局限于构建更复杂的编码器，同时保持解码器不变或采用简单的对称结构。这些方法忽略了解码器从编码器接收低分辨率特征图并通过上采样恢复特征图分辨率和丢失信息的真实功能。因此，解码器，尤其是其上采样组件，在增强分割结果方面发挥着至关重要的作用。然而，在 3D 医学图像分割中，常用的转置卷积可能会导致视觉伪影。这个问题源于输出特征图中相邻像素之间缺乏直接关系。此外，由于下采样操作导致感受野逐渐扩大，普通编码器已经具备了足够的特征提取能力，但下采样过程中信息的损失是不可忽略的。为了解决相关研究中的差距，我们将我们的注意力扩展到编码器之外，并引入了 neU Net，即不是复杂的编码器 U Net ，它结合了一种新颖的子像素卷积用于上采样，以构建强大的解码器。此外，我们在编码器端引入多尺度小波输入模块以提供附加信息。

CaveSeg: Deep Semantic Segmentation and Scene Parsing for Autonomous Underwater Cave Exploration
Authors A. Abdullah, T. Barua, R. Tibbetts, Z. Chen, M. J. Islam, I. Rekleitis
在本文中，我们提出了 CaveSeg 第一个用于水下洞穴内 AUV 导航语义分割和场景解析的视觉学习管道。我们通过准备用于水下洞穴场景语义分割的综合数据集来解决带注释的训练数据稀缺的问题。它包含重要导航标记的像素注释，例如洞穴、箭头、障碍物，例如地面平原和架空层、水肺潜水员和用于伺服的开放区域。通过对美国、墨西哥和西班牙洞穴系统的全面基准分析，我们证明可以基于 CaveSeg 开发强大的深度视觉模型，用于水下洞穴环境的快速语义场景解析。特别是，我们制定了一种新颖的基于变压器的模型，该模型计算量小，除了实现最先进的性能之外，还提供近乎实时的执行。最后，我们探讨了水下洞穴内 AUV 视觉伺服语义分割的设计选择和含义。

Conformalized Multimodal Uncertainty Regression and Reasoning
Authors Domenico Parente, Nastaran Darabi, Alex C. Stutts, Theja Tulabandhula, Amit Ranjan Trivedi
本文介绍了一种轻量级不确定性估计器，能够通过将共形预测与深度学习回归器相结合来预测多模态不相交不确定性界限。我们特别讨论了它在视觉里程计 VO 中的应用，其中飞行域对称性和模糊和遮挡下的传感器测量等环境特征可能会导致多模态不确定性。我们的模拟结果表明，我们框架中的不确定性估计以样本方式适应具有挑战性的操作条件，例如明显的噪声、有限的训练数据和有限的预测模型参数大小。我们还开发了一个推理框架，利用这些强大的不确定性估计并结合基于光流的推理来提高预测准确性。因此，通过适当考虑数据驱动学习的预测不确定性，并通过基于规则的推理闭合其估计循环，我们的方法在所有这些具有挑战性的场景（明显的噪声、有限的训练数据和有限的模型大小）上始终优于传统的深度学习方法，从而减少了预测误差

STARNet: Sensor Trustworthiness and Anomaly Recognition via Approximated Likelihood Regret for Robust Edge Autonomy
Authors Nastaran Darabi, Sina Tayebati, Sureshkumar S., Sathya Ravi, Theja Tulabandhula, Amit R. Trivedi
激光雷达、雷达和事件摄像机等复杂传感器在自主机器人中激增，以增强对环境的感知和理解。同时，这些传感器也容易受到各种故障机制的影响，这些故障机制可能与其运行环境错综复杂地相互作用。与此同时，复杂传感器上训练数据的有限可用性也影响了基于深度学习的预测流程的可靠性，其中它们的预测模型可能无法推广到训练集中未充分捕获的环境。为了解决这些可靠性问题，本文介绍了 STARNet，这是一种传感器可信度和异常识别网络，旨在检测可能因传感器故障和/或挑战性环境而产生的不可信传感器流。我们专门针对 LiDAR 和相机数据对 STARNet 进行了基准测试。 STARNet 采用近似似然后悔的概念，这是一种专为低复杂度硬件（尤其是那些仅具有定点精度功能的硬件）量身定制的无梯度框架。通过广泛的模拟，我们展示了 STARNet 在单模态和多模态设置中检测不可信传感器流的功效。特别是，该网络在解决内部传感器故障（例如传感器交叉干扰和串扰）方面表现出卓越的性能。在涉及恶劣天气和传感器故障的各种测试场景中，我们表明 STARNet 通过过滤掉不可信的传感器流，将预测精度提高了大约 10。

Spiking NeRF: Making Bio-inspired Neural Networks See through the Real World
Authors Xingting Yao, Qinghao Hu, Tielong Liu, Zitao Mo, Zeyu Zhu, Zhengyang Zhuge, Jian Cheng
尖峰神经元网络 SNN 在众多任务中蓬勃发展，以利用其有前途的能源效率并开发其作为生物学上合理的智能的潜力。同时，神经辐射场 NeRF 渲染高质量 3D 场景时消耗大量能源，很少有作品深入研究采用生物启发方法的节能解决方案。在本文中，我们提出了尖峰 NeRF SpikingNeRF ，它将辐射射线与 SNN 的时间维度对齐，以自然地使 SNN 适应辐射场的重建。因此，计算变成基于尖峰、免乘法的方式，减少了能耗。在 SpikingNeRF 中，射线上的每个采样点都匹配到特定的时间步长，并以混合方式表示，其中体素网格也得到维护。根据体素网格，确定是否对采样点进行屏蔽，以便更好的训练和推理。然而，该操作也会导致不规则的时间长度。我们提出时间压缩和填充 TCP 策略来处理屏蔽样本，以保持规则的时间长度，即规则的张量，以进行硬件友好的计算。

A Novel Deep Neural Network for Trajectory Prediction in Automated Vehicles Using Velocity Vector Field
Authors MReza Alipour Sormoli, Amir Samadi, Sajjad Mozaffari, Konstantinos Koufos, Mehrdad Dianati, Roger Woodman
预测其他道路使用者的运动对于自动驾驶系统 ADS 至关重要，因为它可以实现安全、明智的下游决策和运动规划。不幸的是，随着预测范围的增加或观察窗口的减小，当代基于学习的运动预测方法表现出显着的性能下降。本文提出了一种用于轨迹预测的新技术，该技术将基于数据驱动学习的方法与由自然启发的概念（即流体流动动力学）生成的速度矢量场 VVF 相结合。在这项工作中，矢量场被合并为卷积循环深度神经网络的附加输入，以帮助预测给定一系列鸟瞰场景表示的最可能的未来轨迹。将所提出模型的性能与 HighD 数据集上最先进的方法进行比较，证明 VVF 包含提高了短期和长期 5 秒时间范围的预测精度。研究还表明，随着观测窗口的减小，精度保持一致，这减轻了对过去观测的长期历史记录对准确轨迹预测的要求。

Incremental Multimodal Surface Mapping via Self-Organizing Gaussian Mixture Models
Authors Kshitij Goel, Wennie Tabib
这封信描述了一种增量多模态表面测绘方法，该方法将环境表示为连续概率模型。该模型能够实现高分辨率重建，同时压缩空间和强度点云数据。这项工作中采用的策略利用高斯混合模型 GMM 来表示环境。虽然之前基于 GMM 的测绘工作已经开发出使用信息论技术来确定混合物成分数量的方法，但这些方法要么对单个传感器观测进行操作，使其不适合增量测绘，要么不是实时可行的，特别是对于高保真度的应用需要建模。为了弥补这一差距，这封信介绍了一种用于快速 GMM 子图提取的空间哈希图，并结合了一种确定点云中相关和冗余数据的方法。与最先进的基于增量 GMM 的映射相比，这些贡献将计算速度提高了一个数量级。此外，与基于 GMM 和非 GMM 的最先进的映射方法相比，所提出的方法在地图精度和大小方面产生了优越的权衡。使用模拟和现实世界数据进行评估。

GelSight Svelte: A Human Finger-shaped Single-camera Tactile Robot Finger with Large Sensing Coverage and Proprioceptive Sensing
Authors Jialiang Zhao, Edward H. Adelson
基于摄像头的触觉传感是一种低成本、流行的方法，用于获取高度详细的接触几何信息。然而，大多数现有的基于摄像头的触觉传感器都是指尖传感器，较长的手指通常需要额外的元件来获得类似于人类手指全长的扩展传感区域。此外，当接触几何形状复杂时，估计本体感觉信息（例如从基于相机的触觉传感器施加在手指上的总力和扭矩）的现有方法并不有效。我们推出了 GelSight Svelte，这是一种弯曲的、人手指大小的单摄像头触觉传感器，能够在大面积上进行触觉和本体感觉传感。 GelSight Svelte 使用曲面镜来实现所需的形状和传感覆盖范围。本体感受信息，例如施加在手指上的总弯曲和扭转扭矩，反映为 GelSight Svelte 柔性骨干上的变形，这些变形也由相机捕获。我们训练卷积神经网络来估计捕获图像的弯曲和扭转扭矩。我们在手指的不同位置进行凝胶变形实验，以评估触觉传感能力和本体感觉传感精度。为了展示 GelSight Svelte 的功能和潜在用途，我们使用三种不同的抓取模式（利用手指的不同区域）执行物体抓取任务。

DeepliteRT: Computer Vision at the Edge
Authors Saad Ashfaq, Alexander Hoffman, Saptarshi Mitra, Sudhakar Sah, MohammadHossein AskariHemmat, Ehsan Saboori
边缘设备的激增为计算机视觉应用中的深度学习模型部署带来了前所未有的机遇。然而，这些复杂的模型需要大量的电力、内存和计算资源，而边缘平台通常无法提供这些资源。超低位量化通过将模型权重和激活从 32 位缩小到小于 8 位，为该问题提供了一种有吸引力的解决方案。我们为基于 ARM 的目标实现了高度优化的超低位卷积运算符，其性能比现有方法高出 4.34 倍。我们的运算符在 Deeplite Runtime DeepliteRT 中实现，这是一种用于在 ARM 设备上编译、调整和推理超低位模型的端到端解决方案。 DeepliteRT 中的编译器会自动将全精度的伪量化模型转换为紧凑的超低位表示，从而简化了在商用硬件上部署量化模型的过程。

Analysing race and sex bias in brain age prediction
Authors Carolina Pi arra, Ben Glocker
MRI 预测脑年龄已成为与多种神经病理学相关的流行成像生物标志物。然而，用于训练的数据集在人口统计方面经常存在偏差和不平衡，可能使大脑年龄预测模型容易受到偏差的影响。我们通过进行全面的子组性能分析和特征检查来分析常用的 ResNet 34 模型。该模型使用来自 Cam CAN 和 IXI 的 1,215 个 T1 加权 MRI 扫描进行训练，并在英国生物库 n 42,786 上进行测试，分为六个种族和生物性别亚组。为了比较通过绝对预测误差衡量的子组之间的表现，我们使用 Kruskal Wallis 检验，然后使用两个事后 Conover Iman 检验来检查种族和生物性别之间的偏差。为了检查生成的特征中的偏差，我们使用 PCA 进行降维，并采用两个样本 Kolmogorov Smirnov 检验来识别子组之间的分布变化。我们的结果揭示了黑人和白人、黑人和亚洲人、男性和女性受试者之间的预测表现存在统计学上的显着差异。十二个成对比较中有七个显示特征分布具有统计显着性差异。

Sparser Random Networks Exist: Enforcing Communication-Efficient Federated Learning via Regularization
Authors Mohamad Mestoukirdi, Omid Esrafilian, David Gesbert, Qianrui Li, Nicolas Gresset
这项工作提出了一种在参数化随机网络上训练的随机联邦学习中提高通信效率的新方法。在此设置中，优化了二进制掩码而不是保持固定的模型权重。该掩码表征了稀疏子网络，其泛化能力与较小的目标网络一样好。重要的是，交换的是稀疏二进制掩码，而不是传统联邦学习中的浮点权重，从而将通信成本降低到每个参数最多 1 位。我们表明，以前最先进的随机方法无法找到可以使用一致的损失目标来减少通信和存储开销的稀疏网络。为了解决这个问题，我们建议在局部目标中添加一个正则化项，通过消除子网络中的冗余特征来鼓励稀疏解决方案。

Comparative study of Deep Learning Models for Binary Classification on Combined Pulmonary Chest X-ray Dataset
Authors Shabbir Ahmed Shuvo, Md Aminul Islam, Md. Mozammel Hoque, Rejwan Bin Sulaiman
基于 CNN 的疾病检测深度学习模型最近变得流行。我们比较了八个著名深度学习模型 DenseNet 121、DenseNet 169、DenseNet 201、EffecientNet b0、EffecientNet lite4、GoogleNet、MobileNet 和 ResNet18 在组合肺胸部 X 射线数据集上的二元分类性能。尽管医学图像在不同领域得到广泛应用，但在确定其应用于相同数据集时的相对性能方面仍然存在知识差距，本研究旨在解决这一差距。该数据集结合了中国深圳 CH 和美国蒙哥马利 MC 数据。我们训练我们的模型进行二元分类，计算上述模型的不同参数，并对它们进行比较。这些模型经过训练，记住所有模型都遵循相同的训练参数，以维持受控的比较环境。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com