【AI视野·今日CV 计算机视觉论文速览第285期】Mon, 8 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 8 Jan 2024
Totally 66 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Denoising Vision Transformers
Authors Jiawei Yang, Katie Z Luo, Jiefeng Li, Kilian Q Weinberger, Yonglong Tian, Yue Wang
我们深入研究了 Vision Transformers ViT 固有的一个微妙但重大的挑战，这些模型的 ViT 特征图表现出网格状伪影，这对下游任务中 ViT 的性能产生不利影响。我们的调查将这个基本问题追溯到输入阶段的位置嵌入。为了解决这个问题，我们提出了一种新颖的噪声模型，该模型普遍适用于所有 ViT。具体来说，噪声模型将 ViT 输出分解为三个组成部分：一个没有噪声伪影的语义术语和两个以像素位置为条件的与伪影相关的术语。这种分解是通过在每个图像的基础上强制执行与神经场的交叉视图特征一致性来实现的。每个图像的优化过程从原始 ViT 输出中提取无伪影特征，为离线应用程序提供干净的特征。为了扩展我们的解决方案的范围以支持在线功能，我们引入了一种可学习的降噪器，可以直接从未处理的 ViT 输出中预测无伪影特征，这显示了对新数据的卓越泛化能力，而无需对每个图像进行优化。我们的两阶段方法称为去噪视觉变压器 DVT，不需要重新训练现有的预训练 ViT，并且可立即适用于任何基于 Transformer 的架构。我们在各种代表性 ViT DINO、MAE、DeiT III、EVA02、CLIP、DINOv2、DINOv2 reg 上评估我们的方法。广泛的评估表明，我们的 DVT 一致且显着地改进了跨多个数据集的语义和几何任务中现有的最先进的通用模型，例如 3.84 mIoU。

Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively
Authors Haobo Yuan, Xiangtai Li, Chong Zhou, Yining Li, Kai Chen, Chen Change Loy
CLIP 和 Segment Anything Model SAM 是卓越的视觉基础模型 VFM。 SAM 擅长跨不同领域的分割任务，而 CLIP 以其零样本识别功能而闻名。本文提出了将这两种模型集成到统一框架中的深入探索。具体来说，我们介绍了 Open Vocabulary SAM，这是一种受 SAM 启发的模型，专为同步交互式分割和识别而设计，利用两个独特的知识转移模块 SAM2CLIP 和 CLIP2SAM。前者通过蒸馏和可学习的变压器适配器将 SAM 的知识融入到 CLIP 中，而后者则将 CLIP 知识转移到 SAM 中，增强其识别能力。对各种数据集和检测器的大量实验表明，开放词汇 SAM 在分割和识别任务中的有效性，显着优于简单组合 SAM 和 CLIP 的简单基线。

Unsupervised Federated Domain Adaptation for Segmentation of MRI Images
Authors Navapat Nananukul, Hamid Soltanian zadeh, Mohammad Rostami
使用深度神经网络对磁共振成像 MRI 图像进行自动语义分割极大地有助于评估和规划各种临床应用的治疗。然而，训练这些模型的条件是是否有丰富的注释数据来实现端到端的监督学习过程。即使我们注释了足够的数据，由于患者、MRI 扫描仪和成像协议等因素的差异，MRI 图像也会显示出相当大的变异性。这种可变性需要针对每个特定应用领域重新训练神经网络，这反过来又需要专家放射科医生对所有新领域进行手动注释。为了减轻对持久数据注释的需求，我们开发了一种使用多个注释源域进行无监督联合域适应的方法。我们的方法能够从多个带注释的源域转移知识，以适应模型以在未注释的目标域中有效使用。最初，我们通过最小化目标域和源域分布的成对距离，确保目标域数据与潜在嵌入空间中的每个源域共享相似的表示，建模为深度编码器的输出。然后，我们采用集成方法来利用从所有领域获得的知识。

Locally Adaptive Neural 3D Morphable Models
Authors Michail Tarasiou, Rolandos Alexandros Potamias, Eimear O Sullivan, Stylianos Ploumpis, Stefanos Zafeiriou
我们提出了局部自适应变形模型 LAMM，这是一种高度灵活的自动编码器 AE 框架，用于学习生成和操作 3D 网格。我们按照简单的自监督训练方案来训练我们的架构，其中一组稀疏控制顶点上的输入位移用于覆盖编码的几何图形，以便将一个训练样本转换为另一个训练样本。在推理过程中，我们的模型会产生密集的输出，该输出局部附着于指定的稀疏几何形状，同时保持编码对象的整体外观。这种方法在解开操纵几何体和 3D 网格重建方面都实现了最先进的性能。据我们所知，LAMM 是第一个端到端框架，可以在单次前向传递中直接本地控制 3D 顶点几何形状。非常高效的计算图允许我们的网络仅使用先前方法所需内存的一小部分进行训练，并且在推理过程中运行得更快，在单个 CPU 线程上以 60fps 生成 12k 顶点网格。我们进一步利用局部几何控制作为高级编辑操作的原语，并提供一组衍生功能，例如交换和采样对象部分。

SPFormer: Enhancing Vision Transformer with Superpixel Representation
Authors Jieru Mei, Liang Chieh Chen, Alan Yuille, Cihang Xie
在这项工作中，我们介绍了 SPFormer，一种通过超像素表示增强的新型视觉变换器。为了解决传统 Vision Transformers 固定大小、非自适应补丁分区的局限性，SPFormer 采用了适应图像内容的超像素。

Uncovering the human motion pattern: Pattern Memory-based Diffusion Model for Trajectory Prediction
Authors Yuxin Yang, Pengfei Zhu, Mengshi Qi, Huadong Ma
人类轨迹预测是机器人和自动驾驶等领域的一项关键挑战。由于现实世界场景中人类行为和意图固有的不确定性，可能会出现各种意想不到的情况。为了揭示人类行为中的潜在运动模式，我们引入了一种新颖的基于记忆的方法，称为运动模式先验记忆网络。我们的方法涉及构建一个存储库，该存储库源自训练集轨迹中观察到的运动模式的集群先验知识。我们引入了一种寻址机制来从记忆库中检索匹配的模式和每个预测的潜在目标分布，这使得能够识别和检索代理表现出的自然运动模式，随后使用目标先验记忆令牌来引导扩散模型生成预测。大量的实验验证了我们方法的有效性，实现了最先进的轨迹预测精度。

Reversing the Irreversible: A Survey on Inverse Biometrics
Authors Marta Gomez Barrero, Javier Galbally
随着生物特征识别的广泛使用，最近提出并分析了与该技术提供的隐私和安全相关的几个问题。因此，生物识别界早期关于模板不可逆性的普遍信念已被证明是错误的。现在一个公认的事实是，可以从未受保护的模板重建与真实样本相匹配的合成样本。这种逆向工程过程通常被称为文本逆向生物识别，它从两个不同的角度对生物识别系统构成严重威胁，一方面，敏感的个人数据，即生物识别数据可以从受损的未受保护的模板中获取，另一方面，其他强大的威胁也随之而来。可以基于这些重建的样本发起攻击。鉴于其重要影响，生物识别利益相关者在过去十五年中制作了大量著作，分析了与逆向生物识别相关的不同方面，针对不同特征开发了重建算法，提出了评估生物识别系统对上述算法的脆弱性的方法，开发了对策，以减少攻击可能产生的影响。本文致力于将所有这些信息浓缩为对问题本身的全面审查、问题的评估以及问题的缓解。

Generating Non-Stationary Textures using Self-Rectification
Authors Yang Zhou, Rongjun Xiao, Dani Lischinski, Daniel Cohen Or, Hui Huang
本文解决了基于示例的非平稳纹理合成的挑战。我们引入了一种新颖的两步方法，其中用户首先使用标准图像编辑工具修改参考纹理，从而产生用于合成的初始粗略目标。随后，我们提出的方法（称为“自校正”）会自动将该目标细化为连贯、无缝的纹理，同时忠实地保留参考样本的独特视觉特征。我们的方法利用预先训练的扩散网络，并使用自注意力机制，逐渐将合成的纹理与参考对齐，确保在提供的目标中保留结构。通过实验验证，我们的方法在处理非固定纹理方面表现出卓越的熟练程度，与现有的最先进技术相比，证明了纹理合成方面的显着进步。

Multi-Stage Contrastive Regression for Action Quality Assessment
Authors Qi An, Mengshi Qi, Huadong Ma
近年来，人们对基于视频的动作质量评估 AQA 越来越感兴趣。大多数现有方法通常通过考虑整个视频来解决 AQA 问题，但忽略了动作固有的舞台级别特征。为了解决这个问题，我们为 AQA 任务设计了一种新颖的多阶段对比回归 MCoRe 框架。这种方法使我们能够有效地提取时空信息，同时通过将输入视频分割为多个阶段或过程来降低计算成本。受图对比学习的启发，我们提出了一种新的阶段性对比学习损失函数来提高性能。

CrisisViT: A Robust Vision Transformer for Crisis Image Classification
Authors Zijun Long, Richard McCreadie, Muhammad Imran
在紧急情况下，危机应对机构需要快速、准确地评估当地局势，以便部署相关服务和资源。然而，当局往往不得不根据有限的信息做出决策，因为在当地响应服务能够提供第一手报告之前，有关受影响地区的数据可能很少。幸运的是，带有高质量摄像头的智能手机的广泛使用使得通过社交媒体进行的公民新闻成为危机应对人员的宝贵信息来源。然而，分析公民发布的大量图像需要比通常情况更多的时间和精力。为了解决这个问题，本文提出使用最先进的深度神经模型进行自动图像分类标记，特别是采用基于 Transformer 的架构进行危机图像分类 CrisisViT 。我们利用新的 Incidents1M 危机图像数据集来开发一系列基于 Transformer 的新图像分类模型。通过对标准危机图像基准数据集的实验，我们证明 CrisisViT 模型在紧急情况类型、图像相关性、人道主义类别和损害严重程度分类方面明显优于以前的方法。

Two-stage Progressive Residual Dense Attention Network for Image Denoising
Authors Wencong Wu, An Ge, Guannan Lv, Yuelong Xia, Yungang Zhang, Wen Xiong
用于图像去噪的深度卷积神经网络 CNN 可以有效地利用丰富的层次特征，并取得了巨大的成功。然而，许多基于深度CNN的去噪模型同样利用了噪声图像的层次特征，而没有关注更重要和有用的特征，导致性能相对较低。为了解决这个问题，我们设计了一种新的两阶段渐进残差密集注意网络TSP RDANet用于图像去噪，它将整个去噪过程分为两个子任务以逐步去除噪声。针对两个顺序子任务设计了两种不同的基于注意力机制的去噪网络，第一阶段设计了残差密集注意力模块RDAM，第二阶段提出了混合扩张残差密集注意力模块HDRDAM。所提出的注意模块能够通过不同卷积层之间的密集连接来学习适当的局部特征，并且也可以抑制不相关的特征。然后两个子网络通过长跳跃连接进行连接，以保留浅层特征以增强去噪性能。在七个基准数据集上的实验证明，与许多最先进的方法相比，所提出的 TSP RDANet 在合成和真实噪声图像去噪方面都能获得良好的结果。

CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event Cameras
Authors Yabin Zhu, Xiao Wang, Chenglong Li, Bo Jiang, Lin Zhu, Zhixiang Huang, Yonghong Tian, Jin Tang
现有的RGB DVS跟踪数据集是通过DVS346相机采集的，其分辨率为346×260，对于实际应用来说较低。实际上，许多实际系统中仅部署可见相机，并且新设计的神经形态相机可能具有不同的分辨率。最新的神经形态传感器可以输出高清事件流，但在空间和时间视图上实现事件和帧之间的严格对齐是非常困难的。因此，如何利用未对齐的神经形态和可见传感器实现精确跟踪是一个有价值但尚未研究的问题。在这项工作中，我们正式提出了使用未对齐的神经形态和可见相机进行对象跟踪的任务。我们构建了第一个使用专门构建的数据采集系统收集的未对齐帧事件数据集 CRSOT，其中包含 1,030 个高清 RGB 事件视频对、304,974 个视频帧。此外，我们提出了一种新颖的未对齐对象跟踪框架，即使使用松散对齐的 RGB 事件数据也可以实现鲁棒的跟踪。具体来说，我们提取 RGB 和事件数据的模板和搜索区域，并将它们输入到统一的 ViT 主干中以进行特征嵌入。然后，我们提出了不确定性感知模块来分别编码 RGB 和事件特征，然后，我们提出了模态不确定性融合模块来聚合两种模态。这三个分支在训练阶段共同优化。大量的实验表明，即使没有严格的时间和空间对齐，我们的跟踪器也可以协作双模态来实现高性能跟踪。

Diffbody: Diffusion-based Pose and Shape Editing of Human Images
Authors Yuta Okuyama, Yuki Endo, Yoshihiro Kanamori
人体图像中的姿势和体形编辑受到越来越多的关注。然而，当前的方法经常与数据集偏差作斗争，并且当用户进行大量编辑时，会降低真实性和个人身份。我们提出了一种一次性方法，可以在保留身份的情况下进行大规模编辑。为了实现大规模编辑，我们拟合 3D 身体模型，将输入图像投影到 3D 模型上，然后更改身体的姿势和形状。由于该初始纹理身体模型由于遮挡和不准确的身体形状而存在伪影，因此渲染的图像经历了基于扩散的细化，其中强噪声破坏了身体结构和身份，而噪声不足则无济于事。因此，我们提出了一种具有弱噪声的迭代细化，首先应用于全身，然后应用于面部。我们通过自监督学习微调文本嵌入来进一步增强真实感。

Weakly Semi-supervised Tool Detection in Minimally Invasive Surgery Videos
Authors Ryo Fujii, Ryo Hachiuma, Hideo Saito
手术工具检测对于分析和评估微创手术视频至关重要。当前的方法主要基于需要大型、完全实例级标签（即边界框）的监督方法。然而，由于注释的负担，具有实例级标签的大型图像数据集通常受到限制。因此，在提供图像级标签而不是实例级标签时，手术工具检测很重要，因为图像级注释比实例级注释的时间效率要高得多。在这项工作中，我们建议在极其昂贵的注释负担和检测性能之间取得平衡。我们进一步提出了共现损失，它考虑了一些工具对经常在图像中同时出现的特征，以利用图像级标签。使用共现损失封装共现知识有助于克服由于某些工具具有相似形状和纹理而导致的分类困难。

Fus-MAE: A cross-attention-based data fusion approach for Masked Autoencoders in remote sensing
Authors Hugo Chan To Hing, Bharadwaj Veeravalli
用于表示学习的自监督框架最近引起了遥感界的兴趣，因为它们有可能减轻与管理大型卫星图像数据集相关的高标签成本。在多模态数据融合领域，虽然经常使用的对比学习方法可以帮助弥合不同传感器类型之间的领域差距，但它们依赖于需要专业知识和精心设计的数据增强技术，特别是对于多光谱遥感数据。规避这些限制的一种可能但很少研究的方法是使用基于蒙版图像建模的预训练策略。在本文中，我们介绍了 Fus MAE，这是一种基于掩码自动编码器的自监督学习框架，它使用交叉注意力在合成孔径雷达和多光谱光学数据两种具有显着域差距的模态之间执行早期和特征级数据融合。

Systematic review of image segmentation using complex networks
Authors Amin Rezaei, Fatemeh Asadi

Reading Between the Frames: Multi-Modal Depression Detection in Videos from Non-Verbal Cues
Authors David Gimeno G mez, Ana Maria Bucur, Adrian Cosma, Carlos David Mart nez Hinarejos, Paolo Rosso
抑郁症是全球残疾的一个重要因素，影响着很大一部分人口。从社交媒体文本中检测抑郁症的努力已经很普遍，但只有少数作品探索了从用户生成的视频内容中检测抑郁症。在这项工作中，我们通过提出一种简单而灵活的多模态时间模型来解决这一研究空白，该模型能够从嘈杂的现实世界视频中的不同模态中辨别非语言抑郁线索。我们表明，对于野外视频，使用额外的高级非语言线索对于实现良好的性能至关重要，并且我们提取并处理了音频语音嵌入、面部情感嵌入、面部、身体和手部标志以及凝视和眨眼信息。通过大量的实验，我们表明我们的模型在视频抑郁症检测的三个关键基准数据集上取得了最先进的结果。

Enhancing targeted transferability via feature space fine-tuning
Authors Hui Zeng, Biwei Chen, Anjie Peng
对抗性示例 AE 由于其隐私保护的潜力和激发强大的神经网络的潜力而得到了广泛的研究。然而，使目标 AE 可跨未知模型转移仍然具有挑战性。在本文中，为了缓解现有简单迭代攻击所产生的 AE 中常见的过度拟合困境，我们建议在特征空间中对其进行微调。具体来说，从基线攻击生成的 AE 开始，我们鼓励对目标类有贡献的特征，并阻止对源模型中间层的原始类有贡献的特征。大量的实验表明，只需几次微调迭代就可以在目标可转移性方面非平凡且普遍地增强现有攻击。我们的结果还验证了简单的迭代攻击可以产生与资源密集型方法相当甚至更好的可转移性，资源密集型方法依赖于使用附加数据训练目标特定分类器或生成器。

Learning Image Demoireing from Unpaired Real Data
Authors Yunshan Zhong, Yuyao Zhou, Yuxin Zhang, Fei Chao, Rongrong Ji
本文重点讨论图像去噪问题。与依赖于成对真实数据学习的大量现有研究不同，我们尝试从不成对的真实数据（即与不相关的干净图像相关联的莫尔图像）中学习去波纹模型。所提出的方法称为 Unpaired Demoireing UnDeM，从不成对的数据集中合成伪莫尔图像，生成具有干净图像的对来训练去波纹模型。为了实现这一目标，我们将真实的莫尔图像分成多个块，并根据其莫尔复杂性对它们进行分组。我们引入了一种新颖的莫尔条纹生成框架来合成具有多种莫尔特征的莫尔图像，类似于真实的莫尔条纹，以及类似于真实的无莫尔图像的细节。此外，我们引入了一种自适应降噪方法来消除对去纹模型的学习产生不利影响的低质量伪莫尔图像。我们对常用的 FHDMi 和 UHDM 数据集进行了广泛的实验。

Complementary Information Mutual Learning for Multimodality Medical Image Segmentation
Authors Chuyun Shen, Wenhao Li, Haoqing Chen, Xiaoling Wang, Fengping Zhu, Yuxin Li, Xiangfeng Wang, Bo Jin
由于医学成像的局限性和肿瘤信号的多样性，放射科医生必须利用多模态图像进行肿瘤分割和诊断。这导致了分割中多模态学习的发展。然而，模态之间的冗余给现有基于减法的联合学习方法带来了挑战，例如误判模态的重要性、忽略特定模态信息以及增加认知负荷。这些棘手的问题最终会降低分割准确性并增加过度拟合的风险。本文提出了互补信息互学习CIML框架，该框架可以数学建模并解决多式联运冗余信息的负面影响。 CIML采用加法的思想，通过归纳偏差驱动的任务分解和基于消息传递的冗余过滤来去除模间冗余信息。 CIML 首先根据专家先验知识将多模态分割任务分解为多个子任务，最大限度地减少模态之间的信息依赖性。此外，CIML 引入了一种方案，其中每种模态都可以通过消息传递从其他模态中附加地提取信息。为了实现提取信息的非冗余，受变分信息瓶颈的启发，将冗余过滤转化为互补信息学习。互补信息学习过程可以通过变分推理和跨模态空间注意力来有效解决。

VoxelNextFusion: A Simple, Unified and Effective Voxel Fusion Framework for Multi-Modal 3D Object Detection
Authors Ziying Song, Guoxin Zhang, Jun Xie, Lin Liu, Caiyan Jia, Shaoqing Xu, Zhepeng Wang
LiDAR 相机融合可以利用深度感知 LiDAR 点和语义丰富的图像之间的互补信息来增强 3D 物体检测的性能。现有的基于体素的方法在以一对一的方式融合稀疏体素特征与密集图像特征时面临重大挑战，导致图像优势的丧失，包括语义和连续性信息，导致检测性能次佳，尤其是在长距离情况下。在本文中，我们提出了 VoxelNextFusion，这是一种专门为基于体素的方法设计的多模态 3D 对象检测框架，它有效地弥合了稀疏点云和密集图像之间的差距。特别是，我们提出了一种基于体素的图像管道，涉及将点云投影到图像上以获得像素和块级特征。然后使用自注意力融合这些特征以获得组合表示。此外，为了解决补丁中存在背景特征的问题，我们提出了一个特征重要性模块，可以有效地区分前景和背景特征，从而最大限度地减少背景特征的影响。在广泛使用的 KITTI 和 nuScenes 3D 对象检测基准上进行了大量实验。

PAHD: Perception-Action based Human Decision Making using Explainable Graph Neural Networks on SAR Images
Authors Sasindu Wijeratne, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, Carl Busart
合成孔径雷达 SAR 图像在军事应用中通常用于自动目标识别 ATR。机器学习 ML 方法，例如卷积神经网络 CNN 和图神经网络 GNN，经常用于识别地面物体，包括主战坦克、运兵车和导弹发射器。确定车辆类别（例如BRDM2坦克、BMP2坦克、BTR60坦克和BTR70坦克）至关重要，因为它可以帮助确定目标物体是盟友还是敌人。虽然机器学习算法提供了有关识别目标的反馈，但最终决定权还是留给指挥官。因此，在确定的目标旁边提供详细信息可以显着影响他们的行动。该详细信息包括有助于分类的 SAR 图像特征、分类置信度以及所识别的对象被分类为不同对象类型或类别的概率。我们提出了一个基于 GNN 的 ATR 框架，它提供最终的分类类并输出上述的详细信息。这是第一项对分类类别进行详细分析的研究，使最终决策更加简单。

Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss
Authors Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul, Patrick Von Platen
Stable Diffusion XL SDXL 因其多功能性和一流的图像质量而成为最佳的开源文本到图像模型 T2I。有效解决 SDXL 模型的计算需求对于扩大影响范围和适用性至关重要。在这项工作中，我们引入了两个按比例缩小的变体，Segmind Stable Diffusion SSD 1B 和 Segmind Vega，分别具有 1.3B 和 0.74B 参数 UNet，通过使用层级损失进行渐进删除来实现，重点是减少模型大小，同时保持生成质量。

GTA: Guided Transfer of Spatial Attention from Object-Centric Representations
Authors SeokHyun Seo, Jinwoo Hong, JungWoo Chae, Kyungyul Kim, Sangheum Hwang
与从头开始训练相比，在迁移学习中使用训练有素的表示通常会带来卓越的性能和更快的收敛速度。然而，即使转移了如此好的表示，模型也很容易过度拟合有限的训练数据集并失去转移表示的有价值的属性。由于 ViT 的电感偏压较低，这种现象更为严重。通过使用 ViT 中的注意力图进行实验分析，我们观察到在小数据集上训练时，丰富的表示会恶化。受这一发现的启发，我们提出了一种新颖且简单的 ViT 正则化方法，称为空间注意力引导转移 GTA。我们提出的方法规范了源模型和目标模型之间的自注意力图。通过这种显式正则化，目标模型可以充分利用与对象定位属性相关的知识。

Benchmarking PathCLIP for Pathology Image Analysis
Authors Sunyi Zheng, Xiaonan Cui, Yuxuan Sun, Jingxiong Li, Honglin Li, Yunlong Zhang, Pingyi Chen, Xueping Jing, Zhaoxiang Ye, Lin Yang
准确的图像分类和检索对于临床诊断和治疗决策具有重要意义。最近的对比语言图像预训练 CLIP 模型在理解自然图像方面表现出了非凡的能力。 PathCLIP 从 CLIP 中汲取灵感，专为病理图像分析而设计，在训练中利用超过 200,000 个图像和文本对。虽然 PathCLIP 的性能令人印象深刻，但其在各种图像损坏情况下的鲁棒性仍然未知。因此，我们进行了广泛的评估，以分析 PathCLIP 在骨肉瘤和 WSSS4LUAD 数据集中的各种损坏图像上的性能。在我们的实验中，我们引入了七种损坏类型，包括亮度、对比度、高斯模糊、分辨率、饱和度、色调和四个严重级别的标记。通过实验，我们发现 PathCLIP 对图像损坏具有相对的鲁棒性，并且在零样本分类方面超越了 OpenAI CLIP 和 PLIP。在七种损坏中，模糊和分辨率可能会导致 PathCLIP 的服务器性能下降。这表明在进行临床测试之前确保图像质量至关重要。此外，我们评估了 PathCLIP 在图像检索任务中的稳健性，结果表明 PathCLIP 在骨肉瘤上的表现不如 PLIP，但在各种损坏情况下在 WSSS4LUAD 上表现更好。总体而言，PathCLIP 为病理图像提供了令人印象深刻的零样本分类和检索性能，但在使用时需要适当小心。

Enhancing 3D-Air Signature by Pen Tip Tail Trajectory Awareness: Dataset and Featuring by Novel Spatio-temporal CNN
Authors Saurabh Atreya, Maheswar Bora, Aritra Mukherjee, Abhijit Das
这项工作提出了一种使用笔尖和尾部 3D 轨迹进行空中签名的新颖流程。为了获取轨迹，我们开发了一种新的钢笔工具并使用了立体相机。我们提出了 SliT CNN，这是一种新颖的 2D 时空卷积神经网络 CNN，用于更好地表征空气特征。此外，我们还收集了 45 个签名者的空气签名数据集。还收集每个用户的熟练伪造签名。

Recent Advancement in 3D Biometrics using Monocular Camera
Authors Aritra Mukherjee, Abhijit Das
最近的文献见证了人们对利用单目视觉实现稳健的身份验证方法的 3D 生物识别技术的浓厚兴趣。受此启发，在这项工作中，我们寻求提供有关单眼视觉 3D 生物识别领域最新发展的见解。我们介绍了 3D 单目生物识别技术和经典生物识别技术的相似点和不同点，列出了各自的优势和挑战。此外，我们还概述了单目视觉 3D 生物识别技术的最新技术以及业界采用的应用系统。

AG-ReID.v2: Bridging Aerial and Ground Views for Person Re-identification
Authors Huy Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes
空中地面人员重新识别 Re ID 对计算机视觉提出了独特的挑战，这是由于高空航空和地面摄像机之间的视点、姿势和分辨率之间的明显差异。现有的研究主要集中在地对地匹配上，由于缺乏全面的数据集，对空中匹配的探索较少。为了解决这个问题，我们引入了 AG ReID.v2，这是一个专门为空中和地面混合场景中的人员重新识别而设计的数据集。该数据集包含 1,615 个独特个体的 100,502 张图像，每个图像都用匹配的 ID 和 15 个软属性标签进行注释。使用无人机、固定闭路电视和智能眼镜集成摄像头从不同角度收集数据，提供丰富的内部身份变化。此外，我们还开发了一个专为该数据集定制的可解释的注意力网络。该网络采用三流架构，可有效处理成对图像距离，强调关键的自上而下特征，并适应由于海拔差异而导致的外观变化。比较评估证明了我们的方法相对于现有基线的优越性。我们计划公开发布数据集和算法源代码，旨在推进计算机视觉这一专业领域的研究。

Scaling and Masking: A New Paradigm of Data Sampling for Image and Video Quality Assessment
Authors Yongxu Liu, Yinghui Quan, Guoyao Xiao, Aobo Li, Jinjian Wu
图像和视频的质量评估强调局部细节和全局语义，而一般的数据采样方法（例如调整大小、裁剪或基于网格的片段）无法同时捕获它们。为了解决这一缺陷，当前的方法必须采用多分支模型并以多分辨率数据作为输入，这增加了模型的复杂性。在这项工作中，不是堆叠模型，而是探索了一种更优雅的数据采样方法，称为 SAMA、缩放和掩码，它将本地和全局内容压缩为常规输入大小。基本思想是先将数据缩放成金字塔，然后通过掩蔽策略将金字塔缩减为常规数据维度。受益于图像和视频中的空间和时间冗余，处理后的数据保持了具有规则输入大小的多尺度特征，因此可以通过单分支模型进行处理。我们验证了图像和视频质量评估中的采样方法。实验表明，我们的采样方法可以显着提高当前单分支模型的性能，并且在不增加模型复杂性的情况下实现与多分支模型竞争的性能。

MOODv2: Masked Image Modeling for Out-of-Distribution Detection
Authors Jingyao Li, Pengguang Chen, Shaozuo Yu, Shu Liu, Jiaya Jia
有效的分布外 OOD 检测的关键在于获取与 OOD 样本不同的稳健的分布 ID 表示。虽然以前的方法主要依靠基于识别的技术来实现此目的，但它们常常导致捷径学习，缺乏全面的表示。在我们的研究中，我们进行了全面分析，探索不同的预训练任务并采用各种 OOD 评分函数。结果强调，通过重建预训练的特征表示产生了显着的增强，并缩小了各种评分函数之间的性能差距。这表明，在利用基于重建的借口任务时，即使是简单的评分函数也可以与复杂的评分函数相媲美。基于重构的借口任务很好地适应了各种评分函数。因此，它具有进一步扩张的巨大潜力。我们的 OOD 检测框架 MOODv2 采用掩模图像建模借口任务。

DHGCN: Dynamic Hop Graph Convolution Network for Self-supervised Point Cloud Learning
Authors Jincen Jiang, Lizhi Zhao, Xuequan Lu, Wei Hu, Imran Razzak, Meili Wang
最近的工作尝试将图卷积网络 GCN 扩展到点云以进行分类和分割任务。这些工作倾向于对点进行采样和分组以在本地创建较小的点集，并且主要侧重于通过 GCN 提取局部特征，而忽略点集之间的关系。在本文中，我们提出了动态跳图卷积网络 DHGCN，用于显式学习体素化点部分之间的上下文关系，这些点部分被视为图节点。点部分之间的上下文信息存在于成对相邻关系中，可以通过图的跳跃距离定量描述，受到直觉的启发，我们设计了一种新颖的自监督部分级跳跃距离重建任务，并相应地设计了一种新颖的损失函数以方便培训。此外，我们提出了跳图注意力 HGA，它将学习到的跳距离作为输入来生成注意力权重，以允许边缘特征在聚合中做出独特的贡献。最终，所提出的 DHGCN 是一个与基于点的骨干网络兼容的即插即用模块。对不同主干和任务的综合实验表明，我们的自我监督方法实现了最先进的性能。

Partition-based Nonrigid Registration for 3D Face Model
Authors Yuping Ye, Zhan Song, Juan Zhao
本文提出了一种基于分区的 3D 变形模型 3DMM 表面配准。在 3DMM 中，通常需要将手工制作的模板模型变形为不同的捕获模型。该方法首先利用地标来划分模板模型，然后缩放每个部分，最后平滑边界。当模板模型与目标模型差异巨大时，该方法尤其有效。

Exploiting Polarized Material Cues for Robust Car Detection
Authors Wen Dong, Haiyang Mei, Ziqi Wei, Ao Jin, Sen Qiu, Qiang Zhang, Xin Yang
汽车检测是一项重要的任务，是许多自动驾驶功能的关键先决条件。场景中光照天气条件和车辆密度的巨大变化对现有的汽车检测算法满足高精度的安全感知需求提出了重大挑战，因为有限的颜色信息不稳定，阻碍了对汽车有意义的判别特征的提取。在这项工作中，我们提出了一种新颖的基于学习的汽车检测方法，该方法利用三色线性偏振作为附加线索来消除此类具有挑战性的情况的歧义。一个关键的观察结果是，光波的偏振特性可以稳健地描述场景对象在各种成像条件下的固有物理特性，并且与汽车材料（例如金属和玻璃）及其周围环境（例如土壤）的性质密切相关和树木，从而为具有挑战性的场景中的稳健汽车检测提供可靠和有辨别力的特征。为了利用偏振线索，我们首先构建一个像素对齐的 RGB 偏振汽车检测数据集，随后使用该数据集来训练新型多模态融合网络。我们的汽车检测网络以请求和补充的方式动态集成 RGB 和偏振特征，并且可以在所有学习样本中探索汽车的内在材料属性。我们广泛验证了我们的方法，并证明它优于最先进的检测方法。

Object-oriented backdoor attack against image captioning
Authors Meiling Li, Nan Zhong, Xinpeng Zhang, Zhenxing Qian, Sheng Li
针对图像分类任务的后门攻击已被广泛研究并被证明是成功的，而针对视觉语言模型的后门攻击的研究很少。在本文中，我们通过毒害训练数据来探索对图像字幕模型的后门攻击。假设攻击者可以完全访问训练数据集，并且无法干预模型构建或训练过程。具体来说，随机选择一部分良性训练样本进行中毒。之后，考虑到标题通常围绕图像中的对象展开，我们设计了一种面向对象的方法来制作毒药，其目的是在小范围内修改像素值，修改数量与当前检测到的对象区域的比例成正比。使用中毒数据进行训练后，受攻击的模型在良性图像上表现正常，但对于中毒图像，模型将生成一些与给定图像无关的句子。该攻击控制特定测试图像上的模型行为，而不牺牲良性测试图像的生成性能。

Characterizing Satellite Geometry via Accelerated 3D Gaussian Splatting
Authors Van Minh Nguyen, Emma Sandidge, Trupti Mahendrakar, Ryan T. White
航天器在轨道上的加速部署引起了人们对在轨服务 OOS、航天器检查和主动碎片清除 ADR 的兴趣。此类任务需要在不合作的、可能未知的驻留空间物体附近进行精确的交会和邻近操作。载人任务的安全问题和地面控制的滞后时间需要完全自主。这需要对目标几何形状进行稳健的表征。在本文中，我们提出了一种基于 3D 高斯分布绘制轨道上卫星几何形状的方法，该方法可以在当前航天硬件上可用的计算资源上运行。我们在几种真实的光照和运动条件下，在硬件在环卫星模型上演示了模型训练和 3D 渲染性能。我们的模型被证明能够在船上进行训练并渲染未知卫星的更高质量的新视图，速度比之前基于 NeRF 的算法快了近 2 个数量级。

CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs
Authors Daoan Zhang, Junming Yang, Hanjia Lyu, Zijian Jin, Yuan Yao, Mingkai Chen, Jiebo Luo
在探索通用人工智能 AGI 的发展时，这些模型的一项关键任务涉及解释和处理来自多个图像输入的信息。然而，大型多模态模型 LMM 在此类场景中遇到两个问题：1 缺乏细粒度感知；2 倾向于混合多个图像之间的信息。我们首先广泛研究 LMM 在处理多个输入图像时感知细粒度视觉细节的能力。该研究主要集中在两个方面，第一，图像到图像匹配，以评估LMM是否能够有效地推理和配对相关图像；第二，多图像到文本匹配，以评估LMM是否能够准确捕获和总结详细的图像信息。我们对一系列开源和闭源大型模型进行了评估，包括 GPT 4V、Gemini、OpenFlamingo 和 MMICL。为了提高模型性能，我们进一步开发了基于多输入多模态模型的对比思想链 CoCoT 提示方法。该方法要求 LMM 比较多个图像输入之间的相似性和差异，然后根据识别出的相似性和差异指导模型回答有关多图像输入的详细问题。

Image-based Deep Learning for Smart Digital Twins: a Review
Authors Md Ruman Islam, Mahadevan Subramaniam, Pei Chi Huang Department of Computer Science, University of Nebraska at Omaha, Omaha, NE, USA
智能数字孪生 SDT 越来越多地用于通过持续的数据同化来虚拟复制和预测复杂物理系统的行为，从而通过控制系统的行为来优化这些系统的性能。最近，深度学习 DL 模型显着增强了 SDT 的功能，特别是对于预测维护、异常检测和优化等任务。在医学、工程和教育等许多领域，SDT 使用基于图像数据的 SDT 来观察和学习系统行为并控制其行为。本文重点讨论通过不断吸收物理系统中的图像数据来开发基于图像的 SDT 的各种方法和相关挑战。本文还讨论了设计和实现 SDT 的深度学习模型所涉及的挑战，包括数据采集、处理和解释。此外，还提供了对开发基于图像的新深度学习方法以开发强大的 SDT 的未来方向和机会的见解。这包括使用生成模型进行数据增强、开发多模式深度学习模型以及探索深度学习与其他技术（包括 5G、边缘计算和物联网）集成的潜力。在本文中，我们描述了基于图像的 SDT，它使得数字孪生 DT 范式能够在广泛的领域得到更广泛的采用，并开发新方法来提高 SDT 复制、预测和优化复杂行为的能力。

The cell signaling structure function
Authors Layton Aho, Mark Winter, Marc DeCarlo, Agne Frismantiene, Yannick Blum, Paolo Armando Gagliardi, Olivier Pertz, Andrew R. Cohen
活细胞显微镜捕获 5 D x、y、z、通道、时间影片，显示细胞运动和信号动力学模式。我们在这里提出了一种在 5D 活细胞显微镜电影中寻找细胞信号动态时空模式的方法，其独特之处在于不需要强调预期模式动态的先验知识，也不需要训练数据。所提出的细胞信号传导结构函数 SSF 是一种柯尔莫哥洛夫结构函数，可以最佳地测量细胞信号传导状态作为核强度 w.r.t.周围的细胞质，与当前最先进的细胞核比率相比，显着改善。 SSF kymographs 在每个时空细胞质心处存储 SSF 值或函数输出（例如速度）。相似性模式通过度量标准化压缩距离 NCD 来识别。 NCD 是希尔伯特空间的再现内核，它将输入 SSF kymographs 表示为低维嵌入中的点，以最佳方式捕获 NCD 在整个空间中识别的模式相似性。唯一的参数是预期的单元半径 mu m 。簇结构函数的新公式可以最佳地估计 RKHS 表示的嵌入的意义。结果量化了不同致癌突变之间 ERK 和 AKT 信号传导的影响，并通过 ERK 光遗传学操作下的人乳腺上皮 MCF10A 细胞 2 D 单层、3 D MCF10A 球体电影的 ERK 信号传导与细胞速度模式之间的关系，

VASE: Object-Centric Appearance and Shape Manipulation of Real Videos
Authors Elia Peruzzo, Vidit Goel, Dejia Xu, Xingqian Xu, Yifan Jiang, Zhangyang Wang, Humphrey Shi, Nicu Sebe
最近，有几项工作解决了大规模文本到图像生成模型的成功所促进的视频编辑任务。然而，这些方法中的大多数都使用文本整体编辑帧，利用基础扩散模型给出的先验，并专注于提高帧间的时间一致性。在这项工作中，我们引入了一个以对象为中心的框架，旨在控制对象的外观，特别是对对象执行精确且显式的结构修改。我们在预先训练的图像条件扩散模型上构建框架，集成层来处理时间维度，并提出训练策略和架构修改以实现形状控制。我们在图像驱动的视频编辑任务上评估了我们的方法，显示出与现有技术相似的性能，并展示了新颖的形状编辑功能。

Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions
Authors Oindrila Saha, Grant Van Horn, Subhransu Maji
现有视觉语言模型 VLM（例如 CLIP）的零样本性能受到特定领域中大规模、对齐的图像和文本数据集的可用性的限制。在这项工作中，我们利用大型语言模型 LLM 生成的类别信息描述的两个互补源和丰富的细粒度图像分类数据集来提高 VLM 跨细粒度域的零样本分类性能。在技术方面，我们开发了使用袋级图像文本监督来训练 VLM 的方法。我们发现，在测试时简单地使用这些属性并不能提高性能，但我们的训练策略（例如，在 iNaturalist 数据集上）使鸟类和花卉的新类别的零样本分类准确率平均提高了 4 5 。在使用类别子集来微调模型的领域中也观察到了类似的改进。通过以各种方式提示法学硕士，我们生成捕获视觉外观、栖息地和地理区域的描述，并将它们与现有属性（例如类别的分类结构）配对。我们系统地评估了他们在自然领域改进零样本分类的能力。我们的研究结果表明，地理先验也同样有效，并且与视觉外观相辅相成。我们的方法还优于之前基于提示的 VLM 调整的工作。

Compressed 3D Gaussian Splatting for Accelerated Novel View Synthesis
Authors Simon Niedermayr, Josef Stumpfegger, R diger Westermann
最近，采用优化的 3D 高斯板表示的高保真场景重建已被引入，用于从稀疏图像集进行新颖的视图合成。使此类表示适合低功耗设备上的网络流和渲染等应用程序需要显着减少内存消耗并提高渲染效率。我们提出了一种压缩的 3D 高斯图表示，它利用敏感度感知向量聚类和量化感知训练来压缩方向颜色和高斯参数。学习到的码本具有较低的比特率，并且在现实世界场景中实现高达 31 倍的压缩率，并且视觉质量的下降最小。我们证明，可以通过轻量级 GPU 上的硬件光栅化来高效渲染压缩的 splat 表示，其帧速率比通过优化的 GPU 计算管道报告的帧速率高出 4 倍。

Image Collage on Arbitrary Shape via Shape-Aware Slicing and Optimization
Authors Dong Yi Wu, Thi Ngoc Hanh Le, Sheng Yi Yao, Yun Chen Lin, Tong Yee Lee
图像拼贴是可视化图像集合的非常有用的工具。大多数现有的生成图像拼贴的方法和商业应用都是基于简单的形状设计的，例如矩形和圆形布局。这极大地限制了图像拼贴在某些艺术和创意环境中的使用。尽管有一些方法可以生成不规则形状的图像拼贴，但它们经常遭受严重的图像重叠和过多的空白空间的困扰。这使得此类方法无法成为有效的信息通信工具。在本文中，我们提出了一种形状切片算法和一种优化方案，可以在给定输入形状和图像集合的情况下，以信息丰富且视觉上令人愉悦的方式创建任意形状的图像拼贴画。为了克服不规则形状的挑战，我们提出了一种称为形状感知切片的新算法，该算法基于中轴和二元切片树将输入形状划分为单元。形状感知切片专为不规则形状而设计，考虑了人类感知和形状结构，以生成视觉上令人愉悦的分区。然后，通过分析输入图像来优化布局，目标是最大化图像的总显着区域。为了评估我们的方法，我们进行了广泛的实验并将我们的结果与之前的工作进行了比较。

FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and Multi-Clients
Authors DaiXun Li, Weiying Xie, ZiXuan Wang, YiBing Lu, Yunsong Li, Leyuan Fang
随着成像传感器技术在遥感领域的快速发展，多模态遥感数据融合已成为土地覆盖分类任务的重要研究方向。虽然扩散模型在生成模型和图像分类任务中取得了很大进展，但现有模型主要关注单一模态和单一客户端控制，即扩散过程由单个计算节点中的单一模态驱动。为了促进客户端异构数据的安全融合，需要启用分布式多模态控制，例如在每个基站客户端私下合并组织A的高光谱数据和组织B的激光雷达数据。在本研究中，我们提出了一种名为 FedDiff 的多模式协作扩散联邦学习框架。我们的框架建立了双分支扩散模型特征提取设置，其中两个模态数据被输入到编码器的单独分支中。我们的主要见解是，由不同模式驱动的扩散模型在可以建立双边连接的潜在去噪步骤方面本质上是互补的。考虑到多个客户端之间私密且高效通信的挑战，我们将扩散模型嵌入到联邦学习通信结构中，并引入轻量级通信模块。

Partial Coherence for Object Recognition and Depth Sensing
Authors Zichen Xie, Ken Xingze Wang
我们展示了各种计算机视觉任务的性能与照明相干度之间的单调关系。我们使用计算方法模拟部分相干照明，传播光波以形成图像，然后采用深度神经网络来执行对象识别和深度传感任务。

Automated Classification of Model Errors on ImageNet
Authors Momchil Peychev, Mark Niklas M ller, Marc Fischer, Martin Vechev
虽然 ImageNet 数据集在过去十年中一直在推动计算机视觉研究，但显着的标签噪声和模糊性使得 top 1 准确率不足以衡量进一步的进展。

Mapping of Land Use and Land Cover (LULC) using EuroSAT and Transfer Learning
Authors Suman Kunwar, Jannatul Ferdush
随着全球人口不断增长，对自然资源的需求不断增加。不幸的是，人类活动占温室气体排放量的 23%。从积极的方面来看，遥感技术已成为管理环境的宝贵工具。这些技术使我们能够监测土地使用、规划城市地区并推动农业、减缓气候变化、灾难恢复和环境监测等领域的进步。人工智能、计算机视觉和地球观测数据的最新进展使土地利用测绘达到了前所未有的准确性。通过使用迁移学习和 RGB 波段微调，我们在土地利用分析方面取得了令人印象深刻的 99.19 准确度。

Moving Object Based Collision-Free Video Synopsis
Authors Anton Jeran Ratnarajah, Sahani Goonetilleke, Dumindu Tissera, Kapilan Balagopalan, Ranga Rodrigo
视频概要，即通过利用空间和时间冗余来总结视频以生成较短的视频，对于监控和归档非常重要。现有的基于轨迹的视频概要算法将无法实时工作，因为复杂的能量最小化算法中需要包含大量的对象管，从而导致复杂性。我们提出了一种实时算法，通过使用一种方法，与基于全局能量最小化的系统相比，通过从缓冲区中用户指定数量的管中提取对象帧来增量缝合概要的每一帧。这还为用户提供了根据他或她的跟踪能力设置概要视频中的最大对象数量阈值的灵活性，并创建视觉上令人愉悦的无碰撞概要视频。

MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance
Authors Renjie Pi, Tianyang Han, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang
多模态大语言模型 MLLM 的部署带来了对通过视觉输入进行恶意攻击的独特脆弱性。我们深入研究了保护 MLLM 免受此类攻击的新挑战。我们发现图像充当对齐过程中未考虑的外语，这可能使 MLLM 容易产生有害的响应。不幸的是，与基于文本的法学硕士中考虑的离散标记不同，图像信号的连续性质提出了重大的对齐挑战，这给彻底覆盖可能的场景带来了困难。由于开源 MLLM 主要在有限的图像文本对上进行微调，而该图像文本对比基于广泛文本的预训练语料库少得多，这使得 MLLM 在显式对齐调整期间更容易灾难性地忘记其原始能力，这一事实加剧了该漏洞。为了应对这些挑战，我们推出了 MLLM Protector，这是一种即插即用策略，结合了轻量级伤害检测器和响应解毒器。危害检测器的作用是识别 MLLM 的潜在有害输出，而解毒器则纠正这些输出以确保响应符合安全标准。这种方法有效地减轻了恶意视觉输入带来的风险，同时又不影响模型的整体性能。

Object-Centric Instruction Augmentation for Robotic Manipulation
Authors Junjie Wen, Yichen Zhu, Minjie Zhu, Jinming Li, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
人类通过识别观察中物体的身份和位置来解释场景。对于执行诸如引用拾取和放置之类的任务的机器人来说，了解对象是什么以及它们所在的位置至关重要。虽然前者在使用大型语言模型来丰富文本描述的文献中得到了广泛的讨论，但后者仍然未被充分探索。在这项工作中，我们引入了 textit 以对象为中心的指令增强 OCI 框架，以通过位置提示增强高度语义和信息密集的语言指令。我们利用多模态大语言模型 MLLM 将对象位置知识融入自然语言指令中，从而帮助策略网络掌握多功能操作的操作。此外，我们提出了一种特征重用机制，将现成的预训练 MLLM 中的视觉语言特征集成到策略网络中。

Subjective and Objective Analysis of Indian Social Media Video Quality
Authors Sandeep Mishra, Mukul Jha, Alan C. Bovik
我们对从印度社交媒体平台 ShareChat 获得的一组移动原创视频的用户生成移动视频内容的感知质量进行了大规模主观研究。人类志愿者在受控实验室条件下观看的内容具有使现有用户生成内容 UGC 视频质量数据集语料库在文化上多样化的好处。鉴于全球视觉互联网和社交媒体平台的爆炸式增长，对大型且多样化的 UGC VQA 数据集的需求非常大。对于通过智能手机获取的视频尤其如此，尤其是在印度等快速新兴经济体。 ShareChat 为用户提供了一个安全且面向文化社区的空间，以他们喜欢的印度语言和方言生成和共享内容。我们基于这些数据的主观质量研究为视频质量研究社区提供了文化、视觉和语言多样化的推动。我们预计，这一新的数据资源还将有助于开发能够预测印度社交媒体视频的感知视觉质量、控制流媒体的缩放和压缩协议、提供更好的用户推荐以及指导内容分析和处理的系统。我们通过对领先的盲视频质量模型进行研究来证明新数据资源的价值，其中包括一个名为 MoEVA 的新模型，该模型部署了混合专家来预测视频质量。

Detection and Classification of Diabetic Retinopathy using Deep Learning Algorithms for Segmentation to Facilitate Referral Recommendation for Test and Treatment Prediction
Authors Manoj S H, Arya A Bosale
这篇研究论文解决了糖尿病视网膜病变 DR 的严峻挑战，这是一种导致潜在失明的严重糖尿病并发症。所提出的方法利用卷积神经网络 CNN 的迁移学习，使用单张眼底照片进行自动 DR 检测，在 APTOS 2019 失明检测竞赛中证明了其二次加权 kappa 分数为 0.92546 的高效性。本文回顾了有关 DR 检测的现有文献，涵盖经典计算机视觉方法和深度学习方法，特别关注 CNN。它指出了研究中的差距，强调在将预训练的大型语言模型与分段图像输入集成以生成建议和理解 Web 应用程序上下文中的动态交互方面缺乏探索。目标包括开发全面的 DR 检测方法、探索模型集成、评估性能通过竞争排名，对 DR 检测方法做出重大贡献，并确定研究差距。该方法涉及数据预处理、数据增强以及使用 U Net 神经网络架构进行分割。 U Net 模型可有效分割视网膜结构，包括血管、硬性和软性渗出物、出血、微动脉瘤和视盘。 Jaccard、F1、召回率、精确度和准确度的高评估分数强调了该模型在增强视网膜病理评估诊断能力方面的潜力。这项研究的结果有望通过及时诊断和干预来对抗糖尿病视网膜病变，从而改善患者的治疗结果

MAMI: Multi-Attentional Mutual-Information for Long Sequence Neuron Captioning
Authors Alfirsa Damasyifa Fauzulhaq, Wahyu Parwitayasa, Joseph Ananda Sugihdharma, M. Fadli Ridhani, Novanto Yudistira
神经元标记是一种可视化特定神经元的行为和对激活神经元的特定模式的响应的方法。神经元标记提取有关深度神经网络中某些神经元捕获的特征的信息，其中之一使用编码器解码器图像字幕方法。使用的编码器可以是基于预训练的 CNN 模型，解码器是基于 RNN 的文本生成模型。之前的工作，即米兰互信息引导的神经元语言注释，尝试在编码器中使用修改后的 Show、Attend 和 Tell SAT 模型来可视化神经元行为，并在解码器中添加带有 Bahdanau 注意力的 LSTM。 MILAN 在短序列神经元字幕上可以表现出很好的结果，但是在长序列神经元字幕上却没有表现出很好的结果，因此在这项工作中，我们希望通过利用不同类型的注意力机制并额外添加来进一步提高 MILAN 的性能多个注意力机制合而为一，以结合多种注意力机制的所有优点。使用我们的复合数据集，我们在我们提出的模型上获得了更高的 BLEU 和 F1 分数，分别达到 17.742 和 0.4811。

Predicting Traffic Flow with Federated Learning and Graph Neural with Asynchronous Computations Network
Authors Muhammad Yaqub, Shahzad Ahmad, Malik Abdul Manan, Imran Shabir Chuhan
实时交通流量预测在智能交通系统 ITS 领域具有重要意义。在预测精度和计算效率之间实现平衡的任务提出了重大挑战。在本文中，我们提出了一种新颖的深度学习方法，称为联邦学习和异步图卷积网络 FLAGCN。我们的框架将异步图卷积网络的原理与联邦学习相结合，以提高实时交通流预测的准确性和效率。 FLAGCN 模型采用时空图卷积技术来异步解决交通数据中的时空依赖性。为了有效处理与该深度学习模型相关的计算要求，本研究使用了称为 GraphFL 的图联邦学习技术。这种方法旨在促进培训过程。对两个不同流量数据集进行测试获得的实验结果表明，FLAGCN 的使用可以优化训练和推理持续时间，同时保持高水平的预测精度。

VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model
Authors Pengying Wu, Yao Mu, Bingxian Wu, Yi Hou, Ji Ma, Shanghang Zhang, Chang Liu
在家用机器人领域，零射击对象导航 ZSON 任务使代理能够熟练地穿越不熟悉的环境并从新类别中定位对象，而无需事先进行明确的训练。本文介绍了 VoroNav，这是一种新颖的语义探索框架，它提出了简化的 Voronoi 图，从实时构建的语义图中提取探索路径和规划节点。通过利用拓扑和语义信息，VoroNav 设计了基于文本的路径和图像描述，这些描述很容易被大型语言模型 LLM 解释。我们的方法提出了路径和远视描述的协同作用来表示环境背景，使法学硕士能够应用常识推理来确定导航的最佳路径点。对 HM3D 和 HSSD 数据集的广泛评估证实，VoroNav 在成功率和勘探效率方面都超过了现有的 ZSON 基准，HM3D 上为 2.8 成功，SPL 为 3.7，HSSD 上为 2.6 成功，SPL 为 3.8。

A Random Ensemble of Encrypted models for Enhancing Robustness against Adversarial Examples
Authors Ryota Iijima, Sayaka Shiota, Hitoshi Kiya
众所周知，深度神经网络 DNN 很容易受到对抗性示例 AE 的影响。此外，AE 具有对抗性可转移性，这意味着为源模型生成的 AE 可以以非平凡的概率欺骗另一个黑盒模型目标模型。在之前的研究中，已经证实视觉变换器 ViT 比 ConvMixer 等卷积神经网络 CNN 模型对对抗性可迁移性的特性更加鲁棒，而且加密的 ViT 比没有任何加密的 ViT 更鲁棒。在本文中，我们提出了加密 ViT 模型的随机集合，以实现更稳健的模型。

Vulnerabilities Unveiled: Adversarially Attacking a Multimodal Vision Langauge Model for Pathology Imaging
Authors Jai Prakash Veerla, Poojitha Thota, Partha Sai Guttikonda, Shirin Nilizadeh, Jacob M. Luber
在医学人工智能的动态格局中，本研究探讨了病理语言图像预训练 PLIP 模型（一种视觉语言基础模型）在有针对性的对抗条件下的漏洞。我们的研究利用 Kather Colon 数据集（包含 9 种组织类型的 7,180 张 HE 图像），采用投影梯度下降 PGD 对抗攻击来故意诱导错误分类。结果显示，操纵 PLIP 预测的成功率为 100，强调了其对对抗性扰动的敏感性。对对抗性示例的定性分析深入探讨了可解释性挑战，揭示了对抗性操作引起的预测的细微变化。这些发现为医学成像中视觉语言模型的可解释性、领域适应和可信度提供了重要的见解。

Predicting Future States with Spatial Point Processes in Single Molecule Resolution Spatial Transcriptomics
Authors Parisa Boodaghi Malidarreh, Biraaj Rout, Mohammad Sadegh Nasr, Priyanshi Borad, Jillur Rahman Saurav, Jai Prakash Veerla, Kelli Fenelon, Theodora Koromila, Jacob M. Luber
在本文中，我们介绍了一种基于随机森林回归的管道来预测胚胎发生过程中果蝇前后 AP 轴和背腹 DV 轴中 Sog D 基因活性细胞表达的细胞的未来分布。该方法提供了关于细胞和活体如何在亚细胞、单分子分辨率的超分辨率全胚胎空间转录组学成像中控制基因表达的见解。随机森林回归模型用于根据前一阶段的活跃分布来预测下一阶段的活跃分布。为了实现这一目标，我们利用时间解析的空间点过程，将 Ripley s K 函数与胚胎发生每个阶段的细胞状态结合起来，并发现了活性细胞分布的平均预测准确性。

Robot-Assisted Deep Venous Thrombosis Ultrasound Examination using Virtual Fixture
Authors Dianye Huang, Chenguang Yang, Mingchuan Zhou, Angelos Karlas, Nassir Navab, Zhongliang Jiang
深静脉血栓形成（DVT）是一种常见的血管疾病，深静脉内出现血栓，可能阻塞血流，甚至引发危及生命的肺栓塞。使用超声 US 成像进行 DVT 的典型检查是按压目标静脉，直至其管腔完全受压。然而，压缩检查高度依赖于操作员。为了减轻内部和相互之间的变化，我们提出了一种机器人 US 系统，该系统具有新颖的混合力运动控制方案，可确保位置和力跟踪精度以及探头软着陆到目标表面上。此外，提出了一种基于路径的虚拟夹具，以实现轻松的人机交互，以便在病变位置重复压缩操作。为了确保在不同检查中获得的生物测量结果具有可比性，使用外部 RGBD 相机和 US 图像以从粗到细的方式确定 6D 扫描路径。首先使用RGBD相机提取物体上的粗略扫描路径。然后，使用超声图像中分割的血管腔来优化扫描路径，以确保目标物体的可见性。为了生成用于开发虚拟夹具的连续扫描路径，提出了一种考虑位置和方向的基于弧长的路径拟合模型。

Using Singular Value Decomposition in a Convolutional Neural Network to Improve Brain Tumor Segmentation Accuracy
Authors Pegah Ahadian, Maryam Babaei, Kourosh Parand
脑肿瘤由显示异常脑生长的细胞组成。脑肿瘤的面积显着影响治疗类型的选择以及治疗过程中病程的跟踪。与此同时，脑部核磁共振图像还伴随着噪音。消除现有噪声可以显着影响脑肿瘤的更好分割和诊断。在这项工作中，我们尝试使用特征值分析。我们使用MSVD算法，降低图像噪声，然后使用深度神经网络对图像中的肿瘤进行分割。与使用原始图像相比，该方法的准确率提高了 2.4。

Novel End-to-End Production-Ready Machine Learning Flow for Nanolithography Modeling and Correction
Authors Mohamed S. E. Habib, Hossam A. H. Fahmy, Mohamed F. Abu ElYazeed
光学光刻是半导体制造的主要推动者。它需要大量的处理来执行将设计数据传输到工作集成电路 IC 所需的分辨率增强技术 RET。由于特征尺寸的不断减小和芯片面积的扩大，RET任务的处理能力和计算运行时间不断增加。最先进的研究寻求机器学习 ML 技术来减少运行时间和计算能力，但它们尚未在生产中使用。

Branched Variational Autoencoder Classifiers
Authors Ahmed Salah, David Yevick
本文介绍了一种改进的变分自编码器 VAE，其中包含一个额外的神经网络分支。由此产生的分支 VAE BVAE 将基于类别标签的分类组件贡献给总损失，因此将分类信息传递给潜在表示。结果，输入类的潜在空间分布被分离和排序，从而提高了分类精度。改进程度通过使用基准 MNIST 数据集对未旋转和旋转数字进行数值计算来量化。然后将所提出的技术与具有固定输出分布的 VAE 进行比较并合并到其中。

Comprehensive Exploration of Synthetic Data Generation: A Survey
Authors Andr Bauer, Simon Trapp, Michael Stenger, Robert Leppich, Samuel Kounev, Mark Leznik, Kyle Chard, Ian Foster
近年来，机器学习 ML 的普及度激增，应用于各个领域。然而，由于昂贵的获取和隐私立法导致训练数据稀缺，进展受到阻碍。合成数据作为一种解决方案出现，但大量已发布的模型和有限的概述文献给决策带来了挑战。这项工作调查了过去十年中的 417 个合成数据生成 SDG 模型，全面概述了模型类型、功能和改进。确定共同属性，从而进行分类和趋势分析。研究结果表明，除了隐私保护数据生成之外，基于神经网络的方法盛行，模型性能和复杂性有所提高。计算机视觉占据主导地位，GAN 是主要的生成模型，而扩散模型、Transformer 和 RNN 则相互竞争。我们的绩效评估的意义凸显了通用指标和数据集的稀缺性，这使得比较具有挑战性。此外，文献中对训练和计算成本的忽视需要在未来的研究中予以关注。

Randomly Weighted Neuromodulation in Neural Networks Facilitates Learning of Manifolds Common Across Tasks
Authors Jinyung Hong, Theodore P. Pavlic
几何敏感哈希函数是局部敏感哈希函数的一个家族，是在监督学习中学习特定类流形几何形状的神经网络模型。然而，给定一组监督学习任务，理解可以代表每个任务的多种几何形状以及基于它们的任务之间的关系类型很少受到关注。我们通过考虑一个生成过程来探索这个问题的形式化，其中每个任务都与高维流形相关，这可以在具有神经调节系统的类脑模型中完成。

Not all Minorities are Equal: Empty-Class-Aware Distillation for Heterogeneous Federated Learning
Authors Kuangpu Guo, Yuhe Ding, Jian Liang, Ran He, Zilei Wang, Tieniu Tan
数据异构性，以跨客户端本地数据分布的差异为特征，对联邦学习提出了重大挑战。我们付出了大量努力来解决本地标签分布的异质性问题。由于少数类别由于局部不平衡数据的过度拟合而导致准确性较差，因此先前的方法通常在局部训练期间结合类别平衡学习技术。尽管所有类的平均准确度都得到了提高，但我们观察到，引用客户端数据分布中不存在的类别的空类仍然没有得到很好的识别。本文介绍了 FedED，这是一种异构联邦学习的新方法，它同时集成了空类蒸馏和逻辑抑制。具体来说，空类蒸馏在每个客户端的本地训练期间利用知识蒸馏来保留与全局模型中的空类相关的基本信息。此外，logit 抑制直接惩罚非标签类的网络 logit，有效解决少数类中可能偏向多数类的错误分类。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com