【AI视野·今日CV 计算机视觉论文速览第293期】Fri, 19 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 19 Jan 2024
Totally 103 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object Interactions
Authors Jeonghwan Kim, Jisoo Kim, Jeonghyeon Na, Hanbyul Joo
为了使机器能够了解人类在日常活动中如何与物理世界交互，提供包含人类 3D 运动以及可学习 3D 表示形式的物体运动的丰富数据至关重要。理想情况下，这些数据应该在自然设置中收集，在人体交互过程中捕获真实的动态 3D 信号。为了应对这一挑战，我们推出了 ParaHome 系统，该系统旨在捕获和参数化公共家庭环境中人类和物体的动态 3D 运动。我们的系统由带有 70 个同步 RGB 摄像机的多视图设置以及配备基于 IMU 的紧身衣和手部动作捕捉手套的可穿戴动作捕捉设备组成。通过利用 ParaHome 系统，我们收集了一个新颖的大规模人类对象交互数据集。值得注意的是，我们的数据集在三个主要方面比现有数据集提供了关键进步：1 在自然活动期间捕获 3D 身体和灵巧的手部操作运动以及上下文家庭环境中的 3D 对象移动；2 涵盖人类在各种情景场景中与多个对象的交互，并在文本3包括具有用参数化关节表达的多个部分的关节对象。

OMG-Seg: Is One Model Good Enough For All Segmentation?
Authors Xiangtai Li, Haobo Yuan, Wei Li, Henghui Ding, Size Wu, Wenwei Zhang, Yining Li, Kai Chen, Chen Change Loy
在这项工作中，我们解决了各种分割任务，每个任务传统上都是通过不同或部分统一的模型来处理的。我们提出 OMG Seg，一种足以高效且有效地处理所有分割任务的模型，包括图像语义、实例和全景分割，以及它们的视频对应项、开放词汇设置、提示驱动、交互式分割（如 SAM），和视频对象分割。据我们所知，这是第一个在一个模型中处理所有这些任务并取得令人满意的性能的模型。我们展示了 OMG Seg，一种基于 Transformer 的编码器解码器架构，具有特定于任务的查询和输出，可以支持十多个不同的分割任务，并且显着减少各种任务和数据集的计算和参数开销。我们在协同训练期间严格评估任务间的影响和相关性。

RAP-SAM: Towards Real-Time All-Purpose Segment Anything
Authors Shilin Xu, Haobo Yuan, Qingyu Shi, Lu Qi, Jingbo Wang, Yibo Yang, Yining Li, Kai Chen, Yunhai Tong, Bernard Ghanem, Xiangtai Li, Ming Hsuan Yang
通过 Transformer 架构的改进，视觉基础模型 VFM 在性能和泛化能力方面取得了显着进步。 Segment Anything Model SAM 是一种可以实现广义分割的卓越模型。然而，大多数 VFM 无法实时运行，这使得将它们转移到多个产品中变得困难。另一方面，当前的实时分割主要有一个目的，例如驾驶场景的语义分割。我们认为实际应用需要多样化的输出。因此，这项工作探索了一种新的实时分段设置，称为实时全用途分段，以在实时部署中传输 VFM。它包含三个不同的任务，包括交互式分割、全景分割和视频分割。我们的目标是使用一种模型来实时完成上述任务。我们首先对几个强基线进行基准测试。然后，我们介绍实时通用 SAM RAP SAM。它包含一个高效的编码器和一个高效的解耦解码器来执行即时驱动的解码。此外，我们进一步探索不同的训练策略和调整方法，以进一步提高协同训练的性能。

A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting
Authors Wouter Van Gansbeke, Bert De Brabandere
全景和实例分割网络通常使用专门的对象检测模块、复杂的损失函数和临时后处理步骤进行训练，以处理实例掩模的排列不变性。这项工作建立在稳定扩散的基础上，并提出了一种用于全景分割的潜在扩散方法，从而形成了一个忽略这些复杂性的简单架构。我们的训练过程包括两个步骤：1 训练浅层自动编码器将分割掩模投影到潜在空间；2 训练扩散模型以允许在潜在空间中进行图像条件采样。生成模型的使用开启了对掩模完成或修复的探索，这在交互式分割中具有应用。实验验证为全景分割和掩模修复带来了有希望的结果。

Towards Language-Driven Video Inpainting via Multimodal Large Language Models
Authors Jianzong Wu, Xiangtai Li, Chenyang Si, Shangchen Zhou, Jingkang Yang, Jiangning Zhang, Yining Li, Kai Chen, Yunhai Tong, Ziwei Liu, Chen Change Loy
我们引入了一种新的任务语言驱动的视频修复，它使用自然语言指令来指导修复过程。这种方法克服了传统视频修复方法的局限性，传统视频修复方法依赖于手动标记的二进制掩模，这一过程通常很乏味且劳动密集型。我们提出了通过指令从视频中删除对象 ROVI 数据集，其中包含 5,650 个视频和 9,091 个修复结果，以支持此任务的训练和评估。我们还提出了一种新颖的基于扩散的语言驱动视频修复框架，这是该任务的第一个端到端基线，集成多模态大型语言模型以有效地理解和执行复杂的基于语言的修复请求。我们的综合结果展示了数据集的多功能性和模型在各种语言指导的修复场景中的有效性。

The Manga Whisperer: Automatically Generating Transcriptions for Comics
Authors Ragav Sachdeva, Andrew Zisserman
在过去的几十年里，日本漫画（通常称为漫画）已经超越了文化和语言的界限，成为真正的世界性轰动。然而，漫画对视觉线索和插图的固有依赖使得视力障碍人士基本上无法理解。在这项工作中，我们力求解决这一重大障碍，旨在确保每个人都能欣赏并积极参与漫画。

Supervised Fine-tuning in turn Improves Visual Foundation Models
Authors Xiaohu Jiang, Yixiao Ge, Yuying Ge, Chun Yuan, Ying Shan
近年来，像 CLIP 这样的图像文本训练在视觉基础模型的预训练中占据了主导地位。随后人们努力将区域级视觉学习引入 CLIP 的预训练中，但由于缺乏大规模区域级数据集而面临可扩展性挑战。从自然语言处理（例如指令调优）中的监督微调 SFT 中汲取灵感，我们探索了细粒度 SFT 在增强预训练后视觉基础模型生成方面的潜力。因此，提出了两阶段方法 ViSFT Vision SFT 来释放视觉基础模型的细粒度知识。在 ViSFT 中，通过对一些域内任务执行视觉联合学习来增强视觉基础模型，然后在域外基准测试上进行测试。

AutoFT: Robust Fine-Tuning by Optimizing Hyperparameters on OOD Data
Authors Caroline Choi, Yoonho Lee, Annie Chen, Allan Zhou, Aditi Raghunathan, Chelsea Finn
基础模型编码丰富的表示，可以通过对任务特定数据进行微调来适应所需的任务。然而，在一个特定数据分布上微调模型通常会损害模型在其他分布上的原始性能。当前的鲁棒微调方法利用手工正则化技术来约束对基础模型的微调过程。然而，很难精确地指定在微调过程中要保留基础模型的哪些特征，因为这取决于预训练、微调和评估数据分布如何相互关联。我们提出了 AutoFT，一种用于指导基础模型微调的数据驱动方法。 AutoFT 优化微调超参数，以最大限度地提高小型非分布 OOD 验证集的性能。为了以精细的方式指导微调，AutoFT 搜索一个高度表达的超参数空间，其中除了学习率和权重衰减值之外，还包括许多不同损失的权重系数。我们评估 AutoFT 的九种自然分布变化，其中包括域变化和子群体变化。我们的实验表明，AutoFT 显着提高了对新 OOD 数据的泛化能力，优于现有的稳健微调方法。

Edit One for All: Interactive Batch Image Editing
Authors Thao Nguyen, Utkarsh Ojha, Yuheng Li, Haotian Liu, Yong Jae Lee
近年来，图像编辑取得了显着进步。随着人类控制能力的增强，现在可以通过多种方式编辑图像，从在文本中指定我们想要更改的内容，到以基于交互式点的方式直接拖动图像的内容。然而，大部分注意力仍然集中在一次编辑单个图像上。我们是否以及如何同时编辑大批量图像仍然没有得到充分研究。为了最大限度地减少编辑过程中的人工监督，本文提出了一种使用 StyleGAN 作为媒介的交互式批量图像编辑的新方法。给定用户在示例图像中指定的编辑，例如，将脸部设为正面，我们的方法可以自动将该编辑转移到其他测试图像，以便无论其初始状态姿势如何，它们都达到相同的最终状态，例如，全部面向正面。

Explaining the Implicit Neural Canvas: Connecting Pixels to Neurons by Tracing their Contributions
Authors Namitha Padmanabhan, Matthew Gwilliam, Pulkit Kumar, Shishira R Maiya, Max Ehrlich, Abhinav Shrivastava
隐式神经表示 INR 的许多变体（其中神经网络被训练为信号的连续表示）对于下游任务（包括新颖的视图合成、视频压缩和图像超分辨率）具有巨大的实用性。不幸的是，这些网络的内部运作机制尚未得到认真研究。我们的工作《解释隐式神经画布 XINC》是一个统一框架，用于通过检查每个神经元对每个输出像素的贡献强度来解释 INR 的属性。我们将这些贡献图的集合称为隐式神经画布，并使用这个概念来证明我们研究的 INR 学会以令人惊讶的方式看待它们所代表的框架。例如，INR 往往具有高度分布式的表示。虽然缺乏高级对象语义，但它们对颜色和边缘有很大的偏见，并且几乎完全与空间无关。我们通过检查对象在视频 INR 中如何随时间表示而得出结论，使用聚类来可视化跨层和架构的相似神经元，并表明这是由运动主导的。这些见解证明了我们的分析框架的普遍实用性。

GPAvatar: Generalizable and Precise Head Avatar from Image(s)
Authors Xuangeng Chu, Yu Li, Ailing Zeng, Tianyu Yang, Lijian Lin, Yunfei Liu, Tatsuya Harada
头部头像重建对于虚拟现实、在线会议、游戏和电影行业的应用至关重要，已经引起了计算机视觉界的广泛关注。该领域的根本目标是忠实地再现头部虚拟形象并精确控制表情和姿势。现有方法分为基于 2D 的变形、基于网格和神经渲染方法，在维持多视图一致性、合并非面部信息以及推广到新身份方面提出了挑战。在本文中，我们提出了一个名为 GPAvatar 的框架，它可以在单次前向传递中根据一张或多张图像重建 3D 头部头像。这项工作的关键思想是引入由点云驱动的基于动态点的表情场，以精确有效地捕获表情。此外，我们在三平面规范领域中使用多三平面注意力 MTA 融合模块来利用来自多个输入图像的信息。

Improving automatic detection of driver fatigue and distraction using machine learning
Authors Dongjiang Wu
近年来，信息技术的变化和进步对智能汽车系统的发展发挥了重要作用。疲劳驾驶和分心驾驶是引发交通事故的重要因素。因此，驾驶行为的车载监控已成为智能车辆高级驾驶辅助系统的重要组成部分。在本文中，我们介绍了使用基于视觉和基于机器学习的方法同时检测疲劳和分心驾驶行为的技术。在驾驶疲劳检测中，我们使用面部对齐网络来识别图像中的面部特征点，并计算面部特征点的距离来检测眼睛和嘴巴的张开和闭合。此外，我们使用基于 MobileNet 架构的卷积神经网络 CNN 来识别各种分心驾驶行为。实验是在带有网络摄像头的基于 PC 的设置上进行的，并使用公共数据集以及为训练和测试创建的自定义数据集来演示结果。

MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer
Authors Changyao Tian, Xizhou Zhu, Yuwen Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Yuntao Chen, Lewei Lu, Tong Lu, Jie Zhou, Hongsheng Li, Yu Qiao, Jifeng Dai
开发交错图像文本数据的生成模型具有研究和实用价值。它需要模型来理解交错序列并随后生成图像和文本。然而，现有的尝试受到固定数量的视觉标记无法有效捕获图像细节的问题的限制，这在多图像场景中尤其成问题。为了解决这个问题，本文提出了 MM Interleaved，一种用于交错图像文本数据的端到端生成模型。它引入了多尺度和多图像特征同步器模块，允许在生成过程中直接访问先前上下文中的细粒度图像特征。 MM Interleaved 在配对和交错图像文本语料库上进行了端到端预训练。它通过监督微调阶段得到进一步增强，其中模型提高了遵循复杂多模态指令的能力。实验证明了 MM Interleaved 在根据多模式指令识别视觉细节以及根据文本和视觉条件生成一致图像方面的多功能性。

Neural Echos: Depthwise Convolutional Filters Replicate Biological Receptive Fields
Authors Zahra Babaiee, Peyman M. Kiasari, Daniela Rus, Radu Grosu
在这项研究中，我们提供的证据表明深度卷积核可以有效地复制在哺乳动物视网膜中观察到的生物感受野的复杂结构。我们提供来自各种最先进模型的经过训练的内核的分析，证实了这一证据。受这一有趣发现的启发，我们提出了一种从生物感受野中汲取灵感的初始化方案。对具有多个具有深度卷积特征的 CNN 架构的 ImageNet 数据集进行的实验分析表明，当使用生物学衍生的权重进行初始化时，学习模型的准确性显着增强。

SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wild
Authors Andreas Engelhardt, Amit Raj, Mark Boss, Yunzhi Zhang, Abhishek Kar, Yuanzhen Li, Deqing Sun, Ricardo Martin Brualla, Jonathan T. Barron, Hendrik P. A. Lensch, Varun Jampani
我们提出了 SHINOBI，这是一个端到端框架，用于根据不同光照、姿势和背景捕获的物体图像重建形状、材质和光照。基于无约束图像集合的对象的逆渲染是计算机视觉和图形领域长期存在的挑战，需要对形状、辐射度和姿态进行联合优化。我们证明，基于多分辨率哈希编码的隐式形状表示可以通过联合相机对齐优化实现更快、更稳健的形状重建，其性能优于先前的工作。此外，为了能够编辑照明和物体反射率（即材质），我们联合优化 BRDF 和照明以及物体的形状。

VMamba: Visual State Space Model
Authors Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu
卷积神经网络 CNN 和视觉 Transformers ViT 是视觉表示学习的两个最流行的基础模型。虽然 CNN 表现出卓越的可扩展性和线性复杂度。尽管在图像分辨率方面，ViT 的拟合能力超过了它们，但其复杂性却是二次方。仔细观察发现，ViT 通过结合全局感受野和动态权重，实现了卓越的视觉建模性能。这一观察促使我们提出一种新颖的架构，该架构继承了这些组件，同时提高了计算效率。为此，我们从最近引入的状态空间模型中汲取灵感，提出了视觉状态空间模型VMamba，它在不牺牲全局感受野的情况下实现了线性复杂度。为了解决所遇到的方向敏感问题，我们引入了交叉扫描模块 CSM 来遍历空间域并将任何非因果视觉图像转换为顺序补丁序列。大量的实验结果证实，VMamba 不仅在各种视觉感知任务中表现出有前景的能力，而且随着图像分辨率的提高，与既定基准相比也表现出更明显的优势。

Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation
Authors Changgu Chen, Junwei Shu, Lianggangxu Chen, Gaoqi He, Changbo Wang, Yang Li
最近的大规模预训练扩散模型已经证明了强大的生成能力，可以根据详细的文本描述生成高质量的视频。然而，对任何视频扩散模型生成的视频中的对象运动进行控制都是一个具有挑战性的问题。

Explicitly Disentangled Representations in Object-Centric Learning
Authors Riccardo Majellaro, Jonathan Collu, Aske Plaat, Thomas M. Moerland
从原始视觉数据中提取结构化表示是机器学习中一个重要且长期存在的挑战。最近，以对象为中心的表示的无监督学习技术引起了越来越多的兴趣。在这种背景下，增强潜在特征的鲁棒性可以提高下游任务训练的效率和效果。朝这个方向迈出的一个有希望的一步是理清导致数据变化的因素。此前，不变槽注意力将位置、尺度和方向与其余特征分开。扩展这种方法，我们专注于分离形状和纹理组件。特别是，我们提出了一种新颖的架构，该架构偏向以对象为中心的模型，将形状和纹理组件分解为潜在空间维度的两个不重叠的子集。这些子集是先验已知的，因此是在训练过程之前已知的。对一系列以对象为中心的基准测试的实验表明，我们的方法实现了所需的解缠，同时在大多数情况下还从数值上提高了基线性能。

Model Compression Techniques in Biometrics Applications: A Survey
Authors Eduarda Caldeira, Pedro C. Neto, Marco Huber, Naser Damer, Ana F. Sequeira
深度学习算法的发展广泛增强了人类任务自动化能力。然而，这些模型性能的巨大改进与它们不断增加的复杂性高度相关，限制了它们在通常部署在资源受限设备中的面向人类的应用程序中的有用性。这导致了压缩技术的发展，该技术大大降低了深度学习模型的计算和内存成本，而不会显着降低性能。本文旨在通过对生物识别应用中的模型压缩技术（即量化、知识蒸馏和剪枝）进行全面调查，系统化当前有关该主题的文献。我们对这些技术的比较价值进行批判性分析，重点分析它们的优点和缺点，并提出可能改进当前方法的未来工作方向的建议。

Exposing Lip-syncing Deepfakes from Mouth Inconsistencies
Authors Soumyya Kanti Datta, Shan Jia, Siwei Lyu
口型同步 Deepfake 是一种经过数字处理的视频，其中使用人工智能模型令人信服地创建一个人的嘴唇动作，以匹配更改后的或全新的音频。口型同步深度伪造是一种危险的深度伪造，因为伪影仅限于嘴唇区域并且更难以辨别。在本文中，我们描述了一种新颖的方法，即基于嘴 INConsistency LIPINC 的唇同步检测，通过识别嘴区域的时间不一致来进行唇同步 Deepfake 检测。这些不一致在相邻帧和整个视频中都可以看到。

VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition
Authors Xianfu Cheng, Weixiao Zhou, Xiang Li, Xiaoming Chen, Jian Yang, Tongliang Li, Zhoujun Li
场景文本识别 STR 是一项具有挑战性的任务，涉及识别自然场景图像中的文本。尽管当前最先进的 STR 模型表现出高性能，但由于依赖于由视觉编码器和序列解码器组成的混合架构，它们通常会遇到推理效率较低的问题。在这项工作中，我们提出了用于快速高效的场景文本识别 VIPTR 的 VIsion Permutable 提取器，它在 STR 领域的高性能和快速推理速度之间实现了令人印象深刻的平衡。具体来说，VIPTR 利用具有金字塔结构的视觉语义提取器，其特征是多个自注意力层，同时避开了传统的序列解码器。这种设计选择产生了一个轻量级且高效的模型，能够处理不同大小的输入。在各种标准数据集上进行的中英文场景文本识别的大量实验结果验证了 VIPTR 的优越性。值得注意的是，VIPTR T Tiny 变体可提供与其他轻量级模型相当的极具竞争力的准确性，并实现 SOTA 推理速度。同时，VIPTR L Large 变体获得了更高的识别精度，同时保持了较低的参数数量和良好的推理速度。我们提出的方法为 STR 挑战提供了一个引人注目的解决方案，它将高精度与效率融为一体，极大地有利于需要快速可靠的文本识别的现实世界应用。

Cross-Modality Perturbation Synergy Attack for Person Re-identification
Authors Yunpeng Gong, others
近年来，围绕解决基于 RGB 图像的单模态行人再识别 ReID 系统的安全问题开展了大量研究。然而，在涉及红外摄像机捕获图像的实际应用中更常见的跨模态场景的安全性尚未得到足够的重视。跨模态 ReID 的主要挑战在于有效处理不同模态之间的视觉差异。例如，与包含颜色信息的可见光图像不同，红外图像通常是灰度的。现有的攻击方法主要关注可见图像模态的特征，忽视了其他模态的特征以及不同模态之间数据分布的变化。这种疏忽可能会破坏这些方法在跨多种模式的图像检索中的有效性。这项研究代表了对跨模态 ReID 模型安全性的首次探索，并提出了一种专门为跨模态 ReID 设计的通用扰动攻击。这种攻击通过利用不同模态数据的梯度来优化扰动，从而破坏鉴别器并强化模态之间的差异。

A locally statistical active contour model for SAR image segmentation can be solved by denoising algorithms
Authors Guangming Liu, Quanying Sun, Jing Liang, Qi Liu
在本文中，我们提出了一种基于I散度TV去噪模型的新型局部统计变分活动轮廓模型，该模型将测地活动轮廓GAC模型与无边缘活动轮廓ACWE模型混合，可用于分割被乘性伽玛噪声损坏的图像。通过在模型的水平集演化LSE方程中添加扩散项，构造了反应扩散RD方程，该方程可以逐渐将水平集函数LSF在每个段域内正规化为分段常数，并获得稳定解。我们通过添加邻近项进一步将所提出的模型转换为经典的 ROF 模型。受贾昭最近提出的快速去噪算法的启发，我们提出了两种快速定点算法来解决SAR图像分割问题。真实SAR图像的实验结果表明，所提出的图像分割模型可以有效地停止边缘较弱或模糊的轮廓，并且可以自动检测具有乘性伽玛噪声的图像的外部和内部边界。

DiffusionGPT: LLM-Driven Text-to-Image Generation System
Authors Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li, Hefeng Wu, Xuefeng Xiao, Rui Wang, Shilei Wen
扩散模型为图像生成领域开辟了新途径，导致开源平台上共享的高质量模型激增。然而，当前的文本到图像系统仍然存在一个重大挑战，通常无法处理不同的输入，或者仅限于单一模型结果。当前的统一尝试通常分为两个正交方面：i 解析输入阶段的多样化提示；ii 激活专家模型进行输出。为了结合两个领域的优点，我们提出了 DiffusionGPT，它利用大型语言模型 LLM 提供一个统一的生成系统，能够无缝地容纳各种类型的提示并集成领域专家模型。 DiffusionGPT 基于先验知识为各种生成模型构建特定领域的树。当提供输入时，法学硕士会解析提示并使用思想树来指导选择适当的模型，从而放宽输入限制并确保跨不同领域的卓越性能。此外，我们引入了优势数据库，其中思想树通过人类反馈丰富，使模型选择过程与人类偏好保持一致。

ContextMix: A context-aware data augmentation method for industrial visual inspection systems
Authors Hyungmin Kim, Donghun Kim, Pyunghwan Ahn, Sungho Suh, Hansang Cho, Junmo Kim
虽然深度神经网络已经取得了显着的性能，但数据增强已成为减轻过度拟合和增强网络性能的关键策略。这些技术在工业制造环境中具有特别重要的意义。最近，引入了基于图像混合的方法，在公共基准数据集上表现出了改进的性能。然而，它们在工业任务中的应用仍然具有挑战性。制造环境每天都会产生大量未标记的数据，只有少数情况下出现异常数据。这导致严重的数据不平衡。因此，由于与标记相关的成本很高，创建平衡的数据集并不简单。尽管如此，这是提高生产力的关键一步。为此，我们引入了 ContextMix，一种针对工业应用和基准数据集量身定制的方法。 ContextMix 通过调整整个图像的大小并将其集成到批次中的其他图像中来生成新颖的数据。这种方法使我们的方法能够根据调整大小的图像的不同大小来学习判别特征，并使用遮挡图像训练信息丰富的辅助特征以进行对象识别。与现有的增强技术相比，ContextMix 凭借最小的图像调整大小额外计算成本提高了性能。我们在公共基准数据集上使用各种网络架构评估其在分类、检测和分割任务中的有效性。我们提出的方法展示了一系列鲁棒性任务的改进结果。

Deep spatial context: when attention-based models meet spatial regression
Authors Paulina Tomaszewska, El bieta Sienkiewicz, Mai P. Hoang, Przemys aw Biecek
我们提出了深度空间上下文 DSCon 方法，该方法用于使用空间上下文概念研究基于注意力的视觉模型。它受到组织病理学家的启发，但是该方法可以应用于各个领域。 DSCon 允许使用三个空间上下文测量 SCM 特征、SCM 目标、SCM 残差对空间上下文的角色进行定量测量，以区分空间上下文是否在相邻区域的特征、其目标值注意力分数或残差内可观察到。。它是通过将空间回归集成到管道中来实现的。 DSCon 有助于验证研究问题。实验表明，肿瘤病变分类时的空间关系比正常组织大得多。此外，事实证明，空间回归中考虑的邻域规模越大，上下文信息的价值就越低。

CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition
Authors Jinzhi Zheng, Ruyi Ji, Libo Zhang, Yanjun Wu, Chen Zhao
场景文本识别作为涉及视觉和文本的跨模态任务，是计算机视觉领域的一个重要研究课题。大多数现有方法使用语言模型来提取语义信息以优化视觉识别。然而，语义挖掘过程中忽略了视觉线索的引导，限制了算法识别不规则场景文本的性能。为了解决这个问题，我们提出了一种用于不规则场景文本识别的新型跨模态融合网络 CMFN，它将视觉线索纳入语义挖掘过程。具体来说，CMFN由位置自增强编码器、视觉识别分支和迭代语义识别分支组成。位置自增强编码器为视觉识别分支和迭代语义识别分支提供字符序列位置编码。视觉识别分支根据CNN提取的视觉特征和位置自增强编码器提供的位置编码信息进行视觉识别。迭代语义识别分支由语言识别模块和跨模态融合门组成，模拟人类识别场景文本的方式，并集成跨模态视觉线索进行文本识别。

GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition
Authors Guangzhao Dai, Xiangbo Shu, Wenhao Wu
视觉语言模型 VLM 在大规模数据集上进行了预训练，在各种视觉识别任务中表现出了令人印象深刻的性能。这一进步为零射击自我中心动作识别 ZS EAR 的显着性能铺平了道路。通常，VLM 将 ZS EAR 作为全局视频文本匹配任务来处理，这通常会导致视觉和语言知识的对齐不理想。我们提出了一种使用 VLM 的 ZS EAR 改进方法，强调细粒度的概念描述对齐，利用以自我为中心的视频中丰富的语义和上下文细节。在本文中，我们介绍了 GPT4Ego，这是一个用于 ZS EAR 的简单但非常强大的 VLM 框架，旨在增强视觉和语言之间概念和描述的细粒度对齐。

Depth Over RGB: Automatic Evaluation of Open Surgery Skills Using Depth Camera
Authors Ido Zuckerman, Nicole Werner, Jonathan Kouchly, Emma Huston, Shannon DiMarco, Paul DiMusto, Shlomi Laufer
目的在本文中，我们提出了一种使用深度相机自动评估开放手术技能的新方法。这项工作旨在表明深度相机可以达到与 RGB 相机相似的结果，这是开放手术技能自动评估中的常用方法。

Text Region Multiple Information Perception Network for Scene Text Detection
Authors Jinzhi Zheng, Libo Zhang, Yanjun Wu, Chen Zhao
基于分割的场景文本检测算法可以处理任意形状的场景文本，具有很强的鲁棒性和适应性，因此受到了广泛的关注。现有的基于分割的场景文本检测算法通常只对文本中心区域的像素进行分割，而忽略了文本区域的其他信息，如边缘信息、距离信息等，从而限制了算法对场景的检测精度文本。本文提出了一种称为区域多信息感知模块 RMIPM 的即插即用模块，以增强基于分割的算法的检测性能。具体来说，我们设计了一个改进的模块，可以感知场景文本区域的各种类型的信息，例如文本前景分类图、距离图、方向图等。在MSRA TD500和TotalText数据集上的实验表明，我们的方法实现了与当前方法相当的性能

CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly Supervised Text-based Person Re-Identification
Authors Yanwei Zheng, Xinpeng Zhao, Chuanlin Lan, Xiaowei Zhang, Bowen Huang, Jibin Yang, Dongxiao Yu
基于弱监督文本的人员重新识别TPRe ID寻求使用文本描述来检索目标人员的图像，而不依赖于身份注释，更具挑战性和实用性。主要挑战是类内差异，包括模态内特征变化和跨模态语义差距。先前的工作集中于实例级样本，而忽略了每个人固有且不变的原型特征。为此，我们提出了一种跨模态原型对比学习 CPCL 方法。在实践中，CPCL 首次将 CLIP 模型引入弱监督的 TPRe ID，将视觉和文本实例映射到共享的潜在空间。随后，所提出的原型多模态记忆 PMM 模块通过混合跨模态匹配 HCM 模块以多对多映射方式捕获属于同一个人的图像文本对的异构模态之间的关联。此外，异常值伪标签挖掘 OPLM 模块进一步区分每种模态中有价值的异常值样本，通过挖掘图像文本对之间的隐式关系来增强更可靠聚类的创建。实验结果表明，我们提出的 CPCL 在所有三个公共数据集上都达到了最先进的性能，在 CUHK PEDES、ICFG PEDES 和 RSTPReid 数据集上的 Rank 1 准确率分别显着提高了 11.58、8.77 和 5.25。

Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation
Authors Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami, Yingyi Wen, Tanachai Anakewat, Tatsuya Harada
对能够解释和推理视觉内容的智能系统的需求不断增长，需要开发不仅准确而且具有显式推理能力的大型多模态模型 LMM。本文提出了一种新颖的方法，使 LMM 能够基于视觉内容和文本指令进行显式推理。我们引入了一个可以提出问题来获取必要知识的系统，从而增强推理过程的稳健性和可解释性。我们的方法包括开发由大型语言模型法学硕士生成的新颖数据集，旨在促进与提问机制相结合的思维推理链。我们设计了一个 LMM，它具有很强的区域感知能力，可以满足图像文本对齐的复杂要求。该模型经历了三个阶段的训练阶段，首先使用大规模数据集进行大规模图像文本对齐，然后进行指令调整，最后进行以思维链推理为重点的微调。

BPDO:Boundary Points Dynamic Optimization for Arbitrary Shape Scene Text Detection
Authors Jinzhi Zheng, Libo Zhang, Yanjun Wu, Chen Zhao
任意形状场景文本检测在场景理解任务中非常重要。由于自然场景中文本的复杂性和多样性，现有的场景文本算法对于检测任意形状文本的精度有限。在本文中，我们通过边界点动态优化 BPDO 提出了一种新颖的任意形状场景文本检测器。该模型采用文本感知模块 TAM 和边界点动态优化模块 DOM 设计。具体来说，该模型设计了基于分割的文本感知模块，通过提取文本区域的先验信息来获得描述文本中心区域的边界点。然后，基于可变形注意力的思想，提出了边界点的动态优化模型，该模型根据每个边界点的相邻区域的信息逐步优化边界点的准确位置。

WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens
Authors Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen Lu
世界模型在理解和预测世界动态方面发挥着至关重要的作用，这对于视频生成至关重要。然而，现有的世界模型仅限于游戏或驾驶等特定场景，限制了它们捕捉一般世界动态环境复杂性的能力。因此，我们引入了WorldDreamer，这是一种开创性的世界模型，旨在促进对一般世界物理和运动的全面理解，从而显着增强视频生成的能力。 WorldDreamer 从大型语言模型的成功中汲取灵感，将世界建模视为无监督的视觉序列建模挑战。这是通过将视觉输入映射到离散标记并预测被屏蔽的标记来实现的。在此过程中，我们结合了多模式提示来促进世界模型内的交互。我们的实验表明，WorldDreamer 擅长生成不同场景的视频，包括自然场景和驾驶环境。 WorldDreamer 展示了执行文本到视频转换、图像到视频合成和视频编辑等任务的多功能性。

CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects
Authors Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li
定制的文本到视频生成旨在根据文本提示和主题参考生成高质量的视频。当前为单个主题设计的方法难以解决多个主题，这是一个更具挑战性和实用性的场景。在这项工作中，我们的目标是促进多主题引导文本到视频定制。我们提出了 CustomVideo，这是一种新颖的框架，可以在多个主题的指导下生成身份保留视频。具体来说，首先，我们通过将多个主题组合在一张图像中来鼓励它们同时出现。此外，在基本的文本到视频扩散模型的基础上，我们设计了一种简单而有效的注意力控制策略，以解开扩散模型潜在空间中的不同主题。此外，为了帮助模型聚焦于特定的物体区域，我们从给定的参考图像中分割物体，并为注意力学习提供相应的物体掩模。此外，我们还收集了一个多主题文本到视频生成数据集作为综合基准，其中包含 69 个单独主题和 57 个有意义的对。

Multi-task Learning for Joint Re-identification, Team Affiliation, and Role Classification for Sports Visual Tracking
Authors Amir M. Mansourian, Vladimir Somers, Christophe De Vleeschouwer, Shohreh Kasaei
有效跟踪和重新识别球员对于分析足球视频至关重要。但是，由于球员的非线性运动、来自同一球队的球员的外观相似以及频繁的遮挡，这是一项具有挑战性的任务。因此，提取有意义的嵌入来代表玩家的能力对于开发有效的跟踪和重新识别系统至关重要。本文提出了一种基于多用途部分的人物表示方法，称为 PRTreID，该方法同时执行角色分类、团队归属和重新识别三个任务。与现有文献相反，单个网络通过多任务监督进行训练，以联合解决所有三个任务。由于共享主干，所提出的联合方法在计算上是高效的。此外，正如定量和定性结果所证明的那样，多任务学习会带来更丰富、更具辨别力的表示。为了证明 PRTreID 的有效性，它与最先进的跟踪方法集成，使用基于零件的后处理模块来处理长期跟踪。

MAMBA: Multi-level Aggregation via Memory Bank for Video Object Detection
Authors Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson
最先进的视频对象检测方法维护内存结构（滑动窗口或内存队列），以使用注意机制增强当前帧。然而，我们认为这些内存结构效率不高或不够充分，因为有两个隐含操作 1 连接内存中的所有特征以进行增强，导致计算成本很高 2 逐帧内存更新，阻止内存捕获更多时间信息。在本文中，我们提出了一种通过内存库的多级聚合架构，称为 MAMBA。具体来说，我们的内存库采用了两种新颖的操作来消除现有方法的缺点：1轻量级密钥集构造，可以显着降低计算成本；2细粒度的特征更新策略，使我们的方法能够利用整个视频中的知识。为了更好地增强互补级别的特征，即特征图和提案，我们进一步提出了一种广义增强操作GEO，以统一的方式聚合多级特征。我们对具有挑战性的 ImageNetVID 数据集进行了广泛的评估。与现有的最先进方法相比，我们的方法在速度和准确性方面都取得了优异的性能。

BlenDA: Domain Adaptive Object Detection through diffusion-based blending
Authors Tzuhsuan Huang, Chen Che Huang, Chung Hao Ku, Jun Cheng Chen
无监督域适应 UDA 旨在将使用源域中的标记数据学习的模型转移到目标域中的未标记数据。为了解决源域和目标域之间的大域差距问题，我们提出了一种新的域自适应对象检测正则化方法，BlenDA，通过生成中间域的伪样本及其相应的软域标签进行自适应训练。中间样本是通过使用现成的预训练文本到图像扩散模型动态混合源图像与其相应的翻译图像来生成的，该模型以目标域的文本标签作为输入，并展示了卓越的图像到图像翻译质量。基于两个自适应基准的实验结果，我们提出的方法可以显着提高最先进的域自适应对象检测器 Adversarial Query Transformer AQT 的性能。特别是，在 Cityscapes 到 Foggy Cityscapes 的适应中，我们在 Foggy Cityscapes 数据集上实现了令人印象深刻的 53.4 mAP，超过了之前的最佳技术水平 1.5。值得注意的是，我们提出的方法也适用于域自适应对象检测的各种范例。

XAI-Enhanced Semantic Segmentation Models for Visual Quality Inspection
Authors Tobias Clement, Truong Thanh Hung Nguyen, Mohamed Abdelaal, Hung Cao
视觉质量检测系统在制造和物流等领域至关重要，它利用计算机视觉和机器学习来进行精确、快速的缺陷检测。然而，它们无法解释的性质可能会阻碍信任、错误识别和系统改进。本文提出了一个框架，通过使用基于 CAM 的解释来完善语义分割模型，从而增强视觉质量检查。我们的方法包括 1 模型训练、2 基于 XAI 的模型解释、3 XAI 评估和 4 用于模型增强的注释增强，并通过解释和专家见解来提供信息。

Skeleton-Guided Instance Separation for Fine-Grained Segmentation in Microscopy
Authors Jun Wang, Chengfeng Zhou, Zhaoyan Ming, Lina Wei, Xudong Jiang, Dahong Qian
显微 MS 图像分析的基本挑战之一是实例分割，特别是在分割簇区域时，其中多个不同大小和形状的对象可能以任意方向连接甚至重叠。现有的 IS 方法通常无法处理此类场景，因为它们依赖于粗略的实例表示，例如关键点和水平边界框 h bboxes 。在本文中，我们提出了一种名为 A2B IS 的新型单阶段框架来应对这一挑战并提高 MS 图像中 IS 的准确性。我们的方法用像素级掩模图和旋转边界框 r bbox 表示每个实例。与使用框建议进行分割的两阶段方法不同，我们的方法将掩模和框预测解耦，从而能够同时处理以简化模型管道。此外，我们引入了高斯骨架图，以两种关键方式帮助 IS 任务 1 它指导锚点放置，降低计算成本，同时通过滤除背景区域的噪声来提高模型学习 RoI 感知特征的能力。 2 它通过纠正实例边界附近的错误框预测来确保准确隔离密集的实例。为了进一步提高性能，我们将两个模块集成到框架中：1 Atrous Attention Block A2B，旨在提取具有细粒度多尺度信息的高分辨率特征图；2 半监督学习 SSL 策略，利用标记和未标记图像进行模型训练。

Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention
Authors Li Guo, Haoming Liu, Yuxuan Xia, Chengyu Zhang, Xiaochen Lu
少量镜头分割旨在训练一种分割模型，该模型可以快速适应仅提供少量带注释图像的新任务。最近的模型都采用了基于原型的范式来进行少量的推理。这些方法的泛化能力可能超出标准的 1 或 5 个镜头设置。在本文中，我们仔细检查和重新评估基于微调的学习方案，该方案对在不同基类上预训练的深度分割网络的分类层进行微调。为了提高使用稀疏注释样本优化的分类层的通用性，我们引入了一种实例感知数据增强 IDA 策略，该策略根据目标对象的相对大小来增强支持图像。所提出的IDA有效地增加了支持集的多样性并促进了支持集和查询图像之间的分布一致性。另一方面，查询图像和支持图像之间巨大的视觉差异可能会阻碍知识转移并削弱分割性能。为了应对这一挑战，我们引入了局部共识引导的交叉注意 LCCA，根据查询特征与支持特征的密集相关性将其对齐，进一步提高了模型对查询图像的泛化能力。

Improving fine-grained understanding in image-text pre-training
Authors Ioana Bica, Anastasija Ili , Matthias Bauer, Goker Erdogan, Matko Bo njak, Christos Kaplanis, Alexey A. Gritsenko, Matthias Minderer, Charles Blundell, Razvan Pascanu, Jovana Mitrovi
我们引入了 SPARse 细粒度对比对齐 SPARC，这是一种从图像文本对中预训练更细粒度的多模态表示的简单方法。鉴于多个图像块通常对应于单个单词，我们建议为标题中的每个标记学习一组图像块。为了实现这一目标，我们在图像补丁和语言标记之间使用稀疏相似性度量，并为每个标记计算语言分组视觉嵌入作为补丁的加权平均值。然后，通过细粒度序列损失来对比标记和语言分组视觉嵌入，该损失仅取决于单个样本，不需要其他批次样本作为负样本。这使得能够以计算成本低廉的方式学习更详细的信息。 SPARC 将这种细粒度损失与全局图像和文本嵌入之间的对比损失相结合，以学习同时编码全局和局部信息的表示。我们彻底评估了我们提出的方法，并在依赖于粗粒度信息的图像级任务上表现出了比竞争方法更高的性能，例如分类以及依赖于细粒度信息的区域级任务，例如检索、对象检测和分割。

Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models
Authors Li Sun, Liuan Wang, Jun Sun, Takayuki Okatani
多模态大语言模型 MLLM 的最新进展显着增强了对多媒体内容的理解，将文本、图像和视频等多种模态结合在一起。然而，这些模型面临的一个关键挑战，特别是在处理视频输入时，是出现幻觉、错误的感知或解释，特别是在事件层面。本研究引入了一种创新方法来解决 MLLM 中的事件级幻觉，重点关注视频内容中的特定时间理解。我们的方法利用了一种新颖的框架，该框架从事件查询和提供的视频中提取并利用事件特定信息来完善 MLLM 响应。我们提出了一种独特的机制，可将按需事件查询分解为标志性操作。随后，我们使用 CLIP 和 BLIP2 等模型来预测事件发生的特定时间戳。我们使用 Charades STA 数据集进行的评估表明，时间幻觉显着减少，事件相关反应的质量有所提高。

Enhancing the Fairness and Performance of Edge Cameras with Explainable AI
Authors Truong Thanh Hung Nguyen, Vo Thanh Khang Nguyen, Quoc Hung Cao, Van Binh Truong, Quoc Khanh Nguyen, Hung Cao
人工智能在边缘摄像头系统的人体检测中的使用不断增加，导致模型准确但复杂，难以解释和调试。我们的研究提出了一种使用可解释 AI XAI 进行模型调试的诊断方法，以及专家驱动的问题识别和解决方案创建。在现实世界办公室边缘网络中的 Bytetrack 模型上进行验证后，我们发现训练数据集是主要偏差源，并建议将模型增强作为解决方案。

Exploring Latent Cross-Channel Embedding for Accurate 3D Human Pose Reconstruction in a Diffusion Framework
Authors Junkun Jiang, Jie Chen
由于从 2D 到 3D 的重投影过程中出现的固有深度模糊性，单目 3D 人体姿态估计提出了重大挑战。依赖于估计过拟合投影矩阵的传统方法很难有效地解决这些挑战，并且常常会导致输出噪声。扩散模型的最新进展显示出在结合结构先验来解决重投影模糊性方面的前景。然而，仍然有很大的改进空间，因为这些方法经常忽视 2D 和 3D 联合级别特征之间相关性的探索。在本研究中，我们提出了一种新颖的跨通道嵌入框架，旨在充分探索 3D 坐标的联合级别特征与其 2D 投影之间的相关性。此外，我们引入了上下文引导机制，以促进迭代扩散过程中联合图注意力跨潜在通道的传播。为了评估我们提出的方法的有效性，我们在两个基准数据集 Human3.6M 和 MPI INF 3DHP 上进行了实验。我们的结果表明，与最先进的方法相比，重建精度有了显着提高。

Enhanced Automated Quality Assessment Network for Interactive Building Segmentation in High-Resolution Remote Sensing Imagery
Authors Zhili Zhang, Xiangyun Hu, Jiabo Xu
在这项研究中，我们介绍了增强型自动化质量评估网络 IBS AQSNet，这是一种用于评估高分辨率遥感图像中交互式建筑分割质量的创新解决方案。这是分割质量评估的新挑战，我们提出的 IBS AQSNet 通过识别遗漏和错误的分割区域来缓解这一问题。首先，为了获得鲁棒的图像特征，我们的方法将鲁棒的、预先训练的主干与轻量级的主干结合起来，以便从图像和分割结果中进行全面的特征提取。然后通过串联、卷积层和残差连接的简单组合来融合这些特征。此外，ISR AQSNet 还采用了多尺度差分质量评估解码器，能够准确定位分割结果丢失或错误的区域。

Boosting Few-Shot Semantic Segmentation Via Segment Anything Model
Authors Chen Bin Feng, Qi Lai, Kangdao Liu, Houcheng Su, Chi Man Vong
在语义分割中，准确的预测掩模对于医学图像分析和图像编辑等下游任务至关重要。由于缺乏标注数据，少数镜头语义分割 FSS 在预测具有精确轮廓的掩模方面表现不佳。最近，我们注意到大型基础模型分段任何模型 SAM 在处理细节特征方面表现良好。受 SAM 的启发，我们提出 FSS SAM，通过解决轮廓不准确的问题来增强 FSS 方法。 FSS SAM 是免费培训的。它可以作为任何 FSS 方法的后处理工具，可以提高预测掩模的准确性。具体来说，我们使用 FSS 方法预测的掩模来生成提示，然后使用 SAM 预测新的掩模。为了避免使用 SAM 预测错误的掩模，我们提出了一种预测结果选择 PRS 算法。该算法可以显着减少错误预测。

Enhancing Small Object Encoding in Deep Neural Networks: Introducing Fast&Focused-Net with Volume-wise Dot Product Layer
Authors Ali Tofik, Roy Partha Pratim
在本文中，我们介绍了 Fast Focused Net，这是一种新颖的深度神经网络架构，专为将小对象有效编码为固定长度的特征向量而设计。与传统的卷积神经网络 CNN 相反，Fast Focused Net 采用了一系列我们新提出的层，即体积点积 VDP 层，旨在解决 CNN 的几个固有局限性。具体来说，CNN 通常表现出比理论对应物更小的有效感受野，从而限制了它们的视野范围。此外，CNN 的初始层产生低维特征向量，为后续学习带来了瓶颈。最后，CNN 的计算开销（尤其是通过参数共享捕获不同图像区域）非常高。 VDP 层是 Fast Focused Net 的核心，旨在通过有效覆盖整个图像块信息并减少计算需求来解决这些问题。实验结果证明了 Fast Focused Net 在各种应用中的强大功能。对于小对象分类任务，我们的网络在 CIFAR 10、CIFAR 100、STL 10、SVHN Cropped 和 Fashion MNIST 等数据集上的表现优于最先进的方法。在较大图像分类的背景下，当与 Transformer 编码器 ViT 结合使用时，Fast Focused Net 为 OpenImages V6、ImageNet 1K 和 Places365 数据集产生了有竞争力的结果。此外，相同的组合在 SVT、IC15、SVTP 和 HOST 数据集的文本识别任务中展示了无与伦比的性能。

Wavelet-Guided Acceleration of Text Inversion in Diffusion-Based Image Editing
Authors Gwanhyeong Koo, Sunjae Yoon, Chang D. Yoo
在图像编辑领域，空文本反转 NTI 通过在 DDIM 采样过程中优化空嵌入，实现细粒度编辑，同时保留原始图像的结构。然而，NTI 过程非常耗时，每个图像需要两分钟以上。为了解决这个问题，我们引入了一种创新方法，该方法在加速图像编辑过程的同时保持了 NTI 的原理。我们提出了 WaveOpt Estimator，它根据频率特征确定文本优化端点。利用小波变换分析来识别图像的频率特征，我们可以将文本优化限制在 DDIM 采样过程中的特定时间步长。采用Negative Prompt Inversion NPI概念，代表原始图像的目标提示作为优化的初始文本值。该方法保持了与 NTI 相当的性能，同时与 NTI 方法相比，平均编辑时间减少了 80 倍以上。

Adaptive Self-training Framework for Fine-grained Scene Graph Generation
Authors Kibum Kim, Kanghoon Yoon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park
场景图生成 SGG 模型存在基准数据集的固有问题，例如长尾谓词分布和缺失注释问题。在这项工作中，我们的目标是通过利用未注释的三元组来缓解 SGG 的长尾问题。为此，我们引入了 SGG ST SGG 的自训练框架，该框架为未注释的三元组分配伪标签，并在此基础上训练 SGG 模型。虽然图像识别的自训练已经取得了重大进展，但由于其固有的性质（例如语义模糊性和谓词类的长尾分布），为 SGG 任务设计自训练框架更具挑战性。因此，我们为 SGG 提出了一种新颖的伪标记技术，称为带有 Momentum CATM 的类特定自适应阈值，这是一个与模型无关的框架，可以应用于任何现有的 SGG 模型。此外，我们设计了一种图结构学习器 GSL，当采用我们提出的自训练框架到基于 SGG 模型的最先进的消息传递神经网络 MPNN 时，它是有益的。

SEINE: Structure Encoding and Interaction Network for Nuclei Instance Segmentation
Authors Ye Zhang, Linghan Cai, Ziyue Wang, Yongbing Zhang
组织病理学图像中的细胞核实例分割对于生物分析和癌症诊断非常重要，但由于两个原因仍然具有挑战性。 1 嫌色细胞核的核内和核外区域的相似视觉呈现经常导致分割不足，2 目前的方法缺乏对细胞核结构的探索，导致实例预测支离破碎。为了解决这些问题，本文提出了一种结构编码和交互网络，称为SEINE，它开发了核的结构建模方案，并利用核之间的结构相似性来提高每个分割实例的完整性。具体来说，SEINE引入了一种基于轮廓的结构编码SE，考虑了核结构和语义之间的相关性，实现了核结构的合理表示。基于编码，我们提出了一种结构引导注意力SGA，以清晰核为原型来增强模糊核的结构学习。为了增强结构学习能力，提出了语义特征融合SFF来提高语义和结构分支的语义一致性。此外，应用位置增强PE方法来抑制不正确的核边界预测。大量的实验证明了我们方法的优越性，SEINE 在四个数据集上实现了最先进的 SOTA 性能。

CLIP Model for Images to Textual Prompts Based on Top-k Neighbors
Authors Xin Zhang, Xin Zhang, YeMing Cai, Tianzhi Jia
文本到图像合成是多模式生成的一个子领域，近年来引起了极大的关注。我们提出了一种经济有效的图像提示生成方法，利用生成模型生成文本提示，而不需要大量注释数据。我们将我们的方法分为在线阶段和离线阶段两个阶段。我们使用 CLIP 模型和 K 最近邻 KNN 算法的组合。所提出的系统由两个主要部分组成：离线任务和在线任务。

SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition
Authors Hao Wang, Shuhei Kurita, Shuichiro Shimizu, Daisuke Kawahara
视听语音识别 AVSR 是自动语音识别 ASR 的多模态扩展，使用视频作为音频的补充。在 AVSR 中，人们在唇读等面部特征数据集上投入了大量精力，但在评估更广泛的背景下的图像理解能力方面往往存在不足。在本文中，我们构建了 SlideAVSR，这是一个使用科学论文解释视频的 AVSR 数据集。 SlideAVSR 提供了一个新的基准，模型可以将语音语句转录为演示文稿录音中幻灯片上的文本。由于论文解释中常见的技术术语在没有参考文本的情况下很难转录，因此我们的 SlideAVSR 数据集突出了 AVSR 问题的一个新方面。

Image Translation as Diffusion Visual Programmers
Authors Cheng Han, James C. Liang, Qifan Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Ying Nian Wu, Dongfang Liu
我们介绍了新颖的 Diffusion Visual Programmer DVP，这是一种神经符号图像翻译框架。我们提出的 DVP 在 GPT 架构中无缝嵌入条件灵活的扩散模型，编排一系列连贯的视觉程序，即用于各种专业符号步骤的计算机视觉模型，涵盖 RoI 识别、风格转移和位置操作，从而促进透明且可控的图像翻译过程。大量的实验证明了DVP的卓越性能，超越了并行艺术。这一成功归功于 DVP 的几个关键特性。首先，DVP 通过实例归一化实现条件灵活翻译，使模型能够消除人工指导造成的敏感性，并最佳地关注文本描述以生成高质量的内容。其次，该框架通过将特征空间中复杂的高维概念解读为更易于访问的低维符号（例如 Prompt 、 RoI object ）来增强上下文推理，从而允许本地化、上下文无关的编辑，同时保持整体连贯性。最后但并非最不重要的一点是，DVP 通过在每个编程阶段提供明确的符号表示来提高系统的可控性和可解释性，使用户能够直观地解释和修改结果。

Measuring the Discrepancy between 3D Geometric Models using Directional Distance Fields
Authors Siyu Ren, Junhui Hou, Xiaodong Chen, Hongkai Xiong, Wenping Wang
验证可以用点云或三角形网格表示的 3D 几何模型之间的差异是电路板应用的关键问题。现有的方法主要集中于直接建立两个模型之间的对应关系，然后聚合对应点之间的逐点距离，导致其效率低下或无效。在本文中，我们提出了 DirDist，一种高效、有效、鲁棒且可微分的 3D 几何数据距离度量。具体来说，我们基于所提出的 3D 模型隐式表示（即方向距离场 DDF ）构建 DirDist ，它定义 3D 点到模型的方向距离以捕获其局部表面几何形状。然后，我们将两个 3D 几何模型之间的差异传递为在同一域上定义的 DDF 之间的差异，自然地建立模型对应关系。为了展示 DirDist 的优势，我们探索了各种距离度量驱动的 3D 几何建模任务，包括模板曲面拟合、刚性配准、非刚性配准、场景流估计和人体姿势优化。大量实验表明，我们的 DirDist 在所有任务下都实现了显着更高的准确度。作为通用距离度量，DirDist 有潜力推动 3D 几何建模领域的发展。

Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation
Authors Zesen Cheng, Kehan Li, Hao Li, Peng Jin, Chang Liu, Xiawu Zheng, Rongrong Ji, Jie Chen
时间定位具有任意类文本的对象是开放词汇视频实例分割VIS的主要追求。由于视频数据的词汇量不足，以前的方法利用图像文本预训练模型通过单独对齐每个帧和类文本来识别对象实例，忽略帧之间的相关性。结果，这种分离破坏了视频的实例移动上下文，导致视频和文本之间的对齐较差。为了解决这个问题，我们建议将帧级实例表示链接为布朗桥来建模实例动态，并将桥级实例表示与类文本对齐，以获得更精确的开放词汇 VIS BriVIS 。具体来说，我们在冻结视频分段器上构建系统以生成帧级实例查询，并设计时间实例重采样器 TIR 以从帧查询生成具有时间上下文的查询。为了塑造实例查询以遵循布朗桥并完成与类文本的对齐，我们设计了桥文本对齐 BTA，以通过对比目标学习实例的判别性桥级别表示。 BriVIS 将 MinVIS 作为基本视频分割器，明显超越了 Open 词汇表 SOTA OV2Seg。

fast graph-based denoising for point cloud color information
Authors Ryosuke Watanabe, Keisuke Nonaka, Eduardo Pavez, Tatsuya Kobayashi, Antonio Ortega
点云可用于各种 3D 应用，例如交叉现实 XR 和真实 3D 显示。在某些应用中，例如，对于使用 3D 点云的直播，需要实时点云去噪方法来增强视觉质量。然而，由于K近邻图构建和噪声水平估计的复杂性，传统的高精度去噪方法无法对大规模点云实时执行。本文提出了一种针对大规模点云的基于图的快速去噪 FGBD。首先，通过在各个方向上扫描点云并搜索扫描线上的相邻邻域来实现高速图形构建。其次，我们提出了一种使用图上协方差矩阵的特征值的快速噪声水平估计方法。最后，我们还提出了一种新的低成本滤波器选择方法来提高去噪精度，以补偿加速算法造成的退化。在我们的实验中，我们成功地显着减少了处理时间，同时保持了相对于传统去噪方法的准确性。

GaussianBody: Clothed Human Reconstruction via 3d Gaussian Splatting
Authors Mengtian Li, Shengxiang Yao, Zhifeng Xie, Keyu Chen, Yu Gang Jiang
在这项工作中，我们提出了一种基于 3D Gaussian Splatting 的新颖的衣服人体重建方法，称为 GaussianBody。与昂贵的基于神经辐射的模型相比，3D 高斯分布最近在训练时间和渲染质量方面表现出了出色的性能。然而，由于复杂的非刚性变形和丰富的布料细节，将静态 3D 高斯泼溅模型应用于动态人体重建问题并非易事。为了解决这些挑战，我们的方法考虑显式姿态引导变形来关联规范空间和观察空间中的动态高斯，引入基于物理的先验和正则化变换有助于减轻两个空间之间的模糊性。在训练过程中，我们进一步提出了一种姿态细化策略来更新姿态回归，以补偿不准确的初始估计，并提出一种尺度分割机制来增强回归点云的密度。

HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain Generalization
Authors Guanglin Zhou, Zhongyi Han, Shiming Chen, Biwei Huang, Liming Zhu, Tongliang Liu, Lina Yao, Kun Zhang
领域泛化 DG 致力于通过学习不变特征来创建在未见过的场景中表现出色的机器学习模型。在 DG 中，将模型约束为固定结构或统一参数化以封装不变特征的普遍做法可能会无意中混合特定方面。这种方法很难区分域间变化的细微差别，并且可能会对某些域表现出偏见，从而阻碍域不变特征的精确学习。认识到这一点，我们引入了一种新颖的方法，旨在补充具有领域级别和任务特定特征的模型。这种方法旨在指导模型更有效地将不变特征与特定特征分开，从而提高泛化能力。基于 DG 范式中视觉提示的新兴趋势，我们的工作引入了新颖的文本、分层文本、对比文本、视觉文本、提示 HCVP 方法。这代表了该领域的重大进步，以其独特的生成提示方法、明确的模型结构和专门的损失函数而脱颖而出。与通常在整个数据集中共享的传统视觉提示不同，HCVP 利用通过提示对比学习增强的分层提示生成网络。这些生成提示依赖于实例，迎合不同领域和任务固有的独特特征。此外，我们设计了一个提示调制网络作为桥梁，有效地将生成的视觉提示合并到视觉变压器主干中。

SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model
Authors Yang Zhan, Zhitong Xiong, Yuan Yuan
大型语言模型法学硕士最近已扩展到视觉语言领域，获得了令人印象深刻的通用多模态能力。然而，针对遥感RS数据的多模态大语言模型MLLMs的探索仍处于起步阶段，性能并不令人满意。在这项工作中，我们介绍了 SkyEyeGPT，这是一种专为 RS 视觉语言理解而设计的统一多模态大语言模型。为此，我们精心策划了 RS 多模态指令调优数据集，包括单任务和多任务对话指令。经过手动验证，我们获得了具有 968k 样本的高质量 RS 指令数据集。我们的研究表明，通过简单而有效的设计，SkyEyeGPT 在相当不同的任务上表现得非常好，而不需要额外的编码模块。具体来说，在通过对齐层将 RS 视觉特征投射到语言域后，它们与任务特定指令联合输入到基于 LLM 的 RS 解码器中，以预测 RS 开放式任务的答案。此外，我们设计了一种两阶段调整方法来增强不同粒度的指令跟随和多轮对话能力。在 RS 视觉语言任务的 8 个数据集上进行的实验证明了 SkyEyeGPT 在图像级和区域级任务（例如字幕和视觉基础）方面的优越性。特别是，与 GPT 4V 相比，SkyEyeGPT 在一些定性测试中表现出了令人鼓舞的结果。

P2Seg: Pointly-supervised Segmentation via Mutual Distillation
Authors Zipeng Wang, Xuehui Yu, Xumeng Han, Wenwen Yu, Zhixun Huang, Jianbin Jiao, Zhenjun Han
点级监督实例分割 PSIS 旨在通过利用低成本但实例信息丰富的注释来增强实例分割的适用性和可扩展性。现有的 PSIS 方法通常依靠位置信息来区分对象，但由于缺乏轮廓注释，预测精确的边界仍然具有挑战性。然而，弱监督语义分割方法擅长利用类内特征一致性来捕获相同语义区域的边界轮廓。在本文中，我们设计了一个相互蒸馏模块MDM，以利用实例位置和语义信息的互补优势，实现准确的实例级对象感知。 MDM 由语义到实例 S2I 和实例到语义 I2S 组成。 S2I 以语义区域的精确边界为指导来学习注释点和实例轮廓之间的关联。 I2S 利用实例之间的区别关系来促进语义图中各种对象的区分。大量实验证实了 MDM 在促进实例和语义信息之间的协同作用方面的功效，从而提高了实例级对象表示的质量。

Eye Motion Matters for 3D Face Reconstruction
Authors Xuan Wang, Mengyuan Liu
单图像 3D 人脸重建的最新进展在各种应用中都显示出显着的进展。然而，流行的技术倾向于优先考虑整体面部轮廓和表情，常常忽略眼睛区域的细微动态。为此，我们引入了眼睛地标调整模块，并辅以局部动态损失，旨在捕获眼睛区域的动态特征。我们的模块允许灵活调整地标，从而准确地再现各种眼睛状态。在本文中，我们对我们的方法进行了全面评估，对两个数据集进行了广泛的实验。

Artwork Protection Against Neural Style Transfer Using Locally Adaptive Adversarial Color Attack
Authors Zhongliang Guo, Kaixuan Wang, Weiye Li, Yifei Qian, Ognjen Arandjelovi , Lei Fang
神经风格迁移 NST 在计算机视觉中被广泛采用，用于生成任意风格的新图像。该过程利用神经网络将风格图像的美学元素与内容图像的结构方面融合成和谐集成的视觉结果。然而，未经授权的 NST 可以利用艺术品。这种滥用引起了对艺术家权利的社会技术关注，并推动了主动保护原创作品的技术方法的发展。对抗性攻击是机器学习安全中主要探讨的一个概念。我们的工作引入了这种技术来保护艺术家的知识产权。在这篇论文中，局部自适应对抗性颜色攻击 LAACA，一种以人眼无法察觉但破坏 NST 的方式改变图像的方法。具体来说，我们针对富含高频内容的图像区域设计扰动，这些扰动是通过破坏中间特征而生成的。

Land Cover Image Classification
Authors Antonio Rangel, Juan Terven, Diana M. Cordova Esparza, E.A. Chavez Urbiola
土地覆盖 LC 图像分类在了解环境变化、城市规划和灾害管理方面变得越来越重要。然而，传统的液相色谱方法通常是劳动密集型的，并且容易出现人为错误。本文探讨了最先进的深度学习模型，以提高液相色谱分析的准确性和效率。我们将卷积神经网络 CNN 与基于 Transformer 的方法进行比较，展示它们在 LC 研究中的应用和优势。

Robustness Evaluation of Machine Learning Models for Robot Arm Action Recognition in Noisy Environments
Authors Elaheh Motamedi, Kian Behzad, Rojin Zandi, Hojjat Salehinejad, Milad Siami
在机器人动作识别领域，在嘈杂的环境中使用视觉系统识别不同但空间上接近的手臂运动构成了重大挑战。本文使用机器学习技术研究噪声环境中的机器人手臂动作识别。具体来说，视觉系统用于跟踪机器人的运动，然后使用深度学习模型来提取手臂的关键点。通过对机器学习方法的比较分析，评估了该模型在噪声环境下的有效性和鲁棒性。我们在 3 x 3 网格环境中使用 Tic Tac Toe 游戏进行了案例研究，重点是在受限环境中选择特定位置时准确识别手臂的动作。

Rethinking FID: Towards a Better Evaluation Metric for Image Generation
Authors Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar
与许多机器学习问题一样，图像生成方法的进步取决于良好的评估指标。最流行的方法之一是 Frechet Inception Distance FID。 FID 估计真实图像的 Inception v3 特征分布与算法生成的图像的分布之间的距离。我们强调了 FID Inception 的重要缺点，即对现代文本到图像模型生成的丰富多样的内容的表示不佳、正态性假设不正确以及样本复杂性较差。我们呼吁重新评估 FID 作为生成图像的主要质量指标的用途。我们凭经验证明 FID 与人类评分者相矛盾，它没有反映出迭代文本到图像模型的逐步改进，它没有捕获失真水平，并且在改变样本大小时会产生不一致的结果。我们还提出了一种替代的新度量 CMMD，它基于更丰富的 CLIP 嵌入和高斯 RBF 核的最大平均差异距离。它是一个无偏估计器，不对嵌入的概率分布做出任何假设，并且样本有效。

Efficient generative adversarial networks using linear additive-attention Transformers
Authors Emilio Morales Juarez, Gibran Fuentes Pineda
尽管用于图像生成的深度生成模型（例如扩散模型 DM 和生成对抗网络 GAN）的能力近年来已显着提高，但它们的成功很大程度上可归因于计算成本高昂的架构。这限制了它们在拥有大量资源的研究实验室和公司的采用和使用，同时显着增加了训练、微调和推理的碳足迹。在这项工作中，我们提出了 LadaGAN，这是一种高效的生成对抗网络，它建立在名为 Ladaformer 的新型 Transformer 块之上。该块的主要组成部分是线性加性注意力机制，它计算每个头的单个注意力向量，而不是二次点积注意力。我们在生成器和判别器中都采用了 Ladaformer，这降低了计算复杂性并克服了通常与 Transformer GAN 相关的训练不稳定性。 LadaGAN 在不同分辨率的基准数据集上始终优于现有的卷积和 Transformer GAN，同时效率显着提高。此外，与最先进的多步生成模型（例如

On-Off Pattern Encoding and Path-Count Encoding as Deep Neural Network Representations
Authors Euna Jung, Jaekeol Choi, EungGu Yun, Wonjong Rhee
理解深度神经网络 DNN 的编码表示一直是一个基本但具有挑战性的目标。在这项工作中，我们通过研究简单的图像分类任务来关注分析 DNN 表示的两个可能的方向。具体来说，我们考虑使用 textit On Off 模式和 textit PathCount 来研究信息如何存储在深度表示中。神经元的开关模式取决于 ReLU 后神经元的激活是非零还是零。 PathCount 是从输入传输非零能量到神经元的路径数。我们通过用 On Off 模式或 PathCount 替换每层的激活来研究网络中的神经元如何编码信息，并评估其对分类性能的影响。我们还检查了表示和 PathCount 之间的相关性。

Enhancing Surveillance Camera FOV Quality via Semantic Line Detection and Classification with Deep Hough Transform
Authors Andrew C. Freeman, Wenjing Shi, Bin Hwang
录制的视频和图像的质量很大程度上受摄像机视场 FOV 的影响。在监控系统和自动驾驶汽车等关键应用中，视场角不足可能会引发严重的安全问题，包括由于无法检测到个人和物体而导致的车祸和盗窃。建立正确视场的传统方法严重依赖人类判断，缺乏基于视场评估视频和图像质量的自动化机制。在本文中，我们介绍了一种创新方法，该方法利用语义线检测和分类以及深度霍夫变换来识别语义线，从而通过平行线理解 3D 视图来确保合适的 FOV。我们的方法在公共 EgoCart 数据集上产生的有效 F1 分数为 0.729，并且线路放置指标的中值分数非常高。我们说明，我们的方法提供了一种评估相机视场质量的直接方法，实现了 83.8 的分类精度。

Learning to Generalize over Subpartitions for Heterogeneity-aware Domain Adaptive Nuclei Segmentation
Authors Jianan Fan, Dongnan Liu, Hang Chang, Weidong Cai
注释稀缺和跨模态染色数据分布变化是阻碍深度学习模型在细胞核分析中应用的两个主要障碍，而细胞核分析在数字病理学中具有广泛的潜在应用。最近，人们提出了无监督域适应 UDA 方法，以减轻组织病理学图像中无监督细胞核分割的不同成像模式之间的分布差距。然而，现有的 UDA 方法是建立在每个域内的数据分布应该均匀的假设之上的。基于过于简化的假设，他们建议将组织病理学目标域与源域整体对齐，忽略混合癌症类型和采样器官引起的子分区的严重域内差异。在本文中，我们首次提出明确考虑组织病理学领域内的异质性，并引入开放复合域适应 OCDA 来解决症结。具体来说，提出了一个两阶段解缠结框架来获取图像和实例级别的域不变特征表示。整体设计解决了现有 OCDA 方法的局限性，这些方法很难捕获实例方面的变化。本文专门设计了两种正则化策略，以利用组织病理学图像中丰富的子分区特定特征并促进子域分解。此外，我们提出了一种双分支核形状和结构保持模块，以防止合成图像中核的过度生成和变形。

IPR-NeRF: Ownership Verification meets Neural Radiance Field
Authors Win Kent Ong, Kam Woh Ng, Chee Seng Chan, Yi Zhe Song, Tao Xiang
神经辐射场 NeRF 模型近年来以其最先进的视觉质量在计算机视觉社区中获得了极大的关注，并产生了令人印象深刻的演示。从那时起，科技企业家就开始寻求利用 NeRF 模型来实现盈利。因此，NeRF 模型值得冒抄袭者非法复制、重新分发或滥用这些模型的风险。本文针对NeRF模型在黑盒和白盒设置下提出了一种全面的知识产权IP保护框架，即IPR NeRF。在黑盒设置中，引入基于扩散的解决方案，通过两阶段优化过程嵌入和提取水印。在白盒设置中，通过采用符号丢失目标将指定的数字签名嵌入到 NeRF 模型的权重中。

Triamese-ViT: A 3D-Aware Method for Robust Brain Age Estimation from MRIs
Authors Zhaonian Zhang, Richard Jiang
机器学习在医学中的集成显着提高了诊断精度，特别是在解释人脑等复杂结构方面。诊断阿尔茨海默病等具有挑战性的疾病促进了大脑年龄估计技术的发展。这些方法通常利用三维磁共振成像 MRI 扫描，最近的研究强调了 3D ResNet 等 3D 卷积神经网络 CNN 的功效。然而，由于其 3D 版本的限制，以其准确性和可解释性而闻名的 Vision Transformers ViT 的未开发潜力仍然存在于该领域。本文介绍了 Triamese ViT，这是 ViT 模型的创新改编，用于大脑年龄估计。我们的模型独特地结合了来自三个不同方向的 ViT 来捕获 3D 信息，从而显着提高了准确性和可解释性。在 1351 个 MRI 扫描数据集上进行测试，Triamese ViT 的平均绝对误差 MAE 为 3.84，与实际年龄的 Spearman 相关系数为 0.9，大脑年龄差距 BAG 与实际年龄之间的 Spearman 相关系数为 0.29，明显优于之前的方法用于布莱恩年龄估计。 Triamese ViT 的一个关键创新是它能够生成全面的 3D 类注意力图，该注意力图是从每个方向特定 ViT 的 2D 注意力图合成的。

Plug-in for visualizing 3D tool tracking from videos of Minimally Invasive Surgeries
Authors Shubhangi Nema, Abhishek Mathur, Leena Vachhani
本文解决了微创手术 MIS 中的仪器跟踪和 3D 可视化挑战，这对于计算机辅助干预至关重要。传统的和机器人辅助的 MIS 会遇到 2D 相机投影有限和硬件集成最少的问题。目标是跟踪和可视化整个手术器械，包括轴和金属扣，从而实现手术环境中的安全导航。所提出的方法涉及基于分割图的二维跟踪，有助于在没有广泛的地面实况知识的情况下创建标记数据集。 2D 间隔中的几何变化表示运动，基于运动学的算法将结果处理为 3D 跟踪信息。 2D 和 3D 运动估计的综合和实验结果表明误差可以忽略不计，验证了 MIS 视频中仪器的标记和运动跟踪方法。

Offline Handwriting Signature Verification: A Transfer Learning and Feature Selection Approach
Authors Fatih Ozyurt, Jafar Majidpour, Tarik A. Rashid, Canan Koc
手写签名验证对生物识别和文档真实性提出了巨大的挑战。目的是确定所提供的手写签名的真实性，区分真实签名和伪造签名。这个问题在金融、法律文件和安全等领域有许多应用。目前，计算机视觉和机器学习领域在手写签名验证领域取得了重大进展。然而，结果可能会根据所获得的发现、数据集的结构和所使用的模型而得到增强。我们建议的策略由四个阶段组成。首先，我们收集了来自 420 个不同个体的 12600 张图像的大型数据集，每个个体都有 30 个某种类型的签名所有作者签名都是真实的。在后续阶段，使用名为 MobileNetV2 的深度学习模型从每张图像中提取最佳特征。在特征选择步骤中，使用三个选择器邻域成分分析 NCA 、 Chi2 和互信息 MI 来提取 200、300、400 和 500 个特征，总共给出 12 个特征向量。最后，通过应用核rbf、poly和线性的SVM、KNN、DT、线性判别分析和朴素贝叶斯等机器学习技术，获得了12个结果。在不使用特征选择技术的情况下，我们建议的离线签名验证实现了 91.3 的分类精度，而使用仅 300 个特征的 NCA 特征选择方法，它实现了 97.7 的分类精度。使用设计和建议的模型实现了高分类精度，该模型还具有作为自组织框架的优点。

Voila-A: Aligning Vision-Language Models with User's Gaze Attention
Authors Kun Yan, Lei Ji, Zeyu Wang, Yuntao Wang, Nan Duan, Shuai Ma
近年来，视觉和语言理解的整合带来了人工智能的重大进步，特别是通过视觉语言模型 VLM。然而，现有的 VLM 在处理具有复杂场景和多个对象的现实世界应用程序以及将其焦点与人类用户的不同注意力模式保持一致方面面临着挑战。在本文中，我们介绍了由 AR 或 VR 设备收集的注视信息，作为人类注意力的代理来引导 VLM，并提出了一种新的注视对齐方法 Voila A，以增强这些模型在现实世界中的可解释性和有效性应用程序。首先，我们收集了数百分钟的注视数据，以证明我们可以使用本地化叙述来模仿人类的注视模式。然后，我们利用 GPT 4 设计一个自动数据注释管道来生成 VOILA COCO 数据集。此外，我们还创新了 Voila Perceiver 模块，将注视信息集成到 VLM 中，同时保留其预先训练的知识。我们使用保留验证集和新收集的 VOILA GAZE 测试集来评估 Voila A，该测试集具有使用注视跟踪设备捕获的现实生活场景。我们的实验结果表明，Voila A 显着优于几个基线模型。

Explainable Multimodal Sentiment Analysis on Bengali Memes
Authors Kazi Toufique Elahi, Tasnuva Binte Rahman, Shakil Shahriar, Samir Sarker, Sajib Kumar Saha Joy, Faisal Muhammad Shah
模因已成为数字时代一种独特且有效的交流形式，吸引了在线社区并跨越了文化障碍。尽管模因经常与幽默联系在一起，但它们具有传达各种情感的惊人能力，包括快乐、讽刺、沮丧等等。在信息时代，理解和解释模因背后的情感变得至关重要。先前的研究探索了基于文本、基于图像和多模态的方法，从而开发了 CAPSAN 和 PromptHate 等模型来检测各种模因类别。然而，对孟加拉语模因等低资源语言的研究仍然很少，可公开访问的数据集有限。最近的贡献包括引入 MemoSen 数据集。然而，所达到的准确率明显较低，并且数据集分布不平衡。

CRD: Collaborative Representation Distance for Practical Anomaly Detection
Authors Chao Han, Yudong Yan
视觉缺陷检测在智能工业中发挥着重要作用。基于补丁的方法将视觉图像视为根据位置的图像补丁的集合，对于产品中的小缺陷（例如缺陷）具有更强的辨别能力。药丸上的划痕。然而，对查询图像和存储的补丁的最近邻搜索将在时间和空间要求方面占据O n 复杂性，这对边缘环境中的部署提出了严格的挑战。在本文中，我们提出了一种通过协作表示模型来计算图像块距离的替代方法。从具有 L 0 约束的最近邻距离开始，我们将约束放松到 L 2 约束，并以紧密形式快速求解距离，而无需实际访问原始存储的图像块集合。此外，我们指出，这种封闭式解决方案的主要计算负担可以在部署之前由高性能服务器预先计算。因此，边缘设备上的距离计算只需要简单的矩阵乘法，这是非常轻量级且GPU友好的。

Object Attribute Matters in Visual Question Answering
Authors Peize Li, Qingyi Si, Peng Fu, Zheng Lin, Yan Wang
视觉问答是一项多模态任务，需要联合理解视觉和文本信息。然而，仅通过注意力层整合视觉和文本语义不足以全面理解和调整来自两种模式的信息。直观上，对象属性自然可以充当统一它们的桥梁，这在以前的研究中被忽视了。在本文中，我们从利用对象属性的角度提出了一种新颖的 VQA 方法，旨在实现更好的对象级视觉语言对齐和多模态场景理解。具体来说，我们设计了属性融合模块和对比知识蒸馏模块。属性融合模块构建多模态图神经网络，通过消息传递融合属性和视觉特征。增强的对象级视觉特征有助于解决计数问题等细粒度问题。更好的对象级视觉语言对齐有助于理解多模态场景，从而提高模型的鲁棒性。此外，为了增强场景理解和分布性能，对比知识蒸馏模块引入了一系列隐式知识。我们通过对比损失将知识提炼为属性，这进一步加强了属性特征的表示学习并促进视觉语言对齐。

Divide and not forget: Ensemble of selectively trained experts in Continual Learning
Authors Grzegorz Rype , Sebastian Cygert, Valeriya Khan, Tomasz Trzci ski, Bartosz Zieli ski, Bart omiej Twardowski
课堂增量学习变得越来越流行，因为它可以帮助模型扩大其适用性，同时不会忘记他们已经知道的东西。该领域的趋势是混合使用专家技术，不同的模型协同工作来解决任务。然而，专家通常使用整个任务数据一次性进行训练，这使得他们很容易忘记并增加计算负担。为了解决这个限制，我们引入了一种名为 SEED 的新方法。 SEED 仅选择一个最适合所考虑任务的专家，并使用该任务中的数据仅微调该专家。为此，每个专家用高斯分布代表每个类别，并根据这些分布的相似性选择最佳专家。因此，SEED 增加了专家内部的多样性和异质性，同时保持了这种集成方法的高度稳定性。

Comprehensive OOD Detection Improvements
Authors Anish Lakkapragada, Amol Khanna, Edward Raff, Nathan Inkawhich
随着机器学习在有影响力的决策中变得越来越普遍，识别推理数据何时超出模型的预期输入分布对于为预测提供上下文至关重要。已为此任务创建了分发外的 OOD 检测方法。这些方法可以根据它们是否分别利用模型嵌入或预测进行 OOD 检测分为基于表示的方法或基于逻辑的方法。与大多数只关注其中一个群体的论文不同，我们同时关注这两类群体。我们在基于表示的方法中对特征嵌入进行降维，以加快时间并提高性能。此外，我们提出了 DICE COL，这是对流行的基于 logit 的方法 Directed Sparsification DICE 的修改，解决了一个未被注意到的缺陷。

Importance-Aware Image Segmentation-based Semantic Communication for Autonomous Driving
Authors Jie Lv, Haonan Tong, Qiang Pan, Zhilong Zhang, Xinxin He, Tao Luo, Changchuan Yin
本文研究自动驾驶中基于图像分割的语义通信问题。在实际交通场景中，检测车辆、行人、障碍物等关键物体比其他物体更重要，以保证行车安全。因此，我们提出了一种面向车辆图像分割的语义通信系统，称为VIS SemCom，其中传输重要对象的图像分割特征以减少传输冗余。首先，为了准确提取图像语义，我们开发了基于 Swin Transformer 架构的语义编解码器，扩展了感知领域，从而提高了分割精度。接下来，我们提出了一种多尺度语义提取方案，通过为不同的分辨率特征分配 Swin Transformer 块的数量，从而突出重要对象的准确性。此外，调用重要性感知损失来强调重要对象，并提出在线硬样本挖掘 OHEM 策略来处理数据集中的小样本问题。实验结果表明，所提出的 VIS SemCom 可以在 60 mIoU 的平均交集上实现近 6 dB 的编码增益，在 60 mIoU 的平均交集上减少高达 70 的传输数据量，并改善重要的并集 IoU 的分段交集。

Few-shot learning for COVID-19 Chest X-Ray Classification with Imbalanced Data: An Inter vs. Intra Domain Study
Authors Alejandro Gal n Cuenca, Antonio Javier Gallego, Marcelo Saval Calvo, Antonio Pertusa
医疗图像数据集对于计算机辅助诊断，治疗计划和医学研究中使用的培训模型至关重要。但是，这些数据集与这些数据集相关联，包括数据分布的变异性，数据稀缺性和转移学习问题时，使用了从通用图像进行预培训的模型。这项工作研究了严重的数据不平衡的少数射击学习方案，研究了这些挑战在域内和域间层面上的效果。为此，我们提出了一种基于暹罗神经网络的方法，其中集成了一系列技术来减轻数据稀缺和分布不平衡的影响。具体来说，分析了不同的初始化和数据增强方法，并介绍了处理不平衡数据的暹罗网络解决方案的四种适应方式，包括单独和组合的数据平衡和加权损失，以及不同的配对比率平衡。此外，我们还考虑了四个分类器，即直方图，K NN，SVM和随机森林。评估是在三个胸部X射线数据集上进行的，带有带正值和阴性19诊断的注释情况。分别分析了针对暹罗结构提出的每种技术的准确性，并将其结果与使用在TAR CNN状态下使用等效方法获得的结果进行了比较。

Sub2Full: split spectrum to boost OCT despeckling without clean data
Authors Lingyun Wang, Jose A Sahel, Shaohua Pi
光学相干断层扫描OCT受到斑点噪声的影响，导致图像质量的恶化，尤其是在高分辨率模式下，如可见光光OCT VIS OCT。传统的监督深度学习去噪方法的潜力受到难以获得干净数据的限制。在这里，我们提出了一种名为 Sub2Full S2F 的创新自监督策略，用于无需干净数据的 OCT 去斑。这种方法是通过获取两次重复的B扫描，将第一个重复的频谱分解为低分辨率输入，并利用第二重复的完整频谱作为高分辨率目标。在视网膜外的sublaminar结构中可视化的VIS OCT视网膜图像对所提出的方法进行了验证，并证明了比常规噪声2Noise和Noige2Void方案的性能优越。

Developing an AI-based Integrated System for Bee Health Evaluation
Authors Andrew Liang
蜜蜂为世界上约三分之一的食物授粉，但由于杀虫剂和害虫等多种因素的影响，过去十年间蜂群数量惊人地减少了近 40 个。监测蜂箱的传统方法（例如人工检查）是主观的、破坏性的且耗时的。为了克服这些限制，人工智能已被用来评估蜂箱的健康状况。然而，之前的研究缺乏端到端的解决方案，主要依赖于单一来源的数据，要么是蜜蜂图像，要么是声音。本研究介绍了一个由蜜蜂目标检测和健康评估组成的综合系统。此外，它还结合视觉和音频信号来分析蜜蜂的行为。开发了基于注意力的多模态神经网络 AMNN，以自适应地关注每种类型信号的关键特征，以进行准确的蜜蜂健康评估。 AMNN 的总体精度达到 92.61，超过了现有的 8 个单信号卷积神经网络和循环神经网络。它的性能比基于最佳图像的模型高出 32.51，比基于最佳声音的模型高出 13.98，同时保持高效的处理时间。此外，它还提高了预测的稳健性，在所有四种评估的健康状况下获得了高于 90 的 F1 分数。该研究还表明，在评估蜜蜂健康状况方面，音频信号比图像更可靠。

Ventricular Segmentation: A Brief Comparison of U-Net Derivatives
Authors Ketan Suhaas Saichandran
医学成像是指用于观察人体及其内部的技术和方法，以诊断、监测甚至治疗医学疾病。本文旨在探索深度学习技术在心脏短轴MRI磁共振成像图像语义分割中的应用，旨在增强与心脏相关的医学疾病的诊断、监测和治疗。重点是实现 U Net 衍生的各种架构，以有效隔离心脏的特定部分以进行全面的解剖和功能分析。通过图像、图表和定量指标的结合，展示了模型的有效性及其预测。此外，本文还解决了遇到的挑战并概述了未来改进的策略。

ICGNet: A Unified Approach for Instance-Centric Grasping
Authors Ren Zurbr gg, Yifan Liu, Francis Engelmann, Suryansh Kumar, Marco Hutter, Vaishakh Patil, Fisher Yu
准确的抓取是包括装配和家用机器人在内的多项机器人任务的关键。在杂乱的环境中成功抓取需要多层次的场景理解。首先，机器人需要分析单个物体的几何特性，以找到可行的抓取。这些抓取需要符合局部对象的几何形状。其次，对于每个提出的抓取，机器人需要推理与场景中其他对象的交互。最后，机器人必须计算无碰撞抓取轨迹，同时考虑目标物体的几何形状。大多数抓取检测算法直接以整体方式预测抓取姿势，这不会捕获环境的可组合性。在本文中，我们介绍了一种用于以对象为中心的抓取的端到端架构。该方法使用来自单个任意观察方向的点云数据作为输入，并为场景中每个部分观察的对象生成以实例为中心的表示。该表示进一步用于杂乱桌面场景中的对象重建和抓取检测。我们通过在合成数据集上与最先进的方法进行广泛的评估来展示所提出的方法的有效性，表明抓取和重建的优越性能。

Slicer Networks
Authors Hang Zhang, Xiang Chen, Rongguang Wang, Renjiu Hu, Dongdong Liu, Gaolei Li
在医学成像中，扫描通常会显示具有不同对比度但内部强度或纹理一致的物体。这一特性使得低频近似能够用于分割和变形场估计等任务。然而，将这一概念集成到用于医学图像分析的神经网络架构中仍然没有得到充分探索。在本文中，我们提出了切片器网络，这是一种旨在利用这些特征的新颖架构。切片器网络由一个利用视觉变换器等模型进行特征提取的编码器和一个利用可学习双边网格的切片器组成，通过泼溅模糊切片过程战略性地细化和上采样特征图。这为网络结果引入了保留边缘的低频近似，有效地扩大了有效感受野。这一增强不仅降低了计算复杂性，还提高了整体性能。

Multilingual Visual Speech Recognition with a Single Model by Learning with Discrete Visual Speech Units
Authors Minsu Kim, Jeong Hun Yeo, Jeongsoo Choi, Se Jin Park, Yong Man Ro
本文首次探讨了单一模型的句子级多语言视觉语音识别。由于视觉数据的大规模多语言建模需要巨大的计算成本，我们提出了一种新颖的策略，即使用视觉语音单元进行处理。受音频语音单元最近成功的启发，所提出的视觉语音单元是通过离散化从自监督视觉语音模型中提取的视觉语音特征来获得的。为了正确捕获多语言视觉语音，我们首先在 5,512 小时的多语言视听数据上训练自监督视觉语音模型。通过分析，我们验证了视觉语音单元主要包含视位信息，同时抑制非语言信息。通过使用视觉语音单元作为系统的输入，我们预训练模型以预测通过合并多个 VSR 数据库构建的海量多语言数据的相应文本输出。由于输入和输出都是离散的，因此与标准 VSR 训练相比，我们可以大大提高训练效率。具体来说，输入数据大小减少到原始视频输入的 0.016。为了弥补语音识别中视觉信息的不足，我们采用课程学习的方式，系统的输入从视听语音单元开始，逐渐转变为视觉语音单元。预训练后，模型对连续特征进行微调。

BreastRegNet: A Deep Learning Framework for Registration of Breast Faxitron and Histopathology Images
Authors Negar Golestani, Aihui Wang, Gregory R Bean, Mirabela Rusu
乳腺癌的标准治疗方案需要进行新辅助治疗，然后手术切除肿瘤和周围组织。病理学家通常依靠柜式 X 射线照片（称为 Faxitron）来检查切除的乳腺组织并诊断残留疾病的程度。然而，准确确定残留癌症的位置、大小和病灶可能具有挑战性，并且不正确的评估可能会导致临床后果。自动化方法的利用可以改善组织病理学过程，使病理学家能够更有效、更精确地选择采样区域。尽管认识到必要性，但目前还没有这样的方法可用。训练此类自动检测模型需要在离体放射学图像上进行准确的地面实况标签，这些标签可以通过配准 Faxitron 和组织病理学图像并将癌症范围从组织病理学映射到 X 射线图像来获取。本研究介绍了一种基于深度学习的图像配准方法，该方法在单模态合成图像对上进行训练。这些模型使用 50 名接受新辅助化疗并接受手术的女性的数据进行训练。结果表明，与最先进的迭代 4.43 pm4.1 mm 和深度学习 4.02 pm3.15 mm 方法相比，我们的方法速度更快，并且产生显着更低的平均界标误差 2.1 pm1.96 mm。

On the Audio Hallucinations in Large Audio-Video Language Models
Authors Taichi Nishimura, Shota Nakada, Masayoshi Kondo
大型音频视频语言模型可以生成视频和音频的描述。然而，他们有时会忽略音频内容，产生仅依赖于视觉信息的音频描述。本文将其称为音频幻觉，并在大型音频视频语言模型中对其进行分析。我们通过查询音频信息收集了 1000 个句子，并注释它们是否包含幻觉。如果一个句子是幻觉的，我们也会对幻觉的类型进行分类。结果显示，有 332 个句子出现幻觉，每种幻觉类型的名词和动词都有不同的趋势。基于此，我们在零样本和微调设置中使用预先训练的音频文本模型来解决音频幻觉分类的任务。

Towards Identifiable Unsupervised Domain Translation: A Diversified Distribution Matching Approach
Authors Sagar Shrestha, Xiao Fu
无监督域翻译 UDT 旨在找到将样本从一个域（例如草图）转换到另一个域（例如照片）而不改变高级语义（也称为内容）的函数。平移函数通常通过变换后的源域和目标域的概率分布匹配来寻求。 CycleGAN 可以说是这一领域中最具代表性的方法。然而，文献中注意到，CycleGAN 及其变体可能无法识别所需的翻译功能并产生内容未对齐的翻译。这种限制是由于学习标准的解空间中存在多个翻译函数（称为测度保留自同构 MPA）而产生的。尽管意识到此类可识别性问题，但解决方案仍然难以捉摸。本研究深入探讨了核心可识别性探究，并引入了 MPA 消除理论。我们的分析表明，如果学习函数匹配多对不同的跨域条件分布，则 MPA 不太可能存在。我们的理论导致 UDT 学习器使用辅助变量诱导的域子集的分布匹配，而不是像经典方法那样在整个数据域上进行分布匹配。据我们所知，所提出的框架是第一个在合理的 UDT 设置下严格建立翻译可识别性的框架。

Uncertainty Modeling in Ultrasound Image Segmentation for Precise Fetal Biometric Measurements
Authors Shuge Lei
医学图像分割，特别是在超声数据的背景下，是计算机视觉和医学成像的一个重要方面。本文深入研究了分割过程中不确定性的复杂性，重点关注胎儿头部和股骨超声图像。所提出的方法涉及提取目标轮廓和探索精确参数测量的技术。采用不确定性建模方法来增强分割网络的训练和测试过程。研究表明，胎儿头围测量的平均绝对误差为8.0833mm，相对误差为4.7347。同样，胎儿股骨测量的平均绝对误差为2.6163mm，相对误差为6.3336。采用测试时间增强 TTA 的不确定性建模实验证明了两个数据集上数据不确定性的有效解释性。这表明基于 TTA 方法纳入数据不确定性可以支持临床医生在实际临床应用中做出明智的决策并获得更可靠的测量结果。

Automatic 3D Multi-modal Ultrasound Segmentation of Human Placenta using Fusion Strategies and Deep Learning
Authors Sonit Singh, Gordon Stevenson, Brendan Mein, Alec Welsh, Arcot Sowmya
目的超声是临床实践中最常用的诊断和筛查医学成像方式。由于其安全性、无创性和便携性，超声成为妊娠期胎儿评估的主要成像方式。目前的超声处理方法是手动或半自动的，因此费力、耗时且容易出错，而自动化将在解决这些挑战方面大有帮助。

CT Liver Segmentation via PVT-based Encoding and Refined Decoding
Authors Debesh Jha, Nikhil Kumar Tomar, Koushik Biswas, Gorkem Durak, Alpay Medetalibeyoglu, Matthew Antalek, Yury Velichko, Daniela Ladner, Amir Borhani, Ulas Bagci
CT 扫描的准确肝脏分割对于计算机辅助诊断和治疗计划至关重要。最近，与卷积神经网络相比，视觉变换器在计算机视觉任务中取得了具有竞争力的性能，因为它们具有学习全局表示的卓越能力。然而，它们经常面临可扩展性、内存限制和计算效率低下的问题，特别是在处理高分辨率医学图像时。为了克服可扩展性和效率问题，我们提出了一种新颖的深度学习方法，textit textbf PVTFormer，它建立在预训练的金字塔视觉变换器 PVT v2 之上，并结合了高级残差上采样和解码器块。通过将精细特征通道方法与分层解码策略相结合，PVTFormer 通过增强语义特征来生成高质量的分割掩模。对所提出的方法在肝肿瘤分割基准 LiTS 2017 上的严格评估表明，我们提出的架构不仅实现了 86.78 的高 dice 系数、78.46 的 mIoU，而且还获得了 3.50 的低 HD。结果强调了 PVTFormer 在为最先进的肝脏分割方法设定新基准方面的功效。

SymTC: A Symbiotic Transformer-CNN Net for Instance Segmentation of Lumbar Spine MRI
Authors Jiasong Chen, Linchen Qian, Linhai Ma, Timur Urakov, Weiyong Gu, Liang Liang
椎间盘疾病是一种常见疾病，经常导致间歇性或持续性腰痛，这种疾病的诊断和评估依赖于腰椎 MR 图像对椎骨和椎间盘几何形状的准确测量。深度神经网络 DNN 模型可以帮助临床医生以自动化的方式对单个实例椎间盘和椎骨进行更有效的图像分割，这称为实例图像分割。在这项工作中，我们提出了 SymTC，一种创新的腰椎 MR 图像分割模型，结合了 Transformer 和卷积神经网络 CNN 的优点。具体来说，我们设计了一个并行双路径架构来合并 CNN 层和 Transformer 层，并将一种新颖的位置嵌入集成到 Transformer 的自注意力模块中，增强了位置信息的利用率，以实现更准确的分割。为了进一步提高模型性能，我们引入了一种新的数据增强技术来创建合成且真实的 MR 图像数据集，名为 SSMSpine，该数据集已公开。我们使用 Dice 相似系数和 95 Hausdorff 距离这两个指标，在我们的私有内部数据集和公共 SSMSpine 数据集上评估了 SymTC 和其他 15 个现有图像分割模型。结果表明，我们的 SymTC 在腰椎 MR 图像中分割椎骨和椎间盘方面具有最佳性能。

MITS-GAN: Safeguarding Medical Imaging from Tampering with Generative Adversarial Networks
Authors Giovanni Pasqualino, Luca Guarnera, Alessandro Ortis, Sebastiano Battiato
生成模型，特别是生成对抗网络 GAN 的进步，为图像生成开辟了新的可能性，但引起了人们对潜在恶意用途的担忧，特别是在医学成像等敏感领域。这项研究介绍了 MITS GAN，这是一种防止医学图像篡改的新方法，特别关注 CT 扫描。该方法通过引入难以察觉但精确的扰动来破坏攻击者 CT GAN 架构的输出。具体来说，所提出的方法涉及在输入中引入适当的高斯噪声，作为针对各种攻击的保护措施。我们的方法旨在增强防篡改能力，与现有技术相比具有优势。 CT 扫描数据集的实验结果证明了 MITS GAN 的卓越性能，强调了其生成伪影可忽略不计的防篡改图像的能力。由于医疗领域的图像篡改会带来危及生命的风险，因此我们的积极主动的方法有助于负责任且合乎道德地使用生成模型。这项工作为未来应对医学成像网络威胁的研究奠定了基础。

MedBlindTuner: Towards Privacy-preserving Fine-tuning on Biomedical Images with Transformers and Fully Homomorphic Encryption
Authors Prajwal Panzade, Daniel Takabi, Zhipeng Cai
机器学习 ML 的进步极大地改变了医学图像分析，促使医院依赖外部 ML 服务。然而，与第三方共享敏感患者数据（例如胸部 X 射线）时，会带来固有的隐私风险。为了解决这个问题，我们提出了 MedBlindTuner，这是一种利用完全同态加密 FHE 和数据高效图像转换器 DEiT 的隐私保护框架。 MedBlindTuner 能够专门在 FHE 加密的医学图像上训练 ML 模型。我们的实验评估表明，MedBlindTuner 的准确性与在非加密图像上训练的模型相当，为外包 ML 计算提供了安全的解决方案，同时保护患者数据隐私。

Brain Tumor Radiogenomic Classification
Authors Amr Mohamed, Mahmoud Rabea, Aya Sameh, Ehab Kamal
RSNA MICCAI 脑肿瘤放射基因组分类挑战赛旨在通过多参数 mpMRI 扫描 T1w、T1wCE、T2w 和 FLAIR 的二元分类来预测胶质母细胞瘤中的 MGMT 生物标志物状态。数据集分为三个主要队列训练集、训练期间使用的验证集以及仅在最终评估期间使用的测试集。图像要么是 DICOM 格式，要么是 Png 格式。使用不同的架构来研究该问题，包括 Vision Transformer ViT3D 的 3D 版本、ResNet50、Xception 和 EfficientNet B3。 AUC 被用作主要评估指标，结果显示 ViT3D 和 Xception 模型均具有优势，在测试集上分别达到 0.6015 和 0.61745。与其他结果相比，考虑到任务的复杂性，我们的结果被证明是有效的。

Self Supervised Vision for Climate Downscaling
Authors Karandeep Singh, Chaeyoon Jeong, Naufal Shidqi, Sungwon Park, Arjun Nellikkattil, Elke Zeller, Meeyoung Cha
气候变化是我们的星球当今面临的最严峻的挑战之一。全球气温上升已经给地球的天气和气候模式带来了显着的变化，不可预测的极端天气事件的频率增加。气候变化研究的未来预测基于地球系统模型 ESM，即模拟地球气候系统的计算机模型。 ESM 提供了一个集成各种物理系统的框架，但其输出受到运行和存档更高分辨率模拟所需的大量计算资源的限制。对于给定的资源预算，ESM 通常在较粗的网格上运行，然后进行计算量较小的缩减过程以获得更精细的分辨率输出。在这项工作中，我们提出了一种用于缩小 ESM 模拟数据的深度学习模型，该模型不需要高分辨率地面实况数据来进行模型优化。这是通过在 textit 运行时利用显着的数据分布模式和 textit 单个数据点的天气变量之间的隐藏依赖性来实现的。使用 2 x、3 x 和 4 x 缩放因子进行的广泛评估表明，所提出的模型始终获得优于各种基线的性能。

Joining Forces for Pathology Diagnostics with AI Assistance: The EMPAIA Initiative
Authors Norman Zerbe, Lars Ole Schwen, Christian Gei ler, Katja Wiesemann, Tom Bisson, Peter Boor, Rita Carvalho, Michael Franz, Christoph Jansen, Tim Rasmus Kiehl, Bj rn Lindequist, Nora Charlotte Pohlan, Sarah Schmell, Klaus Strohmenger, Falk Zakrzewski, Markus Plass, Michael Takla, Tobias K ster, Andr Homeyer, Peter Hufnagl
在过去的十年里，病理学领域的人工智能方法取得了长足的进步。然而，由于存在诸多挑战，包括将研究结果转化为临床诊断产品方面的技术和监管障碍以及缺乏标准化接口，融入常规临床实践的进程一直很缓慢。开放且供应商中立的 EMPAIA 计划解决了这些挑战。在此，我们概述了 EMPAIA 的成就和经验教训。 EMPAIA 整合了病理人工智能生态系统的各个利益相关者，即病理学家、计算机科学家和行业。通过密切合作，我们制定了技术互操作性标准、人工智能测试和产品开发建议以及可解释性方法。我们实施了模块化开源 EMPAIA 平台，并成功集成了来自 6 个不同供应商的 11 个基于人工智能的图像分析应用程序，展示了不同的应用程序如何使用单一标准化界面。我们对欧洲和亚洲 14 个不同病理实验室的需求进行了优先排序，并评估了人工智能在真实临床环境中的使用情况。除了技术发展之外，我们还为所有利益相关者创建了一个论坛，以分享有关数字病理学和人工智能的信息和经验。商业、临床和学术利益相关者现在可以采用 EMPAIA 的通用开源接口，为大规模标准化和流程简化提供了独特的机会。需要进一步努力，在日常实验室使用中有效、广泛地建立人工智能辅助。

Multispectral Stereo-Image Fusion for 3D Hyperspectral Scene Reconstruction
Authors Eric L. Wisotzky, Jost Triller, Anna Hilsmann, Peter Eisert
光谱成像可以分析人眼不可见的光学材料特性。近年来引入了不同的光谱捕获设置，例如基于滤光轮、推扫、线扫描或马赛克相机的光谱捕获设置，以支持农业、医学和工业监控领域的广泛应用。然而，这些系统通常存在不同的缺点，例如缺乏实时能力、有限的光谱覆盖范围或低空间分辨率。为了解决这些缺点，我们提出了一种新颖的方法，将两个覆盖不同光谱范围的校准多光谱实时快照相机组合到立体系统中。因此，可以连续捕获高光谱数据立方体。结合使用不同的多光谱快照相机可实现 3D 重建和光谱分析。两张捕获的图像都经过去马赛克处理，以避免空间分辨率损失。我们将一台摄像机的光谱数据融合到另一台摄像机中，以接收空间和光谱高分辨率的视频流。

Precipitation Prediction Using an Ensemble of Lightweight Learners
Authors Xinzhe Li, Sun Rui, Yiming Niu, Yao Liu
降水预报在现代农业和工业中发挥着至关重要的作用。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com