【AI视野·今日CV 计算机视觉论文速览第301期】Mon, 4 Mar 2024

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 4 Mar 2024
Totally 74 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Point Could Mamba: Point Cloud Learning via State Space Model
Authors Tao Zhang, Xiangtai Li, Haobo Yuan, Shunping Ji, Shuicheng Yan
在这项工作中，我们首次证明基于 Mamba 的点云方法可以优于基于点的方法。 Mamba 展现出强大的全局建模能力和线性计算复杂性，使其对点云分析极具吸引力。为了使 Mamba 能够更有效地处理 3D 点云数据，我们提出了一种新颖的一致遍历序列化，将点云转换为 1D 点序列，同时确保序列中的相邻点在空间上相邻。一致遍历序列化通过排列 x、y、z 坐标的顺序产生六种变体，这些变体的协同使用有助于 Mamba 全面观察点云数据。此外，为了帮助 Mamba 更有效地处理不同顺序的点序列，我们引入了点提示来告知 Mamba 序列的排列规则。最后，我们提出基于空间坐标映射的位置编码，以更好地将位置信息注入点云序列。基于这些改进，我们构建了一个名为 Point Cloud Mamba 的点云网络，它结合了局部和全局建模。

Can Transformers Capture Spatial Relations between Objects?
Authors Chuan Wen, Dinesh Jayaraman, Yang Gao
物体之间的空间关系代表了人类理解世界并与世界互动的关键场景信息。为了研究当前计算机视觉系统识别物理基础空间关系的能力，我们首先提出精确的关系定义，以允许一致地注释基准数据集。尽管与识别文献中的其他任务相比，该任务明显简单，但我们观察到现有方法在此基准上表现不佳。我们提出了利用变压器的长期注意力能力来完成这项任务的新方法，并评估关键设计原则。我们确定了一个简单的 RelatiViT 架构，并证明它优于当前的所有方法。据我们所知，这是第一种在野外环境中的空间关系预测方面令人信服地优于朴素基线的方法。

Rethinking Inductive Biases for Surface Normal Estimation
Authors Gwangbin Bae, Andrew J. Davison
尽管对精确表面法线估计模型的需求不断增长，但现有方法使用通用密集预测模型，采用与其他任务相同的归纳偏差。在本文中，我们讨论了表面法线估计所需的归纳偏差，并建议 1 利用每像素光线方向，2 通过学习相邻表面法线的相对旋转来编码它们之间的关系。所提出的方法可以生成清晰、分段平滑的预测，以应对任意分辨率和纵横比的野外图像的挑战。与最近基于 ViT 的最先进模型相比，我们的方法显示出更强的泛化能力，尽管是在小几个数量级的数据集上进行训练。

Tri-Modal Motion Retrieval by Learning a Joint Embedding Space
Authors Kangning Yin, Shihao Zou, Yuxuan Ge, Zheng Tian
信息检索是一个不断发展且至关重要的研究领域。对高质量人体运动数据尤其是在线获取的巨大需求导致了人体运动研究工作的激增。先前的工作主要集中在双模态学习，例如文本和动作任务，但很少探索三模态学习。直观上，引入额外的模态可以丰富模型的应用场景，更重要的是，额外模态的适当选择还可以充当中介并增强其他两种不同模态之间的一致性。在这项工作中，我们引入了 LAVIMO LAnguage VIdeo MOtionalignment，这是一种用于三种模态学习的新颖框架，它将以人为中心的视频作为附加模态，从而有效地弥合了文本和运动之间的差距。此外，我们的方法利用专门设计的注意力机制来促进文本、视频和运动模式之间增强的对齐和协同效应。

Hydra: Computer Vision for Data Quality Monitoring
Authors Thomas Britton, Torri Jeske, David Lawrence, Kishansingh Rajput
Hydra 是一个利用计算机视觉执行近实时数据质量管理的系统，最初于 2019 年为 D 厅开发。此后，它已部署在杰斐逊实验室的所有实验厅，其中 B 厅的 CLAS12 协作是第一个在 GlueX 之外充分利用 Hydra。该系统包括管理模型、模型推理和数据流的后端进程。前端组件可通过网页访问，允许探测器专家和值班人员查看系统并与之交互。

COLON: The largest COlonoscopy LONg sequence public database
Authors Lina Ruiz, Franklin Sierra Jerez, Jair Ruiz, Fabio Martinez
结直肠癌是全球第三大侵袭性癌症。息肉作为该疾病的主要生物标志物，可通过结肠镜检查程序进行检测、定位和表征。尽管如此，在检查过程中，由于相机移动、光线变化以及息肉和肠皱襞的密切相似性等具有挑战性的条件，多达 25 个息肉被遗漏。此外，观察和检测肠道异常区域存在明显的主观性和专家依赖性。目前，公开可用的息肉数据集使得致力于表征非参数息肉形状的计算策略取得了重大进展。这些计算策略在分割任务中取得了高达 90 分的优异成绩。尽管如此，这些策略在始终观察息肉的裁剪和专家选择的帧上运行。因此，这些计算近似值与临床场景和实际应用相距甚远，在临床场景和实际应用中，结肠镜检查在具有高结构变异性的肠道背景上是多余的。事实上，在完整的结肠镜检查记录中，息肉通常只占总观察结果的不到 1 个。这项工作引入了 COLON，这是最大的结肠镜检查长序列数据集，包含大约 3 万个息肉标记帧和 40 万个背景帧。该数据集收集自总共 30 例不同阶段息肉的完整结肠镜检查、准备程序的变化以及某些病例对手术器械的观察。此外，还集成了 10 个全肠道背景视频控制结肠镜检查，以实现稳健的息肉背景帧区分。

Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks
Authors Yuhao Liu, Fang Liu, Zhanghan Ke, Nanxuan Zhao, Rynson W.H. Lau
在大规模数据集上训练的扩散模型在图像合成方面取得了显着的进展。然而，由于扩散过程的随机性，他们经常难以处理需要保留细节的各种低级任务。为了克服这一限制，我们提出了一个新的 Diff 插件框架，使单个预训练的扩散模型能够在各种低级别任务中生成高保真度结果。具体来说，我们首先提出了一个具有双分支设计的轻量级任务插件模块，以提供特定于任务的先验，指导保留图像内容的扩散过程。然后，我们提出了一个插件选择器，它可以根据文本指令自动选择不同的任务插件，允许用户通过用自然语言指示多个低级任务来编辑图像。我们对 8 项低级视觉任务进行了广泛的实验。结果证明了 Diff Plugin 相对于现有方法的优越性，特别是在现实场景中。

Region-Adaptive Transform with Segmentation Prior for Image Compression
Authors Yuxi Liu, Wenhan Yang, Huihui Bai, Yunchao Wei, Yao Zhao
近年来，学习图像压缩 LIC 取得了显着的进步。现有的作品通常采用基于 CNN 或基于自注意力的模块作为压缩的变换方法。然而，之前还没有针对特定区域的神经变换的研究。作为回应，我们引入了与类别无关的分割掩模，即没有类别标签的语义掩模，用于提取区域自适应上下文信息。我们提出的模块“区域自适应变换”在掩模引导的不同区域上应用自适应卷积。此外，我们引入了一个名为“Scale Affine Layer”的即插即用模块，以整合来自不同地区的丰富上下文。虽然之前的图像压缩工作涉及分割掩模作为额外的中间输入，但我们的方法与它们有很大不同。我们的优势在于，为了避免额外的比特率开销，我们将这些掩码视为特权信息，可以在模型训练阶段访问，但在推理阶段不需要。据我们所知，我们是第一个采用类不可知掩码作为特权信息的公司，并在像素保真度指标（例如峰值信噪比 PSNR）方面实现了卓越的性能。实验结果表明，与之前表现良好的方法相比，我们取得了进步，与 VTM 17.0 相比，比特率节省了约 8.2 倍。

Flattening Singular Values of Factorized Convolution for Medical Images
Authors Zexin Feng, Na Zeng, Jiansheng Fang, Xingyue Wang, Xiaoxi Lu, Heng Meng, Jiang Liu
卷积神经网络 CNN 长期以来一直是稳健的医学图像处理 MIP 的首选范例。因此，在具有不同计算能力的设备上有效且高效地部署CNN以支持计算机辅助诊断至关重要。许多方法采用分解卷积层来减轻有限计算资源的负担，但以牺牲表达能力为代价。为此，考虑到弱医学图像驱动的CNN模型优化，提出了奇异值均衡泛化器诱导的因式分解卷积SFConv来提高MIP模型中因式分解卷积的表达能力。我们首先将卷积滤波器的权重矩阵分解为两个低秩矩阵以实现模型缩减。然后最小化两个低秩权重矩阵和均匀分布之间的KL散度，从而减少方差显着的奇异值方向的数量。

Rethinking Few-shot 3D Point Cloud Semantic Segmentation
Authors Zhaochong An, Guolei Sun, Yun Liu, Fayao Liu, Zongwei Wu, Dan Wang, Luc Van Gool, Serge Belongie
本文重新审视了少量镜头 3D 点云语义分割 FS PCS，重点关注最先进的前景泄漏和稀疏点分布中的两个重要问题。前者源于非均匀点采样，允许模型区分前景和背景之间的密度差异，以便更容易分割。后者仅采样 2,048 个点，限制了语义信息并偏离了现实世界的实践。为了解决这些问题，我们引入了标准化的 FS PCS 设置，并在此基础上构建了新的基准。此外，我们提出了一种新颖的 FS PCS 模型。以前的方法基于特征优化，主要通过细化支持特征来增强原型，而我们的方法基于相关性优化，称为相关性优化分段 COSeg 。具体来说，我们为每个查询点计算类特定的多原型相关性 CMC，表示其与类别原型的相关性。然后，我们提出了超相关增强 HCA 模块来增强 CMC。此外，为了解决少数镜头训练的固有特性会导致模型的基础敏感性，我们建议在训练期间学习基础类的非参数原型。学习的基础原型用于通过基础原型校准 BPC 模块校准背景类的相关性。对流行数据集的实验证明了 COSeg 相对于现有方法的优越性。

Learning Causal Features for Incremental Object Detection
Authors Zhenwei He, Lei Zhang
对象检测在训练阶段限制了其可识别类别，无法覆盖用户感兴趣的所有对象。为了满足实际需要，检测器的增量学习能力成为现实世界应用的关键因素。不幸的是，神经网络在执行新任务时不可避免地会遇到灾难性的遗忘问题。为此，许多增量对象检测模型通过重放样本或从先前模型中进行蒸馏来保留先前任务的知识。然而，他们忽略了一个重要因素，即模型的性能主要取决于其特征。这些模型试图用先前的样本唤醒神经网络的记忆，但不能防止遗忘。为此，在本文中，我们通过学习因果特征提出了一种增量因果对象检测ICOD模型，该模型可以适应更多任务。传统的目标检测模型不可避免地依赖于数据偏差或数据特定特征来获得检测结果，无法适应新的任务。当模型满足增量学习的要求时，数据偏差信息对新任务不利，增量学习可能消除这些特征并导致遗忘。为此，我们引入了ICOD来学习因果特征，而不是训练检测器时的数据偏差特征。因此，当模型应用于新任务时，旧任务的因果特征可以帮助增量学习过程缓解灾难性遗忘问题。我们对模型进行了多次实验，结果表明没有数据偏差的因果特征可以使模型更好地适应新任务。

Improving Explicit Spatial Relationships in Text-to-Image Generation through an Automatically Derived Dataset
Authors Ander Salaberria, Gorka Azkune, Oier Lopez de Lacalle, Aitor Soroa, Eneko Agirre, Frank Keller
现有的工作已经观察到当前的文本到图像系统不能准确地反映对象之间的明确空间关系，例如左侧或下方。我们假设这是因为用于训练这些模型的图像标题中很少出现明确的空间关系。我们提出了一种自动方法，根据现有图像，生成包含 14 个显式空间关系的合成标题。我们引入了 Spatial Relation for Generation SR4G 数据集，其中包含 990 万个用于训练的图像标题对，以及超过 6 万个用于评估的标题。为了测试泛化，我们还提供了一个看不见的分割，其中训练和测试标题中的对象集是不相交的。 SR4G 是第一个可用于对文本到图像系统进行空间微调的数据集。我们表明，微调两个不同的稳定扩散模型（表示为 SD SR4G）可使 VISOR 指标提高多达 9 个点。这一改进在看不见的分割中保持不变，表明 SD SR4G 能够泛化到看不见的物体。 SD SR4G 以更少的参数改进了现有技术，并避免了复杂的架构。我们的分析表明，所有关系的改善都是一致的。

Rethinking cluster-conditioned diffusion models
Authors Nikolas Adaloglou, Tim Kaiser, Felix Michels, Markus Kollmann
我们对使用聚类分配的扩散模型的图像级调节进行了全面的实验研究。我们阐明了有关图像聚类的各个组件如何影响三个数据集的图像合成。通过结合图像聚类和扩散模型的最新进展，我们表明，给定图像合成视觉组的最佳聚类粒度，聚类调节可以实现最先进的 FID，即 CIFAR10 和 CIFAR100 上分别为 1.67、2.17，同时获得训练样本效率强。最后，我们提出了一种新颖的方法来导出聚类上界，该方法仅使用基于特征的聚类来减少视觉组的搜索空间。与现有方法不同，我们发现聚类和聚类条件图像生成之间没有显着联系。

Flatten Long-Range Loss Landscapes for Cross-Domain Few-Shot Learning
Authors Yixiong Zou, Yicong Liu, Yiman Hu, Yuhua Li, Ruixuan Li
跨域少样本学习 CDFSL 旨在通过利用从具有丰富训练样本的源域转移的先验知识，从目标域的有限训练数据中获取知识。 CDFSL 面临着跨不同领域转移知识以及使用有限的训练数据微调模型的挑战。为了应对这些挑战，我们首先将损失景观的分析从参数空间扩展到表示空间，这使我们能够同时解释 CDFSL 模型的转移和微调困难。我们观察到表示空间的损失景观中的尖锐极小值导致难以转移和微调的表示。此外，现有的基于平坦度的方法由于其短程平坦度而具有有限的泛化能力。为了增强可转移性并促进微调，我们引入了一种简单而有效的方法来实现损失景观中最小值的长程平坦化。这种方法将不同归一化的表示视为损失景观中的最小值，并通过随机采样插值表示来展平中间的高损失区域。我们将此方法实现为一个新的归一化层，取代了 CNN 和 ViT 中的原始归一化层。该层简单且轻量级，仅引入最少数量的附加参数。 8 个数据集的实验结果表明，我们的方法在平均准确度方面优于最先进的方法。此外，与当前单个数据集上的最佳方法相比，我们的方法实现了高达 9 的性能提升。

Lincoln's Annotated Spatio-Temporal Strawberry Dataset (LAST-Straw)
Authors Katherine Margaret Frances James, Karoline Heiwolt, Daniel James Sargent, Grzegorz Cielniak
用于育种和植物研究的植物自动表型分析有望以以前无法达到的观察频率提供植物性状的定量指标。然而，用于执行高通量表型分析的工具的开发人员受到用于执行验证的相关数据集的可用性的限制。为此，我们提出了两个品种草莓植株 3D 点云的时空数据集，总共 84 个单独的点云。我们专注于此类工具的最终用途，即提取生物学相关表型，并在数据集上演示表型分析流程。这包括分割、骨架化和跟踪等步骤，我们详细介绍了每个阶段如何促进不同表型的提取或提供数据见解。我们特别注意到，评估的重点是表型的验证，从管道每个步骤获取的表示中提取，而不是仅仅专注于评估表示本身。因此，在可能的情况下，我们为每个步骤提取的表型提供计算机模拟地面真实基线，并引入对骨架化及其提取的长度特征进行定量评估的方法。

Multi-Task Learning Using Uncertainty to Weigh Losses for Heterogeneous Face Attribute Estimation
Authors Huaqing Yuan, Yi He, Peng Du, Lu Song
人脸图像包含多种属性信息。在本文中，我们提出了一种基于信息共享的序数和名义属性联合估计的通用框架。我们使用浅层特征的硬参数共享来解决异构属性之间的相关性问题，并通过考虑每个属性估计任务的同方差不确定性来权衡多个损失函数。这导致了人脸多个属性的最优估计，并降低了多任务学习的训练成本。具有多个人脸属性的基准的实验结果表明，与现有技术相比，所提出的方法具有优越的性能。

SURE: SUrvey REcipes for building reliable and robust deep networks
Authors Yuting Li, Yingyi Chen, Xuanlong Yu, Dexiong Chen, Xi Shen
在本文中，我们重新审视深度神经网络中的不确定性估计技术，并整合了一套技术以增强其可靠性。我们的研究表明，模型正则化、分类器和优化等多种技术的集成应用大大提高了图像分类任务中不确定性预测的准确性。这些技术的协同效应在我们新颖的 SURE 方法中达到了顶峰。我们根据故障预测基准严格评估 SURE，故障预测基准是不确定性估计功效的关键测试平台。我们的结果表明，在各种数据集和模型架构中，比单独部署每种技术的模型始终具有更好的性能。当应用于现实世界的挑战时，例如数据损坏、标签噪声和长尾类分布，SURE 表现出卓越的稳健性，提供优于或与当前最先进的专业方法相当的结果。特别是在动物 10N 和食品 101N 上使用噪声标签进行学习时，SURE 无需任何特定于任务的调整即可实现最先进的性能。这项工作不仅为稳健的不确定性估计树立了新的基准，而且还为其在可靠性至关重要的各种现实世界场景中的应用铺平了道路。

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
Authors Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
大型语言模型构建在基于变压器的架构之上，用于处理文本输入。例如，LLaMA 在众多开源实现中脱颖而出。可以使用相同的变压器来处理 2D 图像吗？在本文中，我们通过推出类似 LLaMA 的平面和金字塔形式的视觉变压器（称为 VisionLLaMA）来回答这个问题，它是为此目的量身定制的。 VisionLLaMA 是一个统一的通用建模框架，用于解决大多数视觉任务。我们在图像感知（尤其是图像生成）的大部分下游任务中使用典型的预训练范例来广泛评估其有效性。在许多情况下，VisionLLaMA 比以前最先进的视觉转换器表现出了巨大的进步。我们相信 VisionLLaMA 可以作为视觉生成和理解的强大新基线模型。

Learning and Leveraging World Models in Visual Representation Learning
Authors Quentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, Yann LeCun
联合嵌入预测架构 JEPA 已成为一种有前途的自我监督方法，它通过利用世界模型进行学习。虽然之前仅限于预测输入的缺失部分，但我们探索如何将 JEPA 预测任务推广到更广泛的损坏集。我们引入了图像世界模型，这种方法超越了蒙版图像建模，并学习预测潜在空间中全局光度变换的效果。我们研究了学习绩效 IWM 的秘诀，并表明它依赖于条件、预测难度和能力三个关键方面。此外，我们还表明，通过 IWM 学习的预测世界模型可以通过微调来解决各种任务，微调的 IWM 世界模型可以匹配或超越以前的自监督方法的性能。

Selective-Stereo: Adaptive Frequency Information Selection for Stereo Matching
Authors Xianqi Wang, Gangwei Xu, Hao Jia, Xin Yang
基于迭代优化的立体匹配方法，如RAFT Stereo和IGEV Stereo，已经发展成为立体匹配领域的基石。然而，由于感受野固定，这些方法很难同时捕获边缘中的高频信息和平滑区域中的低频信息。因此，它们往往会丢失细节、模糊边缘并在无纹理区域产生错误匹配。在本文中，我们提出了选择性循环单元 SRU，这是一种用于立体匹配的新型迭代更新算子。 SRU模块可以自适应地融合边缘和平滑区域的多个频率下的隐藏视差信息。为了执行自适应融合，我们引入了一个新的上下文空间注意力 CSA 模块来生成注意力图作为融合权重。 SRU 使网络能够跨多个频率聚合隐藏视差信息，从而降低迭代过程中重要的隐藏视差信息丢失的风险。为了验证SRU的普适性，我们将其应用于代表性的迭代立体匹配方法，统称为选择性立体。在所有已发布的方法中，我们的 Selective Stereo 在 KITTI 2012、KITTI 2015、ETH3D 和 Middlebury 排行榜上排名第一。

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization
Authors Mengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang
文本到图像定制旨在为给定主题合成文本驱动的图像，最近彻底改变了内容创建。现有的作品遵循伪词范式，即将给定的主题表示为伪词，然后将它们与给定的文本组合起来。然而，伪词与给定文本固有的影响范围纠缠在一起，导致了双重最优悖论，即给定主体的相似性和给定文本的可控性不可能同时最优。我们提出的 RealCustom 首次通过精确地将主题影响仅限于相关部分来将相似性与可控性分开，这是通过逐渐将真实文本单词从其一般含义缩小到特定主题并利用其交叉注意力来区分相关性来实现的。具体来说，RealCustom在训练过程中引入了一种新颖的训练推理解耦框架1，RealCustom通过新颖的自适应评分模块学习视觉条件与原始文本条件之间的一般对齐，以在推理过程中自适应地调节影响量2，提出一种新颖的自适应掩模指导策略来迭代更新给定主体的影响范围和影响量，逐步缩小真实文本词的生成范围。综合实验证明了RealCustom在开放领域卓越的实时定制能力，首次实现了给定主体前所未有的相似性和给定文本的可控性。

TempCompass: Do Video LLMs Really Understand Videos?
Authors Yuanxin Liu, Shicheng Li, Yi Liu, Yuxiang Wang, Shuhuai Ren, Lei Li, Sishuo Chen, Xu Sun, Lu Hou
最近，人们对视频大语言模型视频法学硕士的兴趣激增。然而，现有的基准测试无法提供关于视频法学硕士时间感知能力的全面反馈。一方面，它们中的大多数无法区分不同的时间方面，例如速度、方向，因此无法反映这些特定方面的细微差别。另一方面，它们受到任务格式多样性的限制，例如，只有多选 QA，这阻碍了对时间感知性能在不同类型任务之间的差异的理解。受这两个问题的推动，我们提出了 textbf TempCompass 基准，它引入了时间方面和任务格式的多样性。为了收集高质量的测试数据，我们设计了两种新颖的策略 1 在视频收集中，我们构建了共享相同静态内容但在特定时间方面不同的冲突视频，这阻止了视频法学硕士利用单帧偏差或语言先验。 2 为了收集任务指令，我们提出了一种范例，其中人类首先注释视频的元信息，然后法学硕士生成指令。我们还设计了一种基于法学硕士的方法来自动准确地评估视频法学硕士的回答。基于 TempCompass，我们综合评估了 8 个最先进的 SOTA Video LLM 和 3 个 Image LLM，并揭示了这些模型表现出明显较差的时间感知能力的明显事实。

When ControlNet Meets Inexplicit Masks: A Case Study of ControlNet on its Contour-following Ability
Authors Wenjie Xuan, Yufei Xu, Shanshan Zhao, Chaoyue Wang, Juhua Liu, Bo Du, Dacheng Tao
ControlNet 擅长创建与用户提供的蒙版中的精确轮廓紧密匹配的内容。然而，当这些蒙版包含噪声时（对于非专家用户来说经常发生这种情况），输出将包含不需要的伪影。本文首先通过深入分析强调了控制这些具有不同劣化程度的不明确掩模的影响的关键作用。随后，为了增强隐式掩模的可控性，设计了一种由恶化估计器和形状先验调制块组成的先进形状感知控制网络。劣化估计器评估所提供的面罩的劣化因子。然后，在调制模块中利用该因子来自适应调制模型的轮廓跟随能力，这有助于消除隐式掩模中的噪声部分。大量的实验证明，它可以有效地鼓励 ControlNet 稳健地解释不准确的空间条件，而不是盲目地遵循给定的轮廓。我们展示了修改形状先验和可组合形状可控生成等应用场景。

Deformable One-shot Face Stylization via DINO Semantic Guidance
Authors Yang Zhou, Zichong Chen, Hui Huang
本文解决了单镜头脸部风格化的复杂问题，重点是同时考虑外观和结构，这是以前的方法所无法做到的。我们探索与传统的单一图像风格参考不同的变形感知面部风格化，而是选择真实风格图像对。我们方法的基石是利用自监督视觉转换器，特别是 DINO ViT，在真实和风格领域建立强大且一致的面部结构表示。我们的风格化过程首先通过集成空间变换器 STN 使 StyleGAN 生成器具有变形感知能力。然后，我们在 DINO 语义的指导下引入了两个用于生成器微调的创新约束，即调节 DINO 空间中的方向向量的方向变形损失，以及基于 DINO 令牌自相似性的相对结构一致性约束，确保生成的多样化。此外，还采用风格混合来使颜色生成与参考对齐，从而最大限度地减少不一致的对应关系。该框架为一般的一次脸部风格化提供了增强的可变形性，通过大约 10 分钟的微调持续时间实现了显着的效率。广泛的定性和定量比较证明了我们相对于最先进的一次性面部风格化方法的优越性。

An Ordinal Diffusion Model for Generating Medical Images with Different Severity Levels
Authors Shumpei Takezaki, Seiichi Uchida
扩散模型由于其高图像质量而最近被用于医学图像生成。在本研究中，我们专注于生成具有序数类的医学图像，这些图像具有序数关系，例如严重程度。我们提出了一种序数扩散模型 ODM，它控制类之间估计噪声图像的序数关系。我们的模型通过生成多个严重级别的视网膜和内窥镜图像进行了实验评估。

LoMOE: Localized Multi-Object Editing via Multi-Diffusion
Authors Goirik Chakrabarty, Aditya Chandrasekar, Ramya Hebbalaguppe, Prathosh AP
扩散模型领域的最新发展已经证明了生成高质量即时条件图像编辑的卓越能力。然而，以前的方法主要依赖于图像编辑的文本提示，这在对包含单个多个对象的场景中的特定对象或细粒度区域进行精确编辑时往往效率较低。我们引入了一种新颖的框架，通过多重扩散过程进行零镜头局部多对象编辑，以克服这一挑战。该框架使用户能够对图像中的对象执行各种操作，例如一次性添加、替换或编辑复杂场景中的许多对象。我们的方法利用前景蒙版和相应的简单文本提示，对目标区域施加局部影响，从而实现高保真图像编辑。潜在空间内的交叉注意力和背景保留损失的组合确保了正在编辑的对象的特征得到保留，同时实现高质量、无缝的背景重建，与当前方法相比，伪影更少。我们还策划并发布了一个专用于多对象编辑的数据集，名为 texttt LoMOE Bench。

Abductive Ego-View Accident Video Understanding for Safe Driving Perception
Authors Jianwu Fang, Lei lei Li, Junfei Zhou, Junbin Xiao, Hongkai Yu, Chen Lv, Jianru Xue, Tat Seng Chua
我们提出了 MM AU，这是一个用于多模态事故视频理解的新颖数据集。 MM AU 包含 11,727 个疯狂的自我视图事故视频，每个视频都有时间对齐的文本描述。我们标注了超过 223 万个对象框和 58,650 对基于事故原因的视频，涵盖 58 个事故类别。 MM AU 支持各种事故理解任务，特别是多模态视频扩散，以了解事故因果链以实现安全驾驶。我们与 MM AU 合作，提出了用于安全驾驶感知 AdVersa SD 的绑架事故视频理解框架。 AdVersa SD 通过以对象为中心的视频扩散 OAVD 方法执行视频扩散，该方法由溯因 CLIP 模型驱动。该模型涉及对比交互损失，以学习正常、接近事故、事故帧的配对以及相应的文本描述，例如事故原因、预防建议和事故类别。 OAVD在视频生成中固定原始帧背景内容的同时强制进行因果区域学习，以找到某些事故的主导因果链。大量实验验证了 AdVersa SD 的溯因能力以及 OAVD 相对于最先进的扩散模型的优越性。

Deep Learning Computed Tomography based on the Defrise and Clack Algorithm
Authors Chengze Ye, Linda Sophie Schneider, Yipeng Sun, Andreas Maier
这项研究提出了一种使用已知算子学习来重建特定轨道的锥形束计算机断层扫描 CBCT 的新方法。与传统方法不同，该技术采用滤波反投影型 FBP 型算法，该算法集成了独特的自适应滤波过程。这个过程涉及一系列操作，包括加权、微分、2D Radon 变换和反投影。该滤波器是针对特定轨道几何形状而设计的，并使用基于深度学习的数据驱动方法获得。该方法有效地学习和优化滤波器的轨道相关组件。该方法通过实验成功地从圆形轨道投影数据中学习参数，证明了其能力。随后，优化的参数用于重建图像，产生与解析解非常相似的结果。这证明了该方法从任何特定轨道投影数据中学习适当参数并实现重建的潜力。

HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding
Authors Zhaorun Chen, Zhuokai Zhao, Hongyin Luo, Huaxiu Yao, Bo Li, Jiawei Zhou
虽然大型视觉语言模型 LVLM 在解释多模态上下文方面表现出了令人印象深刻的能力，但它们总是遭受物体幻觉 OH 的困扰。我们引入 HALC，这是一种新颖的解码算法，旨在减轻 LVLM 中的 OH。 HALC 在视觉语言任务中利用独特的细粒度最佳视觉信息，并同时在本地和全局上下文中运行。具体来说，HALC 在本地集成了强大的自动焦点接地机制，可动态纠正幻觉标记，并在全局集成了专门的波束搜索算法，可在保持文本生成质量的同时显着减少 OH。此外，HALC 可以作为即插即用模块集成到任何 LVLM 中，无需额外培训。

Data-efficient Event Camera Pre-training via Disentangled Masked Modeling
Authors Zhenpeng Huang, Chao Li, Hao Chen, Yongjian Deng, Yifeng Geng, Limin Wang
在本文中，我们提出了一种新的基于数据高效体素的事件摄像机自监督学习方法。我们的预训练克服了以前方法的局限性，这些方法要么通过将事件序列转换为二维图像来利用预训练的图像模型来牺牲时间信息，要么直接使用配对图像数据进行知识蒸馏以增强事件流的学习。为了使我们的预训练数据高效，我们首先设计了一种语义均匀掩蔽方法，以解决使用随机掩蔽时由于非均匀数据中不同区域的重建难度不同而导致的学习不平衡问题。此外，我们通过将传统的混合掩模建模过程明确地分解为两个分支（即局部时空重建和全局语义重建）来简化传统的混合掩模建模过程，以鼓励编码器分别捕获局部相关性和全局语义。这种分解使我们的自监督学习方法能够使用最少的预训练数据更快地收敛。与以前的方法相比，我们的自监督学习方法不依赖于成对的 RGB 图像，而是能够同时探索多个尺度的空间和时间线索。

GLFNET: Global-Local (frequency) Filter Networks for efficient medical image segmentation
Authors Athanasios Tragakis, Qianying Liu, Chaitanya Kaul, Swalpa Kumar Roy, Hang Dai, Fani Deligianni, Roderick Murray Smith, Daniele Faccio
我们提出了一种称为全局局部过滤网络 GLFNet 的新型变压器式架构，用于医学图像分割，并展示了其最先进的性能。我们用全局局部过滤器块的组合替换自注意力机制，以优化模型效率。全局滤波器从整个特征图中提取特征，而局部滤波器则自适应地创建为同一特征图的 4x4 块，并添加受限尺度信息。特别是，特征提取发生在频域而不是常用的空间图像域中，以促进更快的计算。来自空间和频率空间的信息的融合创建了一个关于复杂性、所需数据和性能的有效模型。

Invariant Test-Time Adaptation for Vision-Language Model Generalization
Authors Huan Ma, Yan Zhu, Changqing Zhang, Peilin Zhao, Baoyuan Wu, Long Kai Huang, Qinghua Hu, Bingzhe Wu
视觉语言基础模型由于其在广泛的图像文本配对数据集上的可扩展性，在众多下游任务中表现出了显着的成功。然而，这些模型在应用于长尾任务（例如细粒度图像分类）时显示出明显的局限性，因为决策捷径阻碍了它们的泛化能力。在这项工作中，我们发现 CLIP 模型拥有丰富的特征，包括所需的不变因果特征和不需要的决策捷径。此外，CLIP在下游任务上表现不佳源于其无法根据特定任务要求有效利用预先训练的特征。为了应对这一挑战，本文引入了一种测试时提示调整范例，该范例可以优化可学习的提示，从而迫使模型利用真正的因果不变特征，同时在推理阶段忽略决策捷径。所提出的方法有效地减轻了对潜在误导性的、与任务无关的上下文信息的过度依赖，同时强调了关键的、与任务相关的视觉线索。

HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape Generation
Authors Zhiying Leng, Tolga Birdal, Xiaohui Liang, Federico Tombari
从文本生成 3D 形状是 3D 表示学习中的一项基本任务。文本形状对呈现出分层结构，其中像椅子这样的一般文本覆盖了椅子的所有 3D 形状，而更详细的提示则指的是更具体的形状。此外，文本和 3D 形状本质上都是分层结构。然而，现有的 Text2Shape 方法（例如 SDFusion）并没有利用这一点。在这项工作中，我们提出了 HyperSDFusion，这是一种双分支扩散模型，可以根据给定文本生成 3D 形状。由于双曲空间适合处理分层数据，因此我们建议学习双曲空间中文本和 3D 形状的分层表示。首先，我们引入双曲文本图像编码器来学习双曲空间中文本的顺序和多模态层次特征。此外，我们设计了一个双曲文本图卷积模块来学习双曲空间中文本的层次特征。为了充分利用这些文本特征，我们引入了双分支结构将文本特征嵌入到 3D 特征空间中。最后，为了赋予生成的 3D 形状分层结构，我们设计了双曲分层损失。我们的方法是第一个探索文本到形状生成的双曲层次表示的方法。

MS-Net: A Multi-Path Sparse Model for Motion Prediction in Multi-Scenes
Authors Xiaqiang Tang, Weigao Sun, Siyuan Hu, Yiyang Sun, Yafeng Guo
人类行为的多模态和随机特征使得运动预测成为一项极具挑战性的任务，这对于自动驾驶至关重要。尽管深度学习方法已经在这一领域展示了其巨大潜力，但在多个驾驶场景（例如并道、环岛、交叉路口）之间建立联系以及深度学习模型的设计仍然悬而未决。当前基于学习的方法通常使用一种统一的模型来预测不同场景中的轨迹，这可能会导致单个场景的次优结果。为了解决这个问题，我们提出了多场景网络（Multi Scenes Network）。 MS Net，这是一个通过进化过程训练的多路径稀疏模型。 MS Net 在推理阶段有选择地激活其参数的子集，以生成每个场景的预测结果。在训练阶段，区分场景下的运动预测任务被抽象为多任务学习问题，设计了一种进化算法来鼓励网络搜索每个场景的最优参数，同时共享不同场景之间的公共知识。

Revisiting Disentanglement in Downstream Tasks: A Study on Its Necessity for Abstract Visual Reasoning
Authors Ruiqian Nai, Zixin Wen, Ji Li, Yuanzhi Li, Yang Gao
在表示学习中，解开的表示是非常理想的，因为它以可分离且紧凑的模式对数据的生成因素进行编码。研究人员主张利用解开的表征来完成具有令人鼓舞的经验证据的下游任务。本文进一步研究了下游应用中解缠结表示的必要性。具体来说，我们表明，在基本的下游任务（抽象视觉推理）中，维度方面的解缠结表示是不必要的。我们提供了广泛的经验证据来证明解开的必要性，涵盖多个数据集、表示学习方法和下游网络架构。此外，我们的研究结果表明，表征的信息量是比解开更好的下游绩效指标。最后，信息性和解缠结之间的正相关性解释了先前作品中所声称的解缠结表示的有用性。

Task Indicating Transformer for Task-conditional Dense Predictions
Authors Yuxiang Lu, Shalayiding Sirejiding, Bayram Bayramli, Suizhi Huang, Yue Ding, Hongtao Lu
任务条件模型是高效多任务学习的独特流。现有的工作在学习任务无关和任务特定表示方面遇到了关键限制，这主要是由于基于 CNN 的架构产生的全局上下文建模的缺陷，以及解码器内多尺度特征交互的缺陷。在本文中，我们引入了一种称为任务指示变压器 TIT 的新型任务条件框架来应对这一挑战。我们的方法在变压器块内设计了一个混合任务适配器模块，它通过矩阵分解合并了一个任务指示矩阵，从而通过捕获任务内和任务间特征来增强长程依赖建模和参数高效特征适应。此外，我们提出了一个任务门解码器模块，它利用任务指示向量和门控机制来促进由任务嵌入引导的自适应多尺度特征细化。

DAMS-DETR: Dynamic Adaptive Multispectral Detection Transformer with Competitive Query Selection and Adaptive Feature Fusion
Authors Guo Junjie, Gao Chenqiang, Liu Fangcen, Meng Deyu
红外可见光物体检测旨在通过融合红外和可见光图像的互补信息来实现鲁棒的全天物体检测。然而，高度动态可变的互补特性和普遍存在的模态错位使得互补信息的融合变得困难。在本文中，我们提出了一种基于DETR的动态自适应多光谱检测变压器DAMS DETR，以同时解决这两个挑战。具体来说，我们提出了一种模态竞争查询选择策略来提供有用的先验信息。该策略可以动态地为每个对象选择基本显着模态特征表示。为了有效地挖掘互补信息并适应未对准情况，我们提出了一种多光谱可变形交叉注意模块来自适应采样和聚合每个对象的红外和可见图像的多语义级别特征。此外，我们进一步采用DETR的级联结构来更好地挖掘互补信息。对不同场景的四个公共数据集的实验表明，与其他最先进的方法相比，有显着的改进。

Small, Versatile and Mighty: A Range-View Perception Framework
Authors Qiang Meng, Xiao Wang, JiaBao Wang, Liujiang Yan, Ke Wang
尽管 LiDAR 数据的范围视图表示形式紧凑且信息完整，但它很少作为 3D 感知任务的首选。在这项工作中，我们利用新颖的多任务框架进一步突破了范围视图表示的极限，实现了前所未有的 3D 检测性能。我们提出的小型、多功能和强大的 SVM 网络利用纯卷积架构来充分释放范围视图表示的效率和多任务潜力。为了提高检测性能，我们首先提出了一种范围视图特定的透视中心标签分配 PCLA 策略，以及一种新颖的视图自适应回归 VAR 模块，以进一步细化难以预测的框属性。此外，我们的框架无缝集成了激光雷达点云的语义分割和全景分割任务，无需额外的模块。在基于范围视图的方法中，我们的模型在 Waymo 开放数据集上实现了最先进的检测性能。特别是，在车辆类别上可以获得超过 10 mAP 的卷积提升。

Embedded Multi-label Feature Selection via Orthogonal Regression
Authors Xueyuan Xu, Fulin Wei, Tianyuan Jia, Li Zhuo, Feiping Nie, Xia Wu
在过去的十年中，嵌入式多标签特征选择方法，将特征子集的搜索纳入模型优化中，在准确评估多标签分类任务中特征的重要性方面引起了相当大的关注。然而，基于最小二乘回归的最先进的嵌入式多标签特征选择算法通常无法在多标签数据中保留足够的判别信息。为了解决上述挑战，提出了一种新颖的嵌入式多标签特征选择方法，称为正交回归GRROOR中的全局冗余和相关性优化，以促进多标签特征选择。该方法采用具有特征加权的正交回归来在特征学习过程中保留与多标签数据的局部标签相关性相关的足够的统计和结构信息。此外，正交回归模型中考虑了全局特征冗余和全局标签相关性信息，这有助于在多标签数据中搜索有区别的和非冗余的特征子集。 GRROOR 的成本函数是 Stiefel 流形上的不平衡正交 Procrustes 问题。利用简单而有效的方案来获得最佳解决方案。

ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting
Authors Chen Duan, Pei Fu, Shan Guo, Qianyi Jiang, Xiaoming Wei
近年来，文本图像联合预训练技术在各种任务中都显示出了可喜的结果。然而，在光学字符识别 OCR 任务中，将文本实例与图像中相应的文本区域对齐是一个挑战，因为它需要文本和 OCR 文本之间的有效对齐，将图像中的文本称为 OCR 文本，以区别于自然语言中的文本而不是对整体图像内容的整体理解。在本文中，我们提出了一种称为 OCR 文本去风格化建模 ODM 的新预训练方法，该方法可根据文本提示将图像中发现的不同风格的文本转换为统一的风格。通过 ODM，我们可以实现文本和 OCR 文本之间更好的对齐，并使预训练的模型能够适应复杂多样的场景文本检测和识别任务。此外，我们还专门为 ODM 设计了一种新的标签生成方法，并将其与我们提出的文本控制器模块相结合，以解决 OCR 任务中注释成本的挑战，允许更大量的未标签数据参与预训练。对多个公共数据集的广泛实验表明，我们的方法显着提高了性能，并且在场景文本检测和识别任务中优于当前的预训练方法。

CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation
Authors Xi Liu, Ying Guo, Cheng Zhen, Tong Li, Yingying Ao, Pengfei Yan
听者头部生成旨在通过对说话者和听者之间动态转换的相关性进行建模来合成非语言响应的听者头部。听者代理生成在虚拟交互中的应用推动了许多实现多样化和细粒度运动生成的工作。然而，他们只能通过简单的情感标签来操纵动作，而无法自由地控制听者的动作。由于侦听器代理应该具有类似人类的属性，例如用户可以自由定制身份、个性，这限制了它们的真实性。在本文中，我们提出了一个名为 CustomListener 的用户友好框架，以实现自由格式文本优先引导侦听器生成。为了实现说话者听众的协调，我们设计了一个静态到动态肖像模块SDP，它与说话者信息交互，将静态文本转换为具有完成节奏和幅度信息的动态肖像标记。为了实现片段之间的连贯性，我们设计了过去引导生成模块PGG，通过运动先验保持定制听众属性的一致性，并利用基于肖像标记和运动先验的扩散结构来实现可控生成。为了训练和评估我们的模型，我们构建了两个基于 ViCo 和 RealTalk 的文本注释听力头数据集，它们提供文本视频配对标签。

Dual Pose-invariant Embeddings: Learning Category and Object-specific Discriminative Representations for Recognition and Retrieval
Authors Rohan Sarkar, Avinash Kak
在姿势不变的对象识别和检索的背景下，我们证明，如果在训练期间同时学习基于类别和基于对象身份的嵌入，则可以实现性能的显着提高。事后看来，这听起来很直观，因为了解类别比了解与这些类别相对应的单个对象更为基础。然而，据我们所知，姿势不变学习的先前工作还没有证明这种效果。本文提出了一种基于注意力的双编码器架构，具有专门设计的损失函数，可以在两个不同的嵌入空间中同时优化类间和类内距离，一个用于类别嵌入，另一个用于对象级嵌入。我们提出的损失函数是不变的排名损失，旨在最小化对偶表示空间中的类内距离并最大化类间距离。我们通过三个具有挑战性的多视图数据集 ModelNet 40、ObjectPI 和 FG3D 展示了我们方法的强大功能。通过我们的双方法，对于单视图对象识别，我们在 ModelNet40 上比之前的最佳成绩高出 20.0，在 ObjectPI 上比之前的最佳成绩高出 2.0，在 FG3D 上比之前的最佳成绩高出 46.5。

Parameter-Efficient Tuning of Large Convolutional Models
Authors Wei Chen, Zichen Miao, Qiang Qiu
为了解决与微调大型预训练模型相关的高计算和参数复杂性，研究人员开发了参数有效的方法，其中仅针对下游任务更新部分参数。然而，这些工作经常忽视卷积核的独特属性，而这些属性仍然是许多大型模型（例如稳定扩散）中的基本元素。在本研究中，我们首先通过将每个网络层内的卷积核分解到一小组过滤器子空间元素（称为过滤器原子）上来引入过滤器子空间。然后，我们微调这些模型，通过仅调整过滤器原子（通常是几百个参数）来提取特定于任务的表示。为了潜在地扩展用于调整的参数空间，我们进一步展示了一种简单的方法，通过在另一组过滤器原子上递归分解每个过滤器原子来生成过完备过滤器子空间。滤波器原子的微调重塑了滤波器子空间，使卷积层能够有效地适应不同的下游任务。大量的实验表明，这样一个简单的方案超越了之前的判别任务和生成任务的调整基线。

Improving Acne Image Grading with Label Distribution Smoothing
Authors Kirill Prokhorov, Alexandr A. Kalinin
痤疮是一种常见的皮肤病，需要精确的严重程度评估才能有效治疗。痤疮严重程度分级通常涉及病变计数和整体评估。然而，手动评分存在可变性和低效率，凸显了对自动化工具的需求。最近，标签分布学习 LDL 被提出作为痤疮图像分级的有效框架，但其有效性受到严重程度的阻碍，严重程度将不同数量的病变分配给不同的严重程度等级。为了解决这些限制，我们建议通过将 LDL 与标签平滑相结合，将严重程度信息纳入病变计数，并将 if 与全局评估分离。我们的方法中的一种新颖的加权方案根据严重程度分级量表调整标签平滑程度。这种方法有助于有效管理标签的不确定性，同时又不影响类别的独特性。应用于基准 ACNE04 数据集时，我们的模型在自动痤疮分级方面表现出了改进的性能，展示了其在增强痤疮诊断方面的潜力。

Spatial Cascaded Clustering and Weighted Memory for Unsupervised Person Re-identification
Authors Jiahao Hong, Jialong Zuo, Chuchu Han, Ruochen Zheng, Ming Tian, Changxin Gao, Nong Sang
最近的无监督人员重新识别方法通过利用细粒度的本地上下文实现了高性能。这些方法称为基于部件的方法。然而，大多数基于部分的方法通过水平划分来获取局部上下文，这会由于各种人体姿势而遭受未对准的影响。此外，零件特征中语义信息的错位限制了度量学习的使用，从而影响了基于零件的方法的有效性。上述两个问题导致基于零件的方法中零件特征的利用不足。我们引入空间级联聚类和加权内存 SCWM 方法来解决这些挑战。 SCWM 旨在解析和对齐不同人体部位的更准确的局部上下文，同时允许内存模块平衡困难示例挖掘和噪声抑制。具体来说，我们首先分析之前方法中的前景遗漏和空间混乱问题。然后，我们提出前景和空间校正，以增强人体解析结果的完整性和合理性。接下来，我们引入加权内存并利用两种加权策略。这些策略解决了全局特征的硬样本挖掘问题，并增强了部分特征的抗噪性，从而可以更好地利用全局特征和部分特征。

Robust deep labeling of radiological emphysema subtypes using squeeze and excitation convolutional neural networks: The MESA Lung and SPIROMICS Studies
Authors Artur Wysoczanski, Nabil Ettehadi, Soroush Arabshahi, Yifei Sun, Karen Hinkley Stukovsky, Karol E. Watson, MeiLan K. Han, Erin D Michos, Alejandro P. Comellas, Eric A. Hoffman, Andrew F. Laine, R. Graham Barr, Elsa D. Angelini
肺气肿是肺组织进行性、不可逆转的损失，通常分为可通过病理学和肺部计算机断层扫描 CT 图像识别的三种亚型。最近的工作导致了对肺部 CT 上 10 个空间信息肺纹理模式 sLTP 的无监督学习，这些模式代表基于肺内纹理外观和空间位置的肺气肿肺实质的不同模式，并聚合成 6 种稳健且可重复的 CT 肺气肿亚型CTES。然而，现有的 sLTP 分割方法速度缓慢，并且对 CT 采集协议的变化高度敏感。在这项工作中，我们提出了一种强大的 3D 挤压和激励 CNN，用于肺部 CT 上 sLTP 和 CTES 的监督分类。

Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple Logits Retargeting Approach
Authors Han Lu, Siyu Sun, Yichen Xie, Liqing Zhang, Xiaokang Yang, Junchi Yan
在长尾识别领域，解耦训练范式在各种方法中表现出了卓越的能力。这种范例将训练过程解耦为单独的表示学习和分类器再训练。以前的工作试图同时改进这两个阶段，这使得很难隔离分类器重新训练的效果。此外，最近的实证研究表明，简单的正则化可以产生强大的特征表示，强调需要重新评估现有的分类器重新训练方法。在本研究中，我们重新审视基于统一特征表示的分类器重新训练方法并重新评估其性能。我们提出了一种称为 Logits Magnitude 的新指标，作为模型性能的高级衡量指标，取代常用的权重范数。然而，由于在训练过程中很难直接优化新指标，因此我们引入了一种合适的近似不变量，称为正则化标准差。基于这两个新提出的指标，我们证明在接近平衡时降低 Logits Magnitude 的绝对值可以有效减少训练过程中的错误和干扰，从而获得更好的模型性能。受这些发现的启发，我们开发了一种简单的 logits 重定向方法 LORT，无需事先了解每类样本的数量。 LORT 将原始的一个热门标签分为分布在每一类中的较小的真实标签概率和较大的负标签概率。

Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training
Authors Haowei Liu, Yaya Shi, Haiyang Xu, Chunfeng Yuan, Qinghao Ye, Chenliang Li, Ming Yan, Ji Zhang, Fei Huang, Bing Li, Weiming Hu
在视觉语言预训练 VLP 中，最近引入了掩模图像建模 MIM 以进行细粒度交叉模态对齐。然而，在大多数现有方法中，MIM 的重建目标缺乏高级语义，并且文本没有充分参与掩模建模。这两个缺点限制了 MIM 在促进跨模态语义对齐方面的效果。在这项工作中，我们提出了一种用于视觉语言表示学习的语义增强跨模态 MIM 框架 SemMIM。具体来说，为了为 MIM 提供更多语义上有意义的监督，我们提出了一种局部语义增强方法，该方法通过自监督协议学习从全局图像特征中获取高级语义，并通过共享编码空间将它们转移到局部补丁编码。此外，为了在整个 MIM 过程中实现文本的深度参与，我们提出了一种文本引导掩蔽策略，并设计了一种在掩蔽建模和重建目标获取中注入文本信息的有效方法。实验结果验证了我们的方法提高了 MIM 任务在促进跨模态语义对齐方面的有效性。

YOLO-MED : Multi-Task Interaction Network for Biomedical Images
Authors Suizhi Huang, Shalayiding Sirejiding, Yuxiang Lu, Yue Ding, Leheng Liu, Hui Zhou, Hongtao Lu
对象检测和语义分割是生物医学图像分析的关键组成部分。当前的单任务网络在检测和分割任务中都表现出了有希望的结果。多任务网络因其同时处理分割和检测任务的能力而受到关注，同时还加速了分割推理。然而，最近的多任务网络面临着明显的局限性，例如难以在准确性和推理速度之间取得平衡。此外，他们经常忽视跨尺度特征的集成，这对于生物医学图像分析尤其重要。在本研究中，我们提出了一种高效的端到端多任务网络，能够同时执行对象检测和语义分割，称为 YOLO Med。我们的模型采用主干和颈部进行多尺度特征提取，并辅以两个特定于任务的解码器。采用跨尺度任务交互模块以促进各种任务之间的信息融合。

Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models
Authors Lei Li, Yuqi Wang, Runxin Xu, Peiyi Wang, Xiachong Feng, Lingpeng Kong, Qi Liu
以 GPT 4V 为代表的大型视觉语言模型 LVLM 在涉及自然场景中的具体图像的各种任务中表现出色。然而，由于科学领域训练数据集的缺乏，他们解释抽象图形（例如几何形状和科学绘图）的能力仍然有限。为了填补这一空白，我们引入了由 ArXivCap 和 ArXivQA 组成的 Multimodal ArXiv，用于增强 LVLM 的科学理解。 ArXivCap 是一个图形标题数据集，包含 640 万张图像和 390 万张标题，这些图像和标题源自跨越各个科学领域的 572K ArXiv 论文。借鉴ArXivCap，我们引入了ArXivQA，这是一个基于科学数据提示GPT 4V生成的问答数据集。 ArXivQA 极大地增强了 LVLM 的数学推理能力，在多模态数学推理基准上实现了 10.4 的绝对精度增益。此外，利用 ArXivCap，我们设计了四个视觉到文本任务来对 LVLM 进行基准测试。最先进的 LVLM 的评估结果强调了他们与学术人物的微妙语义的斗争，通过特定领域的培训产生了显着的性能提升。

Multi-modal Attribute Prompting for Vision-Language Models
Authors Xin Liu, Jiamin Wu, Tianzhu Zhang
大型预训练视觉语言模型 VLM（例如 CLIP）对下游任务表现出强大的泛化能力，但在少数镜头场景中表现不佳。现有的提示技术主要关注全局文本和图像表示，而忽视了多模态属性特征。这种限制阻碍了模型感知细粒度视觉细节的能力，并限制了其对更广泛的看不见的类别的泛化能力。为了解决这个问题，我们通过共同探索文本属性提示、视觉属性提示和属性级别对齐，提出了一种多模态属性提示方法MAP。拟议的 MAP 有几个优点。首先，我们引入了通过文本属性语义增强的可学习视觉属性提示，以自适应地捕获来自未知类别的图像的视觉属性，从而提高 CLIP 的细粒度视觉感知能力。其次，所提出的属性级别对齐补充了全局对齐，以增强开放词汇对象的跨模态对齐的鲁棒性。据我们所知，这是第一个为基于 CLIP 的少镜头自适应建立跨模态属性级别对齐的工作。

Trustworthy Self-Attention: Enabling the Network to Focus Only on the Most Relevant References
Authors Yu Jing, Tan Yujuan, Ren Ao, Liu Duo
遮挡点的光流预测仍然是一个尚未解决的难题。最近的方法使用自注意力来寻找相关的非遮挡点，作为基于自相似性假设估计遮挡点的光流的参考。然而，它们依赖于单个图像的视觉特征和弱约束，这不足以约束训练后的网络关注错误和弱相关的参考点。我们充分利用在线遮挡识别信息来构造遮挡扩展视觉特征和两个强约束，使网络能够学习仅关注最相关的参考，而不需要遮挡地面实况参与网络的训练。我们的方法在原始框架上添加了很少的网络参数，使其非常轻量级。大量的实验表明，我们的模型具有最大的跨数据集泛化能力。我们的方法在 Sintel Albedo 通道上通过最先进的 GMA 基础方法 MATCHFlow GMA 实现了更大的误差减少，所有点、非遮挡点和遮挡点分别为 18.6 、16.2 和 20.1 。此外，我们的模型在 Sintel 基准测试中实现了最先进的性能，在 Sintel clean pass 上所有已发布的方法中排名第一。

ChartReformer: Natural Language-Driven Chart Image Editing
Authors Pengyu Yan, Mahesh Bhosale, Jay Lal, Bikhyat Adhikari, David Doermann
图表可视化对于数据解释和交流至关重要，但大多数图表只能以图像格式访问，缺乏相应的数据表和补充信息，因此很难根据不同的应用场景改变其外观。为了消除对原始基础数据和信息进行图表编辑的需要，我们提出了 ChartReformer，这是一种自然语言驱动的图表图像编辑解决方案，可以根据给定的指令提示直接从输入图像编辑图表。该方法的关键是让模型理解图表并根据提示进行推理，为新图表生成相应的底层数据表和视觉属性，从而实现精确编辑。此外，为了概括 ChartReformer，我们定义并标准化了各种类型的图表编辑，涵盖样式、布局、格式和以数据为中心的编辑。

MaskLRF: Self-supervised Pretraining via Masked Autoencoding of Local Reference Frames for Rotation-invariant 3D Point Set Analysis
Authors Takahiko Furuya
继视觉和语言领域的成功之后，通过 3D 点集数据的屏蔽自动编码或屏蔽点建模 MPM 进行的自监督预训练，在各种下游任务中实现了最先进的准确性。然而，当前的 MPM 方法缺乏 3D 点集分析所必需的属性，即 3D 对象场景旋转的不变性。因此，现有的 MPM 方法不一定适合 3D 点集可能具有不一致方向的现实世界应用。本文首次开发了一种用于实际 3D 点集分析的旋转不变自监督预训练框架。所提出的算法称为 MaskLRF，通过局部参考框架 LRF 内的 3D 点的掩码自动编码来学习旋转不变和高度通用的潜在特征，这些特征不受 3D 点集旋转的影响。 MaskLRF 通过集成使用相对姿态编码的特征细化和使用低级但丰富的 3D 几何的特征重建来增强潜在特征的质量。 MaskLRF 的功效通过对各种下游任务（包括分类、分割、注册和域适应）的广泛实验得到验证。我确认 MaskLRF 在分析方向不一致的 3D 点集方面达到了最先进的精度。

Learning to Find Missing Video Frames with Synthetic Data Augmentation: A General Framework and Application in Generating Thermal Images Using RGB Cameras
Authors Mathias Viborg Andersen, Ross Greer, Andreas M gelmose, Mohan Trivedi
高级驾驶员辅助系统智能车辆中的 ADAS 依赖于驾驶室内准确的驾驶员感知，通常利用传感模式的组合。然而，这些模式的运行速度各不相同，给实时、全面的驾驶员状态监控带来了挑战。本文解决了由于传感器帧速率不匹配而导致的数据丢失问题，引入了一种生成模型方法来创建合成且真实的热图像。我们建议使用条件生成对抗网络 cGAN，特别是比较 pix2pix 和 CycleGAN 架构。实验结果表明，pix2pix 的性能优于 CycleGAN，并且利用多视图输入样式，尤其是堆叠视图，提高了热图像生成的准确性。此外，该研究评估了该模型在不同科目中的普遍性，揭示了个性化训练对于最佳表现的重要性。

FusionVision: A comprehensive approach of 3D object reconstruction and segmentation from RGB-D cameras using YOLO and fast segment anything
Authors Safouane El Ghazouali, Youssef Mhirit, Ali Oukhrid, Umberto Michelucci, Hichem Nouira
在计算机视觉领域，鉴于不同的环境条件和不同的物体外观所产生的固有复杂性，将先进技术集成到 RGB D 相机输入的处理中提出了重大挑战。因此，本文介绍了 FusionVision，这是一种适用于 RGB D 图像中对象的鲁棒 3D 分割的详尽管道。传统的计算机视觉系统主要针对 RGB 相机，因此在同时捕获精确的物体边界和在深度图上实现高精度物体检测方面面临局限性。为了应对这一挑战，FusionVision 采用了一种集成方法，将最先进的对象检测技术与先进的实例分割方法相结合。这些组件的集成可以对从彩色文本 RGB 和深度文本 D 通道解释 RGB D 数据获得的信息进行整体统一分析，有利于提取全面、准确的对象信息。拟议的 FusionVision 管道采用 YOLO 来识别 RGB 图像域内的对象。随后，应用创新的语义分割模型 FastSAM 来描绘对象边界，从而产生精细的分割掩模。这些组件之间的协同作用及其与 3D 场景理解的集成确保了对象检测和分割的紧密融合，从而提高了 3D 对象分割的整体精度。

A citizen science toolkit to collect human perceptions of urban environments using open street view images
Authors Matthew Danish, SM Labib, Britta Ricker, Marco Helbich
街景级别图像 SVI 是环境评估、绿地识别或土地覆盖分类等研究的宝贵数据源。虽然商业 SVI 可用，但此类提供商通常会限制研究所需的复制或重复使用。开放 SVI 数据集很容易从限制较少的来源获得，例如 Mapillary，但由于图像的异质性，这些数据需要大量的预处理、过滤和仔细的质量检查。我们提出了一种自动下载、处理、裁剪和过滤开放 SVI 的有效方法，用于调查人类对这些图像中描绘的街道的看法。我们以荷兰阿姆斯特丹为案例研究，展示了我们的开源可重复使用的 SVI 准备和智能手机友好的感知调查软件。我们采用公民科学方法，从 331 人中收集了 22,637 个关于他们对各种标准的看法的评分。

LLMs in Political Science: Heralding a New Era of Visual Analysis
Authors Yu Wang, Mengying Xing
政治科学家对利用图像中丰富的信息越来越感兴趣。然而，解释这些图像的挑战在于需要计算机视觉方面的专业知识和使用专用硬件。因此，图像分析仅限于政治科学界内相对较小的群体。由于大型语言模型法学硕士的兴起，这种情况可能会发生改变。本文旨在提高人们对使用 Gemini 进行图像内容分析的可行性的认识。对 688 张图像的语料库进行了回顾性分析。每张图像的内容报告均由 Gemini 引出，然后由作者手动评估。我们发现 Gemini 在执行对象检测方面非常准确，这可以说是政治科学家图像分析中最常见和基本的任务。同样重要的是，我们表明它很容易实现，因为整个命令由自然语言的单个提示组成，运行速度快，应该满足大多数研究人员的时间预算，并且可以免费使用，不需要任何专门的硬件。此外，我们还说明了政治科学家如何利用 Gemini 进行其他图像理解任务，包括面部识别、情绪分析和标题生成。

Artwork Explanation in Large-scale Vision Language Models
Authors Kazuki Hayashi, Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe
大规模视觉语言模型 LVLM 从图像和指令中输出文本，展示了文本生成和理解方面的高级功能。然而，目前尚不清楚LVLM在多大程度上理解解释图像所需的知识、各种知识之间的复杂关系以及它们如何将这些理解整合到他们的解释中。为了解决这个问题，我们提出了一个新任务——艺术品解释生成任务，及其评估数据集和指标，用于定量评估对艺术品知识的理解和利用。该任务适用于图像描述，前提是 LVLM 需要预先具备艺术品知识，而艺术品通常是广泛认可和记录信息的主题。它由两部分组成：从图像和艺术品标题生成解释，以及仅使用图像生成解释，从而评估 LVLM 基于语言和基于视觉的知识。此外，我们还发布了 LVLM 的训练数据集，用于学习包含艺术品知识的解释。我们的研究结果表明，LVLM 不仅难以整合语言和视觉信息，而且在仅从图像获取知识方面也表现出更明显的局限性。

Few-Shot Relation Extraction with Hybrid Visual Evidence
Authors Jiaying Gong, Hoda Eldardiry
少量镜头关系提取的目标是当只有少数标记实例可用于训练时预测句子中名称实体之间的关系。现有的少数镜头关系提取方法只关注单模态信息，例如仅文本。当文本中描述的名称实体之间没有明确的上下文时，这会降低性能。我们提出了一种多模态少镜头关系提取模型 MFS HVE，它利用文本和视觉语义信息来联合学习多模态表示。 MFS HVE 包括语义特征提取器和多模态融合组件。 MFS HVE 语义特征提取器旨在提取文本和视觉特征。视觉特征包括全局图像特征和图像内的局部对象特征。 MFS HVE 多模态融合单元使用图像引导注意力、对象引导注意力和混合特征注意力来集成来自各种模态的信息，以充分捕获图像视觉区域和相关文本之间的语义交互。

Rethinking The Uniformity Metric in Self-Supervised Learning
Authors Xianghong Fang, Jian Li, Qiang Sun, Benyou Wang
一致性在学习表征的评估中起着至关重要的作用，有助于更深入地理解自我监督学习。 citet Wang2020UnderstandingCR 的开创性工作引入了一种均匀性度量，可以定量测量学习表示的崩溃程度。事实证明，直接优化该指标并结合对齐可以有效防止持续崩溃。然而，我们提出的理论和经验证据表明，该指标对维度崩溃缺乏敏感性，凸显了其局限性。为了解决这一限制并设计更有效的均匀性度量，本文确定了五个基本属性，其中一些属性是现有均匀性度量无法满足的。我们随后引入了一种新颖的均匀性度量，它满足所有这些需求并表现出对维度崩溃的敏感性。

Graph Theory and GNNs to Unravel the Topographical Organization of Brain Lesions in Variants of Alzheimer's Disease Progression
Authors Leopold Hebert Stevens, Gabriel Jimenez, Benoit Delatour, Lev Stimmer, Daniel Racoceanu
本研究利用图论和深度学习来评估阿尔茨海默病 AD 神经病理学的变化，重点关注经典的 cAD 和快速 rpAD 进展形式。它分析了死后脑组织中淀粉样斑块和 tau 蛋白缠结的分布。组织病理学图像被转换为基于 tau 病理学的图表，导出的指标用于统计分析和机器学习分类器。这些分类器结合了 SHAP 值的可解释性来区分 cad 和 rpAD。图神经网络 GNN 在分析这些数据、保留空间病理学背景方面表现出比传统 CNN 方法更高的效率。此外，GNN 通过可解释的人工智能技术提供了重要的见解。分析显示 rpAD 中的网络更加密集，并对大脑皮质层产生独特的影响 rpAD 主要影响中层，而 cad 影响同一皮质区域的浅层和深层。

Advancing dermatological diagnosis: Development of a hyperspectral dermatoscope for enhanced skin imaging
Authors Martin J. Hetz, Carina Nogueira Garcia, Sarah Haggenm ller, Titus J. Brinker
临床皮肤病学需要精确和创新，以有效诊断和治疗各种皮肤病。本文介绍了专为人体皮肤分析而定制的尖端高光谱皮肤镜 Hyperscope 的开发。我们详细介绍了此类设备的要求以及从光学配置到传感器选择的设计注意事项，这些都是以高保真度捕获宽光谱范围所必需的。

Relaxometry Guided Quantitative Cardiac Magnetic Resonance Image Reconstruction
Authors Yidong Zhao, Yi Zhang, Qian Tao
基于深度学习的方法在磁共振成像 MRI 重建方面取得了享有盛誉的性能，为许多临床应用提供了快速成像。以前的方法采用卷积网络来学习图像先验作为正则化项。在定量 MRI 中，核磁共振弛豫测量的物理模型是已知的，为图像重建提供了额外的先验知识。然而，传统的重建网络仅限于学习空间域先验知识，忽略了松弛测量先验。因此，我们提出了一种松弛测量引导的定量 MRI 重建框架，以从数据中学习空间先验，并从 MRI 物理学中学习松弛测量先验。此外，我们还评估了两种流行的重建主干网络的性能，即循环变分网络 RVN 和带有 U Net 的变分网络 VN。

Large Language Models for Simultaneous Named Entity Extraction and Spelling Correction
Authors Edward Whittaker, Ikuo Kitagishi
语言模型 LM（例如 BERT）已被证明在识别文本中的命名实体 NE 的任务中表现良好。

Spatio-temporal reconstruction of substance dynamics using compressed sensing in multi-spectral magnetic resonance spectroscopic imaging
Authors Utako Yamamoto, Hirohiko Imai, Kei Sano, Masayuki Ohzeki, Tetsuya Matsuda, Toshiyuki Tanaka
我们研究的目的是通过多谱磁共振波谱成像 MRSI 数据以高时间分辨率观察体内多种物质的动态。多光谱MRSI可以有效分离多种物质的光谱峰，有助于测量物质的空间分布。然而，通过普通的全采样直接测量随时间变化的物质分布是困难的，因为测量需要相当长的时间。在这项研究中，我们提出了一种基于压缩感知CS和具有物质基础光谱的部分可分离函数模型的随机欠采样多光谱MRSI数据重建物质时空分布的新方法。在我们的方法中，我们利用物质分布的时空稀疏性和时间平滑性作为执行 CS 的先验知识。我们的方法的有效性已经使用填充有随时间增加的葡萄糖或乳酸溶液的玻璃管的幻影数据集和荷瘤小鼠的动物数据集进行了评估，以观察体内瓦尔堡效应所涉及的代谢动态。重建结果与预期行为一致，表明我们的方法可以以四秒的时间分辨率重建物质的时空分布，与全采样相比，时间尺度极短。由于该方法仅利用物质时空分布自然假设的先验知识，并且独立于光谱和空间维度的数量或 MRSI 的采集序列，因此预计将有助于揭示 MRSI 数据中潜在的物质动态。

List-Mode PET Image Reconstruction Using Dykstra-Like Splitting
Authors Kibo Ote, Fumio Hashimoto, Yuya Onishi, Yasuomi Ouchi
为了使正电子发射断层扫描PET图像重建中的块迭代方法收敛，需要仔细控制弛豫参数，这是一项具有挑战性的任务。自动确定列表模式重建的松弛参数仍然具有挑战性。因此，列表模式 PET 重建需要一种不同于控制松弛参数的方法。在本研究中，我们提出了一种类似于分裂 PET 重建 LM MLDS 的列表模式最大似然 Dykstra 。 LM MLDS 通过将与初始图像的距离作为惩罚项添加到目标函数中来收敛列表模式块迭代方法。 LM MLDS 采用两步方法，因为其性能取决于初始图像的质量。第一步使用均匀图像作为初始图像，然后第二步使用一次主迭代后的重建图像作为初始图像。我们使用模拟和临床数据评估了 LM MLDS。与其他块迭代方法相比，LM MLDS 提供了更高的峰值信噪比，并抑制了噪声和对比度之间的权衡曲线的振荡。在一项临床研究中，LM MLDS 消除了轴向视场边缘的假热点，并提高了覆盖头顶到小脑的切片的图像质量。由于邻近算子引起的高斯去噪，LM MLDS 显示出与其他方法不同的噪声特性。

Exploring the dynamic interplay of cognitive load and emotional arousal by using multimodal measurements: Correlation of pupil diameter and emotional arousal in emotionally engaging tasks
Authors C. Kosel, S. Michel, T. Seidel, M. Foerster
基于最先进的传感器技术流的多模态数据分析和验证，例如使用面部动作编码系统 FACT 进行眼动追踪或情绪识别以及深度学习，使教育研究人员能够研究多方面的学习和问题解决过程，并改善教育体验。本研究旨在调查两个连续传感器流、作为认知工作量指标的瞳孔直径和作为情绪唤醒指标 RQ 1a 的深度学习 FACT 之间的相关性，特别是针对高、中和低唤醒 RQ 1b 的时期。此外，将分析情绪唤醒和瞳孔直径数据之间的时间滞后RQ 2 。 28 名参与者研究了三个认知要求高且情感参与的日常道德困境，同时收集了眼球追踪和情绪识别数据。数据在 Phyton 同步、眨眼控制、下采样中进行预处理，并使用相关分析和格兰杰因果关系检验进行分析。结果显示，情绪唤醒和瞳孔直径的数据流之间存在负相关且具有统计显着性的相关性。然而，这种相关性是负相关的，并且仅对于高唤醒时期才显着，而对于中或低唤醒时期则存在正相关但不显着的关系。觉醒和瞳孔直径之间关系的平均时滞为 2.8 毫秒。与之前没有采用多模态方法表明结构之间存在正相关性的研究结果相反，这些结果通过强调多模态数据验证和收敛波动性研究的重要性，对研究状态做出了贡献。

Event-Driven Learning for Spiking Neural Networks
Authors Wenjie Wei, Malu Zhang, Jilin Zhang, Ammar Belatreche, Jibin Wu, Zijing Xu, Xuerui Qiu, Hong Chen, Yang Yang, Haizhou Li
受大脑启发的尖峰神经网络 SNN 在神经形态计算领域获得了广泛的关注，因为它们在神经形态硬件上的前馈推理过程中能耗较低。然而，如何有效地受益于 SNN 的稀疏事件驱动特性以最小化反向传播学习成本仍然是一个开放的挑战。在本文中，我们对现有的事件驱动学习算法进行了全面检查，揭示了它们的局限性，并提出了新的解决方案来克服它们。具体来说，我们介绍了两种新颖的事件驱动学习方法：尖峰时序相关事件驱动的 STD ED 和膜电位相关事件驱动的 MPD ED 算法。这些提出的算法分别利用精确的神经元尖峰计时和膜电位来进行有效的学习。这两种方法在静态和神经形态数据集上进行了广泛的评估，以确认其优越的性能。在 CIFAR 100 数据集上，它们的 STD ED 性能比现有的事件驱动同类产品高出 2.51 倍，MPD ED 性能高出 6.79 倍。此外，我们从理论上和实验上验证了我们的方法在神经形态硬件上的能量效率。与基于时间步长的替代梯度方法相比，芯片学习实验的能耗显着降低了 30 倍。

Cloud-based Federated Learning Framework for MRI Segmentation
Authors Rukesh Prajapati, Amr S. El Wakeel
在当代农村医疗保健环境中，诊断大脑图像的主要挑战是可用数据的稀缺，因为大多数现有的深度学习模型需要大量的训练数据来优化其性能，从而需要集中处理方法，这可能会损害数据隐私。本文提出了一种适合农村医疗机构脑组织分割的新颖框架。该框架采用深度强化学习 DRL 环境，并结合在农村医疗机构本地部署的细化模型 RM。所提出的 DRL 模型减少了参数数量，并且对于跨分布式农村站点实施具有实用性。为了在不违反隐私限制的情况下维护数据隐私并增强模型泛化能力，我们采用联邦学习 FL 进行协作模型训练。我们通过使用有限的数据集训练网络并观察性能的显着提高，减少不同站点之间分割的不准确性和不规则性，证明了我们方法的有效性。值得注意的是，DRL 模型的准确率高达 80 ，超越了传统卷积神经网络在数据不足时的能力。结合我们的 RM 可以使准确度额外提高至少 10 ，而 FL 有助于进一步提高高达 5 的准确度。

DISORF: A Distributed Online NeRF Training and Rendering Framework for Mobile Robots
Authors Chunlin Li, Ruofan Liang, Hanrui Fan, Zhengen Zhang, Sankeerth Durvasula, Nandita Vijaykumar
我们提出了一个框架 DISORF，能够对资源受限的移动机器人和边缘设备捕获的场景进行在线 3D 重建和可视化。为了解决边缘设备有限的计算能力和潜在的有限网络可用性，我们设计了一个框架，可以在边缘设备和远程服务器之间有效地分配计算。我们利用设备 SLAM 系统生成姿势关键帧并将其传输到远程服务器，远程服务器可以利用 NeRF 模型在运行时执行高质量 3D 重建和可视化。我们发现了在线 NeRF 训练的一个关键挑战，即简单的图像采样策略可能会导致渲染质量显着下降。我们提出了一种新颖的移位指数帧采样方法来解决在线 NeRF 训练的这一挑战。

Transcription and translation of videos using fine-tuned XLSR Wav2Vec2 on custom dataset and mBART
Authors Aniket Tathe, Anand Kamble, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra
这项研究解决了用最少的数据训练个性化语音 ASR 模型的挑战。我们仅利用 YouTube 视频中 14 分钟的自定义音频，采用基于检索的语音转换 RVC 来创建自定义 Common Voice 16.0 语料库。随后，跨语言自监督表示 XLSR Wav2Vec2 模型在此数据集上进行了微调。开发的基于 Web 的 GUI 可以有效地转录和翻译输入的印地语视频。

Practical and Rich User Digitization
Authors Karan Ahuja
计算机科学的一个长期愿景是将计算设备发展成为主动的助手，以提高我们的生产力、健康和保健以及我们生活的许多其他方面。用户数字化对于实现这一愿景至关重要，因为它使计算机能够密切了解用户，捕捉活动、姿势、日常活动和行为。如今的智能手机和智能手表等消费设备让人们看到了这种潜力，它们为用户提供了粗略的数字表示，包括步数、心率以及跑步和骑自行车等一些人类活动等指标。即使这些非常低维度的表示也已经为数百万人的生活带来了价值，但仍有巨大的改进潜力。另一方面，存在专业的、高保真的综合用户数字化系统。例如，动作捕捉服和多摄像头设备可以将我们的全身和外观数字化，而 MRI 等扫描仪可以捕捉我们的详细解剖结构。然而，这些给用户带来了巨大的实用性负担，例如财务、隐私、人体工程学、美学和仪器方面的考虑，从而阻碍了消费者的使用。一般来说，捕捉的保真度越高，用户的实用性就越低。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com