【AI视野·今日CV 计算机视觉论文速览第282期】Wed, 3 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 3 Jan 2024
Totally 70 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Street Gaussians for Modeling Dynamic Urban Scenes
Authors Yunzhi Yan, Haotong Lin, Chenxu Zhou, Weijie Wang, Haiyang Sun, Kun Zhan, Xianpeng Lang, Xiaowei Zhou, Sida Peng
本文旨在解决利用单目视频对动态城市街道场景进行建模的问题。最近的方法通过将履带式车辆姿态与动画车辆结合起来扩展了 NeRF，从而实现了动态城市街道场景的照片逼真视图合成。然而，其显着的局限性是训练和渲染速度慢，加上对跟踪车辆姿态的高精度的迫切需求。我们引入了街道高斯，这是一种新的显式场景表示，可以解决所有这些限制。具体来说，动态城市街道被表示为一组配备语义逻辑和 3D 高斯的点云，每个点云与前景车辆或背景相关联。为了对前景物体车辆的动力学进行建模，每个物体点云都通过可优化的跟踪姿势以及动态外观的动态球谐函数模型进行了优化。显式表示允许轻松组合物体车辆和背景，从而允许在训练半小时内以 133 FPS 1066 乘以 1600 分辨率进行场景编辑操作和渲染。所提出的方法在多个具有挑战性的基准上进行了评估，包括 KITTI 和 Waymo Open 数据集。实验表明，所提出的方法在所有数据集上始终优于最先进的方法。此外，尽管仅依赖于现成的跟踪器的姿势，但所提出的表示方法所提供的性能与使用精确的地面真实姿势所实现的性能相当。

MOC-RVQ: Multilevel Codebook-assisted Digital Generative Semantic Communication
Authors Yingbin Zhou, Yaping Sun, Guanying Chen, Xiaodong Xu, Hao Chen, Binhong Huang, Shuguang Cui, Ping Zhang
基于矢量量化的图像语义通信系统成功地提高了传输效率，但面临着码本设计和数字星座调制之间相互冲突的要求的挑战。传统的码本需要较宽的索引范围，而调制则倾向于少数离散状态。为了解决这个问题，我们提出了一种具有两阶段训练框架的多级生成语义通信系统。在第一阶段，我们训练高质量的码本，使用多头八进制码本MOC来压缩索引范围。我们还集成了残差矢量量化 RVQ 机制，以实现有效的多级通信。在第二阶段，引入基于Swin Transformer的降噪块NRB，结合第一阶段的多级码本，作为用于生成特征恢复的高质量语义知识库SKB。

VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM
Authors Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
最近扩散模型的创新和突破极大地扩展了针对给定提示生成高质量视频的可能性。大多数现有作品都处理单一场景场景，在单一背景中仅发生一个视频事件。然而，扩展到生成多场景视频并非易事，需要很好地管理之间的逻辑，同时保持视频场景中关键内容的一致视觉外观。在本文中，我们提出了一种新颖的框架，即VideoDrafter，用于内容一致的多场景视频生成。从技术上讲，VideoDrafter 利用大型语言模型 LLM 将输入提示转换为全面的多场景脚本，该脚本受益于 LLM 学到的逻辑知识。每个场景的脚本包括描述事件的提示、前景背景实体以及摄像机移动。 VideoDrafter 识别整个脚本中的常见实体，并要求 LLM 详细说明每个实体。然后将生成的实体描述输入到文本到图像模型中，以为每个实体生成参考图像。最后，VideoDrafter 通过考虑参考图像、事件的描述性提示和摄像机移动的扩散过程生成每个场景视频，从而输出多场景视频。扩散模型将参考图像作为条件和对齐，以增强多场景视频的内容一致性。

Deep Learning-Based Computational Model for Disease Identification in Cocoa Pods (Theobroma cacao L.)
Authors Darlyn Buena o Vera, Byron Oviedo, Washington Chiriboga Casanova, Cristian Zambrano Vega
早期识别可可豆荚病害是保证高品质可可生产的一项重要任务。机器学习、计算机视觉和深度学习等人工智能技术的使用是帮助识别和分类可可豆荚疾病的有前景的解决方案。在本文中，我们介绍了应用于可可豆荚疾病识别的深度学习计算模型的开发和评估，重点关注念珠菌和黑豆荚病。基于与使用计算机视觉和深度学习技术识别植物病害相关的科学文章，对计算模型的最新技术进行了详尽的审查。经过搜索，我们选择了 EfficientDet Lite4，这是一种高效、轻量级的目标检测模型。包括健康和患病可可豆荚图像的数据集已被用来训练模型，以相当准确地检测和查明疾病表现。模型训练和评估的显着增强证明了通过图像分析识别和分类疾病的能力。

Temporal Adaptive RGBT Tracking with Modality Prompt
Authors Hongyu Wang, Xiaotao Liu, Yifan Li, Meng Sun, Dian Yuan, Jing Liu
RGBT跟踪已广泛应用于机器人、监控处理、自动驾驶等各个领域。现有的RGBT跟踪器充分探索模板和搜索区域之间的空间信息，并根据外观匹配结果定位目标。然而，这些 RGBT 跟踪器对时间信息的利用非常有限，要么忽略时间信息，要么通过在线采样和训练来利用它。前者难以应对对象状态的变化，而后者则忽略了空间和时间信息之间的相关性。为了缓解这些限制，我们提出了一种新颖的时间自适应 RGBT 跟踪框架，名为 TATrack。 TATrack具有时空两流结构，通过在线更新模板捕获时间信息，其中两流结构分别指初始模板和在线更新模板的多模态特征提取和跨模态交互。 TATrack 有助于综合利用时空信息和多模态信息进行目标定位。此外，我们设计了一种时空交互STI机制，该机制桥接两个分支并使跨模态交互能够跨越更长的时间尺度。

IdentiFace : A VGG Based Multimodal Facial Biometric System
Authors Mahmoud Rabea, Hanya Ahmed, Sohaila Mahmoud, Nourhan Sayed
面部生物识别系统的发展极大地促进了计算机视觉领域的发展。如今，始终需要开发一种以有效、有意义的方式结合多种生物特征的多模态系统。在本文中，我们介绍了 IdentiFace，它是一种多模式面部生物识别系统，它将面部识别的核心与一些最重要的软生物特征（例如性别、面部形状和情感）相结合。我们还专注于仅使用 VGG 16 启发的架构来开发系统，并在不同子系统之间进行微小的更改。这种统一允许更简单地跨模式集成。它可以更轻松地解释任务之间学到的特征，从而很好地指示跨面部模式和潜在联系的决策过程。对于识别问题，我们使用从 FERET 数据库收集的数据 1 获得了 5 个类内差异较大的类的 99.2 测试准确率。在性别识别问题中，我们在数据集上取得了 99.4 的成绩，在公共数据集 2 上取得了 95.15 的成绩。我们还能够使用名人脸部形状数据集 3 在脸部形状问题中实现 88.03 的测试准确率。

Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond
Authors Dimitrios Kollias, Viktoriia Sharmanska, Stefanos Zafeiriou
多任务学习 MTL 是一个框架，其中多个相关任务被联合学习并受益于共享表示空间或参数传输。为了提供足够的学习支持，现代 MTL 使用跨任务完全或足够大重叠的带注释数据，即每个输入样本都针对所有或大部分任务进行注释。然而，在许多实际应用中收集此类注释是令人望而却步的，并且无法从可用于单个任务的数据集中受益。在这项工作中，我们挑战了这种设置，并证明 MTL 可以成功地完成具有很少或不重叠注释的分类任务，或者当每个任务的标记数据大小存在较大差异时。我们探索了协同注释和协同训练的任务相关性，并提出了一种新颖的方法，通过分布匹配在任务之间实现知识交换。为了证明我们的方法的普遍适用性，我们使用九个数据集在情感计算、人脸识别、物种识别和购物物品分类领域进行了各种案例研究。我们对基本表情识别和面部动作单元检测的情感任务进行的大规模研究表明，我们的方法与网络无关，并且与这两项任务和所有研究数据库的现有技术相比，带来了巨大的性能改进。

Noise-NeRF: Hide Information in Neural Radiance Fields using Trainable Noise
Authors Qinglong Huang, Yong Liao, Yanbin Hao, Pengyuan Zhou
神经辐射场 NeRF 已被提出作为一种创新的 3D 表示方法。 NeRF在备受关注的同时，也面临着信息保密和安全等关键问题。隐写术是一种将信息嵌入到另一个对象中的技术，作为保护信息安全的手段。目前，NeRF 隐写术的相关研究较少，面临着隐写质量低、模型权重受损、隐写信息量有限等挑战。本文提出了一种基于可训练噪声Noise NeRF的新型NeRF隐写术方法。此外，我们提出了自适应像素选择策略和像素扰动策略来提高隐写术的质量和效率。

YOLO algorithm with hybrid attention feature pyramid network for solder joint defect detection
Authors Li Ang, Siti Khatijah Nor Abdul Rahim, Raseeda Hamzah, Raihah Aminuddin, Gao Yousheng
传统的焊点缺陷人工检测由于效率低、评估不一致、成本高、缺乏实时数据等原因，已不再应用于工业生产中。针对工业场景表面贴装技术焊点缺陷检测精度低、误检率高和计算成本高的问题，提出了一种新方法。所提出的解决方案是专门为焊点缺陷检测算法设计的混合注意机制，通过提高准确性同时降低计算成本来改善制造过程中的质量控制。混合注意力机制包括提出的增强型多头自注意力和协调注意力机制，增加了注意力网络感知上下文信息的能力并增强了网络特征的利用范围。坐标注意机制增强了不同通道之间的联系，减少了位置信息丢失。混合注意力机制增强了网络感知远距离位置信息和学习局部特征的能力。改进后的算法模型对焊点缺陷检测具有良好的检测能力，mAP达到91.5，比You Only Look Once版本5算法高4.3，优于其他对比算法。与其他版本相比，平均精度、精度、召回率和每秒帧数指标也有所提高。

FGENet: Fine-Grained Extraction Network for Congested Crowd Counting
Authors Hao Yuan Ma, Li Zhang, Xiang Yi Wei
人群计数因其实际应用而受到广泛欢迎。然而，主流计数方法忽略了精确的个体定位，并且由于根据估计密度图进行计数而受到注释噪声的影响。

Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation
Authors Renshuai Liu, Bowen Ma, Wei Zhang, Zhipeng Hu, Changjie Fan, Tangjie Lv, Yu Ding, Xuan Cheng
在以人为中心的内容生成中，预先训练的文本到图像模型很难生成用户想要的肖像图像，这些图像保留了个人的身份，同时表现出多样化的表达。本文介绍了我们在个性化面部生成方面所做的努力。为此，我们提出了一种新颖的多模式人脸生成框架，能够同时进行身份表达控制和更细粒度的表达合成。我们的表达控制非常复杂，可以通过细粒度的情感词汇来专门化。我们设计了一种新颖的扩散模型，可以同时承担面部交换和重演的任务。由于身份和表达的纠缠，在一个框架中单独、精确地控制它们是很困难的，因此尚未被探索。为了克服这个问题，我们在条件扩散模型中提出了几种创新设计，包括平衡身份和表达编码器、改进的中点采样和显式背景调节。

Whole-examination AI estimation of fetal biometrics from 20-week ultrasound scans
Authors Lorenzo Venturini, Samuel Budd, Alfonso Farruggia, Robert Wright, Jacqueline Matthew, Thomas G. Day, Bernhard Kainz, Reza Razavi, Jo V. Hajnal
目前胎儿异常筛查的方法是基于从单独选择的超声图像中获得的生物测量值。在本文中，我们介绍了一种范式转变，通过聚合从整个扫描的每一帧中自动提取的生物特征，在生物特征测量中实现人类水平的性能，而无需操作员干预。我们使用卷积神经网络对超声视频记录的每一帧进行分类。然后，我们在可见适当解剖结构的每一帧中测量胎儿生物特征。我们使用贝叶斯方法从大量测量中估计每个生物特征的真实值，并从概率上拒绝异常值。我们对 1457 条记录进行了回顾性实验，其中包括 20 周超声扫描的 4800 万帧，估计了这些扫描中的胎儿生物特征，并将我们的估计值与超声检查人员在扫描期间进行的测量进行了比较。

Skin cancer diagnosis using NIR spectroscopy data of skin lesions in vivo using machine learning algorithms
Authors Flavio P. Loss, Pedro H. da Cunha, Matheus B. Rocha, Madson Poltronieri Zanoni, Leandro M. de Lima, Isadora Tavares Nascimento, Isabella Rezende, Tania R. P. Canuto, Luciana de Paula Vieira, Renan Rossoni, Maria C. S. Santos, Patricia Lyra Frasson, Wanderson Rom o, Paulo R. Filgueiras, Renato A. Krohling
皮肤病变分为良性或恶性。在恶性肿瘤中，黑色素瘤是一种侵袭性非常强的癌症，也是导致死亡的主要原因。因此，非常需要皮肤癌的早期诊断。在过去几年中，人们对使用大多数病变图像和临床数据的计算机辅助诊断 CAD 越来越感兴趣。这些信息来源由于无法提供病变分子结构的信息而存在局限性。 NIR 光谱可以为皮肤病变的自动化 CAD 提供替代信息来源。光谱学中最常用的技术和分类算法是主成分分析 PCA、偏最小二乘判别分析 PLS DA 和支持向量机 SVM。尽管如此，人们越来越有兴趣将机器和深度学习 MDL 的现代技术应用于光谱学。将 MDL 应用到光谱学的主要限制之一是缺乏公共数据集。由于没有皮肤损伤近红外光谱数据的公共数据集，据我们所知，我们已经做出了努力，收集、注释和分析了一个名为 NIR SC UFES 的新数据集，生成了近红外光谱分类的黄金标准皮肤癌的数据。接下来，研究了机器学习算法 XGBoost、CatBoost、LightGBM、一维卷积神经网络 1D CNN 对癌症和非癌症皮肤病变进行分类。实验结果表明，LightGBM 通过使用标准正态变量 SNV 进行预处理获得了最佳性能，特征提取提供的平衡准确度值为 0.839，召回率为 0.851，精度为 0.852，F 分数为 0.850。

Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label Classification
Authors Xuelin Zhu, Jian Liu, Dongqi Tang, Jiawei Ge, Weijia Liu, Bo Liu, Jiuxin Cao
识别训练期间未出现的标签（称为多标签零样本学习）是计算机视觉中的一项重要任务。为此，最近的研究试图通过知识蒸馏来探索视觉语言预训练VLP模型的多模态知识，允许以开放词汇的方式识别不可见的标签。然而，实验证据表明，知识蒸馏不是最理想的，并且在看不见的标签预测中提供的性能增益有限。本文提出了一种新颖的基于查询的知识共享范式，以探索来自用于开放词汇多标签分类的预训练 VLP 模型的多模态知识。具体来说，训练一组可学习的与标签无关的查询标记，以从输入图像中提取关键的视觉知识，并进一步在所有标签之间共享，从而允许它们选择感兴趣的标记作为识别的视觉线索。此外，我们提出了一种用于鲁棒标签嵌入的有效提示池，并将标准排名学习重新表述为分类形式，以允许特征向量的大小进行匹配，这都显着有利于标签识别。

Accurate and Efficient Urban Street Tree Inventory with Deep Learning on Mobile Phone Imagery
Authors Asim Khan, Umair Nawaz, Anwaar Ulhaq, Iqbal Gondal, Sajid Javed
森林砍伐是气候变化的一个主要原因，它造成了农业部门破坏、全球变暖、山洪暴发和山体滑坡等有害后果。传统的城市行道树清查方法存在不准确的问题，并且需要专门的设备。为了克服这些挑战，本文提出了一种利用深度学习技术和手机成像进行城市街道树木清查的创新方法。我们的方法利用智能手机摄像头拍摄的一对图像来准确分割树干并计算胸高直径 DBH 。与传统方法相比，我们的方法具有多种优势，包括卓越的准确性、减少对专用设备的依赖以及适用于难以到达的区域。我们在 400 棵树的综合数据集上评估了我们的方法，并实现了胸径估计精度，错误率小于 2.5。我们的方法具有显着改善森林管理实践的巨大潜力。

Freeze the backbones: A Parameter-Efficient Contrastive Approach to Robust Medical Vision-Language Pre-training
Authors Jiuming Qin, Che Liu, Sibo Cheng, Yike Guo, Rossella Arcucci
现代医疗保健经常利用射线照相图像和文本报告进行诊断，鼓励使用视觉语言自我监督学习 VL SSL 和大型预训练模型来学习通用的医学视觉表示。然而，大多数现有的 VL SSL 框架都是端到端训练的，计算量很大，并且可能会丢失嵌入预训练编码器中的重要先验信息。为了解决这两个问题，我们引入了与主干无关的 Adapter 框架，该框架通过冻结预训练的图像和文本编码器来保留医学知识，并采用轻量级 Adapter 模块进行跨模式学习。对三个数据集的医学图像分类和分割任务进行的实验表明，与当前的预训练方法相比，我们的框架提供了具有竞争力的性能，同时将可训练参数减少了 90 多个。

GBSS:a global building semantic segmentation dataset for large-scale remote sensing building extraction
Authors Yuping Hu, Xin Huang, Jiayi Li, Zhen Zhang
从高分辨率遥感图像中提取建筑物足迹的语义分割技术已广泛应用于城市规划等许多领域。然而，大规模建筑物提取需要训练样本具有更高的多样性。在本文中，我们构建了一个全球建筑语义分割GBSS数据集，该数据集即将发布，其中包含来自六大洲约74.2万座建筑物的116.9k对样本。构建样本在大小和风格方面存在显着差异，因此该数据集可以成为评估构建语义分割模型的泛化性和鲁棒性的更具挑战性的基准。

Learning Surface Scattering Parameters From SAR Images Using Differentiable Ray Tracing
Authors Jiangtao Wei, Yixiang Luomei, Xu Zhang, Feng Xu
在复杂场景中模拟高分辨率合成孔径雷达 SAR 图像一直是一项重大的研究挑战。微波域表面散射模型的发展及其可逆性将在增强SAR图像模拟的真实性和促进目标参数重建方面发挥关键作用。本文受到计算机图形学领域的启发，提出了一种综合考虑镜面反射和漫反射贡献的表面微波渲染模型。该模型通过基于基尔霍夫近似KA和微扰法SPM的相干空间变化双向散射分布函数CSVBSDF进行解析表示。 SAR成像是通过射线追踪和快速测绘投影技术的协同组合来实现的。此外，构建了基于SAR图像的可微光线追踪DRT引擎，用于CSVBSDF表面散射参数学习。在该 SAR 图像模拟引擎中，使用可微分反向光线追踪可以快速估计 SAR 图像的参数梯度。通过模拟以及与真实SAR图像的比较，验证了该方法的有效性。

En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data
Authors Yifang Men, Biwen Lei, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie
我们推出 En3D，这是一种用于雕刻高质量 3D 人体头像的增强生成方案。与之前依赖于稀缺的 3D 数据集或有限的 2D 集合、不平衡的视角和不精确的姿势先验的作品不同，我们的方法旨在开发一种零镜头 3D 生成方案，能够生成视觉逼真、几何准确且内容丰富的多样化 3D 人类，而无需依赖预先存在的 3D 或 2D 资产。为了应对这一挑战，我们引入了精心设计的工作流程，该工作流程可实现精确的物理建模，以从合成的 2D 数据中学习增强的 3D 生成模型。在推理过程中，我们集成了优化模块来弥合真实外观和粗糙 3D 形状之间的差距。具体来说，En3D 包含三个模块：一个 3D 生成器，根据合成的平衡、多样化和结构化的人体图像准确地建模具有逼真外观的通用 3D 人体；一个几何雕塑家，使用复杂人体解剖学的多视图法线约束来增强形状质量；以及一个纹理模块，用于解开利用语义 UV 分区和可微分光栅器，具有保真度和可编辑性的显式纹理图。实验结果表明，我们的方法在图像质量、几何精度和内容多样性方面显着优于先前的工作。

Distilling Local Texture Features for Colorectal Tissue Classification in Low Data Regimes
Authors Dmitry Demidov, Roba Al Majzoub, Amandeep Kumar, Fahad Khan
多类结直肠组织分类是一个具有挑战性的问题，通常在假设有大量训练数据可用的环境中解决。然而，对多种类别的细粒结直肠组织样本（尤其是间质瘤和肛门癌等罕见样本）进行手动注释既费力又昂贵。为了解决这个问题，我们提出了一种基于知识蒸馏的方法，称为 KD CTCNet，它通过蒸馏损失有效地从少量组织样本中捕获局部纹理信息，以改进标准 CNN 特征。由此产生的丰富的特征表示实现了改进的分类性能，特别是在低数据情况下。对两个结直肠组织公共数据集的广泛实验揭示了所提出贡献的优点，在低数据设置下通过不同方法取得了一致的增益。

NU-Class Net: A Novel Deep Learning-based Approach for Video Quality Enhancement
Authors Parham Zilouchian Moghaddam, Mehdi Modarressi, MohammadAmin Sadeghi
视频内容的受欢迎程度激增，确立了其在互联网流量和物联网网络中的主导地位。视频压缩长期以来一直被认为是有效管理视频捕获设备生成的大量多媒体流量的主要手段。然而，视频压缩算法需要大量的计算才能实现显着的压缩比。在资源受限的嵌入式系统（例如物联网边缘节点摄像机）中实施高效的视频编码标准时，这种复杂性提出了巨大的挑战。为了应对这一挑战，本文介绍了 NU Class Net，这是一种创新的深度学习模型，旨在减轻有损压缩编解码器产生的压缩伪影。此增强功能显着提高了低比特率视频的可感知质量。通过采用 NU Class Net，视频捕获节点内的视频编码器可以降低输出质量，从而生成低比特率视频并有效减少边缘的计算和带宽需求。在解码器方面，通常较少受到资源限制的影响，NU Class Net 在视频解码器之后应用，以补偿伪影并近似原始视频的质量。

Joint Generative Modeling of Scene Graphs and Images via Diffusion Models
Authors Bicheng Xu, Qi Yan, Renjie Liao, Lele Wang, Leonid Sigal
在本文中，我们提出了一种新颖的生成任务联合场景图图像生成。虽然之前的工作已经探索了以场景图或布局为条件的图像生成，但我们的任务是独特且重要的，因为它涉及无条件地从噪声生成场景图本身，从而实现对图像生成的高效且可解释的控制。我们的任务具有挑战性，需要生成具有异构属性的节点对象和对象之间的边关系的合理场景图，包括连续对象边界框和离散对象和关系类别。我们引入了一种新颖的扩散模型 DiffuseSG，它对邻接矩阵以及异构节点和边缘属性进行联合建模。我们探索分类数据的各种类型的编码，将其放松到连续的空间中。使用图转换器作为降噪器，DiffuseSG 连续对连续空间中的场景图表示进行降噪，并对最终表示进行离散化以生成干净的场景图。此外，我们引入了 IoU 正则化来增强经验性能。我们的模型在 Visual Genome 和 COCO Stuff 数据集上的场景图生成方面显着优于现有方法，无论是在标准还是新引入的指标上，都可以更好地捕获问题的复杂性。

SSP: A Simple and Safe automatic Prompt engineering method towards realistic image synthesis on LVM
Authors Weijin Cheng, Jianzhi Liu, Jiawen Deng, Fuji Ren
最近，文本到图像 T2I 合成取得了重大进展，特别是随着大型语言模型 LLM 的出现及其在大型视觉模型 LVM 中的增强，极大地增强了传统 T2I 模型的指令跟踪能力。然而，以往的方法侧重于提高发电质量，但在提示中引入了不安全因素。我们探索在提示中附加特定的摄像机描述可以提高安全性能。因此，我们提出了一种简单且安全的提示工程方法SSP，通过提供最佳的相机描述来提高图像生成质量。具体来说，我们从多个数据集创建一个数据集作为原始提示。为了选择最佳相机，我们设计了最佳相机匹配方法，并实现了能够自动匹配的原始提示分类器。将相机描述附加到原始提示中会生成优化的提示，以进一步生成 LVM 图像。

Q-Refine: A Perceptual Quality Refiner for AI-Generated Image
Authors Chunyi Li, Haoning Wu, Zicheng Zhang, Hongkun Hao, Kaiwei Zhang, Lei Bai, Xiaohong Liu, Xiongkuo Min, Weisi Lin, Guangtao Zhai
近年来，随着文本到图像T2I模型的快速发展，其不令人满意的生成结果已成为一个挑战。然而，统一细化不同质量的AI生成图像AIGI不仅限制了低质量AIGI的优化能力，而且给高质量AIGI带来了负面优化。为了解决这个问题，提出了一种名为 Q Refine 的质量奖励精炼器。基于人类视觉系统 HVS 的偏好，Q Refine 首次使用图像质量评估 IQA 指标来指导细化过程，并通过三个自适应管道修改不同质量的图像。实验表明，对于主流T2I模型，Q Refine可以对不同品质的AIGI进行有效的优化。

CityPulse: Fine-Grained Assessment of Urban Change with Street View Time Series
Authors Tianyuan Huang, Zejia Wu, Jiajun Wu, Jackelyn Hwang, Ram Rajagopal
城市转型对个人和整个社区都产生深远的社会影响。准确评估这些变化对于了解其根本原因并确保可持续的城市规划至关重要。传统测量经常遇到空间和时间粒度的限制，无法捕获实时物理变化。而街景图像从行人的角度捕捉城市空间的心跳，可以作为城市变化的高清、最新和地面视觉代理。我们策划了迄今为止最大的街景时间序列数据集，并提出了一种端到端的变化检测模型，以有效地大规模捕获建筑环境中的物理变化。我们通过与以前的文献进行基准比较并在全市范围内实施来证明我们提出的方法的有效性。

Dual Teacher Knowledge Distillation with Domain Alignment for Face Anti-spoofing
Authors Zhe Kong, Wentian Zhang, Tao Wang, Kaihao Zhang, Yuexiang Li, Xiaoying Tang, Wenhan Luo
人脸识别系统由于容易受到不同演示攻击的影响而引起人们的关注，系统安全性已成为越来越重要的问题。尽管许多面临反欺骗的 FAS 方法在数据集内场景中表现良好，但它们的泛化仍然是一个挑战。为了解决这个问题，一些方法采用领域对抗训练DAT来提取领域不变特征。然而，编码器和域鉴别器之间的竞争会导致网络难以训练和收敛。在本文中，我们提出了一种域对抗攻击 DAA 方法，通过向输入图像添加扰动来缓解训练不稳定问题，这使得它们在跨域中无法区分并实现域对齐。此外，由于在有限的数据和攻击类型上训练的模型不能很好地泛化到未知的攻击，因此我们提出了一种用于人脸反欺骗的双重感知和生成知识蒸馏框架，该框架利用包含丰富人脸先验的预先训练的人脸相关模型。具体来说，我们采用两种不同的面部相关模型作为教师将知识转移到目标学生模型。预先训练的教师模型不是来自面部反欺骗任务，而是分别来自感知和生成任务，这些任务隐式地增强了数据。通过结合 DAA 和双师知识蒸馏，我们开发了一种具有域对齐框架 DTDA 的双师知识蒸馏，用于人脸反欺骗。

Robust single-particle cryo-EM image denoising and restoration
Authors Jing Zhang, Tengfei Zhao, ShiYu Hu, Xin Zhao
冷冻电子显微镜冷冻电镜通过重建 2D 显微照片实现了生物分子接近原子级的分辨率。然而，由于冷冻电镜图像信噪比极低和噪声结构复杂，重建粒子的分辨率和精度显着降低。在本文中，我们引入了一种具有后处理框架的扩散模型，可以有效地去噪和恢复单粒子冷冻电镜图像。我们的方法通过有效去除以前未解决的结构噪声，优于最先进的 SOTA 去噪方法。

Exploring Hyperspectral Anomaly Detection with Human Vision: A Small Target Aware Detector
Authors Jitao Ma, Weiying Xie, Yunsong Li
高光谱异常检测HAD旨在定位光谱特征与背景不同的像素点。 HAD在未知或伪装目标特征的场景中至关重要，例如水质监测、农作物生长监测和伪装目标检测，这些场景很难获得目标的先验信息。现有的 HAD 方法旨在客观地检测和区分背景和异常光谱，这可以通过人类感知几乎毫不费力地实现。然而，人类视觉感知的基本过程被认为是相当复杂的。本文分析了人类视觉感知下的高光谱图像HSI特征，并首次将HAD的求解过程转移到更鲁棒的特征空间。具体来说，我们提出了一种小型目标感知检测器 STAD，它引入显着图来捕获更接近人类视觉感知的 HSI 特征。 STAD 不仅提取更多的异常表示，还通过提出的小目标过滤器 STF 减少低置信区域的影响。此外，考虑到HAD算法应用于边缘设备的可能性，我们提出了全连接网络到卷积网络的知识蒸馏策略。它可以在减轻网络负担的同时学习HSI的光谱和空间特征。我们在 HAD100 训练集上训练网络，并在 HAD100 测试集上验证所提出的方法。我们的方法为 HAD 提供了一个新的解决方案空间，它更接近人类视觉感知，且置信度很高。对真实 HSI 进行的充分实验以及多种方法比较证明了该方法的优异性能和独特潜力。

Depth-discriminative Metric Learning for Monocular 3D Object Detection
Authors Wonhyeok Choi, Mingyu Shin, Sunghoon Im
由于 RGB 图像缺乏深度信息，单目 3D 物体检测提出了重大挑战。许多现有方法致力于通过为对象深度估计分配附加参数、利用额外的模块或数据来增强对象深度估计性能。相比之下，我们引入了一种新颖的度量学习方案，该方案鼓励模型在不增加推理时间和模型大小的情况下提取深度判别特征，而不管视觉属性如何。我们的方法采用距离保持函数来组织与地面真实对象深度相关的特征空间流形。所提出的 K、B、eps 准等距损失利用预定的成对距离限制作为调整对象描述符之间的距离的指导，而不破坏自然特征流形的非线性。此外，我们引入了用于对象深度估计的辅助头，它在保持推理时间的同时提高了深度质量。我们的方法的广泛适用性通过实验得到了证明，这些实验表明，当集成到各种基线中时，整体性能会得到改善。

AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis
Authors Qiuhui Chen, Xinyue Hu, Zirui Wang, Yi Hong
为做出诊断决策而收集的医学数据通常是多模式的，并提供受试者的补充观点。计算机辅助诊断系统欢迎多模态输入，然而，如何有效地融合这些多模态数据是一项具有挑战性的任务，并引起了医学研究领域的广泛关注。在本文中，我们提出了一种基于变压器的框架，称为 Alifuse，用于对齐和融合多模态医疗数据。具体来说，我们将图像以及非结构化和结构化文本转换为视觉和语言标记，并使用模内和模间注意机制来学习所有成像和非成像数据的整体表示以进行分类。我们应用 Alifuse 对阿尔茨海默病进行分类，并在五个公共数据集上获得了最先进的性能，优于八个基线。

DTBS: Dual-Teacher Bi-directional Self-training for Domain Adaptation in Nighttime Semantic Segmentation
Authors Fanding Huang, Zihao Yao, Wenhui Zhou
由于照明较差且注释困难，夜间条件对自动驾驶车辆感知系统构成了重大挑战。无监督域适应 UDA 已广泛应用于此类图像的语义分割，以使模型从正常条件适应目标夜间条件域。自训练 ST 是 UDA 中的一个范例，其中利用动量教师进行伪标签预测，但存在确认偏差问题。因为单个教师的单向知识转移不足以适应大的领域转移。为了缓解这个问题，我们建议通过逐步考虑风格影响和照明变化来缓解域差距。因此，我们引入了一种单阶段双师双向自我训练 DTBS 框架，以实现平稳的知识传递和反馈。基于两个教师模型，我们提出了一种新颖的流程来分别解耦风格和照明偏移。此外，我们提出了一种新的Re权重指数移动平均EMA来融合风格和光照因素的知识，并向学生模型提供反馈。这样，我们的方法可以嵌入到其他 UDA 方法中以增强其性能。例如，Cityscapes 到 ACDC 夜间任务的结果为 53.8 mIoU ，这相当于比之前的最佳技术水平提高了 5 倍。

BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving
Authors Dafeng Wei, Tian Gao, Zhengyu Jia, Changwei Cai, Chengkai Hou, Peng Jia, Fu Liu, Kun Zhan, Jingchen Fan, Yixing Zhao, Yang Wang
自动驾驶中复杂场景数据的检索需求不断增加，特别是乘用车已经具备了城市环境导航能力，解决长尾场景势在必行。同时，在现有的二维图像检索方法下，场景检索可能会出现一些问题，例如缺乏全局特征表示和文本检索能力较差等。为了解决这些问题，我们提出了textbf BEV CLIP，这是第一个多模式鸟瞰BEV检索方法，利用描述性文本作为输入来检索相应的场景。该方法应用大型语言模型LLM的语义特征提取能力来促进广泛文本描述的零样本检索，并结合知识图谱中的半结构化信息来提高语言嵌入的语义丰富性和多样性。我们的实验结果在 NuScenes 数据集上文本到 BEV 特征检索的准确率达到 87.66。

Relating Events and Frames Based on Self-Supervised Learning and Uncorrelated Conditioning for Unsupervised Domain Adaptation
Authors Mohammad Rostami, Dayuan Jian
基于事件的相机提供准确且高时间分辨率的测量，用于在具有挑战性的场景中执行计算机视觉任务，例如高动态范围环境和快速运动操纵。尽管具有优势，但利用深度学习进行基于事件的视觉却遇到了重大障碍，因为基于事件的相机的出现导致注释数据的稀缺。为了克服这一限制，利用从传统的基于帧的相机获得的注释数据中获得的知识，提出了一种基于无监督域适应的有效解决方案。我们提出了一种新算法，用于适应在基于带注释的帧的数据上训练的深度神经网络，以很好地概括基于事件的未注释数据。我们的方法将不相关的条件反射和自我监督学习纳入对抗性学习方案中，以缩小两个源域和目标域之间的差距。通过应用自监督学习，该算法学会将基于事件的数据的表示与基于帧的相机数据的表示对齐，从而促进知识转移。此外，包含不相关的条件确保了适应的模型有效地区分基于事件的数据和传统数据，增强其对基于事件的图像进行准确分类的能力。通过实证实验和评估，我们证明我们的算法超越了使用两个基准为同一目的设计的现有方法。

Online Continual Domain Adaptation for Semantic Image Segmentation Using Internal Representations
Authors Serban Stan, Mohammad Rostami
当输入数据分布在较长时间内发生变化时，基于注释数据训练的语义分割模型无法很好地泛化，导致需要重新训练才能保持性能。经典的无监督域适应 UDA 尝试通过从带有注释数据的源域传输知识来解决没有注释数据点的目标域时的类似问题。我们开发了一种用于图像语义分割的在线 UDA 算法，该算法可以在适应过程中源数据访问受到限制的情况下改进未注释域的模型泛化。我们通过最小化共享嵌入空间中源潜在特征和目标特征之间的分布距离来执行模型自适应。我们的解决方案促进了两个域之间共享的与域无关的潜在特征空间，这允许在目标数据集上进行分类器泛化。为了减轻适应过程中访问源样本的需要，我们通过适当的代理分布（在本例中为加斯混合模型 GMM）来近似源潜在特征分布。

A Comparison of Bounding Box and Landmark Detection Methods for Video-Based Heart Rate Estimation
Authors Laurence Liang
远程光电体积描记法 rPPG 使用人前额区域肤色的周期性变化来估计人的心率。本文比较了两种方法（基于边界框的方法和基于界标检测的方法来估计心率），发现基于界标的方法在模型结果方面具有较小的方差，其标准差比 4.171 小 4 倍以上。

Class Relevance Learning For Out-of-distribution Detection
Authors Butian Xiong, Liguang Zhou, Tin Lun Lam, Yangsheng Xu
图像分类在不同的应用程序中发挥着关键作用，但在现实场景中部署模型时仍然存在挑战。值得注意的是，这些模型在检测分类器训练期间未纳入的不熟悉的类方面表现不佳，这是安全有效的现实世界模型部署的一个巨大障碍，通常称为分布外 OOD 检测。虽然现有技术（例如最大 logits）旨在利用 logits 进行 OOD 识别，但它们经常忽视有效检测背后的复杂的类间关系。本文提出了一种专为 OOD 检测量身定制的创新类相关性学习方法。我们的方法建立了一个全面的班级相关性学习框架，战略性地利用 OOD 管道中的班级间关系。该框架显着增强了 OOD 检测能力。

Small Bird Detection using YOLOv7 with Test-Time Augmentation
Authors Kosuke Shigematsu
在本文中，我们提出了一种专门针对 2023 年发现鸟类小物体检测挑战赛改进小鸟检测的方法。利用 YOLOv7 模型和测试时间增强，我们的方法包括提高输入分辨率、结合多尺度推理、考虑在检测过程中翻转图像。推理过程，并采用加权框融合来合并检测结果。我们严格探索每种技术对检测性能的影响。实验结果表明检测精度显着提高。

Unsupervised Continual Anomaly Detection with Contrastively-learned Prompt
Authors Jiaqi Liu, Kai Wu, Qiang Nie, Ying Chen, Bin Bin Gao, Yong Liu, Jinbao Wang, Chengjie Wang, Feng Zheng
具有增量训练的无监督异常检测 UAD 在工业制造中至关重要，因为不可预测的缺陷使得获取足够的标记数据变得不可行。然而，持续学习方法主要依赖于监督标注，而由于缺乏监督，在UAD中的应用受到限制。当前的 UAD 方法按顺序为不同类别训练单独的模型，导致灾难性的遗忘和沉重的计算负担。为了解决这个问题，我们引入了一种新颖的无监督持续异常检测框架，称为 UCAD，它通过对比学习提示为 UAD 提供持续学习能力。在所提出的 UCAD 中，我们设计了一个持续提示模块 CPM，利用简洁的关键提示知识记忆库来指导使用任务特定正常知识的任务不变异常模型预测。此外，基于结构的对比学习SCL与Segment Anything Model SAM一起设计，以改善即时学习和异常分割结果。具体来说，通过将 SAM 掩模视为结构，我们将同一掩模内的特征拉得更近，并将其他特征推开以实现一般特征表示。我们进行了全面的实验，并为无监督连续异常检测和分割设定了基准，证明即使经过排练训练，我们的方法也明显优于异常检测方法。

Fast Inference Through The Reuse Of Attention Maps In Diffusion Models
Authors Rosco Hunter, ukasz Dudziak, Mohamed S. Abdelfattah, Abhinav Mehrotra, Sourav Bhattacharya, Hongkai Wen
文本到图像扩散模型在灵活和逼真的图像合成方面表现出了前所未有的能力。然而，生成单个图像所需的迭代过程成本高昂且延迟时间长，促使研究人员进一步研究其效率。通常，延迟的改进可以通过两种方式实现：1 通过知识蒸馏 KD 训练较小的模型；2 采用 ODE 理论的技术来实现更大的步长。相反，我们提出了一种免训练方法，不会改变采样器的步长。具体来说，我们发现注意力图的重复计算既昂贵又多余，因此，我们提出在采样期间结构化重用注意力图。我们最初的重用政策是由基本的 ODE 理论推动的，该理论表明重用最适合在采样过程的后期。在注意到这种理论方法的一些局限性之后，我们根据经验寻找更好的政策。与依赖 KD 的方法不同，我们的重用策略可以轻松地以即插即用的方式适应各种设置。

Rink-Agnostic Hockey Rink Registration
Authors Jia Cheng Shang, Yuhao Chen, Mohammad Javad Shafiee, David A. Clausi
曲棍球场注册是辅助和自动化运动分析的有用工具。当与玩家跟踪相结合时，它可以通过估计单应矩阵来提供溜冰场上玩家的位置信息，该单应矩阵可以将广播视频帧扭曲到溜冰场的开销模板上，反之亦然。然而，大多数现有技术需要准确的地面实况信息，这可能需要花费许多小时来注释，并且仅适用于经过训练的溜冰场类型。在本文中，我们提出了一种通用的溜冰场注册管道，一旦经过训练，它就可以应用于可见和不可见的溜冰场类型，仅需要开销溜冰场模板和视频帧作为输入。我们的流程在训练期间使用域适应技术、半监督学习和合成数据来实现这种能力并克服非 NHL 训练数据的缺乏。

AI Mobile Application for Archaeological Dating of Bronze Dings
Authors Chuntao Li, Ruihua Qi, Chuan Tang, Jiafu Wei, Xi Yang, Qian Zhang, Rixin Zhou
我们开发了一款用于青铜鼎考古测年的人工智能应用程序。采用分类模型来预测输入鼎的年代，并采用检测模型来显示特征部分，以做出考古测年的决策。为了训练这两个深度学习模型，我们从公开的材料中收集了大量的鼎图像，并由考古专家注释了每幅图像的时代和特征部分。此外，我们设计了一个用户系统，并基于微信小程序平台部署我们预先训练的模型，以方便使用。用户只需在智能手机上安装微信APP，通过拍摄青铜鼎的照片，即可轻松了解智能考古测年结果、特征部件等参考文物。

Diversity-aware Buffer for Coping with Temporally Correlated Data Streams in Online Test-time Adaptation
Authors Mario D bler, Florian Marencke, Robert A. Marsden, Bin Yang
由于模型部署后可能会发生分布变化，并且可能会大大降低模型的性能，因此在线测试时间调整 TTA 在测试期间利用当前测试数据继续更新模型。在现实场景中，测试数据流并不总是独立且同分布的独立同分布。。相反，它们经常在时间上相关，使得它们非独立同分布。许多现有方法都难以应对这种情况。作为回应，我们提出了一种多样性感知和类别平衡的缓冲区，可以模拟独立同分布。数据流，即使在非独立同分布中场景。结合多样性和熵加权熵损失，我们表明基于 ImageNet，可以对大范围的损坏和自然域转移进行稳定的适应。

Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models
Authors Xinpeng Ding, Jinahua Han, Hang Xu, Xiaodan Liang, Wei Zhang, Xiaomeng Li
多模态大型语言模型 MLLM 的兴起激发了人们对基于语言的驾驶任务的兴趣。然而，现有的研究通常集中于有限的任务，并且经常忽略对鲁棒自动驾驶至关重要的关键多视图和时间信息。为了弥补这些差距，我们引入了 NuInstruct，这是一个新颖的数据集，包含 17 个子任务的 91K 多视图视频 QA 对，其中每个任务都需要整体信息，例如时间、多视图和空间，从而显着提高了挑战级别。为了获得 NuInstruct，我们提出了一种新颖的基于 SQL 的方法来自动生成指令响应对，该方法的灵感来自于人类驱动逻辑进程。我们进一步提出了 BEV InMLLM，一种端到端方法，用于有效地导出指令感知鸟瞰 BEV 特征，并针对大型语言模型进行语言对齐。 BEV InMLLM 集成了多视图、空间感知和时间语义，以增强 MLLM 在 NuInstruct 任务上的能力。此外，我们提出的 BEV 注入模块是现有 MLLM 的即插即用方法。我们在 NuInstruct 上的实验表明，BEV InMLLM 的性能显着优于现有的 MLLM，例如各种任务的大约 9 项改进。

Real-Time Object Detection in Occluded Environment with Background Cluttering Effects Using Deep Learning
Authors Syed Muhammad Aamir, Hongbin Ma, Malak Abid Ali Khan, Muhammad Aaqib
检测小的、不确定的移动物体或具有杂乱背景的遮挡环境中的物体是计算机视觉的主要问题。这极大地影响了深度学习模型的检测精度。为了克服这些问题，我们专注于深度学习模型，采用 SSD 和 YOLO 算法，在杂乱背景的遮挡环境中实时检测汽车和坦克，提高检测精度并减少这些模型面临的问题。开发的方法制作自定义数据集并采用预处理技术来清理噪声数据集。为了训练开发的模型，我们应用数据增强技术来平衡和多样化数据。通过应用这些技术，我们在已建立的数据集上对这些模型进行了微调、训练和评估，并强调了我们比不应用这些技术时更准确地获得的结果。 SSD Mobilenet v2模型的精度和每秒帧数高于YOLO V3和YOLO V4。此外，通过采用数据增强、降噪、参数优化和模型融合等各种技术，我们提高了检测和识别的有效性。我们进一步添加了计数算法和目标属性实验比较，并为开发的模型制作了图形用户界面系统，具有对象计数、警报、状态、分辨率和每秒帧数等功能。随后，为了证明所开发的方法分析的重要性，YOLO V3、V4 和 SSD 被纳入其中。

3D Visibility-aware Generalizable Neural Radiance Fields for Interacting Hands
Authors Xuan Huang, Hanhui Li, Zejun Yang, Zhisheng Wang, Xiaodan Liang
神经辐射场 NeRF 有望成为场景、物体和人类的 3D 表示。然而，大多数现有方法需要多视图输入和每个场景训练，这限制了它们在现实生活中的应用。此外，当前的方法侧重于单一主题的情况，留下涉及严重的手间遮挡和具有挑战性的视图变化的交互手的场景仍未解决。为了解决这些问题，本文提出了一种用于交互手部的通用可见性感知 NeRF VA NeRF 框架。具体来说，给定交互的手部图像作为输入，我们的 VA NeRF 首先获得基于网格的手部表示，并提取其相应的几何和纹理特征。随后，引入了利用查询点和网格顶点的可见性的特征融合模块来自适应地合并双手的特征，从而能够恢复不可见区域的特征。此外，我们的 VA NeRF 与对抗性学习范式中的新型判别器一起进行了优化。与预测合成图像的单个真实假标签的传统判别器相比，所提出的判别器生成像素级别的可见性图，为看不见的区域提供细粒度的监督，并鼓励 VA NeRF 提高合成图像的视觉质量。 Interhand2.6M 数据集上的实验表明，我们提出的 VA NeRF 显着优于传统 NeRF。

Efficient Multi-domain Text Recognition Deep Neural Network Parameterization with Residual Adapters
Authors Jiayou Chao, Wei Zhu
深度神经网络的最新进展显着提高了计算机视觉任务的性能，但这些网络的专业性质通常需要大量数据和高计算能力。为了满足这些要求，本研究提出了一种新颖的神经网络模型，擅长跨不同领域的光学字符识别 OCR，利用多任务学习的优势来提高效率和泛化能力。该模型旨在实现对新领域的快速适应，保持紧凑的尺寸，有利于减少计算资源需求，确保高精度，保留以前学习经验中的知识，并允许特定领域的性能改进，而无需完全重新训练。

Data Augmentation Techniques for Cross-Domain WiFi CSI-based Human Activity Recognition
Authors Julian Strohmayer, Martin Kampel
基于 WiFi 信道状态信息 CSI 的人类活动识别可实现室内环境中的非接触式视觉隐私保护传感。然而，由于环境条件和传感硬件的变化，模型泛化能力差是该领域的一个众所周知的问题。为了解决这个问题，在这项工作中，基于图像的学习中常用的数据增强技术被应用于 WiFi CSI，以研究它们在跨场景和跨系统设置中对模型泛化性能的影响。特别是，我们重点关注视线 LOS 和非视线 NLOS 穿墙场景之间的泛化，以及不同天线系统之间的泛化，这些仍有待探索。我们收集并公开人类活动的 CSI 振幅谱图数据集。利用这些数据，进行了一项消融研究，其中训练了基于 EfficientNetV2 架构的活动识别模型，使我们能够评估每次增强对模型泛化性能的影响。

Boundary Attention: Learning to Find Faint Boundaries at Any Resolution
Authors Mia Gaia Polansky, Charles Herrmann, Junhwa Hur, Deqing Sun, Dor Verbin, Todd Zickler
我们提出了一个可微模型，它使用一种我们称为边界注意力的新机制来显式地建模边界，包括轮廓、拐角和交汇处。我们表明，即使边界信号非常弱或被噪声淹没，我们的模型也能提供准确的结果。与以前寻找微弱边界的经典方法相比，我们的模型具有可微分、可扩展到更大图像并自动适应图像每个部分的适当几何细节水平的优点。

Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases
Authors Yifei Chen, Chenyan Zhang, Ben Chen, Yiyu Huang, Yifei Sun, Changmiao Wang, Xianjun Fu, Yuxing Dai, Feiwei Qin, Yong Peng, Yu Gao
在标准的医院血液检测中，传统过程需要医生使用显微镜从患者血液的显微图像中手动分离白细胞。然后通过自动白细胞分类器对这些分离的白细胞进行分类，以确定血液样本中存在的不同类型白细胞的比例和体积，从而帮助疾病诊断。这种方法不仅耗时耗力，而且由于图像质量和环境条件等因素而容易出错，可能导致后续分类错误和误诊。为了解决这些问题，本文提出了一种创新的白细胞检测方法：多级特征融合和可变形自注意力 DETR MFDS DETR 。为了解决白细胞规模差异的问题，我们设计了高级筛选功能Fusion Pyramid HS FPN，实现多级融合。该模型使用高层特征作为权重，通过通道注意力模块过滤低层特征信息，然后将过滤后的信息与高层特征融合，从而增强模型的特征表达能力。此外，我们通过在编码器中加入多尺度可变形自注意力模块并在解码器中使用自注意力和交叉可变形注意力机制来解决白细胞特征稀缺的问题，这有助于提取白细胞特征图的全局特征。通过与使用私有 WBCDD、公共 LISC 和 BCCD 数据集的其他尖端白细胞检测模型进行比较，证实了所提出的 MFDS DETR 方法的有效性、优越性和普遍性。

Skeleton2vec: A Self-supervised Learning Framework with Contextualized Target Representations for Skeleton Sequence
Authors Ruizhuo Xu, Linzhi Huang, Mei Wang, Jiani Hu, Weihong Deng
自监督预训练范式在基于骨架的动作识别领域得到了广泛的探索。特别是基于掩模预测的方法将预训练的性能推向了一个新的高度。然而，这些方法采用低级特征（例如原始关节坐标或时间运动）作为掩模区域的预测目标，这是次优的。在本文中，我们表明使用高级上下文特征作为预测目标可以实现卓越的性能。具体来说，我们提出了 Skeleton2vec，一个简单而高效的自监督 3D 动作表示学习框架，它利用基于变压器的教师编码器，将未屏蔽的训练样本作为输入，创建潜在的上下文表示作为预测目标。受益于自注意力机制，教师编码器生成的潜在表示可以包含整个训练样本的全局上下文，从而实现更丰富的训练任务。此外，考虑到骨架序列中的高时间相关性，我们提出了一种运动感知管掩蔽策略，该策略将骨架序列划分为多个管，并根据运动先验在每个管内执行持久掩蔽，从而迫使模型建立长距离时空连接并专注于动作语义更丰富的区域。

ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention
Authors Chenhang He, Ruihuang Li, Guowen Zhang, Lei Zhang
基于窗口的变压器通过以更本地化的方式捕获上下文感知表示和负担得起的注意力计算，在大规模点云理解方面表现出了强大的能力。然而，由于点云的稀疏性，每个窗口的体素数量变化很大。当前的方法将每个窗口中的体素划分为多个相同大小的子集，这在排序和填充体素方面花费了昂贵的开销，使得它们比基于稀疏卷积的方法运行得更慢。在本文中，我们提出了 ScatterFormer，据我们所知，它第一次可以直接对可变长度的体素集进行关注。 ScatterFormer的关键在于创新的Scatter Linear Attention SLA模块，该模块利用线性注意力机制并行处理分散在不同窗口中的所有体素。利用 GPU 的分层计算单元和矩阵分块算法，我们将所提出的 SLA 模块在中等 GPU 上的延迟减少到不到 1 毫秒。此外，我们开发了一个跨窗口交互模块，以同时增强本地表示并允许信息跨窗口流动，从而消除了窗口移动的需要。我们提出的 ScatterFormer 在大规模 Waymo 开放数据集上展示了 73 mAP L2，在 NuScenes 数据集上展示了 70.5 NDS，以 28 FPS 的出色检测率运行。

WoodScape Motion Segmentation for Autonomous Driving -- CVPR 2023 OmniCV Workshop Challenge
Authors Saravanabalagi Ramachandran, Nathaniel Cibik, Ganesh Sistu, John McDonald
运动分割是自动驾驶中一项复杂但不可或缺的任务。相机的自我运动、鱼眼镜头的径向畸变以及时间一致性的需求带来的挑战使任务变得更加复杂，使得传统和标准卷积神经网络 CNN 方法的效率降低。随之而来的费力的数据标记、多样化和不常见场景的表示以及广泛的数据捕获要求强调了合成数据对于提高机器学习模型性能的必要性。为此，我们采用 Parallel Domain 开发的 PD WoodScape 合成数据集以及 WoodScape 鱼眼数据集。因此，我们提出了针对自动驾驶的 WoodScape 鱼眼运动分割挑战赛，该挑战赛是 CVPR 2023 全向计算机视觉 OmniCV 研讨会的一部分。作为首批专注于鱼眼运动分割的竞赛之一，我们的目标是探索和评估在该领域利用合成数据的潜力和影响。在本文中，我们对吸引了全球 112 个团队参与、总共 234 份参赛作品的比赛进行了详细分析。这项研究描述了运动分割任务固有的复杂性，强调了鱼眼数据集的重要性，阐明了合成数据集的必要性以及它们所产生的领域差距，概述了设计成功解决方案的基本蓝图。

Taming Mode Collapse in Score Distillation for Text-to-3D Generation
Authors Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
尽管分数蒸馏在文本到 3D 生成中表现出色，但此类技术因视图不一致问题而臭名昭著，也称为 Janus 伪影，即生成的对象用多个正面伪造每个视图。尽管经验上有效的方法已经通过分数去偏或即时工程来解决这个问题，但解释和解决这个问题的更严格的视角仍然难以捉摸。在本文中，我们揭示了现有的基于分数蒸馏的文本到 3D 生成框架退化为独立地在每个视图上寻求最大似然，从而遭受模式崩溃问题，在实践中表现为 Janus 工件。为了抑制模式崩溃，我们通过在相应的变分目标中重新建立熵项来改进分数蒸馏，并将其应用于渲染图像的分布。最大化熵可以鼓励生成的 3D 资产中不同视图之间的多样性，从而缓解 Janus 问题。基于这个新目标，我们推导出了一种新的 3D 分数蒸馏更新规则，称为熵分数蒸馏 ESD。我们从理论上揭示了 ESD 可以通过在变分蒸馏中采用无分类器指导技巧来简化和实现。

Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding
Authors Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming Hsuan Yang, Fahad Shahbaz Khan
视频接地旨在定位视频中与输入文本查询相对应的时空部分。本文通过引入开放词汇空间时空视频接地任务，解决了当前视频接地方法中的一个关键限制。与由于训练数据和预定义词汇有限而难以应对开放词汇场景的流行封闭集方法不同，我们的模型利用基础空间基础模型的预训练表示。这使其能够有效地弥合自然语言和多样化视觉内容之间的语义差距，在封闭集和开放词汇设置中取得强劲的性能。我们的贡献包括一种新颖的时空视频基础模型，在多个数据集的封闭集评估中超越了最先进的结果，并在开放词汇场景中展示了卓越的性能。值得注意的是，所提出的模型在 VidSTG 陈述性和疑问性以及 HC STVG V1 和 V2 数据集的封闭集设置中优于最先进的方法。此外，在 HC STVG V1 和 YouCook Interactions 的开放词汇评估中，我们的模型以 4.26 m vIoU 和 1.83 的准确率超越了最近表现最好的模型，证明了其在处理不同语言和视觉概念以提高视频理解方面的功效。

Masked Modeling for Self-supervised Representation Learning on Vision and Beyond
Authors Siyuan Li, Luyuan Zhang, Zedong Wang, Di Wu, Lirong Wu, Zicheng Liu, Jun Xia, Cheng Tan, Yang Liu, Baigui Sun, Stan Z. Li
随着深度学习革命的不断深入，自监督学习凭借其卓越的表征学习能力和对标记数据的低依赖性，近年来受到越来越多的关注。在这些不同的自监督技术中，屏蔽建模已成为一种独特的方法，涉及预测训练期间按比例屏蔽的原始数据部分。这种范式使深度模型能够学习稳健的表示，并在计算机视觉、自然语言处理和其他模式的背景下展示了卓越的性能。在本次调查中，我们对屏蔽建模框架及其方法进行了全面回顾。我们详细阐述了屏蔽建模中的技术细节，包括不同的屏蔽策略、恢复目标、网络架构等等。然后，我们系统地研究其跨领域的广泛应用。此外，我们还探讨了不同领域的掩模建模方法的共性和差异。在本文的最后，我们通过讨论当前技术的局限性来得出结论，并指出了推进蒙版建模研究的几种潜在途径。

TrailBlazer: Trajectory Control for Diffusion-Based Video Generation
Authors Wan Duo Kurt Ma, J.P. Lewis, W. Bastiaan Kleijn
在最近的文本到视频 T2V 生成方法中，实现合成视频的可控性通常是一个挑战。通常，通过以边缘图、深度图或要更改的现有视频的形式提供低级别每帧指导来解决此问题。然而，获得此类指导的过程可能是劳动密集型的。本文重点关注通过使用简单的边界框以各种方式指导主题来增强视频合成的可控性，所有这些都不需要神经网络训练、微调、推理时的优化或使用预先存在的视频。我们的算法 TrailBlazer 是基于预先训练的 T2V 模型构建的，并且易于实现。通过所提出的空间和时间注意图编辑，主体由边界框引导。此外，我们引入了关键帧的概念，允许主体轨迹和整体外观由移动边界框和相应提示引导，而不需要提供详细的掩模。该方法非常高效，相对于底层预训练模型而言，额外计算量可以忽略不计。

3D Human Pose Perception from Egocentric Stereo Videos
Authors Hiroyasu Akada, Jian Wang, Vladislav Golyanik, Christian Theobalt
虽然头戴式设备变得越来越紧凑，但它们提供了以自我为中心的视图，并且设备用户有明显的自我遮挡。因此，现有方法通常无法从以自我为中心的视图中准确估计复杂的 3D 姿势。在这项工作中，我们提出了一种新的基于 Transformer 的框架来改进以自我为中心的立体 3D 人体姿势估计，该框架利用了以自我为中心的立体视频的场景信息和时间上下文。具体来说，我们利用 3D 场景重建模块中的 1 个深度特征以及以自我为中心的立体帧的均匀采样窗口，以及通过视频输入的时间特征增强的 2 个人类联合查询。即使在具有挑战性的场景中，例如蹲下和坐着，我们的方法也能够准确估计人体姿势。此外，我们引入了两个新的基准数据集，即 UnrealEgo2 和 UnrealEgo RW RealWorld 。与现有数据集相比，所提出的数据集提供了更多数量的以自我为中心的立体视图，以及更广泛的人体运动，从而可以对现有和即将推出的方法进行综合评估。我们广泛的实验表明，所提出的方法明显优于以前的方法。

PlanarNeRF: Online Learning of Planar Primitives with Neural Radiance Fields
Authors Zheng Chen, Qingan Yan, Huangying Zhan, Changjiang Cai, Xiangyu Xu, Yuzhong Huang, Weihan Wang, Ziyue Feng, Lantao Liu, Yi Xu
从视觉数据中识别空间完整的平面基元是计算机视觉中的一项关键任务。先前的方法在很大程度上局限于 2D 片段恢复或简化 3D 结构，即使有大量的平面注释。我们提出了 PlanarNeRF，这是一种能够通过在线学习检测密集 3D 平面的新颖框架。利用神经场表示，PlanarNeRF 带来了三个主要贡献。首先，它通过并发外观和几何知识增强 3D 平面检测。其次，提出了一种轻量级平面拟合模块来估计平面参数。第三，引入了一种具有更新机制的新颖的全局存储体结构，确保一致的跨帧对应。 PlanarNeRF灵活的架构使其能够在2D监督和自监督解决方案中发挥作用，在每种解决方案中它都可以有效地从稀疏训练信号中学习，从而显着提高训练效率。

FlashVideo: A Framework for Swift Inference in Text-to-Video Generation
Authors Bin Lei, le Chen, Caiwen Ding
在不断发展的机器学习领域，视频生成见证了基于自回归的变压器模型和扩散模型的显着进步，这些模型以合成动态和真实的场景而闻名。然而，这些模型经常面临推理时间延长的挑战，即使是生成 GIF 等短视频剪辑也是如此。本文介绍了 FlashVideo，这是一种专为快速生成文本到视频而定制的新颖框架。 FlashVideo 代表了 RetNet 架构首次成功应用于视频生成，为该领域带来了独特的方法。利用基于 RetNet 的架构，FlashVideo 将长度为 L 的序列的推理时间复杂度从 mathcal O L 2 降低到 mathcal O L ，从而显着加快了推理速度。另外，我们采用了冗余的自由插帧方法，提高了插帧效率。

Integrating Edges into U-Net Models with Explainable Activation Maps for Brain Tumor Segmentation using MR Images
Authors Subin Sahayam, Umarani Jayaraman
从磁共振 MR 图像中手动描绘肿瘤区域非常耗时，需要专家，并且容易出现人为错误。近年来，深度学习模型已成为脑肿瘤分割的首选方法。 U Net 及其用于医学图像语义分割的变体在文献中取得了良好的效果。然而，U Net 及其变体倾向于过度分割肿瘤区域，并且可能无法准确分割肿瘤边缘。对于准确诊断、手术精度和治疗计划而言，肿瘤边缘与肿瘤区域一样重要。在拟议的工作中，作者的目标是使用类似滤波器的导数从地面实况中提取边缘，然后进行边缘重建，以获得除脑肿瘤地面实况之外的边缘地面实况。利用这两种地面实况，作者研究了几种 U Net 及其变体架构，以肿瘤边缘地面实况和不带肿瘤边缘地面实况为目标，以及用于脑肿瘤分割的肿瘤地面实况。作者使用 BraTS2020 基准数据集进行研究，并将结果以骰子和 Hausdorff95 指标制成表格。计算整个肿瘤 WT 、肿瘤核心 TC 和增强肿瘤 ET 区域的平均值和中位指标。与基线 U Net 及其变体相比，学习边缘和肿瘤区域的模型在训练和验证数据集中在核心肿瘤区域中表现良好。在 U Net 和 V Net 等基线模型上训练的边缘训练模型的性能得到了改善，其性能与 Swin U Net 和混合 MR U Net 等最先进模型的基线状态相似。边缘目标训练模型能够生成可用于治疗计划的边缘图。

Physics-informed Generalizable Wireless Channel Modeling with Segmentation and Deep Learning: Fundamentals, Methodologies, and Challenges
Authors Ethan Zhu, Haijian Sun, Mingyue Ji
信道建模是推进无线系统的基础，因此吸引了相当多的研究重点。最近的趋势是越来越依赖数据驱动技术来促进建模过程并产生准确的通道预测。在这项工作中，我们首先提供数据驱动通道建模方法的简明概述，强调它们的局限性。随后，我们介绍了基于物理通知的神经网络 PINN 建模的概念和优点，并总结了该领域的最新贡献。我们的研究结果表明，基于 PINN 的通道建模方法表现出有前景的属性，例如通用性、可解释性和鲁棒性。我们为 PINN 方法提供全面的架构，旨在为未来的模型开发提供信息和启发。介绍了我们最近通过语义分割和深度学习进行精确室内通道预测工作的案例研究。

A Comprehensive Study of Knowledge Editing for Large Language Models
Authors Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen
大型语言模型法学硕士在理解和生成密切反映人类交流的文本方面表现出了非凡的能力。然而，主要的限制在于训练期间由于其广泛的参数化而产生的大量计算需求。世界的动态性质进一步加剧了这一挑战，需要经常更新法学硕士以纠正过时的信息或整合新知识，从而确保其持续的相关性。请注意，许多应用程序需要在训练后不断调整模型，以解决缺陷或不良行为。人们对用于动态模型修改的高效、轻量级方法越来越感兴趣。为此，近年来法学硕士知识编辑技术蓬勃发展，旨在有效地修改特定领域内的法学硕士行为，同时保持各种输入的整体性能。在本文中，我们首先定义知识编辑问题，然后对前沿方法进行全面回顾。受到教育和认知研究理论的启发，我们提出了一个统一的分类标准，将知识编辑方法分为三类：利用外部知识、将知识融入模型和编辑内在知识。此外，我们引入了一个新的基准 KnowEdit，用于对代表性知识编辑方法进行全面的实证评估。此外，我们还提供对知识位置的深入分析，可以更深入地了解法学硕士固有的知识结构。

JMA: a General Algorithm to Craft Nearly Optimal Targeted Adversarial Example
Authors Benedetta Tondi, Wei Guo, Mauro Barni
迄今为止提出的大多数针对深度学习分类器制作有针对性的对抗性示例的方法都不是最理想的，并且通常依赖于增加目标类别的可能性，因此隐含地关注一种热门编码设置。在本文中，我们提出了一种更通用的、理论上合理的、有针对性的攻击，该攻击诉诸雅可比诱导的 MAhalanobis 距离 JMA 项的最小化，同时考虑到在输入空间中移动输入样本的潜在空间表示所需的工作量。给定的方向。最小化是通过利用 Wolfe 对偶定理来解决的，将问题简化为非负最小二乘 NNLS 问题的解决方案。所提出的算法为 Szegedy 等人最初引入的对抗性示例问题的线性化版本提供了最佳解决方案。引用 szegedy2013 有趣的。我们进行的实验证实了所提出的攻击的普遍性，该攻击被证明在各种输出编码方案下都是有效的。值得注意的是，JMA 攻击在多标签分类场景中也很有效，能够在具有 20 个标签的复杂多标签分类场景中诱导多达一半标签的有针对性的修改，这是所有提出的攻击都无法达到的能力迄今为止。

Train-Free Segmentation in MRI with Cubical Persistent Homology
Authors Anton Fran ois, Rapha l Tinarrage
我们描述了一种使用拓扑数据分析 TDA 进行 MRI 扫描分割的新通用方法，与传统机器学习方法相比具有多种优势。它分三个步骤工作，首先通过自动阈值确定要分割的整个对象，然后检测其拓扑预先已知的独特子集，最后推导出分割的各个组成部分。尽管唤起了 TDA 的经典思想，但这种算法从未与深度学习方法分开提出。为了实现这一目标，除了图像的同源性之外，我们的方法还考虑了代表性循环的本地化，这是一条似乎从未在这种情况下被利用的信息。特别是，它提供了执行分割的能力，而无需大型注释数据集。 TDA 还通过将拓扑特征显式映射到分割组件，提供了一个更可解释和更稳定的分割框架。通过调整要检测的几何对象，可以调整算法以应对各种数据分割挑战。我们仔细研究了脑 MRI 中的胶质母细胞瘤分割示例（其中要检测球体）、心脏 MRI 中的心肌（涉及圆柱体）和胎儿脑 MRI 中的皮质板检测（其 2D 切片为圆形）。

GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and Imitation
Authors Zifan Wang, Junyu Chen, Ziqing Chen, Pengwei Xie, Rui Chen, Li Yi
本文提出了 GenH2R，一个用于学习基于通用视觉的人机 H2R 切换技能的框架。目标是让机器人能够可靠地接收人类在各种复杂轨迹中移交的具有看不见的几何形状的物体。我们通过使用包括程序模拟资产创建、自动演示生成和有效模仿学习的综合解决方案大规模学习 H2R 切换来获得这种通用性。我们利用大规模 3D 模型库、灵巧的抓取生成方法和基于曲线的 3D 动画创建了名为 simabbns 的 H2R 切换仿真环境，比现有模拟器中的场景数量超出了三个数量级。我们进一步介绍了一种蒸馏友好的演示生成方法，可以自动生成一百万个适合学习的高质量演示。最后，我们提出了一种通过未来预测目标增强的 4D 模仿学习方法，将演示提炼为视觉运动切换策略。模拟器和现实世界中的实验评估表明，在所有情况下，成功率比基线至少提高了 10 倍。

Balanced Multi-modal Federated Learning via Cross-Modal Infiltration
Authors Yunfeng Fan, Wenchao Xu, Haozhao Wang, Jiaqi Zhu, Song Guo
联邦学习 FL 通过协作训练神经网络而不暴露客户原始数据，支持隐私保护分布式计算的进步。当前的 FL 范式主要关注单模态数据，而利用分布式多模态数据的知识在很大程度上仍未得到探索。

Improving the Stability of Diffusion Models for Content Consistent Super-Resolution
Authors Lingchen Sun, Rongyuan Wu, Zhengqiang Zhang, Hongwei Yong, Lei Zhang
预先训练的潜在扩散模型的生成先验已证明在增强图像超分辨率 SR 结果的感知质量方面具有巨大潜力。不幸的是，现有的基于扩散先验的 SR 方法遇到了一个常见问题，即它们往往会为具有不同噪声样本的同一低分辨率图像生成相当不同的输出。这种随机性对于文本到图像生成任务来说是需要的，但对于 SR 任务来说是有问题的，因为图像内容需要得到很好的保存。为了提高基于扩散先验的 SR 的稳定性，我们建议采用扩散模型来细化图像结构，同时采用生成对抗训练来增强图像精细细节。具体来说，我们提出了一种非均匀时间步长学习策略来训练紧凑的扩散网络，该网络具有高效率和稳定性来再现图像主要结构，并通过对抗训练来微调变分自动编码器 VAE 的预训练解码器以进行细节增强。大量实验表明，我们提出的方法，即内容一致超分辨率 CCSR ，可以显着降低基于扩散先验的 SR 的随机性，提高 SR 输出的内容一致性并加快图像生成过程。

A Bayesian Unification of Self-Supervised Clustering and Energy-Based Models
Authors Emanuele Sansone, Robin Manhaeve
自监督学习是一种流行且强大的利用大量未标记数据的方法，文献中已经提出了各种各样的训练目标。在这项研究中，我们对最先进的自监督学习目标进行了贝叶斯分析，阐明了每个类别中潜在的概率图形模型，并提出了从第一原理推导的标准化方法。该分析还表明了将自我监督学习与基于可能性的生成模型相结合的自然方法。我们在基于集群的自监督学习和能量模型领域实例化了这个概念，引入了一种新颖的下限，该下限被证明可以可靠地惩罚最重要的故障模式。此外，这个新提出的下界可以训练标准骨干架构，而无需使用非对称元素，例如停止梯度、动量编码器或通常为避免学习琐碎解决方案而引入的专门聚类层。我们的理论发现通过对合成数据和现实世界数据（包括 SVHN、CIFAR10 和 CIFAR100）的实验得到证实，从而表明我们的目标函数在聚类、生成和分布外检测性能方面优于现有的自监督学习策略宽裕度。

Federated Multi-View Synthesizing for Metaverse
Authors Yiyu Guo, Zhijin Qin, Xiaoming Tao, Geoffrey Ye Li
虚拟宇宙有望提供沉浸式娱乐、教育和商业应用。然而，无线网络上的虚拟现实 VR 传输是数据和计算密集型的，因此引入满足严格的服务质量要求的新颖解决方案至关重要。随着边缘智能和深度学习的最新进展，我们开发了一种新颖的多视图合成框架，可以有效地为元宇宙中的无线内容交付提供计算、存储和通信资源。我们提出了一种使用单视图图像集合的三维 3D 感知生成模型。这些单视图图像被传输给具有重叠视野的一组用户，与传输图块或整个 3D 模型相比，这避免了大量内容传输。然后，我们提出了一种联邦学习方法来保证高效的学习过程。通过表征具有大潜在特征空间的垂直和水平数据样本可以提高训练性能，而在联邦学习期间可以通过减少传输参数数量来实现低延迟通信。我们还提出了一个联合迁移学习框架，以实现对不同目标域的快速域适应。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com