【论文速看】DL最新进展20241010-扩散模型、目标检测、行人检测

news2026/5/16 19:09:56

【扩散模型】

[]Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion Models

论文链接：https://arxiv.org/pdf/2312.09608

代码链接：https://github.com/hutaiHang/Faster-Diffusion

扩散模型中的关键组件之一是用于噪声预测的UNet。虽然有几项研究探索了UNet解码器的基本特性，但其编码器在很大程度上仍未被深入研究。这项工作对UNet编码器进行了首次全面的研究。通过实证分析编码器特征，并对它们在推断过程中的变化提供了重要见解。特别是，作者发现编码器特征变化平缓，而解码器特征在不同时间步长下表现出显著变化。这一发现启发在特定相邻时间步长省略编码器，并在前一时间步长循环使用编码器特征以供解码器使用。基于这一观察，引入了一种简单但有效的编码器传播方案，以加速多种任务的扩散采样。借助所提传播方案，可以并行执行特定相邻时间步长的解码器。此外，还引入了一种先验噪声注入方法，以提高生成图像的纹理细节。除了标准的文字到图像任务外，还在其他任务上验证了所提方法：文字到视频、个性化生成和参考引导生成。在不利用任何知识蒸馏技术的情况下，所提方法分别将Stable Diffusion (SD) 和 DeepFloyd-IF 模型的采样速度提高了41%和24%，同时保持高质量的生成性能。

在这里插入图片描述

【目标检测】

[NeurIPS 2024] Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts

论文链接：https://arxiv.org/pdf/2410.05963

代码链接：无

现有的感知模型通过从大量标注数据中学习取得了巨大的成功，但在开放世界场景中仍面临挑战。为了缓解这一问题，研究人员引入了开放集感知任务来检测或分割训练集中未见过的对象。然而，这些模型在推理过程中需要预定义的对象类别作为输入，这在现实世界场景中是不可用的。最近，研究人员提出了一个更实际的新问题，即开放式对象检测，它可以在没有任何对象类别作为输入的情况下发现未见过的对象。本文提出了VL-SAM，这是一个无需训练的框架，结合了通用对象识别模型（即视觉语言模型）和通用对象定位模型（即Segment-Anything模型），以解决开放式对象检测和分割任务。无需额外训练，使用注意力图将这些两个通用模型连接起来作为提示。具体来说，设计了一个注意力图生成模块，通过头部聚合和正则化的注意力流动，在所有头部和层之间聚合和传播注意力图，从而生成高质量的注意力图。然后，通过提示生成模块从注意力图中迭代地采样正负点，并将采样点发送给SAM以分割相应的对象。在长尾实例分割数据集（LVIS）上的实验结果显示，所提方法在对象检测任务上超越了之前的开放方法，并且可以提供额外的实例分割掩码。此外，VL-SAM在角案例对象检测数据集（CODA）上表现出良好的性能，证明了VL-SAM在实际应用中的有效性。而且，VL-SAM展示了良好的模型泛化能力，可以结合各种VLMs和SAMs。

在这里插入图片描述

[ECCV 2024] DQ-DETR: DETR with Dynamic Query for Tiny Object Detection

机构：清华、IDEA、港中文

论文链接：https://arxiv.org/abs/2404.03507

代码链接：https://github.com/Katie0723/DQ-DETR

尽管之前的DETR类方法在通用对象检测中表现出色，但它们在微小对象检测任务上仍面临挑战，因为对象查询的位置信息并未针对检测微小对象进行定制，这些对象的尺度远小于一般对象。此外，使用固定数量查询的DETR类方法使其不适合仅包含微小对象的航拍数据集，并且不同图像之间的实例数量不平衡。因此，本文提出了一种简单而有效的模型，名为DQ-DETR，它由三个不同的组件组成：分类计数模块、计数引导的特征增强和动态查询选择，以解决上述问题。DQ-DETR使用分类计数模块的预测和密度图来动态调整对象查询的数量并改善查询的位置信息。所提模型DQ-DETR超越了之前的基于CNN和DETR类方法，在主要由微小对象组成的AI-TOD-V2数据集上实现了30.2%的最新mAP。

在这里插入图片描述

【行人检测】

[2024 行人检测实际应用] Real-Time Pedestrian Detection on IoT Edge Devices: A Lightweight Deep Learning Approach

论文链接：https://arxiv.org/pdf/2409.15740

代码链接：无

人工智能（AI）已经融入了我们的日常生活。计算机视觉的发展已经达到了可以在智能交通系统中检测道路交叉口的行人和潜在的碰撞车辆的安全关键角色。集中式计算分析摄像头馈送并生成附近车辆的信号。然而，实时应用面临着诸如延迟、数据传输速度有限以及生命损失风险等挑战。边缘服务器为实时应用提供了一种潜在解决方案，提供本地化的计算和存储资源及较低的响应时间。边缘服务器的处理能力有限。轻量级深度学习（DL）技术使边缘服务器能够利用压缩的深度神经网络（DNN）模型。

研究探索在物联网边缘设备上实施轻量级DL模型。优化后的“You Only Look Once”（YOLO）基于DL模型被部署用于实时行人检测，检测事件通过消息队列遥测传输（MQTT）协议传输到边缘服务器。模拟结果显示，优化后的YOLO模型可以实现实时行人检测，具有147毫秒的快速推理速度、每秒2.3帧的帧率和78%的准确率，相比基线模型有显著改进。

在这里插入图片描述