【论文速看】DL最新进展20241010-扩散模型、目标检测、行人检测

news2024/12/24 9:16:02

目录

    • 【扩散模型】
    • 【目标检测】
    • 【行人检测】

【扩散模型】

[]Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion Models

论文链接:https://arxiv.org/pdf/2312.09608

代码链接:https://github.com/hutaiHang/Faster-Diffusion

扩散模型中的关键组件之一是用于噪声预测的UNet。虽然有几项研究探索了UNet解码器的基本特性,但其编码器在很大程度上仍未被深入研究。这项工作对UNet编码器进行了首次全面的研究。通过实证分析编码器特征,并对它们在推断过程中的变化提供了重要见解。特别是,作者发现编码器特征变化平缓,而解码器特征在不同时间步长下表现出显著变化。这一发现启发在特定相邻时间步长省略编码器,并在前一时间步长循环使用编码器特征以供解码器使用。基于这一观察,引入了一种简单但有效的编码器传播方案,以加速多种任务的扩散采样。借助所提传播方案,可以并行执行特定相邻时间步长的解码器。此外,还引入了一种先验噪声注入方法,以提高生成图像的纹理细节。除了标准的文字到图像任务外,还在其他任务上验证了所提方法:文字到视频、个性化生成和参考引导生成。在不利用任何知识蒸馏技术的情况下,所提方法分别将Stable Diffusion (SD) 和 DeepFloyd-IF 模型的采样速度提高了41%和24%,同时保持高质量的生成性能。

在这里插入图片描述


【目标检测】

[NeurIPS 2024] Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts

论文链接:https://arxiv.org/pdf/2410.05963

代码链接:无

现有的感知模型通过从大量标注数据中学习取得了巨大的成功,但在开放世界场景中仍面临挑战。为了缓解这一问题,研究人员引入了开放集感知任务检测或分割训练集中未见过的对象。然而,这些模型在推理过程中需要预定义的对象类别作为输入,这在现实世界场景中是不可用的。最近,研究人员提出了一个更实际的新问题,即开放式对象检测,它可以在没有任何对象类别作为输入的情况下发现未见过的对象。本文提出了VL-SAM,这是一个无需训练的框架,结合了通用对象识别模型(即视觉语言模型)和通用对象定位模型(即Segment-Anything模型),以解决开放式对象检测和分割任务。无需额外训练,使用注意力图将这些两个通用模型连接起来作为提示。具体来说,设计了一个注意力图生成模块,通过头部聚合和正则化的注意力流动,在所有头部和层之间聚合和传播注意力图,从而生成高质量的注意力图。然后,通过提示生成模块从注意力图中迭代地采样正负点,并将采样点发送给SAM以分割相应的对象。在长尾实例分割数据集(LVIS)上的实验结果显示,所提方法在对象检测任务上超越了之前的开放方法,并且可以提供额外的实例分割掩码。此外,VL-SAM在角案例对象检测数据集(CODA)上表现出良好的性能,证明了VL-SAM在实际应用中的有效性。而且,VL-SAM展示了良好的模型泛化能力,可以结合各种VLMs和SAMs。

在这里插入图片描述


[ECCV 2024] DQ-DETR: DETR with Dynamic Query for Tiny Object Detection

机构:清华、IDEA、港中文

论文链接:https://arxiv.org/abs/2404.03507

代码链接:https://github.com/Katie0723/DQ-DETR

尽管之前的DETR类方法在通用对象检测中表现出色,但它们在微小对象检测任务上仍面临挑战,因为对象查询的位置信息并未针对检测微小对象进行定制,这些对象的尺度远小于一般对象。此外,使用固定数量查询的DETR类方法使其不适合仅包含微小对象的航拍数据集,并且不同图像之间的实例数量不平衡。因此,本文提出了一种简单而有效的模型,名为DQ-DETR,它由三个不同的组件组成:分类计数模块、计数引导的特征增强动态查询选择,以解决上述问题。DQ-DETR使用分类计数模块的预测和密度图来动态调整对象查询的数量并改善查询的位置信息。所提模型DQ-DETR超越了之前的基于CNN和DETR类方法,在主要由微小对象组成的AI-TOD-V2数据集上实现了30.2%的最新mAP。

在这里插入图片描述


【行人检测】

[2024 行人检测实际应用] Real-Time Pedestrian Detection on IoT Edge Devices: A Lightweight Deep Learning Approach

论文链接:https://arxiv.org/pdf/2409.15740

代码链接:无

人工智能(AI)已经融入了我们的日常生活。计算机视觉的发展已经达到了可以在智能交通系统中检测道路交叉口的行人和潜在的碰撞车辆的安全关键角色。集中式计算分析摄像头馈送并生成附近车辆的信号。然而,实时应用面临着诸如延迟、数据传输速度有限以及生命损失风险等挑战。边缘服务器为实时应用提供了一种潜在解决方案,提供本地化的计算和存储资源及较低的响应时间。边缘服务器的处理能力有限。轻量级深度学习(DL)技术使边缘服务器能够利用压缩的深度神经网络(DNN)模型。

研究探索在物联网边缘设备上实施轻量级DL模型。优化后的“You Only Look Once”(YOLO)基于DL模型被部署用于实时行人检测,检测事件通过消息队列遥测传输(MQTT)协议传输到边缘服务器。模拟结果显示,优化后的YOLO模型可以实现实时行人检测,具有147毫秒的快速推理速度每秒2.3帧的帧率78%的准确率,相比基线模型有显著改进。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2203484.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

No.10 笔记 | PHP学习指南:PHP数组掌握

本指南为PHP开发者提供了一个全面而简洁的数组学习路径。从数组的基本概念到高级操作技巧,我们深入浅出地解析了PHP数组的方方面面。无论您是初学者还是寻求提升的中级开发者,这份指南都能帮助您更好地理解和运用PHP数组,提高编码效率和代码质…

java批量发送邮件:如何实现高效邮件群发?

java批量发送邮件的教程指南?利用Java实现邮件批发? 随着技术的进步,java批量发送邮件已经成为企业实现高效邮件群发的关键工具。AokSend将探讨如何利用java批量发送邮件技术,实现高效的邮件群发,提升营销效果。 jav…

相当炸裂!495页看漫画学Python(全彩版)通俗易懂!Git首发破万Star

今天给大家分享一份由清华大学出品的《看漫画学Python》,本书作者对每一幅漫画表达的准确性也进行了N遍的推敲和打磨,向广大读者奉献一本精品漫画Python技术书。 总共495页,书中结合了幽默的故事情节和实用的编程知识,使得学习过…

【LeetCode】动态规划—673. 最长递增子序列的个数(附完整Python/C++代码)

动态规划—673. 最长递增子序列的个数 前言题目描述基本思路1. 问题定义2. 理解问题和递推关系3. 解决方法3.1 动态规划方法3.2 优化方法 4. 进一步优化5. 小总结 代码实现PythonPython3代码实现Python 代码解释 CC代码实现C 代码解释1. 初始化:2. 动态规划过程&…

Basic Pentesting靶机打靶记录

一、靶机介绍 下载链接:https://download.vulnhub.com/basicpentesting/basic_pentesting_1.ova 二、信息收集 确认靶机ip:192.168.242.136 arp-scan -l 扫描端口 nmap -p- -A -sS 192.168.242.136 这里开放了21,22,80端口 扫…

美发店数字化转型:SpringBoot管理系统

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

鸿蒙开发:文件推送到沙箱路径

最近一个项目需要基于沙箱路径下的文件进行操作,奈何应用沙箱路径下没有。找来找去方法都是要把文件推送进去。以下是我的一些拙见,请各位看官老爷指点一二。 沙箱路径 沙箱路径(Sandbox Path)通常是指在计算机安全和软件开发中…

【大学学习-大学之路-回顾-电子计算机相关专业-学习方案-自我学习-大二学生(2)】

【大学学习-大学之路-回顾-电子&计算机相关专业-学习方案-自我学习-大二学生(2)】 1、前言2、总体说明1-保证课程原因1:原因2: 2-打比赛3-自我适应 - 享受大学生活 3、 保证课程1、英语课程2、专业课程3、其他课程 4、 打比赛…

数据质量指标:如何衡量数据的准确性

数据质量是任何数据驱动运营的重要组成部分。即使对于不打算将数据集出售给其他公司的企业,数据的质量和准确性也会极大地影响决策效率。 不幸的是,没有单一指标可以确保数据质量达到标准。您必须跟踪多个指标并不断关注它们。因此,维护数据…

高通QCS6490开发(十):合并显示多路安防摄像头

视频分析时边缘侧AI应用的一个常见场景,边缘侧的单个节点能够同时视频流越多,这不仅提高了处理效率,还具有显著的经济性。本文将介绍如何使用QCS6490的VPU(视频处理单元)来支持H264/H265的视频硬件编解码,并…

C语言计算GPS卫星位置

1 概述 在用GPS信号进行导航定位以与制订观测计划时,都必须已知GPS卫星在空间的瞬间位置。卫星位置的计算是根据卫星电文所提供的轨道参数按一定的公式计算的。本节专门讲解观测瞬间GPS卫星在地固坐标系中坐标的计算方法。 2 卫星位置的计算 1. 计算卫星运行的平…

如何做好项目管理中的需求管理?

本人任职于某科技公司项目经理,主要帮助客户梳理现有的业务流程,借助公司自主研发的低代码平台实现流程的线上化,业务的数字化转型。 由于项目性质特殊,在实施期间,对于总体项目需要采用传统的瀑布式开发规划整个项目…

揭秘网络流量分析的秘密 WireShark使用教程

WireShark是一个网络包分析工具。该工具主要用来捕获网络数据包,并自动解析网络数据包,为用户显示数据包详细信息,供用户对数据包进行分析 网络管理员 使用WireShark来检查网络问题网络安全工程师 使用WireShark来检查咨询安全相关问题开发人…

腾讯云大牛亲码“redis深度笔记”在牛客网上火了,完整 PDF 开源

前言 作为这个时代码代码的秃头人员,对Redis肯定是不陌生的,如果连Redis都没用过,还真不好意思出去面试,指不定被面试官吊打多少次。 毕竟现在互联网公司和一些创业公司都要用到Redis,像亚马逊、谷歌、阿里、腾讯都要…

【大模型理论篇】精简循环序列模型(minGRU/minLSTM)性能堪比Transformer以及对循环神经网络的回顾

1. 语言模型之精简RNN结构 近期关注到,Yoshua Bengio发布了一篇论文《Were RNNs All We Needed?》,提出简化版RNN(minLSTM和minGRU)。该工作的初始缘由:Transformer 在序列长度方面的扩展性限制重新引发了对可在训练期…

6款支持多平台的电脑监控软件,电脑多屏监控软件

在当今信息化办公环境中,监控软件已成为企业提升工作效率、管理公司资源的关键工具。随着远程办公与多设备管理的兴起,具备多平台兼容性和强大功能的电脑监控软件,能够帮助管理者随时掌握员工的工作情况、数据安全以及企业运营状态。本文将推…

【全解析】从xinput1_3.dll的作用到解决xinput1_3.dll相关问题的深度探究

在计算机系统的运行过程中,我们有时会遇到各种各样的文件缺失问题,其中xinput1_3.dll文件的缺失是比较常见的一种情况。今天这篇文章将和大家聊聊从xinput1_3.dll的作用到解决xinput1_3.dll相关问题的深度探究,将电脑恢复正常。 xinput1_3.dl…

SROP验证

文章目录 SROPsignal机制 SROP的利用原理:获取shellsystem call chains条件:sigreturn 测试 例题: SROP signal机制 signal 机制是类 unix 系统中进程之间相互传递信息的一种方法。一般,我们也称其为软中断信号,或者软…

Flash 闪存技术基础与 SD NAND Flash 产品测试解析

本篇除了对flash闪存进行简单介绍外,另给读者推荐一种我本人也在用的小容量闪存。 自带坏块管理的SD NAND Flash(贴片式TF卡),尺寸小巧,简单易用,兼容性强,稳定可靠,标准SDIO接口&a…

产品图册不会设计?这个网站有大量产品图册案例和模板。

​在当今这个视觉至上的时代,一本设计精美的产品图册无疑能为企业或个人品牌增色不少。产品图册不仅能直观地展示产品特点,还能传达品牌理念,从而吸引潜在客户。然而,对于很多企业或个人来说,设计一本专业水准的产品图…