鲁棒无监督人群计数与定位

news2025/1/17 23:05:51

鲁棒无监督人群计数与定位

  • 摘要
  • 1 Introduction
  • Method

摘要

现有的群体计数模型需要大量的训练数据,而这些数据的标注过程耗时且繁琐。为了解决这个问题,作者提出了一种简单而有效的人群计数方法,通过采用一种名为“Segment-Everything-Everywhere Model(SEEM)”的模型——这是对“Segmentation Anything Model(SAM)”的一种改进,来为训练人群计数模型生成伪标签。然而,作者的初步调查发现,SEEM在密集人群场景中的性能有限,这主要是因为在行人高密度区域遗漏了许多人。

为了克服这一限制,作者提出了一个自适应分辨率的SEEM来处理人群场景中的尺度变化、遮挡和行人重叠问题。

同时,作者基于高斯混合模型引入了一种鲁棒的位置定位方法,用于预测预测行人 Mask 中的 Head 位置。在给定了 Mask 和点伪标签的情况下,作者提出了一种鲁棒损失函数,该函数旨在根据SEEM的预测排除不确定区域,从而增强计数网络的训练过程。最后,作者提出了一种迭代生成伪标签的方法。这种方法旨在通过识别高密度区域中更多微小的行人来提高分割 Mask 的质量,这些行人在第一次伪标签阶段经常被遗漏。

总的来说,作者提出的方法在无需监督的人群计数中实现了最佳性能,同时与一些经典的完全监督方法相比也毫不逊色。这使得它成为一种非常高效且多功能的群体计数工具,特别是在没有标签数据可用的情况下。

1 Introduction

人群计数在各个应用领域中扮演着至关重要的角色,从城市规划、公共安全到活动管理和零售[5]。它有助于设计高效的公共空间,优化活动期间的人群控制,以及管理商店内的顾客流量。此外,它还助于创建能够适应人口密度变化的响应式基础设施。这项技术在理解和管理不同情境下的人群动态方面至关重要。

先进的群体计数系统,采用如卷积神经网络(CNNs)[24]和Transformers[21]的深度学习方法,取得了卓越的成就。

性能。然而,这些方法通常需要大量的标注数据用于训练。人群计数数据集的规模相对较小,因为对密集人群图像中的每个人进行标注是一项耗时的工作。因此,对于能够在不依赖手动标注的情况下适应新数据集的无监督方法的需求日益增长。

为了应对这一挑战,作者引入了一种健壮的无监督方法,该方法利用分割任何模型(SAM)[16]生成伪标签。然而,SAM无法预测语义标签。因此,作者采用了分割一切无处不在模型(SEEM)[48]来预测行人 Mask 。作者的研究发现,直接使用SEEM并不有效,因为它经常由于遮挡和重叠而遗漏行人(见图1中的1024x1024图像),这是由于在其训练数据中密集人群图像的有限可用性所致。为了解决这个问题,作者提出了一个自适应分辨率的SEEM(AdaSEEM),根据需要可以放大高密度区域。如图1所示,这种改进使得可以在拥挤区域对较小的人进行更精确的分割。此外,作者还提出了一种健壮的 Head 定位方法,通过将 Mask 分布建模为高斯混合模型(GMM),准确估计 Head 位置,这使得可以生成更有效的点伪标签。

在这里插入图片描述
作者使用生成的 Mask 和点伪标签来训练一个计数回归网络。为了有效地利用这两种类型的伪标签,作者提出了一个由两部分组成的鲁棒损失函数:个体损失和背景损失,在训练过程中排除了不确定区域。个体损失确保了 Mask 内的总密度接近1,并且它还鼓励密度在 Head 伪标签周围收敛。这种方法提高了人群计数的准确性,同时也确保了在分割区域内的精确定位。相比之下,背景损失则是为了预测所有背景区域为零值,从而有效地减少非拥挤区域的假阳性预测。

最后,为了提升性能,作者采用了一种迭代的方法来生成伪 Mask ,使用训练有素的计数网络得到的点预测作为AdaSEEM的提示。这有助于在高密度区域识别缺失的个体。一旦创建这些新的 Mask ,它们将与前一阶段的 Mask 融合,以生成更全面、更准确的伪标签集。随后,作者采用相同的方法在这些更新后的 Mask 内估计 Head 点伪标签。有了这些精细化的 Mask 和 Head 位置,作者继续训练计数网络,从而在人口密集的场景中提高它们的准确性和可靠性。

总之,本文有四个主要贡献:

作者提出了一种新颖的方法,用于为无监督人群计数生成 Mask 和点伪标签。这涉及到使用分割任何事物模型(SAM),并通过自适应分辨率策略以及一种稳健的定位 Head 点机制来进行增强。

为了利用 Mask 和点伪标签,作者开发了一个健壮的损失函数,在训练过程中策略性地排除不确定区域,并确保每个 Mask 内的密度为1。这个函数在准确计数和定位拥挤场景中的个体方面起着至关重要的作用。

作者提出了一种用于生成伪 Mask 的迭代方法。该方法通过利用来自当前训练计数网络的点提示来细化 Mask 预测,从而允许识别之前在密集区域中遗漏的个体。

作者的方法显著优于现有的无监督人群计数方法,取得了很大的改进。其性能在一些经典的全监督方法面前也颇具竞争力,即便是在大规模数据集上也是如此。

2 Related Works
在本节中,作者简要回顾有监督、半监督和无监督的人群计数算法。

Supervised Methods
传统的人群计数算法依赖于个体检测[7],这并不适用于高密度图像,因为遮挡问题。为了提高计数性能,已经提出了直接回归方法,这些方法利用低级特征[5],包括纹理[4]和颜色[12]。然而,这些方法的有效性仍然受到尺度变化和场景变化等因素的限制。

近期的人群计数研究主要集中在深度学习上,通过大量标注数据的训练,取得了显著的改进[47]。网络结构[1, 8]的创新和各种损失函数[40]的发展提高了性能和鲁棒性。Kang和Chan[15]引入了图像金字塔的使用来处理尺度变化。进一步的增强包括利用上下文信息[31, 44]和发展跨场景的人群计数方法以提高泛化能力[46]。Wang等人[41]提出了使用合成数据集,而其他研究者探索了使用相关性信息来增强泛化能力[36, 43]。在损失函数设计方面的创新方法,例如提出可学习的密度图以增强监督[34, 37]。在训练过程中直接使用点标注已显示出计数和定位的改进[23, 26, 33, 40],并发展了稳健的损失函数来处理标注噪声[35, 39]。最近,基于Transformer的方法在人群计数和定位方面均显示出卓越的性能[19, 21]。

然而,监督学习方法需要大量的标注图像,由于标注过程耗时,这些图像可能难以获取,例如,一些训练图像可能包含数百甚至数千人。相比之下,作者提出的不监督学习方法在不使用任何标注人群图像的情况下,获得了与某些监督学习方法相当的结果。

Semi-Supervised And Unsupervised Methods
为了减轻大规模标注工作的负担,在人群计数领域已经提出了几种创新的方法[42]。Change Loy等人[6]建议使用 未标注 的视频,从而减少对完全标记数据集的依赖。Meng等人[27]引入了一种方法来模拟空间不确定性,提高了半监督计数的有效性。部分标注训练模型的概念也已被探索[45],为完全监督方法提供了一种实用的替代方案。此外,在[17]中提出了一种监督不确定性估计策略,为解决标注挑战提供了新的方法。另外,最优传输最小化[22]的使用也被 Proposal 用于半监督设置中的人群定位,进一步促进了人群计数领域中更高效、劳动强度更低的方法的发展。

对无监督人群计数方法的研究,特别是在高密度场景下的探索仍然有限。大多数现有研究倾向于集中在低密度图像上。[2]中提出了一种基于分布匹配的新型自监督方法。此外,[20]通过采用视觉-语言模型引入了一种创新的方法,用于零样本人群计数。尽管这些无监督方法表现出相当好的性能,但在高密度场景中的有效性仍然不是最佳的。相比之下,作者提出的方法即使在复杂的高密度环境下也能达到与某些监督方法相媲美的性能水平,从而为传统监督方法提供了一种可行的替代方案,后者需要大量的标注数据。

Method

在本文中,作者介绍了一种新颖的健壮性无监督人群计数方法,该方法利用了分割任何模型(SAM)的能力。作者的方法包括几个关键步骤。首先,作者提出了一个自适应推理策略来利用SAM,这使能够在各种人群场景中更精确地分割个体,尤其是较小尺寸的个体。然后,作者引入了一种健壮的方法,用于在预测的个体 Mask 内定位 Head 位置。这一步对于获得更精确计数的点伪标注至关重要。利用生成的 Mask 和点伪标签,作者训练了一个计数网络。作者的训练过程的特点是排除了不确定区域的健壮损失函数,从而提高了模型的精确性和可靠性。最后,作者提出了一种生成伪标签的迭代过程。这个过程基于计数网络的预测,旨在不断提高伪标签的质量。作者提出方法的总体工作流程在图2中展示。

Adaptive Resolution SAM
SAM最初是为了通用分割任务而设计的,并在数百万张图像上进行训练,这使得它能够在各种场景下进行泛化。然而,SAM的一个关键局限性在于它无法为其识别的片段分配特定的物体类别。为了克服这一点,作者选择了一个修改版的SAM,即“无处不在的分割模型”(SEEM)[48]。SEEM由于使用了语义标签进行训练,因此擅长为每个 Mask 提供语义标签,这增强了它在分割任务中的实用性。尽管SEEM具备这样的能力,但在检测拥挤图像中的小个体时仍面临挑战。这一限制主要源于其训练数据集中密集人群图像的相对比例较小[16]。为了解决这个具体问题,作者引入了自适应分辨率的SEEM(表示为AdaSEEM)。这种策略旨在提高模型在识别高密度人群场景中小型个体的性能,从而增强SEEM在复杂人群计数场景中生成 Mask 伪标签的整体有效性和适用性。

在作者的方法中,最初将SEEM应用于原始图像以获得分割结果。这些结果分为三个不同类别:非人(背景)区域、不确定区域和单个行人 Mask ,如图2所示。非人背景区域是带有非人标签的片段,而不确定区域包含不属于任何片段的像素。在初始分割之后,作者将图像裁剪成较小的块,并评估每个块中不确定区域的比例。如果一个块的不确定区域比例超过预定义的阈值,作者就会放大这个块,将其分辨率加倍,并重新应用SEEM。非极大值抑制(NMS)用于合并来自不同迭代次数的片段。这个过程是迭代的,一直持续到所有块中不确定区域的比例低于阈值。通过迭代放大并重新在不确定性高的块上应用SEEM,作者显著提高了分割的准确性,尤其是在密集人群场景中检测较小个体时。这种自适应方法确保了分割结果既精确又可靠,作为人群计数的伪标签,提高了它们的有效性。

Robust Localization for Point Pseudo-labels
、根据CSDN的规则,我会将公式环境中的斜杠 “/” 替换为 “ " ,而公式单独一行显示时,则替换为 " ",而公式单独一行显示时,则替换为 " ",而公式单独一行显示时,则替换为"$”。下面是修复后的内容:

人群计数方法通常需要点标注来进行训练。因此,作者提出了一种算法,用于预测每个由AdaSEEM生成的个人人像面具中的Head位置。作者的方法从初始面具生成健壮的面具分布开始。将预测的初始面具表示为 M M M。作者在 M o M_o Mo中随机采样 K K K个点,并使用它们作为SEEM生成新面具的提示,表示为 { M n } n = 1 K \{M_n\}_{n=1}^{K} {Mn}n=1K. 然后,作者通过计算预测面具的平均值来得到软面具分布: M = 1 K ∑ n = 1 K M n M = \frac{1}{K}\sum_{n=1}^{K} M_n M=K1n=1KMn。这个平均过程有助于平滑初始面具预测中的噪声和不一致性。

受到经典密度图生成方法的启发,作者随后使用具有两个成分的高斯混合模型(Gaussian Mixture Model, GMM)来建模软Mask分布 M M M。模型表示如下:
p ( z ) = ∑ i = 1 T 1 T ⋅ N ( a z / u i , 2 i ) , p(z) = \sum_{i=1}^{T} \frac{1}{T} \cdot \mathcal{N}(az/u_i, 2i), p(z)=i=1TT1N(az/ui,2i)
其中 u i u_i ui σ i \sigma_i σi分别代表混合模型中每个高斯分布的均值和方差。
作者使用期望最大化(EM)算法将软 Mask 分布拟合到高斯混合模型(GMM)(详见补充材料)。最后一步是选择具有较小垂直坐标(高度)的高斯分量的均值作为 Head 位置。这种方法有效地利用了GMM的统计特性来精确确定 Head 位置,从而适应分割过程中的可变性和噪声。

根据CSDN的规则,我会将公式环境中的斜杠 “/” 替换为 “ " ,而公式单独一行显示时,则替换为 " ",而公式单独一行显示时,则替换为 " ",而公式单独一行显示时,则替换为"$”。下面是修复后的内容:

计数网络是通过生成的Mask和点伪标签进行训练的。对于一个输入图像 I I I,相应的伪标签包括背景Mask M b M_b Mb,不确定Mask M u M_u Mu,个体 Mask { M i } i = 1 N \{M_i\}_{i=1}^{N} {Mi}i=1N,以及 Head位置 { p i } i = 1 N \{p_i\}_{i=1}^{N} {pi}i=1N,其中 N N N是图像中标注的人数。
作者提出的针对预测密度图 D D D的损失函数包括两个部分:背景损失和个体损失,其中在不确定区域的预测被忽略。背景损失是在背景(非人)区域定义的,在这些区域,预测值应接近0。其公式如下:
bkg = ⟨ D , M b ⟩ , \text{bkg} = \langle D, M_b \rangle, bkg=D,Mb
其中 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ,表示对两个矢量化矩阵执行逐元素的点积。
个体的损失由以下公式给出:
ind = ∥ D − M i ∥ 1 + ( ⟨ D , M i ⟩ , C ) ] , \text{ind} = \| D - M_i \|_1 + (\langle D, M_i \rangle, C)], ind=DMi1+(⟨D,Mi,C)],
在公式中, C C C是一个指数距离矩阵,其中的第 j j j个元素 C i j = exp ⁡ ( − ∥ p i − p j ∥ 2 2 ϵ ) C_{ij} = \exp(-\frac{\|p_i - p_j\|_2^2}{\epsilon}) Cij=exp(ϵpipj22)表示Head位置 p i p_i pi与密度值位置 j j j之间的指数距离。 ∗ * 表示逐元素的乘积。
第二个术语鼓励密度向Head 收敛。关于这一点的更多细节,请参考[38]。
最终的损失函数是(2)中背景损失和(3)中个体损失的组合:
L = ind + β bkg \mathcal{L} = \text{ind} + \beta \text{bkg} L=ind+βbkg
其中 β \beta βIterative Pseudo-label Generation

作者提出的方法的一个关键优势是它能够通过预测密度图来预测人群中的全局计数以及每个个体的精确位置(相比之下,[20] 只预测了计数)。这个功能使得可以进一步细化伪标签,特别是在寻找高密度区域中遗漏的个体时。

该过程首先使用预训练的计数网络预测个体的位置。特别是,高于阈值的局部最大值是潜在的人体定位,遵循[38]的方法。这些预测的位置随后被用作点提示,通过SEEM生成新的 Mask 。为了确保高召回率,作者使用多个点来生成更多 Mask ,并通过非最大值抑制(NMS)合并重复的 Mask 。在后续步骤中,这些新生成的 Mask 与上一轮迭代中的 Mask 使用NMS进行合并。这种迭代策略在高密度区域特别有效,它能够揭示在早期迭代中可能被遗漏的个体。

这种方法的视觉展示在图3中,它显示了该策略在检测人口密集区域中更多个体时的有效性。整个算法总结在算法1中。是一个加权超参数。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1608479.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高精度算法(1)

前言 今天来讲一讲高精度算法,我们说一个数据类型,有它的对应范围比如int类型最多 可以包含到负2的31次方到2的31次方减一 其实大概就是20亿左右那么其他的类型也同样如此 那么,如何解决一个很大很大的数的运算呢? 我们今天介…

gemini国内能用吗

gemini国内能用吗 虽然 Gemini 的具体功能和性能还未完全公开,但基于 Google 在 AI 领域的强大背景和技术实力,已经火出圈了,很多小伙伴已经迫不及待想了解一下它有什么优势以及如何快速使用上 首先我们来讲一下gemini的优势 多模态能力&a…

43、二叉树-验证二叉搜索树

思路: 有效 二叉搜索树定义如下: 节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。 所以对于当前节点来说:我的左节点要小于我,我的右节点要大于我&a…

顺序表详解(C语言实现)

顺序表介绍 顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构,一般情况下采用数组存 储。在数组上完成数据的增删查改。 顺序表一般可以分为: 1. 静态顺序表:使用定长数组存储元素。 2. 动态顺序表:使…

世界500强:破解“智慧核能”数智化成功转型密码

近日,实在智能携手中国核能行业协会信息化专业委员会在中国人工智能小镇成功举办“基于大模型的RPA数字员工在核能行业实战应用案例专项培训”,中国核工业集团、中国广核集团、国家电力投资集团等企事业单位共同参加。中核集团作为我国核科技工业的主体&…

screen常用命令

screen是一个在Linux系统中常用的命令行终端模拟器&#xff0c;它允许用户在一个单一终端会话中管理多个终端窗口。以下是一些常用的screen命令 1、创建一个新的screen会话并命名 screen -S <name>2、control a d &#xff1a;分离&#xff08;detach&#xff09;当前的…

TensorRT从入门到了解(2)-学习笔记

目录 1.TensorRT的高性能部署简介2.TensorRT驾驭方案3.如何正确导出onnx4.动态batch和动态宽高的实现5.实现一个自定义插件6.关于封装7.YoloV5案例8.Retinaface案例9.高性能低耦合10.YOLOX集成参考 1.TensorRT的高性能部署简介 tensorRT&#xff0c;nvidia发布的dnn推理引擎&a…

Kotlin语法快速入门--变量声明(1)

Kotlin语法入门–变量声明&#xff08;1&#xff09; 文章目录 Kotlin语法入门--变量声明&#xff08;1&#xff09;一、变量声明1、整型2、字符型3、集合3.1、创建array数组3.2、创建list集合3.3、不可变类型数组3.4、Set集合--不重复添加元素3.5、键值对集合Map 4、kotlin特有…

yolov8 区域计数

yolov8 区域计数 1. 基础2. 计数功能2.1 计数模块2.2 判断模块 3. 主代码4. 实验结果5. 源码 1. 基础 本项目是在 WindowsYOLOV8环境配置 的基础上实现的&#xff0c;测距原理可见上边文章 2. 计数功能 2.1 计数模块 在指定区域内计数模块 def count_objects_in_region(bo…

浅谈rDNS在IP情报建设中的应用

在当今数字化世界中&#xff0c;互联网已经成为人们日常生活和商业活动中不可或缺的一部分。在这个庞大而复杂的网络生态系统中&#xff0c;IP地址是连接和识别各种网络设备和服务的基础。然而&#xff0c;仅仅知道一个设备的IP地址并不足以充分理解其在网络中的角色和行为。为…

第四百六十七回

文章目录 1. 知识回顾2. 使用方法3. 示例代码4. 内容总结 我们在上一章回中介绍了"OverlayEntry组件简介"相关的内容&#xff0c;本章回中将介绍OverlayEntry组件的用法.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 知识回顾 我们在上一章回中介绍了Overlay…

【简单介绍下K-means聚类算法】

&#x1f308;个人主页: 程序员不想敲代码啊 &#x1f3c6;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f44d;点赞⭐评论⭐收藏 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共…

探索AI大模型:理论、技术与应用

引言 近年来&#xff0c;随着深度学习技术的迅猛发展&#xff0c;AI大模型已经成为人工智能领域的重要研究方向和热点话题。AI大模型&#xff0c;指的是拥有巨大参数规模和强大学习能力的神经网络模型&#xff0c;如BERT、GPT等&#xff0c;这些模型在自然语言处理、计算机视觉…

腾讯一面:你了解js的沙箱环境吗?

去年的面试了&#xff0c;最近复盘了一下&#xff0c;发现菜的一批&#xff0c;有些问题一下子就答出来了&#xff0c;现在答的话&#xff0c;那时候还在瞎鸡儿答我也不知道答的什么。。。。 在 JavaScript 中&#xff0c;沙箱&#xff08;sandbox&#xff09;是一个安全机制&…

目标检测——大规模鱼类数据集

一、重要性及意义 生物多样性研究&#xff1a;鱼类是水生生态系统中的重要组成部分&#xff0c;其种类多样性对于维持生态平衡至关重要。通过对鱼类进行准确的分割和分类&#xff0c;可以更好地了解不同鱼类的生态习性、分布情况以及与其他生物的相互作用&#xff0c;进而为保护…

单片机基础知识 07

一. 键盘检测 键盘分为编码键盘和非编码键盘。 编码键盘 &#xff1a;键盘上闭合键的识别由专用的硬件编码器实现&#xff0c;并产生键编码号或者键值&#xff0c;如计算机键盘。 非编码键盘&#xff1a;靠软件编程来识别。 在单片机组成的各种系统中&#xff0c;用的较多的…

Echarts-知识图谱

Echarts-知识图谱 demo地址 打开CodePen 效果 思路 1. 生成根节点 2. 根据子节点距离与根节点的角度关系&#xff0c;生成子节点坐标&#xff0c;进而生成子节点 3. 从子节点上按角度生成对应的子节点 4. 递归将根节点与每一层级子节点连线核心代码 定义节点配置 functio…

将 Notepad++ 添加到右键菜单

目录 方式一&#xff1a;添加注册表&#xff08;手动&#xff09; 方式二&#xff1a;添加注册表&#xff08;一键添加&#xff09; 有时安装了notepad后&#xff0c;在txt文件上右键&#xff0c;在弹出的菜单栏中没有【通过 Notepad 打开】&#xff0c;如下&#xff1a; 这…

5. Django 探究CBV视图

5. 探究CBV视图 Web开发是一项无聊而且单调的工作, 特别是在视图功能编写方面更为显著. 为了减少这种痛苦, Django植入了视图类这一功能, 该功能封装了视图开发常用的代码, 无须编写大量代码即可快速完成数据视图的开发, 这种以类的形式实现响应与请求处理称为CBV(Class Base…

OSPF综合大实验

1、R4为ISP&#xff0c;其上只配置IP地址&#xff1b;R4与其他所直连设备间均使用公有IP&#xff1b; 2、R3-R5、R6、R7为MGRE环境&#xff0c;R3为中心站点&#xff1b; 3、整个OSPF环境IP基于172.16.0.0/16划分&#xff1b;除了R12有两个环回&#xff0c;其他路由器均有一个环…