基于RK3588+TensorFlow的人工智能跨模态行人重识别方法及应用

news2025/1/14 0:49:47
摘要: 跨模态行人重识别技术(cm-ReID)旨在可见光、红外等不同模态图像中识别出同一个人,其在人 机协同、万物互联、跨界融合、万物智能的智能系统与装备中有重要应用。提出一种数据增强的跨模态行人 重识别方法,在波长域进行数据增强的同时保留可见图像的结构信息,以弥合不同模态之间的差距。在此基 础上,基于瑞芯微的 RK3588 芯片设计实现了一套边缘智能终端,并部署了跨模态行人重识别算法。
0 引言
行人重识别(Re-ID),广泛用于视频监控,安
全和智慧城市等各种应用中,旨在解决在不同位置
部署的多个不重叠摄像机中检索感兴趣的行人问题,
由于其在智能视频监控中的重要性,已经引起了计
算机视觉界的越来越多的关注 [1-3] 。当前大量的行人
重识别模型都着眼于可见光-可见光行人图像匹配,
最常见的单模态行人重识别任务,如图1所示,给定
一个探测到的行人图像,并将其与其他不重叠的摄
像机捕获的一组图像进行匹配,该组图库包含所有
可见摄像机数据。由于照明,相机型号差异,视角
变化和姿势变化,前景行人图像可能会变化很大。
尽管存在这些挑战,但随着深度神经网络的发展以
及行人重识别研究的持续推进,在单一可见模态下,
可见光-可见光行人重识别取得了很大的进步并获
得了很高的精度 [4-6]。不过,由于可见光行人重识别
在某些不良的光照条件下,比如在黑夜中无法给出
相应的判别信号。所以如果只通过可见光摄像机,而
没有额外的人工光源,应用将受到限制,因为该系统
在每天的一半时段内都无法正常工作,这就极大地
影响了行人重识别的实际应用。
在实际情况下,如果使用24 h 智能监控系统,可
以在白天通过可见摄像机获取探测图像,而在夜间
通过热像仪捕获图像,图像来自不同的模态。对于实
际应用,现代监视系统通常以双模态运行,即白天
在可见模态下工作,而在夜间自动切换为红外模态。
给定行人的红外图像,目标是匹配相应行人的可见
图像。此跨模态图像匹配任务称为可见光红外行人
重识。与具有丰富色彩信息和结构图案的可见光图
像相比,红外图像是在红外光谱下捕获的,由于可
见光谱的反射率和热光谱的发射率之间存在自然差
异,从而导致外观完全不同,失去了鲜明的颜色特
征。模态差异使得在可见光光谱和红外光谱之间识
别同一个人变得更加困难。这个新问题是一个交叉
模态问题,近年来只有少数相关的前沿工作 [7-9]
为推动跨模态行人重识别技术在智能系统与装
备中的实际应用,参考边缘智能终端 [10-15] 的部署应
用,本文提出了一种高效的跨模态波长增强的行人
重识别方法,在波长域进行数据增强的同时保留可
见图像的结构信息,以弥合不同模态之间的差距。同
时,本文基于国产化RK3588芯片设计了边缘智能终
端,部署了跨模态行人重识别算法,并设计实现了
人工智能综合视频监控软件。实践表明,本文提出的
方法在两个基准数据集SYSU-MM01 [16] 和RegDB [17] 上取
得了较好的性能,并能够在实际场景中进行应用部
署。
1 跨模态行人重识别方法
1.1 红外可见光跨模态行人重识别数据集
为了研究可见光红外跨模态行人重识别问题,
需要收集同一行人对应的可见光图像和红外图像,
如图2所示。文献[16]提出了SYSU-MM01数据集,其
中包括了由4个可见光摄像机以及2台在室内和户外
拍摄的近红外摄像机所拍摄的影像,其中的可见光
图像由Kinect V1在明亮的室内房间拍摄,红外图像
是由近红外相机在黑暗条件下拍摄的。

 

在文献[17]的工作中,提出了一个新的称为
RegDB的可见光热红外数据集,该数据集利用文献
[16]中的原始数据并设计了类似于SYSU-MM01数据
集的架构。RegDB [17] 数据集中,可见光摄像机拍摄的
图像分辨率为800×600像素,红外摄像机拍摄的图
像分辨率为640×480像素,总共采集了412名行人的
8 240张图片(包含4 120张可见光图像和4 120张对
应的红外图像)。主要区别在于,SYSUMM01包含可
见光和近红外图像,而RegDB包含可见光和远红外图
像,这使得一些方法在两个数据集中都难以工作。
由于波长较短,来自SYSU-MM01数据集的近红外图像
具有清晰的边缘和清晰的背景。作为比较,RegDB数
据集中的远红外图像边缘模糊,丢失了许多彩色图
案。
1.2 红外可见光跨模态行人重识别方法
较大的跨模态差异是红外可见光跨模态行人重
识别的最大问题,这是由可见光和热像仪的不同反
射可见光谱和感测到的发射率引起的。可见光图像
具有3个通道,其中包含波长范围为 400~700 nm 的可
见光的颜色信息,包含足够的人的肤色信息,而热图
像具有一个包含不可见光信息的通道,其波长比可
见光的波长更长。因此,这两种方式本质上是不同
的,导致可见光行人重识别中行人的最重要的颜色
信息特征,很难用于红外可见光跨模态行人重识别
的异构数据。当将这两种模态的图像直接进行联合
跨模态学习时,大多数现有的红外可见光跨模态行
人重识别方法变得对参数敏感,难以收敛且计算量
大。

目前的红外可见光跨模态行人重识别方法大多
将输入图像转换为相同或不同的模态图像,或由
GAN 生成相似的图像,受到以下限制:
1) 将可见光图像、灰度图像、红外图像同步输
入网络,但忽略它们对波长的依赖性会丢失波长之
间相关性的大量信息,这将影响最终性能,例如图
3 (a)所示。
2) 不同层次特征之间的不同感受野可能会降低
直接特征融合的效果,因为结果感受野减少。
3) 来自不同模态的图像很少,仅在 3 RGB
道中保持可见光图像的颜色或简单地将可见图像转
换为灰度图像就限制了跨模态行人重识别的数据增
强,例如图 3 (b)、图 3 (c)所示。
本文提出了一种颜色抖动增强方法,用于数据
增强模型中不同波长之间的关系,如图 3 (d)所示。
在文献 [18] 中提出的基于同质增强的三元跨模态行
人重识别学习方法的基础上,在基于亮度、对比度、
道到增强模态的映射,具体操作中在 torchvision
使用 torchvision.transforms.ColorJitter() 函数来实现
亮度、对比度、饱和度和色调空间的随机调整。与
现有的数据增强方法不同 [18] ,颜色抖动增加了每个
波长的多样性,从而为整个输入产生了更多不同强
度波长的信息组合。有了这种颜色抖动,生成的图
像将在不同波长上有效地增加互补信息,而不需要
额外的注释数据。然后将红外、可见、增强模态这 3
种图像经过一个参数共享的单流网络来学习不同图
像输入之间的关系,并根据这种关系从不同的模态
中搜索物体。
2 边缘智能终端部署
2.1 硬件实现
与目标检测、目标跟踪等一般视觉人工智能任
务可采用单一计算机后端不同,跨模态行人重识别
技术是跨摄像机多视角的视觉人工智能任务,涉及
到多路视频流信号的联合分析,在前端设备数量较
多的情况下,单一处理后端难以满足实际的 AI 推理
高计算量需求,限制了整体应用系统的扩展性。
为了验证及演示本文提出的跨模态行人重识别
技术的先进性及实用性,本文单独设计了一套边缘
计算系统实现,如图 4 所示。边缘计算系统以板卡
的形式将跨模态行人重识别神经网络推理单元集成
到每路摄像设备前端。实际工作时,可见光、红外
模态视频流数据经过边缘计算系统实时处理分析后,
将图像与人工智能推理结果一同回传给后端,降低
了数据集中处理的计算压力,且系统弹性可扩展,
不受接入前端设备的数量影响,更符合跨模态行人
重识别任务的实际应用场景需求。
如图 5 所示,边缘计算系统硬件方案以国产瑞
芯微 RK3588 处理器为处理核心,该处理器采用四
ARM Cortex-A76+ 四核 Cortex-A55 处理单元,搭
16G 板载内存,系统整体具有高性能、低功耗的
特点,典型功耗 10 W 。内置 NPU (神经网络处理单
元),支持 INT4/INT8/INT16/FP16 混合计算,含 3
NPU 独立核心,可联合计算亦可单独工作,浮点
计 算 运 算 能 力 高 达
6TOP 。具备
H.264/H.265/VP9/AVS2 等格式的专用编解码硬件模
块,支持高达 8k 分辨率视频流的实时编解码。系统
支持 2 路千兆以太网接口。同时针对多模态视频监
控的特定任务场景,本文方案扩展搭配 ADV7281A
模拟视频解码芯片,提供四路模拟视频接口,兼容
NTSC/PAL/SECAM 多制式模拟视频,形成了完整的
模拟 / 数字视频流的兼容支持能力。提供 5 485
口,可以对转台、云台等设备进行串口控制。

5 基于 RK3588 处理器的边缘智能终端实物图(左为终
端正面,右为终端反面)
2.2 软件环境
边缘计算部署软件环境由 PC 端开发转换环境
与边缘段部署运行环境两部分组成。
PC 端开发转换环境为瑞芯微提供的 RKNN
Toolkit2 工具链,其包含一组兼容 Caffe TensorFlow
ONNX PyTorch 等人工智能框架,进行神经网络模
型调整、优化、转换的基础软件工具及多语言编程
接口,用于将训练完成的人工智能网络模型转换输
出为 RKNN 专用格式。如图 6 所示,边缘端部署运
行环境具体包含:
1) 视频流取流模块,用于读取可见光或红外热
成像摄像机视频流,支持 RTSP/RTMP 等网络流格
式的网络摄像机或者 MIPI/USB 接口的数字摄像头
设备。
2) 人工智能神经网络推理核心单元,其为瑞芯
微官方提供的 RKNPU2 基础 NPU 推理环境,其作
用为将 PC 端处理转换后的 RKNN 格式的神经网络
模型部署在芯片专属 NPU 单元中,同时接收取流模
块获取的可见光或者红外视频流进行神经网络推理,
并向后输出推理结果。
3) 流媒体服务器模块,用于将通过人工智能神
经网络处理后的的可见光或红外视频流进行二次推
流输出到后端。针对显控终端软件不同显控需求,
本方案提供 3 种视频流输出方式:针对调试、非 AI
显示功能,提供原始视频流转发透传模式;针对一
般性非交互 AI 推理显示功能,提供叠加显示模式,
AI 推理结果与原始视频图像叠加后输出给后端;
针对客户端需要对 AI 推理结果进一步加工的功能,
提供 AI 推理结果单独输出模式。
4) 设备串口控制模块,用于向摄像机前端发送
串口控制命令,控制其转动,扫描等功能动作;
5)Web 服务模块,用于向后端提供直观、易用
的基于 Web 界面的设置接口,同时可实时向后端报
告边缘计算系统运行状态,包括板载各项硬件状态、
软件功能模块、通信状态等部分的实时监测信息,
易于显控终端程序对板载各个系统进行监测,并对
板载资源进行相应的规划与调整。同时提供 GUI
口,配置看门狗、上电重连、断线重连、灾难恢复
等功能辅助功能,最大化板载功能的易用性。

该设计方案通过引入层级配置文件的配置方案,
提供系统状态版本切换功能,即可根据具体应用场
景需求,通过上传系统功能配置文件的形式,一键
切换系统工作状态,或者通过提供不同版本的系统
配置文件,针对具体情境进行工作状态动态切换,
便于系统调试或者提供基于场景的工作模式切换功
能。

7 边缘智能终端软件依赖关系图  

如图 7 所示,该设计通过将系统抽象成相互独
立的功能模块,相互之间通过接口结合配置信息进
行组合形成具体功能的形式,最大化的保持了系统
的扩展性,以适应不断变化的应用需求。同时,模
块化的设计支持对每个独立功能部分进行迭代升级,
或者引入新的功能模块,为系统提供最大化向后扩
展可能性保障。通过 WEB 向用户提供直观、易用的
用户交互接口,系统所有功能设置,参数设置,系
统状态等均可通过该用户接口进行统一设定,最小
化系统使用难度。
3 实验与结果分析
3.1 模型训练与部署
如图 8 所示,模型训练分为以下 4 个步骤:
步骤 1 数据准备及格式转换。将 SYSUMM01、
RegDB多摄像机可见光、红外热成像图像数据混合、
清洗、均衡化后统一转换为 PASVCAL 格式数据文
件。
步骤 2 将预处理的多模态数据进行增强,即在
基于亮度、对比度、饱和度和色调空间的抖动,从
可见图像生成增强模态,在波长域进行数据增强的
同时保留可见图像的结构信息。
步骤 3 根据数据集多模态成分具体构成,决定
模型每个训练周期训练数据分割策略、模型学习率
调整关系等策略参数,构建输出训练模型策略配置
文件。
步骤 4 执行模型训练程序,训练结束后生
.pth 格式神经网络模型。
将训练生成的 .pth 神经网络模型权重文件转换
成为瑞芯微专属 RKNN 格式,须先将其转换为
ONNX 格式。 ONNX Open Neural Network Exchange
是一种针对机器学习所设计的开放式的文件格式,
用于存储训练好的模型。它使得不同的人工智能框
架(如 Pytorch, MXNet )可以采用相同格式存储模
型数据并交互。通过调用 torch.onnx 模块将神经网
络模型权重文件转换为 .ONNX 神经网络交换文件。
下面通过调用 RKNN Toolkit2 工具将 .ONNX
件转换为瑞芯微专属 RKNN 专属神经网络权重文件
并存储于边缘计算板的预定目录。利用 RK3588
署时,实际采集的可见光和红外图像分辨率不一致,
可见光图像分辨率为 1 920 × 1 080 ,红外图像分辨
率为 640 × 512 。实际部署中,将可见光图像降采样
640 × 512 作为模型的输入,对不同分辨率的图像
调整为一致的分辨率进行处理。通过与边缘计算版
取流与流媒体服务器模块结合,可完成可见光 / 红外
图像实时读取分析回传后端的完整边缘计算功能。
3.2 实验结果分析
将本文提出的方法与 HCML [19] 、Zero-Pad [16]
HSME [20] 、D2RL [21] 、MAC [22] 、MSR [23] 、HAT [18] 在两个基准
数据集 SYSU-MM01 [16] 和 RegDB [17] 上进行了实验和比
较。其中在 SYSU-MM01 数据集上的运行结果如表 1
所示,在 RegDB 数据集上的运行结果如表 2 所示。

同时,将本文设计的边缘智能终端部署于昼夜
安防监控的实际应用场景中,运行效果如图 9 所示,
左侧为可见光图像,右侧为跨模态行人重识别算法
匹配的红外图像。
4 结论
本文研究了红外可见光跨模态行人重识别方法
及基于边缘智能终端的部署。得出主要结论如下:
1) 提出了一种高效的跨模态波长增强的行人重
识别方法,以弥合不同模态之间的差距。该方法在
两个基准数据集 SYSU-MM01 RegDB 上取得了
较好的性能
2) 在实践中,基于国产化 RK3588 芯片设计了
边缘智能终端,并部署了跨模态行人重识别算法。
实践表明,能够在昼夜安防监控场景中进行应用部
署。
关于未来的研究方向,可以从如下角度考虑:
1) 构建更高质量的红外可见光数据集:目前基
于红外和可见光的数据集相当匮乏,构建高质量的
数据集有助于以深度学习网络为代表的方法的模型
优化。
2) 利用多模态和传感器信息:结合多种传感器
的空间姿态、性能等参数信息,可以利用更多的先
验信息提升性能。

信迈提供RK3588视觉方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/491685.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Vue 基础】尚品汇项目-10-Search模块中商品分类与过渡动画

一、商品导航的显示与隐藏 打开“src/componetnts/TypeNav/index.vue”,让商品导航默认为显示 在TypeNav组件挂载完毕时,判断当前的路由是否是“/home”,如果不是“/home”,就将分类导航隐藏 当鼠标移入时 移入时让商品导航显示 …

如何在Windows上轻松安全的将数据从HDD迁移到SSD?

当你打算升级硬盘时,如何将数据从HDD迁移到SSD?你可以使用一款免费的软件将所有数据从一个硬盘克隆到另一个硬盘。 为什么要将数据从HDD迁移到SSD? HDD(机械硬盘)和SSD(固态硬盘)是目前常用…

java 学习日记

今天先搞题目 给你一个points 数组,表示 2D 平面上的一些点,其中 points[i] [xi, yi] 。 连接点 [xi, yi] 和点 [xj, yj] 的费用为它们之间的 曼哈顿距离 :|xi - xj| |yi - yj| ,其中 |val| 表示 val 的绝对值。 请你返回将所…

DS1302芯片介绍

低功耗时钟芯片DS1302可以对年、月、日、时、分、秒进行计时,且具有闰年补偿等多种功能。 DS1302的性能特性: 实时时钟,可对秒、分、时、日、周、月以及带闰年补偿的年进行计数; 用于高速数据暂存的318位RAM; 最少引脚…

Redis --- 持久化、主从

一、Redis持久化 Redis有两种持久化方案: RDB持久化 AOF持久化 1.1、RDB持久化 RDB全称Redis Database Backup file(Redis数据备份文件),也被叫做Redis数据快照。简单来说就是把内存中的所有数据都记录到磁盘中。当Redis实例故…

第 5 章 HBase 优化

5.1 RowKey 设计 一条数据的唯一标识就是 rowkey,那么这条数据存储于哪个分区,取决于 rowkey 处于 哪个一个预分区的区间内,设计 rowkey的主要目的 ,就是让数据均匀的分布于所有的 region 中,在一定程度上防止数据倾斜…

年前无情被裁,我面试大厂的这3个月....

春招接近尾声,即将远去的“金三银四”今年也变成了“铜三铁四”。 大厂不断缩招,不容忽视的疫情影响,加上不断攀升的毕业生人数,各种需要应对的现实问题让整个求职季难上加难。 在这个异常残酷的求职季,很多人的困惑…

阿里系App抓包详细分析

InnerMtopInitTask OpenMtopInitTask ProductMtopInitTask 三个实现分别对应的instanceId为:OPEN、INNER、PRODUCT,咱们主要看InnerMtopInitTask这个实现,分析里面重要的初始化步骤,最后再使用Charles完成抓包。 IMtopInitTas…

发帖引蜘蛛:让你的网站在搜索引擎中的曝光率翻倍!

在当今的数字时代,SEO已成为提高网站曝光率和流量的重要手段。发帖引蜘蛛是一种有效的SEO技术,它可以让您的网站在搜索引擎中的曝光率翻倍,从而为您的业务带来更多的流量和潜在客户。 发帖引蜘蛛是一种简单易学的技术,它需要您在…

SPSS如何进行信度分析之案例实训?

文章目录 0.引言1.信度分析2.多维刻度分析 0.引言 因科研等多场景需要进行绘图处理,笔者对SPSS进行了学习,本文通过《SPSS统计分析从入门到精通》及其配套素材结合网上相关资料进行学习笔记总结,本文对信度分析进行阐述。 1.信度分析 &#…

【ROS】如何让ROS中节点实现数据交换Ⅰ--ROS话题通信

Halo,这里是Ppeua。平时主要更新C语言,C,数据结构算法…感兴趣就关注我吧!你定不会失望。 目录 0.ROS文件系统及常用指令1.话题通信概念2.利用标准消息类型实现话题通信实现(python)2.1发布方实现2.2订阅方实现 3.利用自定义消息类…

[Dubbo] 重要接口与类

文章目录 1.dubbo的整体调用链路2.dubbo的源码整体设计3.重要接口和类 1.dubbo的整体调用链路 消费者通过Interface进行方法调用,统一交由消费者的Proxy处理(Proxy通过ProxyFactory来进行代理对象的创建) Proxy调用Filter模块,做…

搞懂 API ,API 分类全知道

API,即应用程序编程接口,是为了方便应用程序之间的数据和功能交互而设计的一些标准方法。API 的分类可以从多个维度进行,我会对 API 的分类维度进行简单的介绍。 根据使用方式的不同 通常情况下,API 可以分为两种使用方式&#…

【LeetCode】1143. 最长公共子序列

1.问题 给定两个字符串 text1 和 text2,返回这两个字符串的最长 公共子序列 的长度。如果不存在 公共子序列 ,返回 0 。 一个字符串的 子序列 是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符&#xff0…

Springboot 项目搭建

目录 一、new project 二、pom.xml 三、配置 resources/application.yml 四、CodeGenerator 代码生成 五、在项目主启动类中&#xff0c;添加MapperScan注解 六、编写 Controller 七、选择application类&#xff0c; 点击运行 一、new project: 二、pom.xml <?xml …

如何升级npm 和 安装nvm 及 升级node.js

1.NPM如何升级&#xff1f; 1.1.可以使用NPM自带的命令进行升级&#xff1a; npm install -g npm 注&#xff1a;这个命令会安装最新的&#xff0c;安装到全局。 2.查看NPM版本 npm -v 注&#xff1a;要是版本过低&#xff0c;可使用上面所说命令进行升级。 3.怎么把node.js升…

二级医院不良事件管理源码,事件审核处理、事件提醒、权限控制、外部上报等功能

医疗安全不良事件报告系统源码 技术架构&#xff1a;前后端分离&#xff0c;仓储模式 开发语言&#xff1a;PHP 开发工具&#xff1a;vscode 前端框架&#xff1a;vue2element 后端框架&#xff1a;laravel8 数 据 库&#xff1a;mysql5.7 文末获取联系&#xff01; 医疗…

供应链管理:理解供应链管理

什么是供应链 供应链便是环绕中心企业&#xff0c;从配套零件开始&#xff0c;制成中心产品直至最终产品&#xff0c;最后由出售网络把产品送到顾客手中的、将供应商&#xff0c;制造商&#xff0c;分销商直到最终用户连成一个整体的功用网链结构。 从这个角度讲&#xff0c;生…

实验9---SpringMVC控制器

实验九 SpringMVC 二 一、实验目的及任务 通过该实验&#xff0c;掌握SpringMVC实现供应商添加、查看、修改的方法。掌握SpringMVC控制器的编写方法。 二、实验环境及条件 主机操作系统为Win10&#xff0c;Tomcat,j2sdk1.6或以上版本。 三、实验实施步骤 略 四、实验报…

一个让人类窒息的AI工具,或许未来人工智能真的能代替人类!

时隔几周&#xff0c;「神采PromeAI」又更新了 不仅页面做了小小的调整 又增加了「背景生成」功能 害怕各位小伙伴找不到使用位置 今天小编就给大家分享一个超全的使用教程 极速出图效率翻倍 让神采PromeAI在应用性设计方面更具优势 温馨提示&#xff1a;目前手机适配端无…