【PVCodeNet】《Palm Vein Recognition Network Combining Transformer and CNN》

news2025/4/26 1:22:11

在这里插入图片描述

[1]吴凯,沈文忠,贾丁丁,等.融合Transformer和CNN的手掌静脉识别网络[J].计算机工程与应用,2023,59(24):98-109.


文章目录

  • 1、Background and Motivation
  • 2、Related Work
  • 3、Advantages / Contributions
  • 4、Method
  • 5、Experiments
    • 5.1、Datasets and Metrics
    • 5.2、Hyper-parameters
    • 5.3、Ablation Experiments
    • 5.4、Compare with other methods
  • 6、Conclusion(own) / Future work


1、Background and Motivation

  • 生物特征识别的重要性
  • 掌静脉识别的优势
  • 传统掌静脉识别方法的局限性

掌静脉识别流程包括手掌静脉图像的采集、图像预处理、特征提取、识别验证四个阶段。

为了进一步提升识别精度,本文设计了结合 Transformer Encoder 和 CNN 并运用扩大决策边界的损失函数 AAM-Loss(additive angular margin loss)的掌静脉特征编码识别网络 PVCodeNet。

2、Related Work

特征提取传统方法

  • 基于结构特征的方法
  • 基于子空间的方法
  • 是基于纹理特征的方法

基于深度学习的特征提取

3、Advantages / Contributions

贡献:

  • 提出新的掌静脉识别网络PVCodeNet
  • 实现高精度识别
  • 验证网络泛化性能

创新点

  • 首次将Transformer Encoder应用于掌静脉识别
  • 使用深度超参数化卷积(Do-Conv)
  • 引入规一化的注意力机制(NAM)
  • 使用扩大决策边界的损失函数(AAM-Loss)

4、Method

手掌关键点定位+ROI提取

在这里插入图片描述
选取食指与中指间隙 A、中指与无名指间隙 B 以及无名指与小指间隙 C 作为手掌关键点

L 设置为 20 个像素


图像增强

在这里插入图片描述
使用 CLAHE 对比度增强后,图像噪声也得到了增强,噪声对后续的掌静脉特征提取及匹配会产生影响,本文运用中值滤波图像去噪方法来降低图像噪声的干扰


在这里插入图片描述
在 resnet18 的基础上修改,网络结构由 1 个Transformer Encoder 模块和 4 个改进的 BasicBlock 组成

在这里插入图片描述
在这里插入图片描述

  • 首次把 Transformer Encoder 模块应用于掌静脉识别任务中(Transformer Encoder拥有全局的感受野和矩阵并行运算的能力,本文把Transformer Encoder 应用于主干网络初始阶段进行特征提取可以快速获取全局的掌静脉特征信息,提取的特征信息更加充分和全面。)

  • 使用改进的残差块 ImprovedBlock(本文在传统的卷积层基础上增加一个额外的深度卷积构成深度超参数化卷积Do-Conv,使网络呈现一种过参数化状态,增加了网络可学习的参数,因此提取出的静脉特征区分度更大,特征质量更高。)

  • 使用扩大决策边界的损失函数 Additive Angular Margin Loss 取代 softmax


Transformer Encoder
在这里插入图片描述

在这里插入图片描述


ImprovedBlock

在这里插入图片描述

深度超参数化卷积 Do-Conv(Depthwise Over-parameterized Convolutional Layer)

核心思想:在训练阶段使用额外的深度卷积来增强传统的卷积层。具体来说,每个输入通道都与不同的二维卷积核进行卷积操作,这两个卷积的组合构成了一个过参数化结构,因为它增加了可学习的参数。然而,在推理阶段,这些额外的深度卷积会被折叠到传统的卷积层中,使得最终的计算量与没有过参数化的卷积层完全相同。

在这里插入图片描述
在这里插入图片描述
不同的是,Do-Conv 比传统卷积层 Conv 在训练时多了一次深度卷积,这样就会使网络呈现出一种过参数化状态,保证了足够的参数量,用更多的参数训练不但可以提升训练速度,而且可以使网络收敛到更好的参数组合使提取静脉特征更加具有区分性,尤其是对于纹理高度相似难以区分的困难样本提取出来的特征向量区分度更大。

来自

Cao J, Li Y, Sun M, et al. Do-conv: Depthwise over-parameterized convolutional layer[J]. IEEE Transactions on Image Processing, 2022, 31: 3726-3736.
在这里插入图片描述

注意力机制 NAM

在这里插入图片描述


Additive Angular Margin Loss

在这里插入图片描述

在这里插入图片描述

5、Experiments

5.1、Datasets and Metrics

  • PolyU
  • SEPAD-PV(该数据集是自己用红外相机采集的 108人的手掌静脉图像,每个人左右手在旋转不同角度下在两个时期分别采集10张,左右手视为不同的类,共 216 类 4320 张图像)
  • Tongji
  • SDUMLA(山东大学)

在这里插入图片描述
在这里插入图片描述

评价指标 EER(equal error rate)

5.2、Hyper-parameters

首先使用基准网路在 PolyU 数据集上探究了不同的超参数起始学习率 LR 和批次 Batchsize 组合对精度的影响,
在这里插入图片描述


特征向量维度对比实验
在这里插入图片描述

512 维最好


AAM-Loss 对比实验

在这里插入图片描述

AAM-loss 有两个超参,s 和 m

s 被固定设置为 30,实验 m 的值对结果的影响

结论:AAM-Loss 的参数设置 s 和 m 分别设置为 30 和 0.45

5.3、Ablation Experiments

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

AAM-Loss 的引入提升很大

Transformer Encoder 的引入在 EER 评价指标上表现的最明显

在这里插入图片描述
在这里插入图片描述

绘制出了余弦相似度分布图,静脉图像特征向量之间的夹角越小,余弦值就越大,对应的余弦相似度就越高。

本文的方法类内相似度分布更加集中

本文算法类内余弦相似度分布在 0.8~1 之间,更加接近于理想情况下同类样本余弦相似度为1的分布,降低了在匹配阶段类内与类间模板出现交集,导致类内样本被误识为类间样本的风险。

5.4、Compare with other methods

在这里插入图片描述


看看在其它数据集上的表现

在这里插入图片描述
在这里插入图片描述

拉满


与其他算法的对比

在这里插入图片描述

6、Conclusion(own) / Future work

  • Do-ConV,直观上感觉是,1x1 = 1,(1x10) x (10x1) = 1,Flops 明显会增加,网络的参数量还是没有变化的
  • AAM-loss,基于 softmax 改进

更多论文解读,请参考 【Paper Reading】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2342833.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

x-cmd install | brows - 终端里的 GitHub Releases 浏览器,告别繁琐下载!

目录 核心功能与优势安装适用场景 还在为寻找 GitHub 项目的特定 Release 版本而苦恼吗?还在网页上翻来覆去地查找下载链接吗?现在,有了 brows,一切都将变得简单高效! brows 是一款专为终端设计的 GitHub Releases 浏览…

多模态知识图谱:重构大模型RAG效能新边界

当前企业级RAG(Retrieval-Augmented Generation)系统在非结构化数据处理中面临四大核心问题: 数据孤岛效应:异构数据源(文档/表格/图像/视频)独立存储,缺乏跨模态语义关联,导致知识检…

实验八 版本控制

实验八 版本控制 一、实验目的 掌握Git基本命令的使用。 二、实验内容 1.理解版本控制工具的意义。 2.安装Windows和Linux下的git工具。 3.利用git bash结合常用Linux命令管理文件和目录。 4.利用git创建本地仓库并进行简单的版本控制实验。 三、主要实验步骤 1.下载并安…

JavaWeb:Web介绍

Web开篇 什么是web? Web网站工作流程 网站开发模式 Web前端开发 初识web Web标准 HtmlCss 什么是Html? 什么是CSS?

教育行业网络安全:守护学校终端安全,筑牢教育行业网络安全防线!

教育行业面临的终端安全问题日益突出,主要源于教育信息化进程的加速、终端设备多样化以及网络环境的开放性。 以下是教育行业终端安全面临的主要挑战: 1、设备类型复杂化 问题:教育机构使用的终端设备包括PC、服务器等,操作系统…

Spring Boot知识点详解

打包部署 <!‐‐ 这个插件&#xff0c;可以将应用打包成一个可执行的jar包&#xff1b;‐‐> <build><plugins> <plugin> <groupId>org.springframework.boot</groupId><artifactId>spring‐boot‐maven‐plugin</artifactId&g…

DNS主从同步及解析

DNS 域名解析原理 域名系统的层次结构 &#xff1a;DNS 采用分层树状结构&#xff0c;顶级域名&#xff08;如.com、.org、.net 等&#xff09;位于顶层&#xff0c;下面是二级域名、三级域名等。例如&#xff0c;在域名 “www.example.com” 中&#xff0c;“com” 是顶级域名…

在Windows11上用wsl配置docker register 镜像地址

一、下载软件 1、下载wsl:安装 WSL | Microsoft Learn,先按照旧版 WSL 的手动安装步骤 | Microsoft Learn的步骤走 注:如果wsl2怎么都安装不下来,可能是Hyper-V没有打开,打开控制面板->程序和功能->启用或关闭Windows功能,勾选Hyper-V 如果Windows功能里面没有Hyp…

【Linux网络】构建UDP服务器与字典翻译系统

&#x1f4e2;博客主页&#xff1a;https://blog.csdn.net/2301_779549673 &#x1f4e2;博客仓库&#xff1a;https://gitee.com/JohnKingW/linux_test/tree/master/lesson &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01; &…

【PGCCC】Postgres 故障排除:修复重复的主键行

如何从表中删除不需要的重复行。这些重复行之所以“不需要”&#xff0c;是因为同一个值在指定为主键的列中出现多次。自从 glibc 好心地改变了排序方式后&#xff0c;我们发现这个问题有所增加。当用户升级操作系统并修改底层 glibc 库时&#xff0c;这可能会导致无效索引。 唯…

DeepSeek+Cursor+Devbox+Sealos项目实战

黑马程序员DeepSeekCursorDevboxSealos带你零代码搞定实战项目开发部署视频教程&#xff0c;基于AI完成项目的设计、开发、测试、联调、部署全流程 原视频地址视频选的项目非常基础&#xff0c;基本就是过了个web开发流程&#xff0c;但我在实际跟着操作时&#xff0c;ai依然会…

996引擎-拓展变量:物品变量

996引擎-拓展变量:物品变量 测试代码参考资料对于Lua来说,只有能保存数据库的变量才有意义。 至于临时变量,不像TXT那么束手束脚,通常使用Lua变量就能完成。 SELECT * FROM dbo.TBL_ITEM_EX_ABIL WHERE FLD_MAKEINDEX = 28620 <

【踩坑记录】stm32 jlink程序烧录不进去

最近通过Jlink给STM32烧写程序时一直报错&#xff0c;但是换一个其他工程就可以烧录&#xff0c;对比了一下jink配置&#xff0c;发现是速率选太高了“SW Device”&#xff0c;将烧录速率调整到10MHz以下就可以了

‌RISC-V低功耗MCU动态时钟门控技术详解

我来分享一下RISC-V核低功耗MCU的动态时钟门控技术实现&#xff1a; 这款MCU通过硬件级时钟门控电路实现了模块级的功耗管理。当外设&#xff08;如UART、SPI&#xff09;处于闲置状态时&#xff0c;系统会自动切断其时钟信号&#xff0c;减少无效翻转功耗。同时支持多电压域协…

工厂模式:解耦对象创建与使用的设计模式

工厂模式&#xff1a;解耦对象创建与使用的设计模式 一、模式核心&#xff1a;封装对象创建逻辑&#xff0c;客户端无需关心具体实现 在软件开发中&#xff0c;当创建对象的逻辑复杂或频繁变化时&#xff0c;直接在客户端代码中 new 对象会导致耦合度高、难以维护。例如&…

Python爬虫学习:高校数据爬取与可视化

本项目实现了从中国教育在线&#xff08;eol.cn&#xff09;的公开 API 接口爬取高校相关数据&#xff0c;并对数据进行清洗、分析与可视化展示。主要包括以下功能&#xff1a; 爬取高校基础信息及访问量数据数据清洗与格式转换多维度数据分析与可视化&#xff0c;如高校数量分…

触觉智能RK3506核心板,工业应用之RK3506 RT-Linux实时性测试

在工业自动化、机械臂控制等高实时性场景中&#xff0c;系统响应速度与稳定性直接决定设备效能。触觉智能RK3506核心板基于瑞芯微三核Cortex-A7架构深度优化&#xff0c;搭载Linux 6.1内核并支持Linux-RT实时系统&#xff0c;提供实时性能的高性价比解决方案。 RK3506与RT-Linu…

基于SpringBoot的高校体育馆场地预约管理系统-项目分享

基于SpringBoot的高校体育馆场地预约管理系统-项目分享 项目介绍项目摘要目录总体功能图用户实体图赛事实体图项目预览用户个人中心医生信息管理用户管理场地信息管理登录 最后 项目介绍 使用者&#xff1a;管理员 开发技术&#xff1a;MySQLJavaSpringBootVue 项目摘要 随着…

华为云获取IAM用户Token的方式及适用分析

&#x1f9e0; 一、为什么要获取 IAM 用户 Token&#xff1f; 我们用一个生活中的比喻来解释&#x1f447;&#xff1a; &#x1f3e2; 比喻场景&#xff1a; 你要去一个 高级写字楼&#xff08;华为云物联网平台&#xff09; 办事&#xff08;调用接口管理设备&#xff09;&…

如何利用快照与备份快速恢复服务器的数据

在服务器上利用**快照&#xff08;Snapshot&#xff09;**和**备份&#xff08;Backup&#xff09;**快速恢复数据&#xff0c;可显著减少停机时间并确保业务连续性。以下是具体操作步骤和最佳实践&#xff1a; --- ### **1. 快照&#xff08;Snapshot&#xff09;恢复** **适…