EfficientPhys

news2024/11/26 7:50:43

研究背景

基于相机的生理测量是一种非接触式方法,用于通过从身体反射的光捕获心脏信号。最常见的此类信号是通过光电体积描记图 (PPG) 测量的血容量脉搏 (BVP)。由此,可以推导出心率、呼吸率和脉搏传导时间。神经网络模型是当前最先进的 rPPG 测量方式。这些网络可以学习强大的特征表示,并有效地将由于潜在生理过程引起的像素的细微变化与由于身体运动、光照变化和其他“噪声”来源引起的像素变化区分开来。

问题

虽然之前的研究将架构定义为“端到端”方法,那些实现最先进性能的方法实际上需要几个预处理步骤,然后才能将数据用作网络的输入。例如,使用手工制作的归一化差异帧和归一化外观帧作为其卷积注意力网络的输入。或者使用一个复杂的模式来创建称为“MSTmaps”的特征图,他们的过程包括面部标志检测,使用这些标志提取几个感兴趣区域(ROI),然后平均像素值在两个RGB 和 YUV 颜色空间。这些预处理步骤有几个缺点:

  1. 它们对最佳归一化或表示做出假设,而不允许网络以数据驱动的方式学习这些特征。
  2. 它们的计算成本很高,并且在许多情况下会向视频处理管道添加大量操作。
  3. 这些操作通常难以实现,使复制和部署变得困难,甚至可能比“核心”网络本身具有更高的计算预算。

对比图

理想情况下,基于视频的生理测量方法即使在移动设备上也能以高帧率运行,易于在不同平台上实施,并实现状态-最先进的性能。解决上述挑战将有助于实现这些特性。
在本文中,作者提出了两种用于基于相机的生理测量的新型高效神经模型,称为 EfficientPhys,无需面部检测、分割、归一化、色彩空间变换或任何其他预处理步骤。使用原始视频帧的输入,模型在三个公共数据集上实现了很高的准确性。

方法

Convolution-based EfficientPhys

为了实现简单、快速和准确的基于设备摄像头的实时生命体征测量,本文作者提出了一种一站式解决方案架构,该架构将原始视频帧作为网络的输入并输出 PPG 信号。基于卷积的 EfficientPhys 是一个单分支网络,包含自定义归一化层、自注意力模块、张量移位模块和 2D 卷积运算,以执行高效准确的时空建模,同时使其易于部署。
架构图

Normalization Module

作者针对图片预处理阶段,提出了一个 Normalization 模块,它可以在每两个连续的 RGB 原始帧和规范化之间执行运动建模,以减少光照和运动噪声。更具体地说,所提出的归一化模块包括差异层和批归一化层。
差异层 通过减去每两个相邻帧来计算原始视频帧沿时间轴的第一个前向差异。在每两个连续帧之间执行运动建模和归一化更像是高通滤波,可以帮助减少来自光照和运动噪声的全局噪声,同时保持 PPG 的细微变化。
然而,不同的帧在尺度上可能大不相同,使网络难以学习平均特征表示,特别是当感兴趣的信号隐藏在沿时间轴的细微像素变化中时,噪声伪影会导致更大的相关变化。
为了解决这个问题,作者在差异层之后添加一个批量归一化层。添加批量归一化层有两个好处:

  1. 它在训练期间将批处理中的差分帧归一化为相同的尺度
  2. 与之前工作中固定归一化不同,batchnorm 提供了两个可学习的参数β和γ,用于缩放(到不同的方差)和移位(到不同的平均值)以及两个不可训练的参数,即平均μ和标准差σ。通过学习过程,批量范数层可以学习出最佳参数用于放大像素变化,同时最小化噪声。

如下图所示。如果没有批处理范数层,直接应用差分层意味着帧显示为“黑色”。因为每连续两帧中皮肤像素的细微变化相对非常小。另一方面,添加后续的批处理范数层将有助于它学习归一化函数,从而大幅放大皮肤像素的细微变化。其结果不仅仅是数值的放大,而是规范化和放大。
Normalization

Self-Attention-Shifted Network

为了有效地捕捉丰富的时空信息,作者提出了一个自注意力转移网络(SASN)。 SASN 建立在以前最先进的光学心脏测量-时移卷积注意网络 (TS-CAN) 中的设备上时空建模方法之上。 TS-CAN 有两个卷积分支,其中一个采用预处理的差异帧表示,另一个采用归一化外观帧。运动分支执行主要的时空建模和估计,外观分支提供注意掩码以指导运动分支更好地隔离感兴趣的像素(例如,皮肤像素)。(MTTS-CAN相关内容可以看我另一片博客:传送门)然而,作者认为注意力掩码不必通过单独的外观分支获得,它们也可以通过单个分支端到端网络学习。于是作者使用了一个自我注意模块,以帮助网络最大限度地减少由时间位移以及运动和光照噪声引入的负面影响。

Transformer-based EfficientPhys
Efficient Spatial-Temporal Video Transformer

由于 Vision Transformer 最近在图像和视频理解方面的成功以及注意力机械对这项任务的重要性,作者还提出了 EfficientPhys 的 Vision Transformer 版本。对于这项任务需要一个 Vision Transformer 来学习空间和时间表示。然而,计算复杂性使得这些不利于移动设备上的实时高效建模。在卷积版本中,作者使用了 TSM 的 2D 卷积,这些卷积已被证明可以实现与 3D 卷积相当的性能。受此启发,作者提出的基于 Swin Transformer 的 Efficient-Phys。由于 2D SwinTransformer 只能学习将原始单帧 RGB 值映射到潜在表示的空间特征和目标信号(脉冲)之间的关系,它没有能力对连续帧之外的时间关系进行建模。
SwinTransformer 的主要贡献之一是移动窗口模块,它具有线性计算复杂度,并通过移动窗口分区和将自注意力计算限制在不重叠的局部窗口来允许跨窗口连接。受空间窗口分区移动想法的启发,作者在每个 SwinTransformer 块之前添加一个张量移动模块 (TSM),以促进跨时间轴的信息交换。 TSM 首先将输入张量分成三个块,将第一个块向左移动一位(将时间提前一帧)并将第二个块向右移动一位(将时间延迟一帧)。所有移位操作都沿时间轴进行,并在张量被馈送到每个 Transformer 块之前执行。通过将 TSM 模块添加到 SwinTransformer,新的 Transformer 架构现在能够执行高效的时空变换通过在空间上组合移动窗口分区和在时间上移动帧来建模和注意。值得注意的是,TSM 没有引入任何可学习的参数,因此所提出的 Transformer 架构与原始 SwinTransformer具有相同数量的参数。最后,为了实现真正的端到端推理和学习,作者还在该架构中添加了卷积 EfficientPhys 中提出的相同归一化模块。

实验

尽管视觉变压器已经开始在某些视觉任务中实现最先进的性能,但基于视频的生命体征测量任务并非如此。Efficient-C 在 UBFC 中的 MAE 比 Efficient-T1 高 45%,在 MMSE 和 PURE 中的性能相似,而 Efficient-C 在延迟方面快 7 倍以上。当将基于 Transformer 的 EfficientPhys 缩小到与基于卷积的 EfficientPhys 相似的复杂度时,性能会显着降低。基于轻量级 Transformer 的 EfficientPhys-T2 的误差在 UBFC 中增加了 48% 的 MAE,在 PURE 中增加了 141% 的 MAE,在 MMSE 中增加了 15% 的 MAE。
UBFC, PURE

这些结果表明浅层Transformer架构难以对视频中皮肤像素的细微变化进行建模。这些发现提出了两个潜在的见解。首先,为了使 Transformer 在该领域中胜过甚至相对较浅的卷积模型,需要进一步优化,当没有大量高质量数据可用时,这个现象尤其明显。正如之前的研究所示,Transformers 通常需要更多的预训练样本才能获得最先进的精度。不幸的是,与其他视觉任务相比,目前基于相机的生命测量领域的数据量有限。作者在下表中的实验也支持这一假设,其中 EfficientPhys-C 仅在 PURE 上进行训练就超过了 EfficientPhys-T1 和 T2。作者相信合成数据是帮助解决这个问题的一种方式。其次,如果没有进一步的工作,Vision Transformer 的良好精度-效率权衡可能无法扩展到设备上的架构。由于许多设备上的神经网络需要更少的计算资源来执行实时操作,因此缩小 Transformer 架构并不理想,正如 EfficientPhys-T2 实验结果所显示的那样。

MMSE

Computational Cost and On-Device Latency

这里展现了EfficientPhys-C的优秀性能,处理单帧仅需 40 毫秒,并且执行预处理不需要任何额外的计算时间。另一方面,由于复杂的模型架构和计算手工标准化原始帧和差异帧的额外时间,TS-CAN 每帧需要 63 毫秒。如前所述,Dual-GAN 具有复杂的面部标志检测、分割、颜色变换和增强预处理过程。作者对Dual-GAN 的预处理模块进行了基准测试,每帧花费 275 毫秒,这已经是 EfficientPhys-C 整个计算时间的 7 倍。 Dual-GAN 中的估计网络还包括 12 个 2D 卷积运算和许多 1D 卷积运算。因此,作者相信它会在每帧 275 毫秒的预处理时间之上增加大量的计算时间。默认的基于 Transformer 的 EfficientPhys (T1) 由于其深度架构设计而具有不利的推理时间,并且需要 300 毫秒来处理每一帧。将深度降低到 EfficientPhys-T2 后,可以达到与 EfficientPhys-C 相同的推理时间。然而,EfficientPhys-T2 在所有三个基准数据集上的表现最差。
Computational Cost and On-Device Latency

总结

作者提出了一种称为EfficientPhys的新方法,以实现简单,快速,准确的基于相机的非接触式生命体征测量。并且通过使用显着减少的计算能力实现了强大的性能。凭借简洁优雅的一站式设计,EfficientPhys 还有助于解决上次机器学习部署的问题,并减少健康差距。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1229377.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Rapid chain

这篇文章中提到 Elastico 运行6个epoch就会退化到公式失败率高达 0.97 omnileger 在第一个epoch需要一个初始化的随机种子,来初始化 VRF。这需要 O ( n 2 ) O(n^2) O(n2) 的复杂度,并且OminLedger 需要通过轻节点驱动枷锁和解锁的过程,这户家…

2023年中国中端连锁酒店分类、市场规模及主要企业市占率[图]

中端连锁酒店行业是指定位于中档酒店市场、具有全国统一的品牌形象识别系统、全国统一的运营体系、会员体系和营销体系的酒店。中端酒店通常提供舒适、标准化的房间设施和服务,价格较为合理,符合广大消费者的需求。其价格略高于经济型酒店,但…

【数字图像处理】Gamma 变换

在数字图像处理中,Gamma 变换是一种重要的灰度变换方法,可以用于图像增强与 Gamma 校正。本文主要介绍数字图像 Gamma 变换的基本原理,并记录在紫光同创 PGL22G FPGA 平台的布署与实现过程。 目录 1. Gamma 变换原理 2. FPGA 布署与实现 2…

unity-模块卸载重新安装

unity-模块卸载重新安装 发现模块错误?发现不可以卸载重装?... 依据以下步骤试试: 1. 删除模块文件夹(以安卓模块为例) 2. 找见编辑器模块json 3. 找见所有安卓相关模块修改selected为false:"sel…

2023年中国地产SaaS分类、产业链及市场规模分析[图]

SaaS是一种基于云计算技术,通过订阅的方式向互联网向客户提供访问权限以获取计算资源的一项软件即服务。地产SaaS则是SaaS的具体应用,提供了一个线上平台,用于协助房地产供应商与购房者、建筑承建商、材料供应商及房地产资产管理公司之间的协…

Kotlin学习——hello kotlin 函数function 变量 类 + 泛型 + 继承

Kotlin 是一门现代但已成熟的编程语言,旨在让开发人员更幸福快乐。 它简洁、安全、可与 Java 及其他语言互操作,并提供了多种方式在多个平台间复用代码,以实现高效编程。 https://play.kotlinlang.org/byExample/01_introduction/02_Functio…

5G与中国的海

今年国庆假期,香港迎来了阔别5年的国庆维港烟花汇演 10月1日晚上9点,“HKT x FWD 2023 年国庆烟花汇演”在维多利亚港上空上演。在23分钟时间里,燃放了超过3万枚烟花。而与以往维港烟花秀不同的是,为了让更多民众欣赏这次表演&…

【canvas】了解canvas,并实现会议预定记录钟表盘、页面水印

初识canvas Canvas 有什么用 Canvas 允许使用直线、曲线、矩形、圆形等基本图形绘制出复杂的图形 Canvas 可以加载图像,并进行各种处理,如裁剪、缩放、旋转等操作 Canvas 可以通过 JavaScript 控制,所以你可以利用帧动画原理,…

【C++】​——多态性与模板(其一)

🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL&#xff1a…

2023年中国稀土精密加工分类、市场规模及发展趋势分析[图]

稀土精密加工行业是指通过精密加工技术对稀土材料进行加工、制造和加工成品的一种行业。稀土精密加工行业主要包括稀土材料的提取、分离、纯化、加工和制造等环节,其中加工和制造是该行业的核心环节。稀土材料是指具有特殊物理、化学和磁性等性质的一类元素&#xf…

Oracle for Windows安装和配置——Oracle for Windows net配置

2.3. Oracle for Windows net配置 2.3.1. Oracle net配置 2.3.1.1. Oracle net简介 前述章节中,我们只是安装了数据库软件,创建了数据库,测试在服务器本地连接查询数据库。但还不能通过网络远程连接访问数据库,因为我们还没配置用来远程连接访问该数据库的组件Oracle ne…

数字IC前端学习笔记:时钟切换电路

相关阅读 数字IC前端https://blog.csdn.net/weixin_45791458/category_12173698.html?spm1001.2014.3001.5482 有些时候我们需要在系统运行时切换系统时钟,最简单的方法就是使用一个MUX(数据选择器)选择输出的时钟,如下代码片所…

提取图像文本的 5 大 Python 库

引言 光学字符识别是一个古老但依然具有挑战性的问题,涉及从非结构化数据中(包括图像和PDF文档)检测和识别文本。它在银行、电子商务和社交媒体内容管理等领域具有广泛的应用。 但与数据科学中的每个主题一样,尝试学习如何解决OC…

YOLOv8改进 | EIoU、SIoU、WIoU、DIoU、FocusIoU等二十余种损失函数

一、本文介绍 这篇文章介绍了YOLOv8的重大改进,特别是在损失函数方面的创新。它不仅包括了多种IoU损失函数的改进和变体,如SIoU、WIoU、GIoU、DIoU、EIOU、CIoU,还融合了“Focus”思想,创造了一系列新的损失函数。这些组合形式的…

OpenAI 地震!首席执行官被解雇,背后的原因是?

11月17日,ChatGPT的制造商OpenAI表示,经过审查后发现联合创始人兼首席执行官 Sam Altman与董事会“沟通时并不一贯坦诚”,因此公司已经决定解雇他。这家人工智能(AI)公司在一份声明中表示:“董事会不再相信…

美团外卖9元每周星期一开工外卖红包优惠券怎么领取?

美团外卖9元周一开工红包活动时间是什么时候? 美团外卖9元周一开工红包优惠券是指每周星期一可以领取的美团外卖红包优惠券,在美团外卖周一开工红包领取活动时间内可领取到9元周一开工美团外卖红包优惠券;(温馨提醒:如…

2023年中国全自动烘干机产业链、产能及发展趋势分析[图]

全自动烘干机设备是工业化生产制造过程中不可缺少的一种机械设备设备,它广泛应用于工业化工原料加工中药材烘干、农副产品加工等,因此制造了多种干燥设备,目前有多层网带干燥机、热泵干燥机、微波干燥机和冷冻干燥机四种自动干燥机&#xff0…

jetbrains ai 提示该地区不可用的百分百解决方案,亲测有效

问题 申请 jetbrains 的 ai assistant 白名单已经通过,但是在使用 ai assistant 的过程中提示 The usage of the service is not permitted in your location ,我所在的地区是中国,目前该插件是对中国大陆关闭的。 刚开始我怀疑是代理的问题&#xff…

ckplayer自己定义风格播放器的开发记录

CKplayer是一款基于Flash和HTML5技术的开源视频播放器,支持多种格式的音视频播放,并且具有优秀的兼容性和扩展性。 它不仅可以在网页上播放本地或者网络上的视频,还可以通过代码嵌入到网页中,实现更加个性化的播放效果。CKplayer…

【cpolar】搭建我的世界Java版服务器,公网远程联机

🎥 个人主页:深鱼~🔥收录专栏:cpolar🌄欢迎 👍点赞✍评论⭐收藏 目录 前言: 1. 搭建我的世界服务器 1.1 服务器安装java环境 1.2 配置服务端 2. 测试局域网联机 3. 公网远程联机 3.1 安…