融合心血管系统（CVS）多视角信号的新架构新策略

随着深度学习的发展和传感器的广泛采用，自动多视角融合（MVF）在心血管系统（CVS）信号处理方面取得了进展。然而，普遍的MVF模型架构通常将同一时间步骤但不同视角的CVS信号混合成统一的表示形式，忽略了心血管事件的异步特性和视角间的固有异质性，从而导致灾难性的视角混淆问题。为了获得全面表示，需要同时考虑为MVF模型量身定制的高效训练策略。

现有MVF架构在CVS背景下的几个限制：

通过流行的Transformer架构从每个样本点提取时间交互，这导致由于多头自注意力（MSA）而计算复杂度很高。
由于CVS信号经常表现出周期性的波形模式，使用子序列粒度进行建模比依赖于样本点粒度更为合理。
将多个信号合并为多通道时间序列的常见做法。由于CVS内部复杂的物理机制，多视角CVS信号在心血管事件方面总是显示出时间不对齐。例如，PPG波形的峰值总是落后于同一心跳中ECG波形的R波。

上图(a)说明了将这些表示不同心血管信息的子序列强制嵌入到统一的混合视角标记中会破坏合理的多视角关联，并无意中恶化了跨视角交互。

为了减轻通道连接操作引起的视角混淆，本文主张使用视角中心变换器（VCT）作为骨干网络。VCT独立地将每个视角的子序列嵌入到单视角标记中，同时扩大了模型的局部感受野。结果产生的标记本质上更以视角为中心，并且可以更好地利用MSA机制来聚合跨视角和时间信息。为了促进VCT获得全面表示，本文提出了多任务掩码自编码器（M2AE），包括对比ECG-PPG（CEP）学习和跨视角PPG和ECG重建。针对棘手的缺失视角问题，本文引入了两种可学习的缺失感知提示，以减轻性能下降和繁琐的微调程序。

1 方法

鉴于现有方法的局限性，设计了视角中心变换器（View-Centric Transformer, VCT）和多任务掩码自编码器（Multitask Masked Autoencoder, M2AE），以强调每个视角的重要性，并利用未标记数据实现更优质的融合表示。

1.1 视角中心变换器（VCT）

VCT采用简化的仅编码器（encoder-only）架构，包括两个关键组件：

视角中心化分词器（View-centric tokenizer）：将ECG和PPG信号转换为相应的标记序列。ECG信号段被分割成多个子序列，然后通过线性层嵌入到d维标记中。特殊设计的学习型标记用于聚合视角特定信息。位置编码和可学习视角类型标记被整合到ECG标记序列中，以告知模型时间和视角信息。
多视角融合模块（Multi-view fusion module）：通过L层经典变换器层迭代处理，融合不同视角在不同时间步骤的信息，直到获得最终的标记序列。汇聚层（pooling layer）是一个线性映射层，将输出序列转换为期望的维度。

VCT 的优势:

避免了通道拼接导致的视图混淆问题。
更好地利用 MSA 机制捕捉跨视图和时序信息。
通过将子序列作为基本元素，降低了计算复杂度。

1.2 多任务掩码自编码器（M2AE）

M2AE包含三个代理任务，以促进对ECG和PPG信号的联合理解，从而获得多视角表示：

ECG/PPG重建：采用蒙版策略的自监督学习在NLP和计算机视觉中取得了巨大成功。在多模态变换器框架内，不同输入模态被嵌入到一致的离散标记序列中，使得通过MSA机制融合异构数据成为可能。
对比ECG-PPG（CEP）学习：基于ECG和PPG信号之间的相互监督概念，构建代理任务。同步的ECG和PPG片段形成正样本对，而不同步或身份不匹配的实例被归类为负样本。

M2AE 的优势:

充分利用未标记的多视图信号对进行预训练。
避免了对昂贵医疗标签的依赖。
通过多任务学习，使模型能够更好地理解 ECG 和 PPG 信号之间的关联。

1.3 提示学习（Prompt Learning）应对视角缺失

受多模态学习中缺失模态提示的启发，本文采用了缺失感知提示来指导预训练模型，以适应不同的缺失视角输入情况。准备了M-1个提示用于M视角任务，并根据缺失视角的类型将这些提示添加到输入中。这些提示被一致地附加到相应i-th层的标记序列中，以指导模型适应不同的缺失视角情况。

缺失感知提示: 针对不同的视图缺失情况，设计两种可学习的提示方法：

输入定制方法: 将提示直接添加到每个层的输入序列中。

注意力定制方法: 将提示分解为两个子提示，并分别与 MSA 的键和值进行拼接。

参数高效微调: 仅训练任务特定头部和缺失感知提示的参数，避免了传统微调方法中的灾难性遗忘问题。

提示学习的优势:

显著提高了模型在视图缺失数据上的性能。
减少了模型微调所需的参数量和计算资源。

2 实验

2.1 数据集和指标

2.1.1 数据集

本文选择了与ECG和PPG数据配对的三个关键健康监测任务，以评估提出的方法的有效性。

血压估计 (BPE)：Wang等人通过对两个公开数据库（如MIMIC和VitalDB）进行严格的信号质量评估，创建了PulseDB，这是该领域最大的策划数据集，专门用于基准测试BPE模型。PulseDB包含十个精心定义的子集，具有来自5361名受试者的10秒非重叠同步ECG、PPG、ABP、舒张压(DBP)和收缩压(SBP)。
心房颤动检测 (AFD)：一些现有的用于AF（心房颤动）检测的数据集主要基于单视角生理信号（PPG或ECG），不能满足本研究对多视角生理信号的要求。此外，AF检测数据集中PPG和ECG信号的采样率差异以及不同步的采集时间妨碍了多视角实验的可行性和分析。PERFormAF数据集由Charlton等人策划，包含来自MIMIC数据集的19名心房颤动患者和16名非心房颤动患者的20分钟数据段。
睡眠阶段分类 (SSC)：从代表性的睡眠数据集，多种族动脉粥样硬化研究（MESA）中随机提取了800名受试者的数据。该数据集遵循美国睡眠医学学会（AASM）的指南，将睡眠阶段划分为清醒、REM和三个非REM阶段：N1、N2和N3。在本研究中，重点关注四个常见的睡眠分期类别：清醒、轻度(N1/N2)、深度和REM睡眠。

2.1.2 数据预处理

PulseDB中最大的子集'Train_Subset'作为VCT预训练的基础，用于两个下游任务：BPE和AFD的评估。

对于BPE任务，使用了PulseDB中的额外子集

'VitalDB_Train_Subset'和'VitalDB_CalBased_Test_Subset'进行微调和测试。

对于AFD任务，我们将每个患者的数据分割成10秒的窗口（与PulseDB数据集匹配），重叠率为0.8，用于数据扩展。

MESA数据集根据AASM标准将每个患者的数据记录分割成非重叠的30秒段。

2.1.3 评估指标

在BPE任务中，传统的评估指标通常涉及使用DBP和SBP估计误差的平均值和标准差。本文采用了均方根误差（RMSE）作为评估BPE估计性能的广泛认可的总体指标。
对于AFD任务，准确率作为评估指标。
对于四类分类问题，使用了F1-Macro分数作为评估指标。

2.2 模型设置

VCT 模型参数在所有数据集和训练阶段中保持一致：

输入: ECG 和 PPG 信号被分割成长度为 50 的子序列。
嵌入维度: 所有编码器层的嵌入维度为 512。
位置编码: 使用基于余弦的位置编码来捕获时间信息。
编码器深度: 8 层，包含 8 个头的 MSA 模块。
解码器: 预训练阶段使用轻量级解码器，嵌入维度为 256，包含 6 个头的 MSA 模块。

2.3 训练细节

预训练: VCT 使用 M2AE 架构在 PulseDB 和 MESA 数据集上进行预训练，共 100 个 epoch。
优化器: 使用 AdamW 优化器，基础学习率为 1e-3，权重衰减为 0.05。
预热阶段: 使用 10% 的训练 epoch 进行预热，然后使用余弦衰减学习率。
批大小: 使用 2048 的批大小进行预训练，使用 1024 的批大小进行 BPE 和 SSC 任务微调，使用 128 的批大小进行 AFD 任务微调。
早停: 使用早停方法来防止模型过拟合。

2.4 视角缺失设置

采用了不同类型和比例的视角缺失，仅用于定量分析，而不是低估现实世界应用中缺失视角场景的复杂性。本文采用了更激进的设置，假设视角缺失可能影响每个样本，无论是在训练阶段还是测试阶段。

缺失视图类型: 包括 ECG 缺失、PPG 缺失和两者都缺失。
缺失率: 使用缺失率 β% 来表示缺失视图的比例，其中 β% 的数据包含缺失视图，(1-β)% 的数据包含完整视图。
缺失视图提示: 使用长度为 20 的缺失视图提示，并应用于编码器的前 6 层。

3 结论

现有的多视图融合方法往往将多视图信号视为多通道信号，导致视图混淆问题，阻碍了从多视图数据中提取关键表示。

3.1 VCT 和 M2AE 的优势

VCT: 基于“视图中心”标记化和经典 MSA 层，更有效地捕获了多视图信号中的时序和跨视图交互。
M2AE: 利用未标记的多视图信号对，使 VCT 获得更全面的表示，显著提高了下游任务性能。

3.2 缺失视图提示的有效性

减少微调: 缺失视图提示技术可以减少模型微调的需求，显著降低对计算资源的依赖。
提高性能: 缺失视图提示技术可以有效地缓解缺失视图问题，并提高模型在缺失视图数据上的性能。

3.3 未来工作

集成更多视图: 将更多类型的生理信号集成到 VCT 和 M2AE 中，例如呼吸信号、心率变异性等，进一步提高模型的准确率和鲁棒性。
探索新的预训练任务: 除了 ECG 和 PPG 信号重建，还可以探索其他预训练任务，例如信号分解、信号压缩等，进一步提高模型的表达能力。
应用于临床实践: 将 VCT 和 M2AE 应用于实际临床场景，例如远程医疗、慢性病管理等领域，为患者提供更精准的健康监测和诊断服务。

3.4 潜在应用价值（心血管健康监测）

血压估计: VCT 和 M2AE 可以利用 ECG 和 PPG 信号融合信息，更准确地估计血压值，为无袖带血压监测提供支持。
房颤检测: VCT 和 M2AE 可以有效地分析 ECG 和 PPG 信号，提高房颤检测的准确率，帮助早期发现和诊断心血管疾病。
睡眠阶段分类: VCT 和 M2AE 可以融合 ECG 和 PPG 信号，更准确地识别睡眠阶段，为睡眠质量评估和睡眠障碍诊断提供帮助。

4 相关知识

4.1 心血管系统（CVS）信号

心血管系统（CVS）信号的研究和监测是心血管疾病管理中的重要组成部分。心脏传导系统的功能在于产生并传导电冲动，这些冲动从心房发出，在房室结处减慢传导，然后通过希-浦系统快速通过，使左右心室同步收缩。心脏传导系统主要包括窦房结、结间束、房室结、房室束及其分支等部分。这些结构共同负责产生和传导兴奋冲动，使心房肌和心室肌按一定节律性收缩，从而维持心脏的正常节律。

4.2 心电图ECG信号

心血管系统的ECG信号是通过记录心脏在每个心动周期中的电活动变化来获取的心脏功能信息。心电图（ECG）是一种重要的诊断工具，用于监测和评估心脏健康状况。

心电图的产生原理如下：心肌细胞膜的电兴奋，即心肌的除极和复极，是心肌收缩、舒张的动因。心脏的电活动信号传导到体表产生体表电位差的改变，用体表电位差的变化描记成曲线图。具体来说，心脏在机械性收缩之前，首先产生电激动，心肌激动所产生的微小电流可经过身体组织传导到体表，使体表的不同部位产生不同的电位。

心电图的主要组成部分包括P波、QRS波群和T波。P波代表心房除极，QRS波群代表心室除极过程，是ECG信号中幅值最高、特征最为明显的波形。

P波：P波代表心房的激动起源，其形态、电压、时间和波形可以反映心房的功能状态。例如，正常情况下，P波应该是圆滑的、向上的波形。如果P波形态异常或者大小变化，可能暗示心房问题，如心房肥大、房内阻滞和心房梗死等。
QRS波群：QRS波群反映心室的收缩情况。其宽度和形态可以揭示心室功能的异常，如心室肥大或心室传导阻滞等。
T波：T波代表心室的放松状态，其形态和高度可以反映心肌的电解质平衡和缺血情况。如果T波缩短或消失，可能提示心肌缺血或其他心脏疾病。

4.3 PPG（光电容积脉搏波描记法）信号

PPG（光电容积脉搏波描记法）信号是一种通过分析皮肤下微血管组织中光吸收变化来检测血容量变化的无创技术。

PPG信号可以从多个方面评估心血管系统功能。首先，它能够解析出心率、心律、血压、容量等功能评价指标。此外，PPG还可以辅助识别诊断各种心血管疾病，如血压异常、糖尿病、心律失常、睡眠呼吸暂停综合征、早期缺血性休克等。通过对PPG信号的深入分析，还可以提取出动脉压、硬度指数、脉搏传导时间、脉搏波传导速度、心输出量、动脉顺应性和外周阻力等参数。