声带麻痹(Vocal Cord Paralysis, VP),也称为喉瘫痪,是指由于支配声带的神经受损导致声带运动障碍的疾病。这种状况可以是单侧或双侧的,通常由脑部、颈部、胸部的肿瘤、外伤、炎症,以及各种全身疾病引起。这些疾病可能导致支配声带的喉返神经和喉上神经受压或损害。VP 诊断对于制定合适的治疗方案至关重要,可以恢复声带功能、改善气道保护并提高患者的生活质量。
经验丰富的专家可以通过分析内窥镜捕获的视频提供宝贵的见解,但这种方法在很大程度上依赖于个人诊断,缺乏客观性,一方面降低了患者的信心,另一方面增加了误诊的风险。
本文介绍的MASL多模态分析系统,结合音频和视频数据自动提取关键片段和指标,辅助临床评估 VP。
1 系统设计
MASL系统旨在通过从喉镜视频中提取关键片段并提供特定喉部疾病的客观指标,以促进高效的临床检查。如下图所示,系统包括两个主要模块——声音模块和视频模块——确保准确观察声音周期和清晰可视化声门区域。
1.1 音频处理模块
检测患者发音,并确定包含发音周期的视频片段。
- 使用关键词识别 (KWS) 技术,识别患者发音的特定词语,例如 “ee”。
- 将音频信号转换为声谱图,并进行分帧处理。
- 将声谱图片段输入 KWS 模型,生成每个片段的识别结果。
- 设置阈值,将识别结果为正的片段视为包含发音周期的关键片段。
1.2 视频处理模块
进一步细化音频处理模块识别出的关键片段,确保包含声带和声门区域。
- 使用 YOLO-v5 模型识别每个视频帧中的声带区域。
- 根据声带检测结果,确定关键片段中包含声带和声门区域的视频帧。
- 分析视频帧的 HSV 值,识别闪烁视频片段,并提取其中的关键帧。
1.3 关键帧合并
将音频处理和视频处理模块识别出的关键帧合并,形成最终的喉镜视频高亮片段。
2 声门分割
MASL 系统的声门分割模块旨在从喉镜视频中自动分割声门区域,以便后续分析声带运动和 VP 状态。该模块采用两阶段分割方法,包括 U-Net 基础分割和扩散模型细化。
2.1 U-Net 基础分割
U-Net 模型是一种经典的卷积神经网络结构,适用于医学图像分割任务。U-Net 模型包含编码器和解码器两部分,并通过跳跃连接将编码器特征传递到解码器,实现像素级分割。
U-Net 基础分割模型结构如下:
- 编码器:由多个卷积块 (ConvBlock) 组成,每个卷积块包含卷积层、批量归一化层和 ReLU 激活函数。
- 解码器:由多个反卷积块和 ConvBlock 组成,反卷积块用于上采样,ConvBlock 用于特征提取。
- 输出层:一个 ConvBlock,输出声门区域的分割掩码。
2.2 扩散模型细化
U-Net 基础分割模型可能存在误报问题,即在没有声门区域的情况下仍然生成分割掩码。扩散模型可以有效地细化 U-Net 基础分割结果,减少误报,提高分割精度。
扩散模型包括两个阶段:前向扩散和反向扩散。
- 前向扩散: 将高斯噪声逐步添加到分割掩码上,使掩码变得模糊。
- 反向扩散: 使用神经网络将噪声逐渐从掩码中去除,恢复原始的分割掩码。
2.2.1 扩散模型训练方法
- 使用 U-Net 模型生成的分割掩码作为训练数据。
- 训练神经网络学习将添加了噪声的掩码恢复到原始分割掩码的过程。
2.2.2 扩散模型细化流程
- 使用 U-Net 模型生成声门区域的分割掩码。
- 将 U-Net 模型生成的分割掩码作为扩散模型的输入。
- 使用训练好的扩散模型对 U-Net 模型生成的分割掩码进行细化。
- 得到最终的高精度声门区域分割掩码。
3 多模态声带麻痹分析
MASL 系统的多模态声带麻痹分析模块旨在利用音频和视频数据,提取声带运动相关的特征,并辅助医生进行 VP 诊断。
3.1 前声门角波形 (AGAW) 提取
提取左、右声带的 AGAW,以便分析声带运动。
方法:
- 使用二次拟合方法,根据声门分割掩码计算声门中线。
- 在声门中线两侧等距离选取多个点。
- 计算每个点到声带分割边界的距离,得到 AGAW。
- 重复上述步骤,得到左、右声带的 AGAW。
3.2 多模态声带麻痹检测
结合音频和 AGAW 波形,判断患者是否患有 VP。
- 将音频信号转换为声谱图,并使用 EfficientNet-b0 模型进行特征提取。
- 将 AGAW 波形输入 ConvLSTM 模型,提取时序特征。
- 将音频特征和 AGAW 特征拼接,并输入分类模型进行 VP 诊断。
3.3 单侧声带麻痹检测
区分左侧或右侧声带麻痹。
方法:
- 比较左、右声带的 AGAW 方差。
- 声带麻痹侧的 AGAW 波动较小,方差较低。
- 通过比较方差,判断左侧或右侧声带麻痹。
4 实验和结论
4.1 实验数据集
- BAGLS 数据集: 用于评估喉部分割模型的性能,包含 59,250 张喉部图像,分为训练集和测试集。
- SYSU 数据集: 收集于中山大学孙逸仙纪念医院的实际场景,包含 520 个视频样本,包括正常样本和麻痹样本(左侧麻痹和右侧麻痹)。
4.2 实验结果
4.2.1 关键词检测模型 (KWS)
实验评估了 KWS 模型在不同阈值下的性能,结果表明该模型能够有效检测患者发音 “ee”,为后续分析提供关键信息。与医生的声音相比,患者发音 “ee” 的检测结果更准确,这表明 KWS 模型更适合检测特定发音。
4.2.2 喉部分割
与传统的 U-Net 模型相比,MASL 系统引入的扩散模型能够有效减少假阳性,提高分割精度。通过结合 U-Net 和扩散模型,MASL 系统在 BAGLS 数据集上取得了更好的 IoU 和更低的 FAR,证明了其分割性能的提升。
4.2.3 声带麻痹检测
实验结果表明,MASL 系统在 SYSU 数据集上取得了较高的分类准确率,证明了其能够有效区分正常和麻痹病例。
消融实验表明,二次拟合和扩散细化技术能够显著提高分类性能,而多模态信息(音频和 AGA 运动)的结合对提升性能至关重要。
4.2.4 单侧喉麻痹检测
通过比较左右声带的 AGA 运动时间序列的方差,MASL 系统能够有效区分左侧和右侧麻痹。
实验结果表明,MASL 系统在 SYSU 数据集上取得了 92% 的 F1 分数,证明了其在单侧喉麻痹检测方面的潜力。
消融实验表明,二次拟合和扩散细化技术能够进一步提升单侧喉麻痹检测的性能。