AI在医学领域：MASL多模态辅助诊断声带麻痹

AI在医学领域：MASL多模态辅助诊断声带麻痹

news2026/2/12 1:59:57

声带麻痹（Vocal Cord Paralysis, VP），也称为喉瘫痪，是指由于支配声带的神经受损导致声带运动障碍的疾病。这种状况可以是单侧或双侧的，通常由脑部、颈部、胸部的肿瘤、外伤、炎症，以及各种全身疾病引起。这些疾病可能导致支配声带的喉返神经和喉上神经受压或损害。VP 诊断对于制定合适的治疗方案至关重要，可以恢复声带功能、改善气道保护并提高患者的生活质量。

经验丰富的专家可以通过分析内窥镜捕获的视频提供宝贵的见解，但这种方法在很大程度上依赖于个人诊断，缺乏客观性，一方面降低了患者的信心，另一方面增加了误诊的风险。

本文介绍的MASL多模态分析系统，结合音频和视频数据自动提取关键片段和指标，辅助临床评估 VP。

1 系统设计

MASL系统旨在通过从喉镜视频中提取关键片段并提供特定喉部疾病的客观指标，以促进高效的临床检查。如下图所示，系统包括两个主要模块——声音模块和视频模块——确保准确观察声音周期和清晰可视化声门区域。

1.1 音频处理模块

检测患者发音，并确定包含发音周期的视频片段。

使用关键词识别 (KWS) 技术，识别患者发音的特定词语，例如 “ee”。
将音频信号转换为声谱图，并进行分帧处理。
将声谱图片段输入 KWS 模型，生成每个片段的识别结果。
设置阈值，将识别结果为正的片段视为包含发音周期的关键片段。

1.2 视频处理模块

进一步细化音频处理模块识别出的关键片段，确保包含声带和声门区域。

使用 YOLO-v5 模型识别每个视频帧中的声带区域。
根据声带检测结果，确定关键片段中包含声带和声门区域的视频帧。
分析视频帧的 HSV 值，识别闪烁视频片段，并提取其中的关键帧。

1.3 关键帧合并

将音频处理和视频处理模块识别出的关键帧合并，形成最终的喉镜视频高亮片段。

2 声门分割

MASL 系统的声门分割模块旨在从喉镜视频中自动分割声门区域，以便后续分析声带运动和 VP 状态。该模块采用两阶段分割方法，包括 U-Net 基础分割和扩散模型细化。

2.1 U-Net 基础分割

U-Net 模型是一种经典的卷积神经网络结构，适用于医学图像分割任务。U-Net 模型包含编码器和解码器两部分，并通过跳跃连接将编码器特征传递到解码器，实现像素级分割。

U-Net 基础分割模型结构如下：

编码器：由多个卷积块 (ConvBlock) 组成，每个卷积块包含卷积层、批量归一化层和 ReLU 激活函数。
解码器：由多个反卷积块和 ConvBlock 组成，反卷积块用于上采样，ConvBlock 用于特征提取。
输出层：一个 ConvBlock，输出声门区域的分割掩码。

2.2 扩散模型细化

U-Net 基础分割模型可能存在误报问题，即在没有声门区域的情况下仍然生成分割掩码。扩散模型可以有效地细化 U-Net 基础分割结果，减少误报，提高分割精度。

扩散模型包括两个阶段：前向扩散和反向扩散。

前向扩散：将高斯噪声逐步添加到分割掩码上，使掩码变得模糊。
反向扩散：使用神经网络将噪声逐渐从掩码中去除，恢复原始的分割掩码。

2.2.1 扩散模型训练方法

使用 U-Net 模型生成的分割掩码作为训练数据。
训练神经网络学习将添加了噪声的掩码恢复到原始分割掩码的过程。

2.2.2 扩散模型细化流程

使用 U-Net 模型生成声门区域的分割掩码。
将 U-Net 模型生成的分割掩码作为扩散模型的输入。
使用训练好的扩散模型对 U-Net 模型生成的分割掩码进行细化。
得到最终的高精度声门区域分割掩码。

3 多模态声带麻痹分析

MASL 系统的多模态声带麻痹分析模块旨在利用音频和视频数据，提取声带运动相关的特征，并辅助医生进行 VP 诊断。

3.1 前声门角波形 (AGAW) 提取

提取左、右声带的 AGAW，以便分析声带运动。

方法：

使用二次拟合方法，根据声门分割掩码计算声门中线。
在声门中线两侧等距离选取多个点。
计算每个点到声带分割边界的距离，得到 AGAW。
重复上述步骤，得到左、右声带的 AGAW。

3.2 多模态声带麻痹检测

结合音频和 AGAW 波形，判断患者是否患有 VP。

将音频信号转换为声谱图，并使用 EfficientNet-b0 模型进行特征提取。
将 AGAW 波形输入 ConvLSTM 模型，提取时序特征。
将音频特征和 AGAW 特征拼接，并输入分类模型进行 VP 诊断。

3.3 单侧声带麻痹检测

区分左侧或右侧声带麻痹。

方法：

比较左、右声带的 AGAW 方差。
声带麻痹侧的 AGAW 波动较小，方差较低。
通过比较方差，判断左侧或右侧声带麻痹。

4 实验和结论

4.1 实验数据集

BAGLS 数据集：用于评估喉部分割模型的性能，包含 59,250 张喉部图像，分为训练集和测试集。
SYSU 数据集：收集于中山大学孙逸仙纪念医院的实际场景，包含 520 个视频样本，包括正常样本和麻痹样本（左侧麻痹和右侧麻痹）。

4.2 实验结果

4.2.1 关键词检测模型 (KWS)

实验评估了 KWS 模型在不同阈值下的性能，结果表明该模型能够有效检测患者发音 “ee”，为后续分析提供关键信息。与医生的声音相比，患者发音 “ee” 的检测结果更准确，这表明 KWS 模型更适合检测特定发音。

4.2.2 喉部分割

与传统的 U-Net 模型相比，MASL 系统引入的扩散模型能够有效减少假阳性，提高分割精度。通过结合 U-Net 和扩散模型，MASL 系统在 BAGLS 数据集上取得了更好的 IoU 和更低的 FAR，证明了其分割性能的提升。

4.2.3 声带麻痹检测

实验结果表明，MASL 系统在 SYSU 数据集上取得了较高的分类准确率，证明了其能够有效区分正常和麻痹病例。

消融实验表明，二次拟合和扩散细化技术能够显著提高分类性能，而多模态信息（音频和 AGA 运动）的结合对提升性能至关重要。

4.2.4 单侧喉麻痹检测

通过比较左右声带的 AGA 运动时间序列的方差，MASL 系统能够有效区分左侧和右侧麻痹。

实验结果表明，MASL 系统在 SYSU 数据集上取得了 92% 的 F1 分数，证明了其在单侧喉麻痹检测方面的潜力。

消融实验表明，二次拟合和扩散细化技术能够进一步提升单侧喉麻痹检测的性能。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2114495.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

$复数随机变量(信号)的方差和协方差矩阵的计算$

复数随机变量(信号)的方差和协方差矩阵的计算

怎么计算复数随机变量的方差和协方差矩阵？ 使得其与MATLAB中var函数和cov函数的结果一致。前言复信号在信号处理中随处可见，关于复信号（复随机变量）的方差和协方差矩阵该如何计算呢？本文给出了复信号的方差和协方差矩…

阅读更多...

什么是大数据、有什么用以及学习内容

什么是大数据、有什么用以及学习内容

目录 1.什么是大数据？ 2.大数据有什么用？ 2.1商业与营销： 2.2医疗与健康： 2.3金融服务： 2.4政府与公共服务： 2.5交通与物流： 2.6教育与个性化学习： 3.学习大数据需要学习哪…

阅读更多...

C++笔试强训12、13、14

C++笔试强训12、13、14

文章目录笔试强训12一、选择题1-5题6-10题二、编程题题目一题目二笔试强训13一、选择题1-5题6-10题二、编程题题目一题目二笔试强训14一、选择题1-5题6-10题二、编程题题目一题目二笔试强训12 一、选择题 1-5题引用：是一个别名，与其被引用的实…

阅读更多...

认知杂谈54

认知杂谈54

I I 内容摘要： 这篇内容主要有以下几个要点：首先，沟通不在一个调时可学习人际交往心理学知识、线上课程及关注名师来改善。其次，挑房子、工作、搭档和人生伴侣要谨慎，找心灵相通能共同进步的人。再者，远离…

阅读更多...

AI周报（9.1-9.7）

AI周报（9.1-9.7）

AI应用-Tidal 引领海洋养殖革命 Tidal团队，一个源自Alphabet X的创新项目，今年七月顺利从X实验室毕业，成为一家独立的公司。Tidal正在通过人工智能技术改变海洋养殖，特别是鲑鱼养殖。Tidal的总部位于挪威特隆赫姆，他们…

阅读更多...

Java-数据结构-栈和队列-Stack和Queue (oﾟ▽ﾟ)o

Java-数据结构-栈和队列-Stack和Queue (oﾟ▽ﾟ)o

文本目录： ❄️一、栈(Stack)： ▶ 1、栈的概念： ▶ 2、栈的使用和自实现： ☑ 1）、Stack(): ☑ 2）、push(E e): ☑ 3）、empty(): ☑ 4）、peek(E e): ☑ 5）、pop(E e): …

阅读更多...

将添加功能的抽屉剥离，在父组件调用思路

将添加功能的抽屉剥离，在父组件调用思路

一、新建组件新建AddRoleEditerDrawer.vue<template><div><el-drawer v-model"dialog" title"添加角色" :before-close"handleClose" direction"rtl" colse"cancelForm"class"demo-drawer" moda…

阅读更多...

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(五)：Blender锥桶建模

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(五)：Blender锥桶建模

前言本系列教程旨在使用UE5配置一个具备激光雷达深度摄像机的仿真小车，并使用通过跨平台的方式进行ROS2和UE5仿真的通讯，达到小车自主导航的目的。本教程默认有ROS2导航及其gazebo仿真相关方面基础，Nav2相关的学习教程可以参考本人的其他博…

阅读更多...

MQ-2烟雾传感器详解（STM32）

MQ-2烟雾传感器详解（STM32）

目录一、介绍二、传感器原理 1.原理图 2.引脚描述 3.工作原理介绍三、程序设计 main.c文件 mq2.h文件 mq2.c文件四、实验效果五、资料获取项目分享一、介绍 MQ-2气体传感器是一种常用的气体传感器，用于检测空气中的烟雾浓度。工作原理是基于半导…

阅读更多...

App Store最低版本要求汇总

App Store最低版本要求汇总

1，自此日期起： 2024 年 4 月 29 日自 2024 年 4 月 29 日起，上传到 App Store Connect 的 App 必须是使用 Xcode 15 为 iOS 17、iPadOS 17、Apple tvOS 17 或 watchOS 10 构建的 App。将 iOS App 提交至 App Store - Apple Developer 2&…

阅读更多...

天然药物化学史话：“四大光谱”在天然产物结构鉴定中的应用-文献精读46

天然药物化学史话：“四大光谱”在天然产物结构鉴定中的应用-文献精读46

天然药物化学史话：“四大光谱”在天然产物结构鉴定中的应用，天然产物化学及其生物合成必备基础知识~ 摘要天然产物化学研究在药物研发中起着非常重要的作用，结构研究又是天然产物化学研究中最重要的工作之一。在天然药物化学史话系列文章的…

阅读更多...

Elasticsearch：无状态世界中的数据安全

Elasticsearch：无状态世界中的数据安全

作者：来自 Elastic Henning Andersen 在最近的博客文章中，我们宣布了支持 Elastic Cloud Serverless 产品的无状态架构。通过将持久性保证和复制卸载到对象存储（例如 Amazon S3），我们获得了许多优势和简化。从历史上…

阅读更多...

科研绘图系列：R语言富集散点图（enrichment scatter plot）

科研绘图系列：R语言富集散点图（enrichment scatter plot）

介绍富集通路散点图（Enrichment Pathway Scatter Plot）是一种数据可视化工具，用于展示基因集富集分析（Gene Set Enrichment Analysis, GSEA）的结果。横坐标是对应基因名称，纵坐标是通路名称，图中的点表示该基因在某个通路下的qvalue，可以简单理解为不同环境下的贡献…

阅读更多...

以后写代码都是AI自动写了，Cursor+Claude-3.5-Sonnet，Karpathy 点赞的 AI 代码神器。如何使用详细教程

以后写代码都是AI自动写了，Cursor+Claude-3.5-Sonnet，Karpathy 点赞的 AI 代码神器。如何使用详细教程

Cursor 情况简介 AI 大神 Andrej Karpathy 都被震惊了！他最近在试用 VS Code Cursor Claude Sonnet 3.5，结果发现这玩意儿比 GitHub Copilot 还好用！ Cursor 在短短时间内迅速成为程序员群体的顶流神器，其背后的原因在于其默认使…

阅读更多...

AIGC批量处理文件系列：word、pdf文件改名

AIGC批量处理文件系列：word、pdf文件改名

1.背景大家应该也有遇到，自己电脑有很多文件命名不合理的文件，比如：文件1、想法3 ，当你长时间再看到这个文件的时候，已经很难知道文件内容。今天我们将借助AIGC的编码能力，帮我们生成一个批量改文件名的…

阅读更多...

【H2O2|全栈】Markdown | Md 笔记到底如何使用？【前端 · HTML前置知识】

【H2O2|全栈】Markdown | Md 笔记到底如何使用？【前端 · HTML前置知识】

Markdown的一些杂谈目录 Markdown的一些杂谈前言准备工作认识.Md文件为什么使用Md？ 怎么使用Md？ 编辑怎么看别人给我的Md文件？ Md文件命令切换模式粗体、倾斜、下划线、删除线和荧光标记分级标题水平线引用无序…

阅读更多...

哪种超声波清洗机效果好？较好的超声波眼镜清洗机品牌推荐

哪种超声波清洗机效果好？较好的超声波眼镜清洗机品牌推荐

作为一名拥有20年戴镜经验的眼镜爱好者，我深深体会到眼镜清洁的挑战：微小缝隙里的污垢难以触及，频繁的脏污让我苦于找不到清洁时机，而用力不当的擦拭方法更是可能对眼镜特别是镜片造成伤害，这确实让人感到苦恼&#xf…

阅读更多...

js 写个最简单的 chrome 插件，修改网页背景颜色

js 写个最简单的 chrome 插件，修改网页背景颜色

起因(目的): 阅读电子书的时候， 网页背景太亮了，看久了眼睛难受。最近看的书是: 金瓶梅估计至少需要2个星期才能看完。操作步骤: 新建一个 manifest.json 文件, 填入一些信息。 “manifest_version”: 3, # 2 已经被废弃了。新建图片文件夹&#x…

阅读更多...

JVM - Java内存区域

JVM - Java内存区域

文章目录目录文章目录运行时数据区域程序计数器栈 Java虚拟机栈本地方法栈栈帧的组成局部变量表操作数栈帧数据堆方法区直接内存总结运行时数据区域 Java虚拟机在执行Java程序的过程中会把它所管理的内存区域划分为若干个不同的数据区域。这些区…

阅读更多...

FPGA开发：初识FPGA × 开发环境

FPGA开发：初识FPGA × 开发环境

FPGA是什么？ FPGA的全称是现场可编程门阵列（Field Programmable Gate Array），一种以数字电路为主的集成芯片，属于可编程逻辑器件PLD的一种。简单来说，就是能用代码编程，直接修改FPGA芯片中数字…

阅读更多...

推荐文章

最新文章