人工智能 (AI) 应用:一个异常肺呼吸声辅助诊断系统

news2025/1/13 7:59:01

关键词:深度学习、肺癌、多标签、轻量级模型设计、异常肺音、音频分类

近年来,流感对人类的危害不断增加,COVID-19疾病的迅速传播加剧了这一问题,导致大多数患者因呼吸系统异常而死亡。在这次流行病爆发之前,呼吸系统疾病已经成为社会主要死亡原因之一,包括“五大”呼吸系统疾病:哮喘、慢性阻塞性肺病(COPD)、急性下呼吸道感染、肺癌和结核病。COPD在全球致命疾病中排名第三,每年夺去320万人的生命,占所有慢性呼吸系统疾病死亡的81.7%。

随着肺部疾病的关注度日益增加,这些疾病的早期诊断也成为关注的焦点。通过听诊监测呼吸音是评估患者呼吸健康的传统方法,医生通常使用听诊器作为诊断肺部疾病和异常的临床工具。听诊器的主要目的是在给定时间框架内识别呼吸音的变化,如喘鸣、啰音和喘息

  • 啰音是短暂、爆炸性、非音乐性的声音,通常出现在有实质性肺部疾病的患者中,如肺炎、间质性肺纤维化(PF)和肺水肿。
  • 喘鸣是与气道疾病如哮喘和慢性阻塞性肺病(COPD)相关的异常呼吸音,其特征是高音调,持续时间超过80毫秒。喘鸣被描述为一种连续的哨声和嘶嘶声,叠加在正常呼吸上。喘鸣是由气道狭窄引起的,导致气流受。
  • 喘息是一种类似于喘鸣的连续气道声音,其特征是嘶嘶声和音乐般的音质。这种声音主要在吸气时听到,但有时也可能出现于呼气或两个阶段。与喘鸣不同,喘息是由喉部或支气管树的气流湍流引起的,通常与上呼吸道阻塞有关。

这些不同类型的呼吸音在诊断各种肺和气道疾病中起着至关重要的作用。使用听诊器听肺音是一种传统技术,也是专家对呼吸系统疾病的初步评估中最受欢迎的诊断方法。听诊的优点包括是一种非侵入性诊断方法和有效的辅助诊断工具,有助于诊断和区分各种呼吸系统疾病。然而,这种诊断方法也有局限性,如下所述:

  • 主观性强不同医生对呼吸音的解读存在差异,这取决于他们的经验、知识水平和听力能力。即使是经验丰富的医生,也可能对某些呼吸音产生不同的解读。这种主观性会导致诊断结果的不一致性,影响治疗方案的确定。
  • 易混淆不同异常呼吸音之间存在相似性,例如:哮喘的喘鸣音和声带功能障碍的喘鸣音: 这两种声音都表现为连续、高音调的哨声,波形呈正弦波,在时域上具有周期性。肺炎的爆裂音和肺纤维化的爆裂音: 这两种声音都表现为短暂、爆炸性、非音乐性的声音。这种相似性容易导致医生在初步诊断阶段产生混淆,难以准确区分不同的呼吸音,从而影响诊断结果和治疗方案的制定。
  • 效率低使用听诊器诊断需要医生花费大量时间和精力,尤其对于经验不足的医生来说,需要更长的时间才能准确识别和区分不同的呼吸音。在疫情或紧急情况下,需要快速评估大量患者的呼吸状况,传统方法难以满足这种需求。
  • 受环境因素影响周围环境噪音、患者的体位和呼吸状态等因素都会影响医生对呼吸音的判断。

1 方法

1.1 相关技术

1.1.1 可学习频谱前端模块

传统方法使用人工设计的特征变换,例如短时傅里叶变换(STFT)、梅尔频率倒谱系数(MFCC)和常数Q变换(CQT)等。这些变换存在固定的特征偏差,无法保证在所有任务中都获得最佳性能。

可学习频谱前端模块通过学习滤波器来提取特征,可以更好地适应不同的任务,并避免固定的特征偏差。

常见的可学习频谱前端模块包括:

  • 基于Mel滤波器组的滤波器学习: 将滤波器初始化在Mel尺度上,并与其他网络组件一起学习。
  • 基于原始波形的滤波器学习: 直接从原始波形中学习卷积滤波器,例如SincNET和EfficientLeaf。
  • 基于Gabor滤波器的滤波器学习: 使用Gabor滤波器,结合正弦信号和高斯核,实现时间-频率局部化。

1.1.2 深度学习架构

随着深度学习技术的发展,许多深度学习模型被应用于呼吸音识别任务,并取得了较好的性能。常见的深度学习架构包括:

  • 卷积神经网络(CNN): 用于提取时频特征,例如ResNet、CNN6和MobileNetV2等。
  • 循环神经网络(RNN): 用于处理序列数据,例如LSTM和GRU等。
  • 注意力机制: 用于捕捉时频特征之间的关系,例如Transformer和CSRA等。

预训练模型的使用可以弥补训练样本不足的问题,并提高模型性能。轻量级模型的设计可以降低模型复杂度,方便部署到便携式设备上。

1.2 数据集

本研究使用了在国际生物医学健康信息学会议(ICBHI 2017)上组织好的呼吸音数据库。ICBHI数据集包含6,898个呼吸周期,总计约5.5小时,并正式分为训练集(60%)和测试集(40%)。值得注意的是,在训练集和测试集的分割中,两个数据集之间的患者数据不重叠。每个呼吸周期被标记为以下四类之一:正常、啰音、喘鸣或啰音&喘鸣。训练集包含来自79名患者的539个记录,包括1,215个啰音周期、501个喘鸣周期、363个啰音&喘鸣周期和2,063个正常呼吸周期。类似地,测试集包括来自49名患者的381个记录,总计649个啰音周期、385个喘鸣周期、143个啰音&喘鸣周期和1,579个正常呼吸周期。

链接:

https://github.com/Maheswara1/ICBHI-Respiratory-Challenge-2017-dataset.

1.3 实验流程

  • 数据收集和划分:将数据集按照患者进行划分,分为训练集、验证集和测试集。
  • 特征提取:使用可学习的频谱前端模块或直接将音频信号转换为特征谱图。
  • 数据增强:使用随机改变音频的速度和音调等方法进行数据增强。
  • 模型设计:选择轻量级模型进行训练,并对分类器结构进行调整优化。
  • 多标签学习:将类别标签转换为多标签形式,并使用二分类交叉熵损失函数进行训练。
  • 多头注意力机制:在分类器中使用多头注意力机制,提高模型对时频特征的提取能力。
  • 模型评估:使用Score、Specificity和Sensitivity等指标评估模型性能。

1.4 数据预处理

1.4.1 采样率统一:将所有音频录音的采样率统一为16 kHz,方便后续处理和模型训练。

1.4.2 时长统一:由于每个患者的呼吸周期时长不同,使用循环填充将所有呼吸周期的时长扩展到8秒,保证模型输入的一致性。

1.4.3 特征提取

  • 可学习的频谱前端模块: 如果使用可学习的频谱前端模块,则直接提取特征。
  • 梅尔谱图: 将音频信号转换为梅尔谱图,使用64个Mel滤波器,窗口大小为1024,步长为512,最小频率为50 Hz,最大频率为2000 Hz。梅尔谱图的尺寸为(64, 256)。

1.4.4 数据增强

  • 随机改变速度和音调: 如果使用可学习的频谱前端模块,则对音频信号进行随机改变速度和音调,增加数据多样性。
  • 时间掩码和频率掩码: 对梅尔谱图进行时间掩码和频率掩码,模拟真实世界中的噪声和干扰,提高模型的鲁棒性。

1.4.5 标签转换:将类别标签转换为多标签形式,例如将“爆裂音&喘鸣音”转换为“爆裂音”和“喘鸣音”。

1.5 Multi-breath模型

1.5.1 特征提取器

  • 可学习的频谱前端模块: 可以使用EfficientLeaf等可学习频谱前端模块,学习滤波器并提取音频特征。
  • 梅尔谱图: 将音频信号转换为梅尔谱图,提取时间-频率特征。

1.5.2 多标签学习

  • 将类别标签转换为多标签形式,每个呼吸周期可以同时属于多个类别。
  • 使用二分类交叉熵损失函数进行训练,每个类别单独计算损失。

1.5.3 多头注意力机制

  • 类特定注意力机制: 针对每个类别,学习不同的注意力权重,突出显示与该类别相关的特征。
  • 全局平均池化(GAP)和全局最大池化(GMP): 对特征图进行全局平均池化和全局最大池化,提取全局特征。
  • 多头注意力机制: 使用多个注意力头,每个注意力头使用不同的温度参数,捕捉不同粒度的特征。
  • 最终特征: 将类特定注意力机制和全局特征进行融合,得到最终的特征表示。

1.5.4 分类器

使用Softmax函数对最终特征进行分类,得到每个类别的预测概率。

2 结论

2.1 不同模型的比较

上表格展示了不同模型在测试集上的性能比较,包括CNN14、ResNet22、CNN6和MobileNetV2等。结果表明,CNN14模型性能最好,但参数量较大。CNN6模型在参数量和性能之间取得了较好的平衡,是本研究的首选模型。

2.2 多标签学习方法的比较

上表格展示了多标签学习方法在不同模型上的性能比较。结果表明,多标签学习方法在CNN6模型上取得了最大的性能提升,说明多标签学习可以缓解类别不平衡和数据多样性不足的问题,提高模型的性能。

2.3 多头注意力机制的比较

上表格展示了多头注意力机制在不同模型上的性能比较。

结果表明,大多数模型在引入多头注意力机制后,性能都有所提升,并且模型参数量有所降低。MobileNetV2模型由于特征维度较低,引入多头注意力机制后性能略有下降。

2.4 可学习频谱前端模块的比较

上表格展示了可学习频谱前端模块与本研究设计模型的性能比较。

结果表明,CNN14模型结合可学习频谱前端模块后,性能没有明显提升。CNN6模型结合可学习频谱前端模块后,性能与传统的梅尔谱图特征提取方法相当。这说明可学习频谱前端模块的有效性取决于模型的复杂度,需要根据实际情况进行调整。

2.5 与现有方法的比较

上表格展示了Multi-breath模型与其他方法的性能比较,包括基于Transformer的模型和基于CNN的模型。

结果表明,Multi-breath模型在CNN6架构上取得了最优性能,并且在轻量级模型方面优于其他方法。Multi-breath模型在ICBHI 2017数据集上的Score达到59.2%,超过了现有的轻量级模型方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1932251.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Vue3】4个比较重要的设计模式!!

大家好,我是CodeQi! 一位热衷于技术分享的码仔。 在我投身于前端开发的职业生涯期间,曾有一次承接了一个大型项目的维护工作。此项目运用的是 Vue 框架,然而其代码结构紊乱不堪,可维护性极度糟糕😫。 这使我深刻领会到,理解并运用 Vue 中的重要设计模式是何等关键! …

Codeforces Round 958 (Div. 2)(A~C)题

A. Split the Multiset 思路: 最优的策略是每次操作分出 k−1&#x1d458;−1 个 1&#xff0c;然后考虑最后是否会剩下一个单独的 1。 代码: #include<bits/stdc.h> using namespace std; #define N 1000005 typedef long long ll; typedef unsigned long long ull;…

VGMShield:揭秘视频生成模型滥用的检测与追踪技术

人工智能咨询培训老师叶梓 转载标明出处 视频生成模型&#xff0c;如 Stable Video Diffusion 和 Videocrafter&#xff0c;已经能够生成合理且高分辨率的视频。但这些技术进步也带来了被恶意利用的风险&#xff0c;比如用于制造假新闻或进行政治宣传。因此&#xff0c;来自弗…

BUUCTF逆向wp [HDCTF2019]Maze

第一步 查壳&#xff0c;本题是32位&#xff0c;有壳&#xff0c;进行脱壳。 第二步 这里的 jnz 指令会实现一个跳转&#xff0c;并且下面的0EC85D78Bh被标红了&#xff0c;应该是一个不存在的地址&#xff0c;这些东西就会导致IDA无法正常反汇编出原始代码&#xff0c;也称…

Kafka 高并发设计之数据压缩与批量消息处理

《Kafka 高性能架构设计 7 大秘诀》专栏第 6 章。 压缩&#xff0c;是一种用时间换空间的 trade-off 思想&#xff0c;用 CPU 的时间去换磁盘或者网络 I/O 传输量&#xff0c;用较小的 CPU 开销来换取更具性价比的磁盘占用和更少的网络 I/O 传输。 Kafka 是一个高吞吐量、可扩展…

python课设——宾馆管理系统

python课设——宾馆管理系统 数据库课设-宾馆管理系统-python3.7pyqt5 简介 大二数据库课程设计&#xff08;3-4天工作量&#xff09;的项目&#xff0c;登录界面的ui设计参考了他人成果&#xff0c;其余ui以及所有后端部分全部独立完成&#xff0c;详细功能见功能模块图使用…

国内新能源汽车芯片自给,承认差距,任重道远

【科技明说 &#xff5c; 科技热点关注】 据近日工信部电子五所元器件与材料研究院高级副院长罗道军表示&#xff0c;中国拥有最大的新能源车产能&#xff0c;芯片用量也是越来越多。但是芯片的自给率目前不到10%&#xff0c;是结构性的短缺。 中国拥有最大新能源车产能&#…

入门【消息队列】这一篇就够了

消息队列 消息队列的模型为什么要用消息队列分布式消息队列应用场景分布式消息队列选型RabbitMQ入门实战singleWorkFanoutDirectTopic核心特性消息过期机制消息确认机制死信队列消息队列的模型 生产者:Producer,发送消息的人(客户端) 消费者:Consumer,接受消息的人(客…

NLCISBNPlugin,从“中国国家图书馆”获取图书信息Calibre插件

NLCISBNPlugin可以从中国国家图书馆获取图书信息&#xff0c;包括 ISBN、书名、作者、出版日期等信息&#xff0c;然后将这些信息添加Calibre中。 插件安装:NLCISBNPlugin.zip 安装说明&#xff1a; 在 Calibre官方网站 上下载并安装Calibre。下载最新版本的 NLCISBNPlugin …

JUC 包中的 Atomic 原子类总结

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

RFID涉密载体管控系统|DW-S402功能介绍

文件载体管控系统DW-S402是用于对各种载体进行有效管理的智能柜&#xff08;智能管理系统&#xff09;&#xff0c;实现对载体的智能化、规范化、标准化管理&#xff0c;广泛应用于保密、机要单位以及企事业单位等有载体保管需求的行业。 区域监控管理 主要是通过在需要监控的…

el-table表格操作列错行处理

解决方法&#xff1a; <style>::v-deep .el-table th.el-table__cell > .cell {white-space: nowrap !important;} </style>

ArkUI状态管理

State装饰器 在声明式UI中&#xff0c;是以状态驱动试图更新 状态 (State) 指驱动视图更新的数据(被装饰器标记的变量) 试图(View) 基于UI描述渲染得到用户界面 说明 1.State装饰器标记的变量必须初始化&#xff0c;不能为空 2.State支持Object、classstring、number、b…

Self-Attention 自注意力机制(二)——实例过程说明

一、自注意力机制核心过程 自注意力机制&#xff08;Self-Attention Mechanism&#xff09;&#xff0c;也称为内部注意力机制&#xff0c;是一种在序列模型中用于捕捉序列内部不同位置之间依赖关系的技术。这种机制允许模型在处理序列时&#xff0c;对序列中的每个元素分配不…

基于 Web 的家校联系系统的设计与实现

目录 基于 Web 的家校联系系统的设计与实现 一、绪论 &#xff08;一&#xff09;研究背景 &#xff08;二&#xff09; 研究目的 &#xff08;三&#xff09; 研究意义 二、需求分析 &#xff08;一&#xff09; 功能需求 &#xff08;二&#xff09; 性能需求 &#…

【C++】类和对象的基本概念与使用

本文通过面向对象的概念以及通俗易懂的例子介绍面向对象引出类和对象。最后通过与之有相似之处的C语言中的struct一步步引出C中的类的定义方式&#xff0c;并提出了一些注意事项&#xff0c;最后描述了类的大小的计算方法。 一、什么是面向对象&#xff1f; 1.面向对象的概念 …

解决一下git clone失败的问题

1&#xff09;.不开梯子&#xff0c;我们用https克隆 git clone https://github.com 报错&#xff1a; Failed to connect to github.com port 443 after 2091 ms: Couldnt connect to server 解决办法&#xff1a; 开梯子&#xff0c;然后# 注意修改成自己的IP和端口号 gi…

自适应巡航控制中的Stop Go功能详解

自适应巡航控制中的跟车行驶功能详解 文章目录 1. 背景介绍2. 功能定义3. 功能原理4. 传感器架构5. 实际应用案例6. 总结与展望 1. 背景介绍 自适应巡航控制&#xff08;Adaptive Cruise Control, ACC&#xff09;系统中的Stop & Go功能是提升驾驶舒适性和安全性的重要子…

Qt Splash样式的登录窗

Qt Splash样式的登录窗实现 目录 0 结果 1. 设计界面 2.鼠标拖动界面 3. 密码MD5加密 4. 保用户名和密码到注册表 0 结果 1. 设计界面 继承自QDialog&#xff0c;图片使用QLabel加载&#xff0c;windowFlag样式为 Qt::SplashScreen TLoginForm::TLoginForm(QWidget *pa…

PPOCR训练后acc为0解决方法

首先你需要先配置PPOCR源码和环境&#xff0c;可以按照如下流程 PPOCR训练和C#部署英文字符训练_ppocrlabel可以终端运行吗-CSDN博客 训练时如下 如下是rec训练模型 acc为0 det也是如此 如下没有 名为best的模型文件 解决办法就是 将如下的train和eval部分的batch_siz…