PPINtonus (深度学习音调分析)帕金森病早期检测系统

news2025/1/23 2:20:35

      帕金森病(Parkinson’s Disease,简称PD)是一种主要影响运动功能的进行性神经退行性疾病。这种疾病主要是由于大脑中一个名为黑质(substantia nigra)的区域失去产生多巴胺的神经元而引起的。PD的主要运动症状包括震颤、肌肉僵硬、运动迟缓(动作缓慢)和姿势不稳。这些症状显著影响了个体的生活质量,并且随着时间的推移通常会逐渐恶化。除了运动症状外,还会出现非运动症状,如认知障碍、情绪障碍和睡眠障碍,这进一步复杂化了疾病的管理。

     早期检测PD至关重要,因为它允许及时开始治疗,这些治疗可以缓解症状并可能减缓疾病进程。然而,早期阶段的PD往往很难诊断,因为症状可能很微妙,并且可能与其他疾病重叠。PD的传统诊断方法包括临床评估,包括神经学检查和患者的医疗史。虽然这些方法有效,但它们在很大程度上依赖于医疗专业人员的专业知识,并且在某种程度上是主观的

    PPINtonus系统是专门为早期检测帕金森病(Parkinson’s Disease, PD)设计的,它利用深度学习音调分析和生物医学声音测量值(Biomedical Voice Measurements, BVMs)来评估声音样本。该系统与帕金森声音项目(Parkinson’s Voice Project, PVP)合作,并通过使用条件生成对抗网络(Conditional Generative Adversarial Network, cGAN)来增强训练数据集。

1 模型架构

PPINtonus软件流程:包括语音测试、数据采集、预处理、特征提取、神经网络分类模型训练、评估和微调等步骤。

1.1 语音测试

  • 持续元音发音: 让患者持续发音某个元音(例如/i/),并记录其语音信号。该测试可以有效地揭示声带振动和控制的异常,例如 jitter 和 shimmer 增大。
  • 快速音节重复: 让患者快速重复发音某个音节序列(例如/pa-ta-ka/),并记录其语音信号。该测试可以评估患者的运动计划能力,例如 diadochokinetic rate 减慢。
  • 句子朗读: 让患者朗读预先设定的句子,并记录其语音信号。该测试可以评估患者的语音控制能力,例如音高和音量调制范围减小、停顿和犹豫增多。
  • 复杂语音任务: 包括自发言语、叙事任务和快速重复音节等,可以更全面地评估患者的语音能力。

1.2 数据采集

使用 Parselmouth 库(PRAAT 的 Python 接口)采集语音信号。

将语音信号转换为数字格式,并进行预处理,例如去除静音、归一化等。

1.3 预处理

  • 数据增强: 向语音信号中添加各种类型的噪声,例如白噪声、背景杂音、家庭噪音等,以模拟真实环境中的噪声情况,提高模型的泛化能力。
  • 噪声消除: 使用深度学习技术,例如深度学习去噪自动编码器,降低背景噪声,提高语音信号质量。
  • 麦克风校准: 校正不同麦克风之间的差异,确保模型在不同设备上的鲁棒性。

1.4 特征提取

使用 PRAAT 语音软件提取关键语音特征,包括:

  • 基频 (F0): 声音的平均音调,反映声带振动的频率。
  • jitter: 声音周期之间的频率变化,反映声音的稳定性。
  • shimmer: 声音周期之间的振幅变化,反映声音的清晰度。
  • 谐波噪声比 (HNR): 谐波成分与噪声成分的比值,反映声音的质量。
  • 共振峰频率 (F1, F2, F3): 声道共振频率,对元音发音至关重要。
  • 强度: 声音的响度,反映声音的能量。
  • 发声起始时间 (VOT): 辅音释放与声带振动之间的间隔,反映声门动作的协调性。
  • 语速: 说话的速度,反映说话时的运动控制能力。
  • 快速交替运动速率 (DDK): 快速交替运动的能力,反映神经肌肉协调性。
  • 音调范围: 最高音和最低音之间的范围,反映声音的灵活性。
  • 连续说话基频 (SFF): 连续说话时的平均音调。
  • 最长发音时间 (MPT): 持续发音一个元音的最长时间,反映呼吸控制能力。
  • 倒谱峰突显度 (CPP): 声音质量的一个指标,数值越高表示声音越清晰。
  • 声音范围轮廓 (VRP): 音调和强度的范围,反映声音的容量。
  • 发音阈值压力 (PTP): 初始化发音所需的最小喉部压力。
  • 振幅扰动商 (APQ): 短期振幅变化的一个指标。
  • 归一化噪声能量 (NNE): 噪声能量与声音信号总能量的比值。

1.5 深度神经网络

使用多层深度神经网络进行分类,模型结构可能包括:

  • 多个全连接层(dense layer)
  • ReLU 激活函数
  • Dropout 层
  • Sigmoid 激活函数(输出层)

1.6 训练和评估

使用真实数据和 cGAN 生成的合成数据训练模型。

使用准确率、精确率、召回率等指标评估模型性能。

1.7 输出

模型输出 PD 的概率分数,根据阈值判断患者是否患有 PD。

2 方法

2.1 数据收集

  • 主要数据集: 使用 UC Irvine 帕金森病检测数据集,该数据集包含了大量帕金森病患者和健康对照的语音样本。
  • 补充数据: 与帕金森病语音项目和生物医学工程专家合作,收集更多语音样本,以增强数据集的多样性和可靠性。

2.2 数据预处理

  • 数据清洗: 去除数据中的异常值和噪声,提高数据质量。
  • 独热编码: 将类别变量转换为数值格式,以便进行机器学习模型的训练。
  • 标准化: 将数据缩放到相同的范围,以便模型更好地学习。

2.3 合成数据生成

  • cGAN 模型: 使用条件生成对抗网络(cGAN)生成与真实数据相似的合成数据,以扩大训练数据集,提高模型的泛化能力。
  • 训练过程: 训练生成器和判别器,生成器学习生成与真实数据相似的数据,判别器学习区分真实数据和合成数据。
  • 数据验证: 对生成的合成数据进行验证,确保其质量符合要求。

2.4 特征提取

  • PRAAT 语音软件: 使用 PRAAT 语音软件提取关键语音特征,例如基频、 jitter、 shimmer、谐波噪声比等。
  • 特征选择: 使用特征选择方法,例如递归特征消除或主成分分析(PCA),选择对 PD 检测最相关的特征。

2.5 深度学习方法

  • 神经网络模型: 设计多层深度神经网络进行分类,模型结构可能包括全连接层、ReLU 激活函数、Dropout 层和 Sigmoid 激活函数。
  • 训练过程: 使用真实数据和 cGAN 生成的合成数据训练模型,使用准确率、精确率、召回率等指标评估模型性能。
  • 模型优化: 使用贝叶斯优化等方法微调模型超参数,提高模型性能。

2.6噪声处理

  • 数据增强: 向语音信号中添加各种类型的噪声,例如白噪声、背景杂音、家庭噪音等,以模拟真实环境中的噪声情况,提高模型的泛化能力。
  • 噪声消除: 使用深度学习技术,例如深度学习去噪自动编码器,降低背景噪声,提高语音信号质量。
  • 麦克风校准: 校正不同麦克风之间的差异,确保模型在不同设备上的鲁棒性。

2.7 实时PD检测

  • 选择有效的语音测试: 选择持续元音发音、句子朗读和复杂语音任务等,以提取可靠的 BVMs。
  • 开发 PPINtonus 软件: 开发 PPINtonus 软件,用于指导患者完成语音测试、采集语音数据、进行预处理和特征提取,并将数据输入深度神经网络模型进行分类。

2.8 模型评估和部署

  • 模型评估: 使用准确率、精确率、召回率等指标评估模型性能,并分析不同语音测试提取 BVMs 的准确性。
  • 模型部署: 将模型部署到移动设备或云服务器上,以便进行实时 PD 检测。

3 结论

  • 模型性能: 深度学习模型在 PD 检测方面取得了较高的准确率、精确率和召回率,证明了该方法的有效性。
  • 语音测试: 研究发现,持续元音发音和快速音节重复是最有效的语音测试,能够提供可靠的 BVMs 用于 PD 检测。
  • 数据集: 研究发现,模型在当前数据集上表现良好,但其泛化能力有待进一步提高,需要扩大数据集,包括更多样化和真实世界的音频样本,特别是来自第三世界国家的样本。

4 相关数据集

4.1 生物医学声音测量值(Biomedical Voice Measurements, BVMs)数据集(需要可留言直接发送邮箱)

生物医学声音测量值(Biomedical Voice Measurements, BVMs)数据集主要用于帕金森病(Parkinson's Disease, PD)的检测和分析。这些数据集包含了多种生物医学语音测量值,涵盖了不同阶段的帕金森病患者。

该数据集由31人的一系列生物医学语音测量组成,其中23人患有帕金森病(PD)。表中的每一列都是一个特定的语音测量值,每一行对应这些人195个语音记录中的一个(“名称”列)。数据的主要目的是根据“状态”栏区分健康人和帕金森病患者,健康状态栏设置为0,帕金森病状态栏设置为1。

4.2 UC Irvine帕金森病检测数据集(需要可留言直接发送邮箱)

UC Irvine帕金森病检测数据集是一个用于机器学习和深度学习研究的标准测试数据集。该数据集由加州大学欧文分校(University of California, Irvine)提供,属于UCI数据库的一部分。

该数据集包含188个患有帕金森病的患者的相关数据,其中包括107名男性和81名女性,年龄分布在33岁到87岁之间。这些数据主要用于检测和分类帕金森病,具有重要的临床意义,因为早期、准确的诊断对于及时干预和个性化治疗至关重要。

数据集中的变量包括多种特征,如时间频率特征、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCCs)、小波变换特征、声带特征和TWQT特征等。这些特征可以帮助研究者更好地理解帕金森病患者的生理状态,并开发出更为精确的诊断模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1794471.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++笔试强训day40

目录 1.游游的字母串 2.体育课测验(二) 3.合唱队形 1.游游的字母串 链接https://ac.nowcoder.com/acm/problem/255195 英文字母一共就26个&#xff0c;因此可以直接暴力枚举以每个字母作为最后的转变字母。最后去最小值即可 #include <iostream> #include <cmath&…

商淘云电商分账系统如何为企业降低连锁财务成本

当今激烈的市场竞争中&#xff0c;连锁品牌企业面临着多样化的挑战&#xff0c;其中财务管理尤为关键。商淘云连锁收银系统作为一款专为连锁品牌量身定制的解决方案&#xff0c;不仅可以帮助企业实现总部入账管控财务、银行结算规范财务的目标&#xff0c;还能通过分账系统优化…

Linux系统安装APITable详细流程与远程访问本地平台数据分析

文章目录 前言1. 部署APITable2. cpolar的安装和注册3. 配置APITable公网访问地址4. 固定APITable公网地址 &#x1f4a1;推荐 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【点击跳转到网站】 前言 v…

揭秘智能测径仪省钱之道!每年能为每条产线省上百万!

在当今竞争激烈的市场环境下&#xff0c;企业们都在不断寻求提高生产效率、降低成本的方法。而智能测径仪的出现&#xff0c;为圆形钢材、螺纹钢等生产企业实现这一目标提供了有力的支持。 智能测径仪被广泛应用于高线、铸管、圆钢、螺纹钢、钢筋等的轧制生产线中&#xff0c;进…

【Python】教你彻底了解Python中的并发编程

​​​​ 文章目录 一、并发编程的基本概念1. 线程&#xff08;Thread&#xff09;2. 进程&#xff08;Process&#xff09;3. 协程&#xff08;Coroutine&#xff09; 二、Python中的线程与进程1. 线程1.1 创建和启动线程1.2 线程同步 2. 多进程2.1 创建和启动进程2.2 进程间…

p2p文件传输小工具

使用webRTC的相关技术栈可以很轻松的开发一个p2p文件传输工具&#xff0c;这里主要讲下使用datachannel开发的一个文件传输工具client程序的使用 客户端A&#xff1a;需要可以访问公网&#xff0c;运行client的主机 客户端B&#xff1a;可以访问公网&#xff0c;可以和客户端…

关于三极管的理解

三极管工作时出现三个状态&#xff1a;截止、放大、饱和 1. 截止状态&#xff1a;三极管处于关断状态&#xff0c;Vce约等于电源电压 2. 放大状态&#xff1a;三极管处于电流放大状态&#xff0c;0V 3. 饱和状态&#xff1a;三极管处于完全导通状态&#xff0c;Vce≈0V 放大电…

卡尔曼滤波(Kalman Filtering)详细解读

&#x1f9d1;‍&#x1f393; 个人主页&#xff1a;《爱蹦跶的大A阿》 &#x1f525;当前正在更新专栏&#xff1a;《VUE》 、《JavaScript保姆级教程》、《krpano》、《krpano中文文档》 ​ ​ ✨ 前言 卡尔曼滤波&#xff08;Kalman Filtering&#xff09;是一种用于估计…

天润酸奶爆改饭盒?为什么听劝营销“硬控”消费者如此有效

不知道大家会不会经常逛超市&#xff1f;有没有发现酸奶货架上有一道异于其它品牌的包装&#xff0c;它就是新疆天润酸奶&#xff0c;酷似饭盒的外包装对于当代倡导实用主义的年轻人来讲&#xff0c;这一发现无疑是直接“创进心巴”&#xff0c;不少网友表示它直接解决了带饭人…

新零售智能售卖教学实训沙盘内容介绍

新零售智能售卖教学实训沙盘是服务数据分析的教学工具。通过该沙盘&#xff0c;能够让学生了解数据分析在新零售行业智能售卖业务场景的应用流程。使用新零售智能售卖教学实训沙盘进行教学&#xff0c;一方面能够让老师的教学内容更加贴近实际应用&#xff0c;将教学场景具象化…

音视频开发13 FFmpeg 音频 相关格式分析 -- AAC ADTS格式分析

这一节&#xff0c;我们学习常用的音频的格式 AAC&#xff0c;重点是掌握 AAC的传输格式 ADTS 头部的信息&#xff0c;目的是 &#xff1a; 当音频数据有问题的时候&#xff0c;如果是AAC的编码&#xff0c;在分析 头部信息的时候能够根据头部信息 判断问题是否出现在 头部。 A…

搜狗输入法的软键盘怎么关闭

我的搜狗输入法软件盘和typora中ctrlshiftk冲突了&#xff0c;关闭软键盘

doris FE 在Windows环境下编译调试开发环境

前言&#xff1a; doris fe 在win下调试运行&#xff0c;和正常java项目有一些差异&#xff0c;主要是有与be&#xff08;c&#xff09;通信代码的生成 在win环境下不能直接生成&#xff0c;因此需要现在linux下生成之后&#xff0c;再拷贝到本地来&#xff0c;然后进行编译&a…

锻炼 精读笔记 01

元数据 [!abstract] 锻炼 书名&#xff1a; 锻炼作者&#xff1a; 丹尼尔利伯曼简介&#xff1a; 我们是为休息而生&#xff0c;还是为跑而生&#xff1f; 跑步会毁了你的膝盖吗? 哪种运动项目蕞适合我&#xff1f; 懒惰是不正常的行为吗&#xff1f; 每晚都需要睡够 8 个小时…

机器学习是什么?它又如何在网络安全中使用?

介绍 本文概述了基础机器学习概念&#xff0c;并解释了机器学习在网络安全行业中日益增长的应用&#xff0c;以及主要优势、主要用例、常见误解和 CrowdStrike 的机器学习方法。 什么是机器学习&#xff1f; 机器学习 &#xff08;ML&#xff09; 是人工智能 &#xff08;AI…

RockPI 4A单板Linux 4.4内核下的RK3399 GPIO功能解析

RockPI 4A单板Linux 4.4内核下的RK3399 GPIO功能解析 摘要&#xff1a;本文将基于RockPI 4A单板&#xff0c;介绍Linux 4.4内核下RK3399 GPIO&#xff08;通用输入输出&#xff09;功能的使用方法。通过详细的代码解析和示例&#xff0c;帮助读者理解如何在Linux内核中使用GPI…

MySQL条件查询

018条件查询之或者or or表示或者&#xff0c;还有另一种写法&#xff1a;|| 案例&#xff1a;找出工作岗位是MANAGER和SALESMAN的员工姓名、工作岗位 注意字符串一定要带单引号 select ename, job from emp where jobmanager or jobsalesman;任务&#xff1a;查询20和30部门的…

信息系统项目管理师0145:敏捷与适应方法(9项目范围管理—9.2项目范围管理过程—9.2.3敏捷与适应方法)

点击查看专栏目录 文章目录 9.2.3 敏捷与适应方法9.2.3 敏捷与适应方法 对于需求不断变化、风险大或不确定性高的项目,在项目开始时通常无法明确项目的范围,而需要在项目期间逐渐明确。敏捷或适应型方法特意在项目早期缩短定义和协商范围的时间,为后续细化范围、明确范围争取…

海思Hi3519DV500方案1200万无人机吊舱套板

海思Hi3519DV500方案1200万无人机吊舱套板 Hi3519DV500 是一颗面向行业市场推出的超高清智能网络摄像头SoC。该芯片最高 支持四路sensor 输入&#xff0c;支持最高4K30fps 的ISP 图像处理能力&#xff0c;支持2F WDR、 多级降噪、六轴防抖、全景拼接、多光谱融合等多种传统图像…

一种用于异质结高电子迁移率晶体管(HEMTs)的紧凑型漏电流模型,其中包括双子带的二维电子气(2DEG)密度解

来源&#xff1a;A compact drain current model for heterostructure HEMTs including 2DEG density solution with two subbands&#xff08;Solid-State Electronics 16年&#xff09; 摘要 本文提出了一种针对异质结高电子迁移率晶体管(HEMTs)的二维电子气(2DEG)电荷密度…