Hum Brain Mapp:脑电图中的性别相关模式及其在机器学习分类器中的相关性

news2024/9/30 3:24:56

导读

深度学习越来越多地用于从脑电图(EEG)数据中检测神经和精神疾病,但该方法容易无意中纳入训练数据的偏差并利用不合理的模式。最近的研究表明,深度学习可以通过EEG检测性别,这意味着在基于深度学习的疾病检测器中可能存在与性别相关的偏见,因为许多疾病在男性和女性之间的患病率不平等。在这项工作中,研究者介绍了卷积神经网络使用的男性和女性典型模式,该网络可从临床EEG中检测性别(在包含142名患者的单独测试集中,准确率为81%)。本研究考虑了神经源、解剖差异和非神经伪影作为EEG波形差异的来源。使用来自1140名患者的脑电图发现,心电伪影泄露到所谓的基于大脑活动的分类器中。尽管如此,在排除了心脏相关和其他伪迹后,性别仍然可以检测到。在清理后的数据中,脑电地形图对于性别检测非常重要,但波形和频率则不是那么重要。由此可见,传统的频段对于性别检测并不特别重要。我们甚至能够从随机时间点和异常脑电图中确定性别。研究人员应该将神经和非神经源视为数据中性别差异的潜在来源,即使数据集很大,也应该保持良好的伪迹排除实践,并测试其分类器是否存在性别偏见。

前言

深度学习的出现引发了大量关于卷积神经网络(CNNs)的研究,用于从脑电图(EEG)数据中检测神经和精神疾病。CNNs的有趣之处在于其能够从EEG中发现和利用以前未知的模式,因为这些独特的模式可以从数据中学习,而无需根据事先假设来手动执行。然而,这些模式仅根据其与结果的相关性来估计,而不是按照生物医学的严格性设计。因此,CNNs和许多其他深度学习技术可能倾向于利用与病理本身无直接关系的不合理标准,例如性别。这种性别偏见的模式可能具有神经和非神经的起源。无论哪种方式,许多机器学习分类器的独特特征仍然是隐藏的,因为可解释性通常被认为是不必要的,或者所需的可解释性方法不适用于所使用的技术。基于机器学习的研究通常涉及比传统脑电研究更大的数据集。通常情况下,这些大型数据集中的单个记录未得到充分处理,在分析过程中会留下伪迹,包括在传统研究中较少出现的带有性别偏见的伪迹。

许多使用基于深度学习的EEG分析来研究的疾病在男性和女性之间的患病率存在明显的不平等。例如,重度抑郁症和阿尔茨海默病在女性中更为普遍,而物质使用障碍和帕金森病在男性中更为普遍。长期以来报告的EEG中的性别差异和机器学习的自动性别检测表明,与性别相关的模式可能会干扰基于机器学习的EEG评估。机器学习模型可能在本应仅基于病理学的预测中纳入患者的性别。EEG数据集中的性别相关偏见可能源自疾病的患病率不平等和实际的电生理性别差异,也可能来自诊断的不平等或寻求治疗的意愿不平等。

本文主要解决以下三个方面的研究问题:

1、从EEG中检测性别是否需要特殊的网络架构,或者常用的CNN架构是否可以检测到性别?

2、EEG信号中的哪些模式与CNN检测性别有关,这些模式是什么样的?

3、能否分离出EEG中性别差异的神经和非神经源?

本研究展示了非神经源伪迹(尤其是心电伪迹)对基于深度学习的性别检测的影响,并提出了减少此类伪迹影响的措施。在经过伪迹清理的数据上,本研究呈现了地形,波形和频率的观察结果,从而允许对EEG中性别差异的来源做出新的假设。最后,本研究讨论了性别可检测性对基于机器学习的疾病评估的影响。

材料和方法

数据集准备和信号滤波

本研究使用了临床TUH异常EEG语料库(2.0.0)进行实验,选取了1505份标注为正常的记录。其中67个记录因采样率与其他记录不同而被删除,以避免由于未知差异可能引入的偏差。每例患者只允许有一个记录,因此又有107个记录被剔除。数据集中的记录被数据集的作者分成单独的目录用于训练和评估,本研究保留了这种划分以便与其他研究进行比较(训练子集:1140名患者,636名(56%)女性,504名(44%)男性;评估子集:142名其他患者,61名男性(43%),81名女性(57%),年龄范围18-88岁,年龄均值±SD=45±17岁)。本研究的目标是利用尽可能多的可用信息,并通过在网络训练过程中使用类权重来计算代价函数,报告平衡准确率以及在统计测试中从总体均值中得出p0,以纠正语料库中的不平衡情况(57%的女性)。每个记录(250Hz采样率,使用10-20放置的21个EEG通道)使用Autoreject方法选择50个非重叠的段(长度为4s)。每次记录的前2分钟被跳过,因为通常在开始时需要对电极进行重新调整。在2~8s之间进行参数研究后确定了最佳段长,结果显示超过4s没有明显益处。由于噪声和伪迹问题,49个记录无法产生足够数量的段,因此被排除在外。本研究选择50段作为阈值,因为更大的数值将导致大量病例被排除,而更小的数值会导致数据段的浪费。将信号进行1-40Hz的带通滤波,以显示这个常用频率范围内的信号效应。

在对不良通道进行插值后,使用独立成分分析(ICA)滤除伪迹。采用Corrmap方法,半自动地选择并去除心电图(ECG)和眼电图(EOG)伪迹成分。该算法从20个ICA成分中平均拒绝了两个伪迹成分。最后,将这些时段进行共同平均参考,去均值,并归一化为单位标准差。

用于性别检测的简单CNN

本研究构建了一个卷积神经网络(CNN),可以从几秒钟的EEG片段中检测患者的性别。研究者设计了一个小型浅层网络架构,假设从该架构的发现可以推广到大多数用于EEG分析的深度学习架构;无论这个CNN能检测到什么,都应该很容易被更深层次的网络检测到,因为它们的拟合能力更强。表1列出了完整的网络架构和超参数,图1说明了网络中的数据流。该网络在TensorFlow 2.7.0中实现,并被称为最小化时空网络(Mini-SpaTeN)。

表1.用于性别检测的CNN架构层。

图片

图片

图1.使用Mini-SpaTeN卷积神经网络和相关性归因方法进行性别检测。

本研究设计的CNN只有两个可训练层,即一个卷积层和一个全连接层。网络的工作原理如下:卷积层接收EEG数据矩阵作为输入,并计算EEG数据矩阵与滤波矩阵(也称为卷积核)之间的互相关。卷积核的数值是可训练参数,而卷积核的数量和长度是不可训练的超参数。本研究测试了这些超参数的影响,并发现对于不同数量和长度的卷积核,在性别检测的准确性上差异不大。然后,选择适合于学习参数的可视化和输出的数值(16个卷积核,19个样本长度,相当于76ms)。这些卷积核较短、类似于EEG模式。这些时空卷积核可以反映地形、波形和频率,以及跨空间、时间和频谱的关系。卷积核与EEG时段的互相关导致每个卷积核产生一个时间序列,表示每个卷积核如何随时间的推移与EEG数据匹配。接下来,对这些时间序列应用无偏的ReLU(修正线性单元)激活函数,将所有负相关值设为零,保留正值不变。对于每个时间序列,当数据包含与某个卷积核非常相似的段时,网络会计算出一个较高的值。本研究不再只使用每个卷积核的单个最大相关值,而是将40个重叠间隔上(最大池化层和全局平均层)的最大相关值取平均值,以提高鲁棒性。最后,通过sigmoid激活函数的全连接层对这16个平均值进行分类,与逻辑回归相同。在输出层选择sigmoid激活函数,将输出映射到0-1之间,对应于编码的性别(0=女性,1=男性)。由于第一层的ReLU函数剔除了负值,因此逻辑回归层中权重的符号直接告诉我们哪个卷积核是男性特征,哪个是女性特征。

本研究训练了CNN来最小化准确率的二元交叉熵损失,通过自适应动量估计反向传播(Adam)平衡类别权重。损失指标通常在5个迭代周期(一个周期表示对整个数据集的一次迭代)后收敛。总共进行了20个迭代周期,并在20%的保留部分上选择性能最佳的模型,这部分数据既没有用于训练权重,也没有用于后续的评估。卷积核和逻辑回归层的权重是随机初始化的,在训练过程中它们会迭代地收敛到分类任务(在本例中为性别检测)的最佳模式/值。

使用经过训练的神经网络进行预测和性能评估

在将网络应用于50个不同的片段后,通过多数投票来对每个受试者进行性别预测。考虑到男女数量不平衡的情况,本研究报告平衡准确率 ,即真阳性率和真阴性率的算术平均值。为了更好地与其他研究进行比较,本研究还报告了传统准确率,即正确预测的百分比。本研究报告了30个网络的数值及其均值和标准差,这些网络是在相同数据上独立随机初始化并进行训练的。为了探索该网络架构的精度极限,将卷积核的数量增加到512,通过多数投票的方式从30个独立随机初始化并在相同数据上训练的网络中进行集成预测。

使用单侧的二项式检验,对于n=15个多重比较进行Bonferroni校正,得到了调整后的显著性水平α=0.003。p0是根据总体均值(142个受试者,57%女性)计算得出的。

特征可视化和相关性归因

浅层网络架构的优势在于可以直接从学习到的权重中读取到独特的模式。学习到的权重包括卷积核和密集输出层的元素。网络(直到倒数第二层)能够产生每个卷积核Kk与数据的匹配程度。然后,密集输出层中权重Wk的符号表明与每个卷积核的匹配是使得预测偏向男性还是女性。

确定每个通道和时间点的EEG信号与网络决定男性和女性之间的相关性R。网络的浅层和简单性允许在不涉及复杂的可解释性框架的情况下推导出R的值:CNN扫描每个4s的EEG片段X,在40个重叠窗口Xi中,每个窗长为300ms,重叠时间为100ms。在这些窗口中,只有数据和卷积核之间相关性最大的部分有助于最终的预测。扫描首先生成数据矩阵和卷积核之间的互相关时间序列Ck。

图片

为了计算每个窗口中每个卷积核在最大相关性时间点的相关矩阵Ri,k,首先定义:

图片

其中,X(arg max(Ci,k))是与卷积核大小相同的子矩阵,符号⊙表示逐元素的Hadamard乘积。接下来:

图片

然后,将不同片段在其相应时间点的相关性进行求和,得到了与数据矩阵具有相同维数的特定于卷积核的相关性矩阵。最后,对所有特定于卷积核的相关性矩阵进行求和,以确定总体相关性,然后将其以红色和蓝色的色调覆盖在数据之上(图1)。

结果

从原始、滤波和实验修改后的数据中检测患者的性别

表2列出了不同实验的准确率。在未进行任何伪迹处理的脑电数据上,本研究中的卷积神经网络(CNN)以78%±2%的准确率检测出了患者的性别(p<0.001,平衡准确率)。在去除伪迹后,平衡准确率降至74%±2%(p<0.001)。使用带通滤波后的数据(δ、θ、α、β、γ;频率范围见表2)重复整个流程(训练和预测),得到了相同或略小的准确率。所有频段之间的差异均不显著,并且任意两个频段之间的最大差异为4%(α和γ之间)。当对时域进行混洗并将时空卷积核缩小到单个时间点时,仍然可以进行性别检测(68%±3%,p=0.002)。从地形图中也可以进行性别检测,对于每个频段,使用带通滤波后的数据甚至可以获得更高的准确率(最高增加了5%)。同样,所有频段之间的差异不显著。任意两个频段之间的最大差异仅为3%(α和γ之间)。使用时空卷积核和混洗的地形图,则不能进行性别检测(61%,p=0.17)。本研究使用30个网络进行集成预测,估计该架构和数据集的平衡准确率为81%。

表2.性别检测准确率。

图片

本研究搜索了被错误分类的患者之间的共同点,但发现在各类患者中都存在错误分类:男性和女性、年轻人和老年人、有无用药、以及不同病史的患者。ICA滤波数据和时空卷积核实验的混淆矩阵(表3)无显著偏差(p=0.20)。

图片

浅层CNN的单通道自适应无法从ECG通道预测性别(58%,p=0.22)。对于单个EEG通道,额叶通道的准确率最高。当允许越来越多的通道,并始终添加最佳的下一个通道时,选定的传感器将遍布头部。六个通道(F4,Fp2,C4,T6,Pz,O1)的准确率已经>70%。图2显示了单个EEG通道的准确率和估计的最佳添加顺序。

图片

图2.仅使用单个通道和逐个通道添加后的准确率。

原始数据与ICA滤波数据的相关性归因比较

图3显示了一个典型的具有相关性映射覆盖的数据段。就原始数据而言,可视化分析显示了心电QRS复合波期间有很强的相关性积累,但ECG中可见T波的间期或脉冲波间期则没有。基于ICA的伪迹去除有效地降低了相关性的积累。如图4所示,通过对所有受试者的QRS时段周围的相关性时间序列进行平均,总体上证实了这种积累和降低。

图片

图3.该典型示例包括具有相关性可视化的EEG信号、ECG信号以及相关性时间序列,并且包括有和无伪迹去除的情况(女性,45岁)。红色背景表示数据点对预测女性的影响,蓝色则表示对预测男性的影响。颜色越深,相关性越大。

图片

图4.比较ECG信号在ICA滤波前后的总相关性。

结论

本研究从EEG中复制了基于神经网络的性别检测。本文以浅层神经网络为例,介绍了一种相关性归因方法,并展示了脑电数据中的性别相关模式。研究发现,非神经源(特别是心电)会给EEG带来性别偏见成分,但即使剔除了这些伪迹,性别仍然高度可检测。本研究结果表明,几乎任何神经网络在脑电分析中都能很容易地检测到性别。对于男女患病率不平等的许多神经系统和精神疾病而言,性别很可能是一个潜在的混杂因素。因此,应对疾病分类器进行性别偏见分析。

参考文献:Thomas Jochmann, Marc S. Seibel. et al. Sex-related patterns in the electroencephalogram and their relevance in machine learning classifiers. Hum Brain Mapp. 2023;1-11. DOI: 10.1002/hbm.26417

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/804065.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Three.js】Three.js中的纹理—图像应用和属性调整

写在前面: Three.js是一种强大的JavaScript库,用于创建基于Web的交互式3D图形和动画。在Three.js中,纹理是一项重要的功能,它允许我们将图像应用到几何体对象上,并通过调整纹理的属性来实现更丰富的视觉效果。 本文将介…

使用PyGWalker可视化分析表格型数据

大家好,可以想象一下在Jupyter Notebook中拥有大量数据,想要对其进行分析和可视化。PyGWalker就像一个神奇的工具,能让这项工作变得超级简单。它能获取用户的数据,并将其转化为一种特殊的表格,可以与之交互&#xff0c…

PostgreSQL中如何配置Huge page的数量

在了解如在PG中如何配置大页之前,我们先要对大页进行一定的了解,为什么要配置大页,配置大页的好处有哪些。 我们日常的操作系统中,程序不直接使用内存,而是使用虚拟内存地址来处理内存分配,避免计算的复杂…

C++数据结构笔记(11)二叉树的#号创建法及计算叶子节点数

首先分享一段计算叶子节点数目的代码,如下图: 不难发现,上面的二叉树叶子节点数目为4。我们可以采用递归的方式,每当一个结点既没有左结点又没有右节点时,即可算为一个叶子结点。 int num0; //全局变量,代…

Linux--多个源文件编译成同一个可执行文件

写法一:不推荐 写法二、推荐 $:代表目标文件 $^:代表生成目标文件的所有源文件

收藏这11个插画网站,插画师必备!

无论是在哪种设计工作中,插画素材都是比较常用的素材。今天本文整理了11个好用的插画工具,能帮助设计师轻松绘制出插画,一起来看看吧! 1、即时设计 即时设计是一款国产的,省心省力的插画工具。它为设计师提供了简单易…

【Git】Git的概念安装工作区-暂存区-版本库

文章目录 Git概念-版本控制器Git安装Centos平台&ubuntu Git基本操作创建Git本地仓库配置Git 认识⼯作区、暂存区、版本库添加文件查看.git文件总结添加文件场景2 Git概念-版本控制器 引入 我们在编写各种⽂档时,为了防⽌⽂档丢失,更改失误&#xff0…

Nexperia和KYOCERA AVX Components Salzburg 就车规氮化镓功率模块达成合作

Nexperia和KYOCERA AVX Components Salzburg 就车规氮化镓功率模块达成合作 基础半导体器件领域的高产能生产专家Nexperia(安世半导体)近日宣布与国际著名的为汽车行业提供先进电子器件的供应商 KYOCERA AVX Components (Salzburg) GmbH 建立合作关系&am…

【弹力设计篇】聊聊隔离设计

为什么需要隔离设计 隔离其实就是Bulkheads,隔板。在生活中隔板的应用主要在船舱中进行设计,目的是为了避免因一处漏水导致整个船都沉下去。可以将故障减少在一定的范围内,而不是整个船体。 从架构演变来说的话,大多数系统都是从…

兵兵数码:网络机顶盒哪个好?2023最新网络机顶盒排名

网络机顶盒让电视机重生,解决卡顿、资源少、广告多等问题,我们每年都会进行网络机顶盒测评,今年已经测评过17款,通过多角度对比筛选了五款表现最佳的产品整理成网络机顶盒排名,近期想买网络机顶盒不知道网络机顶盒哪个…

工具篇-Mysql 性能优化

文章目录 前言一、Mysql 性能问题:1.1 一条sql 的执行流程:1.2 MySQL 可能出现的性能问题: 二、优化:2.1 硬件层面:2.2 软件层面:2.2 .1 mysql 参数配置优化:2.2.1.1 mysql 服务端连接优化&…

【Golang】Golang进阶系列教程--为什么 Go 语言 struct 要使用 tags

文章目录 前言struct tags 的使用使用反引号避免使用空格避免重复使用标准化的 tag 名称多个 tag 值 struct tags 的原理struct tags 的优势常用的 struct tags参考文章: 前言 在 Go 语言中,struct 是一种常见的数据类型,它可以用来表示复杂…

【MMdetection3d】Step1:环境搭建

Step1:环境搭建 1.创建并激活虚拟环境1.1 用官方Pytorch指令安装!1.2 用官方mmcv指令安装! 2 安装MMDetection3 克隆编译mmdetection3d4 环境测试5 测试demo 在Conda虚拟环境中搭建MMdetection3d环境 1.创建并激活虚拟环境 conda create -n mm3d python…

JavaEE简单示例——在使用Tomcat的时候可能出现的一些报错

简单介绍: 在我们之前使用Tomcat的时候,经常会出现在启动的时候因为一些报错导致项目无法正常的启动,我们就对一些比较常见的报错来看一下可能导致的原因,以及出现报错之后如何去解决。 严重: Failed to initialize end point a…

Spring中最简单的过滤器和监听器

1. 过滤器概念引入 Filter也称之为过滤器,它是Servlet技术中最实用的技术,Web开发人员通过Filter技术,对web服务器管理的所有web资源:例如Jsp, Servlet, 静态图片文件或静态 html 文件等进行拦截,从而实现一些特殊的功…

一文看完智能视频监控系统的工作原理及场景应用

智能视频监控系统的原理是利用摄像机采集视频信号,并通过相关的AI模型算法实时分析视频内容,提取出有用信息,如人脸、车牌号码、移动物体等,并进行识别及特征提取,最终形成监控报警、实时监控、历史录像回放等应用。 智…

【JAVA】 String 类简述笔记

个人主页:【😊个人主页】 系列专栏:【❤️初识JAVA】 文章目录 前言String类创建一个String类 常用方法字符串长度 length() 方法连接字符串 concat() 方法创建格式化字符串 format()功能 前言 string是C、java、VB等编程语言中的字符串&…

项目报错clone2.weekday is not a fuction

ant-design-vue中的dayjs版本和我项目中的dayjs版本不一样 项目中的dayjs版本号 ant-design-vue中的dayjs版本号"dayjs": “^1.11.9” 解决方法: 将项目中的版本号更新"dayjs": “^1.11.9” yarn add dayjs^1.11.9

lc162.寻找峰值

由于题目假设nums[-1]和nums[n]等于负无穷 如果nums[i]>nums[i1]&#xff0c;即nums[-1]<nums[i]>nums[i1]&#xff0c;那么在[0,i]区间内一定存在峰值 如果nums[i]<nums[i1]&#xff0c;即nums[i]<nums[i1]>nums[n]&#xff0c;那么在[i1,n-1]区间内一定存…

dubbo原理框架设计

dubbo原理框架设计 &#xff08;1&#xff09;config 配置层&#xff1a;对外配置接口&#xff0c;以 ServiceConfig, ReferenceConfig 为中心&#xff0c;可以直接初始化配置类&#xff0c;也可以通过 spring 解析配置生成配置类。 &#xff08;2&#xff09;proxy 服务代理…