Hum Brain Mapp：脑电图中的性别相关模式及其在机器学习分类器中的相关性

导读

深度学习越来越多地用于从脑电图(EEG)数据中检测神经和精神疾病，但该方法容易无意中纳入训练数据的偏差并利用不合理的模式。最近的研究表明，深度学习可以通过EEG检测性别，这意味着在基于深度学习的疾病检测器中可能存在与性别相关的偏见，因为许多疾病在男性和女性之间的患病率不平等。在这项工作中，研究者介绍了卷积神经网络使用的男性和女性典型模式，该网络可从临床EEG中检测性别(在包含142名患者的单独测试集中，准确率为81%)。本研究考虑了神经源、解剖差异和非神经伪影作为EEG波形差异的来源。使用来自1140名患者的脑电图发现，心电伪影泄露到所谓的基于大脑活动的分类器中。尽管如此，在排除了心脏相关和其他伪迹后，性别仍然可以检测到。在清理后的数据中，脑电地形图对于性别检测非常重要，但波形和频率则不是那么重要。由此可见，传统的频段对于性别检测并不特别重要。我们甚至能够从随机时间点和异常脑电图中确定性别。研究人员应该将神经和非神经源视为数据中性别差异的潜在来源，即使数据集很大，也应该保持良好的伪迹排除实践，并测试其分类器是否存在性别偏见。

前言

深度学习的出现引发了大量关于卷积神经网络(CNNs)的研究，用于从脑电图(EEG)数据中检测神经和精神疾病。CNNs的有趣之处在于其能够从EEG中发现和利用以前未知的模式，因为这些独特的模式可以从数据中学习，而无需根据事先假设来手动执行。然而，这些模式仅根据其与结果的相关性来估计，而不是按照生物医学的严格性设计。因此，CNNs和许多其他深度学习技术可能倾向于利用与病理本身无直接关系的不合理标准，例如性别。这种性别偏见的模式可能具有神经和非神经的起源。无论哪种方式，许多机器学习分类器的独特特征仍然是隐藏的，因为可解释性通常被认为是不必要的，或者所需的可解释性方法不适用于所使用的技术。基于机器学习的研究通常涉及比传统脑电研究更大的数据集。通常情况下，这些大型数据集中的单个记录未得到充分处理，在分析过程中会留下伪迹，包括在传统研究中较少出现的带有性别偏见的伪迹。

许多使用基于深度学习的EEG分析来研究的疾病在男性和女性之间的患病率存在明显的不平等。例如，重度抑郁症和阿尔茨海默病在女性中更为普遍，而物质使用障碍和帕金森病在男性中更为普遍。长期以来报告的EEG中的性别差异和机器学习的自动性别检测表明，与性别相关的模式可能会干扰基于机器学习的EEG评估。机器学习模型可能在本应仅基于病理学的预测中纳入患者的性别。EEG数据集中的性别相关偏见可能源自疾病的患病率不平等和实际的电生理性别差异，也可能来自诊断的不平等或寻求治疗的意愿不平等。

本文主要解决以下三个方面的研究问题：

1、从EEG中检测性别是否需要特殊的网络架构，或者常用的CNN架构是否可以检测到性别？

2、EEG信号中的哪些模式与CNN检测性别有关，这些模式是什么样的？

3、能否分离出EEG中性别差异的神经和非神经源？

本研究展示了非神经源伪迹(尤其是心电伪迹)对基于深度学习的性别检测的影响，并提出了减少此类伪迹影响的措施。在经过伪迹清理的数据上，本研究呈现了地形，波形和频率的观察结果，从而允许对EEG中性别差异的来源做出新的假设。最后，本研究讨论了性别可检测性对基于机器学习的疾病评估的影响。

材料和方法

数据集准备和信号滤波

本研究使用了临床TUH异常EEG语料库(2.0.0)进行实验，选取了1505份标注为正常的记录。其中67个记录因采样率与其他记录不同而被删除，以避免由于未知差异可能引入的偏差。每例患者只允许有一个记录，因此又有107个记录被剔除。数据集中的记录被数据集的作者分成单独的目录用于训练和评估，本研究保留了这种划分以便与其他研究进行比较(训练子集：1140名患者，636名(56％)女性，504名(44％)男性；评估子集：142名其他患者，61名男性(43％)，81名女性(57％)，年龄范围18-88岁，年龄均值±SD=45±17岁)。本研究的目标是利用尽可能多的可用信息，并通过在网络训练过程中使用类权重来计算代价函数，报告平衡准确率以及在统计测试中从总体均值中得出p0，以纠正语料库中的不平衡情况(57％的女性)。每个记录(250Hz采样率，使用10-20放置的21个EEG通道)使用Autoreject方法选择50个非重叠的段(长度为4s)。每次记录的前2分钟被跳过，因为通常在开始时需要对电极进行重新调整。在2~8s之间进行参数研究后确定了最佳段长，结果显示超过4s没有明显益处。由于噪声和伪迹问题，49个记录无法产生足够数量的段，因此被排除在外。本研究选择50段作为阈值，因为更大的数值将导致大量病例被排除，而更小的数值会导致数据段的浪费。将信号进行1-40Hz的带通滤波，以显示这个常用频率范围内的信号效应。

在对不良通道进行插值后，使用独立成分分析(ICA)滤除伪迹。采用Corrmap方法，半自动地选择并去除心电图(ECG)和眼电图(EOG)伪迹成分。该算法从20个ICA成分中平均拒绝了两个伪迹成分。最后，将这些时段进行共同平均参考，去均值，并归一化为单位标准差。

用于性别检测的简单CNN

本研究构建了一个卷积神经网络(CNN)，可以从几秒钟的EEG片段中检测患者的性别。研究者设计了一个小型浅层网络架构，假设从该架构的发现可以推广到大多数用于EEG分析的深度学习架构；无论这个CNN能检测到什么，都应该很容易被更深层次的网络检测到，因为它们的拟合能力更强。表1列出了完整的网络架构和超参数，图1说明了网络中的数据流。该网络在TensorFlow 2.7.0中实现，并被称为最小化时空网络(Mini-SpaTeN)。

表1.用于性别检测的CNN架构层。

图1.使用Mini-SpaTeN卷积神经网络和相关性归因方法进行性别检测。

本研究设计的CNN只有两个可训练层，即一个卷积层和一个全连接层。网络的工作原理如下：卷积层接收EEG数据矩阵作为输入，并计算EEG数据矩阵与滤波矩阵(也称为卷积核)之间的互相关。卷积核的数值是可训练参数，而卷积核的数量和长度是不可训练的超参数。本研究测试了这些超参数的影响，并发现对于不同数量和长度的卷积核，在性别检测的准确性上差异不大。然后，选择适合于学习参数的可视化和输出的数值(16个卷积核，19个样本长度，相当于76ms)。这些卷积核较短、类似于EEG模式。这些时空卷积核可以反映地形、波形和频率，以及跨空间、时间和频谱的关系。卷积核与EEG时段的互相关导致每个卷积核产生一个时间序列，表示每个卷积核如何随时间的推移与EEG数据匹配。接下来，对这些时间序列应用无偏的ReLU(修正线性单元)激活函数，将所有负相关值设为零，保留正值不变。对于每个时间序列，当数据包含与某个卷积核非常相似的段时，网络会计算出一个较高的值。本研究不再只使用每个卷积核的单个最大相关值，而是将40个重叠间隔上(最大池化层和全局平均层)的最大相关值取平均值，以提高鲁棒性。最后，通过sigmoid激活函数的全连接层对这16个平均值进行分类，与逻辑回归相同。在输出层选择sigmoid激活函数，将输出映射到0-1之间，对应于编码的性别(0=女性，1=男性)。由于第一层的ReLU函数剔除了负值，因此逻辑回归层中权重的符号直接告诉我们哪个卷积核是男性特征，哪个是女性特征。

本研究训练了CNN来最小化准确率的二元交叉熵损失，通过自适应动量估计反向传播(Adam)平衡类别权重。损失指标通常在5个迭代周期(一个周期表示对整个数据集的一次迭代)后收敛。总共进行了20个迭代周期，并在20%的保留部分上选择性能最佳的模型，这部分数据既没有用于训练权重，也没有用于后续的评估。卷积核和逻辑回归层的权重是随机初始化的，在训练过程中它们会迭代地收敛到分类任务(在本例中为性别检测)的最佳模式/值。

使用经过训练的神经网络进行预测和性能评估

在将网络应用于50个不同的片段后，通过多数投票来对每个受试者进行性别预测。考虑到男女数量不平衡的情况，本研究报告平衡准确率，即真阳性率和真阴性率的算术平均值。为了更好地与其他研究进行比较，本研究还报告了传统准确率，即正确预测的百分比。本研究报告了30个网络的数值及其均值和标准差，这些网络是在相同数据上独立随机初始化并进行训练的。为了探索该网络架构的精度极限，将卷积核的数量增加到512，通过多数投票的方式从30个独立随机初始化并在相同数据上训练的网络中进行集成预测。

使用单侧的二项式检验，对于n=15个多重比较进行Bonferroni校正，得到了调整后的显著性水平α=0.003。p0是根据总体均值(142个受试者，57%女性)计算得出的。

特征可视化和相关性归因

浅层网络架构的优势在于可以直接从学习到的权重中读取到独特的模式。学习到的权重包括卷积核和密集输出层的元素。网络(直到倒数第二层)能够产生每个卷积核Kk与数据的匹配程度。然后，密集输出层中权重Wk的符号表明与每个卷积核的匹配是使得预测偏向男性还是女性。

确定每个通道和时间点的EEG信号与网络决定男性和女性之间的相关性R。网络的浅层和简单性允许在不涉及复杂的可解释性框架的情况下推导出R的值：CNN扫描每个4s的EEG片段X，在40个重叠窗口Xi中，每个窗长为300ms，重叠时间为100ms。在这些窗口中，只有数据和卷积核之间相关性最大的部分有助于最终的预测。扫描首先生成数据矩阵和卷积核之间的互相关时间序列Ck。

为了计算每个窗口中每个卷积核在最大相关性时间点的相关矩阵Ri,k，首先定义：

其中，X(arg max(Ci,k))是与卷积核大小相同的子矩阵，符号⊙表示逐元素的Hadamard乘积。接下来：

然后，将不同片段在其相应时间点的相关性进行求和，得到了与数据矩阵具有相同维数的特定于卷积核的相关性矩阵。最后，对所有特定于卷积核的相关性矩阵进行求和，以确定总体相关性，然后将其以红色和蓝色的色调覆盖在数据之上(图1)。

结果

从原始、滤波和实验修改后的数据中检测患者的性别

表2列出了不同实验的准确率。在未进行任何伪迹处理的脑电数据上，本研究中的卷积神经网络(CNN)以78%±2%的准确率检测出了患者的性别(p＜0.001，平衡准确率)。在去除伪迹后，平衡准确率降至74%±2%(p＜0.001)。使用带通滤波后的数据(δ、θ、α、β、γ；频率范围见表2)重复整个流程(训练和预测)，得到了相同或略小的准确率。所有频段之间的差异均不显著，并且任意两个频段之间的最大差异为4%(α和γ之间)。当对时域进行混洗并将时空卷积核缩小到单个时间点时，仍然可以进行性别检测(68%±3%，p=0.002)。从地形图中也可以进行性别检测，对于每个频段，使用带通滤波后的数据甚至可以获得更高的准确率(最高增加了5%)。同样，所有频段之间的差异不显著。任意两个频段之间的最大差异仅为3%(α和γ之间)。使用时空卷积核和混洗的地形图，则不能进行性别检测(61%，p=0.17)。本研究使用30个网络进行集成预测，估计该架构和数据集的平衡准确率为81%。

表2.性别检测准确率。

本研究搜索了被错误分类的患者之间的共同点，但发现在各类患者中都存在错误分类：男性和女性、年轻人和老年人、有无用药、以及不同病史的患者。ICA滤波数据和时空卷积核实验的混淆矩阵(表3)无显著偏差(p=0.20)。

浅层CNN的单通道自适应无法从ECG通道预测性别(58%，p=0.22)。对于单个EEG通道，额叶通道的准确率最高。当允许越来越多的通道，并始终添加最佳的下一个通道时，选定的传感器将遍布头部。六个通道(F4，Fp2，C4，T6，Pz，O1)的准确率已经＞70%。图2显示了单个EEG通道的准确率和估计的最佳添加顺序。

图2.仅使用单个通道和逐个通道添加后的准确率。

原始数据与ICA滤波数据的相关性归因比较

图3显示了一个典型的具有相关性映射覆盖的数据段。就原始数据而言，可视化分析显示了心电QRS复合波期间有很强的相关性积累，但ECG中可见T波的间期或脉冲波间期则没有。基于ICA的伪迹去除有效地降低了相关性的积累。如图4所示，通过对所有受试者的QRS时段周围的相关性时间序列进行平均，总体上证实了这种积累和降低。

图3.该典型示例包括具有相关性可视化的EEG信号、ECG信号以及相关性时间序列，并且包括有和无伪迹去除的情况(女性，45岁)。红色背景表示数据点对预测女性的影响，蓝色则表示对预测男性的影响。颜色越深，相关性越大。

图4.比较ECG信号在ICA滤波前后的总相关性。

结论

本研究从EEG中复制了基于神经网络的性别检测。本文以浅层神经网络为例，介绍了一种相关性归因方法，并展示了脑电数据中的性别相关模式。研究发现，非神经源(特别是心电)会给EEG带来性别偏见成分，但即使剔除了这些伪迹，性别仍然高度可检测。本研究结果表明，几乎任何神经网络在脑电分析中都能很容易地检测到性别。对于男女患病率不平等的许多神经系统和精神疾病而言，性别很可能是一个潜在的混杂因素。因此，应对疾病分类器进行性别偏见分析。

参考文献：Thomas Jochmann, Marc S. Seibel. et al. Sex-related patterns in the electroencephalogram and their relevance in machine learning classifiers. Hum Brain Mapp. 2023;1-11. DOI: 10.1002/hbm.26417