摘要
数十年的研究表明,与传统的统计技术相比,机器学习在探索脑电图(EEG)记录中嵌入的高度非线性模式方面具有优势。然而,即使是最先进的机器学习技术也需要相对较大且标记完整的EEG存储库。EEG数据的收集和标记成本高昂。此外,由于实验范式在不同试次中存在不一致性,直接合并现有数据集以获得大规模数据量通常是不可行的。然而,自监督学习(SSL)很好地解决了这些挑战,因为它能够在不同实验范式的EEG记录中进行学习,即使这些试次探索的是不同的现象。它能够整合多个EEG存储库,以提高机器学习训练中的准确性、减少偏差和过拟合问题。此外,SSL可用于标记训练数据有限且手动标记成本高昂的情况。
前言
脑电图(EEG)是一种用于研究大脑-行为关系的非侵入性功能成像方法。EEG记录比较复杂,并且经常会受到被试运动、眨眼以及电极与头皮之间接触不良所引起的伪迹的影响。因此,传统的统计方法,如线性或多元回归分析,无法捕获EEG信号与行为之间复杂的非线性关系。脑电研究人员采用机器学习方法来探索复杂的非线性大脑-行为关系,其准确性高于传统的统计模型,尤其是在脑机接口应用方面。
机器学习技术,如深度人工神经网络,从数学/统计角度模拟了人脑学习、识别、发现、估计和解释复杂感官输入模式的能力。人们可以将机器学习模型(特别是人工神经网络)描述为输入数据(例如多通道EEG记录)的复杂多层互联函数,用于高度复杂的模式识别(例如认知状态估计)。
机器学习模型通常需要使用由人类收集和分类/标记的数据进行训练,称为“监督学习”。例如,当训练一个模型来识别成功记忆编码的神经特征时,人类会标记在呈现信息期间记录的脑电信号(例如,列表学习任务中的单词),以区分随后被记住与随后被遗忘的情况。因此,监督学习是一项机器学习任务,旨在高效地优化机器学习模型的参数,以准确地将输入数据映射到相应的输出,即机器学习训练。监督机器学习算法的一个早期示例是Adeli和Hung(1994)的自适应共轭梯度学习算法。最近开发的监督机器学习/分类算法的示例包括增强概率神经网络、神经动态分类算法、动态集成学习算法和有限元机器快速学习。在EEG研究中,由于脑电信号复杂且通常容易受到伪迹的影响,因此监督学习任务通常需要大量标记的脑电数据来准确训练机器学习模型。
然而,对于脑电实验来说,获取大量标记数据并非总是切实可行的。例如,当参与者报告的结果只能在实验期间间歇性记录,比如自我报告的疲劳或疼痛时,就不可能获得完整的EEG标记。此外,当脑电特征泛化到实验室环境之外时,也就不可能得到完全标记的数据集。例如,实验者可能希望在受控的实验室任务中建立大脑-行为关系(如检测欺骗的脑电特征),并将其应用于其他任务/环境(如在审讯过程中检测欺骗)。当通过一个任务获得的脑电特征在不同任务(该任务可能涉及不同的感知/认知处理,从理论上讲可能影响脑电反应)中作为行为生物标记时,用于建立生物标记的数据标签仅适用于第一个数据集,而该数据集仅代表每个参与者可用的更广泛且任务特异性较低的EEG的一个子集。最后,实际限制因素(如人类研究对象的成本)可能会限制标记数据的数量。例如,一个旨在检测成功记忆编码的神经特征的实验需要手动标记列表学习的脑电迹线,以判断参与者后来是否记住了这个单词。这是一项繁琐的工作,需要大量的时间成本,这实际上限制了可以收集和标记的数据量。
传统上,训练监督模型(图1)涉及随机生成参数(例如权重、核和偏差)。一种被称为“学习算法”的优化范式将迭代地调整这些参数的大小,以检索具有合适“特征表示”的完美输入-输出映射。在图1所示的深度监督模型中,特征表示在数学/统计上描述了与输出相关的数据的特定特征/属性。例如,它们代表了癫痫发作时的活动特征。它们通常是从监督模型的最后一个(或接近最终)密集层中检索得到的(图1)。初始参数在收敛任何优化技术中发挥着重要作用,特别是学习算法方面。初始参数越接近最优参数,学习任务就会更容易/更快。例如,Hinton和Salakhutdinov(2006)提出了一种无监督预训练方法,用于发现每个深度信念网络层的优于随机的参数。然后,使用每层的预训练参数作为初始参数对监督模型进行调优(即使用少量epoch进行训练)。预训练不仅提高了模型的精度,而且由于预训练参数比随机初始参数更接近于训练良好的深度信念模型的最优参数,从而加速了模型的学习。
图1.监督模型示例。(CNN:卷积神经网络;RNN:循环神经网络;LSTM:长短期记忆网络)
训练具有初始随机生成参数和标记数据不足的监督模型,尤其是在特定和受控任务条件下获得的数据,可能会导致不准确、不可靠的估计或需要很长时间才能收敛。一个不充分和有限的数据存储库不能涵盖所有可能性(称为可行域),从而导致模型在训练数据上过拟合,无法泛化。自监督学习(SSL),也称为“表征学习”,为监督模型生成优于随机的初始参数,并通过少量标记数据对监督模型进行微调。然而,由于SSL主要应用于图像处理领域,因此在脑电应用中实施自监督学习(SSL)实际上具有一定的挑战性。
自监督学习(SSL)概述
SSL可以归纳为三个任务,如图2所示。
图2.SSL方法流程图。
任务1,即前置任务,包括从所有输入数据点生成优于随机的初始参数和特征表示的解决方案,而不考虑其标记状态如何。例如,对于一个包含90k未标记数据点和10k标记数据点的数存储库,前置任务使用所有100k输入数据点来生成这些参数和特征表示。在SSL中,特征表示在数学/统计上描述了数据的更一般(而非特定的)特征/属性。例如,它们代表了一般的脑电特征,而非特定的癫痫活动特征。在SSL中,特征表示通常是从前置模型的最后一个(或接近最终)密集层中提取的。这种模型可以是有监督的或无监督的,主要以多层自编码器、多编码器或对抗神经网络模型的形式呈现。它们可能包括卷积层、LSTM和循环层。
任务2,即模型修改任务,是对前置模型进行轻微修改,使其与有限的标记数据兼容;修改后的前置模型称为“下游模型”。例如,可以在训练好的前置模型的特征表示层中添加输出层,如SoftMax层(用于分类)或回归层。
任务3,即下游任务,涉及使用有限的标记数据对下游模型进行微调。一种稍微不同的做法是首先对新添加的最后一层(即SoftMax或回归层)进行微调,而不更新其他层的参数,即冻结除新添加层之外的所有层。接下来,通过解冻所有参数来对整个模型进行微调。需要注意的是,下游模型的架构与“完全监督”机器学习模型一样,采用了随机生成的初始参数来从有限的标记数据中学习。不同之处在于,下游任务使用从前置模型中学习到的初始参数来训练模型,包括标记和未标记的数据。本文的目的是描述使用标记和未标记的脑电数据开发和实施前置任务的各种方法。
最近在图像识别、EEG和自然语言处理等领域进行的SSL研究表明,SSL能够有效地提高估计的性能和准确性,特别是在标记数据有限的存储库中。因此,SSL是一种实用的方法,可以减少EEG实验的分析偏差(例如,将噪声建模为信号)。它也可以应用于分析较小数据集时,通过将不同条件下进行的开源实验数据(例如不同实验室和不同实验范式)“告知”模型来最小化偏差。
前置模型的设计和实施是SSL的基本任务(如图2中的任务1所示)。有许多技术可以开发有效的前置模型,产生与下游任务相关的特征表示。本文将前置技术分为三类:对比式、生成式和非常规/混合式。每种技术都与先前的EEG识别问题或应用示例一起展示来说明其潜在用途。然而,预计仍然需要采用试错方法来发现特定实验的最佳前置模型。
对比式前置技术
对比式前置技术可以识别输入数据的不同增强之间的“对比”,而不考虑它们的标记状态如何。有各种各样的增强技术,例如添加高斯噪声或掩码,即将输入数据中预定义数量的随机选择变量的大小切换为0。输入数据及其增强版本构成对比对。输入数据的两个增强版本也可以表示对比对。可以设计一个前置模型来识别输入数据(负类)及其增强版本(正类)。另一个前置模型可用于识别一个输入数据的增强版本与批量输入中其他输入数据的增强版本。总的来说,在对比式技术中,首先要创建一个对比对的存储库。其次,设计一个有监督或无监督的机器学习模型,配合适当的损失函数,来学习增强。一旦学习完毕,下游任务就能从前置学到的参数(例如权重、核和偏差)中获益。
在无监督对比式前置中,不需要使用伪标记;它们的目标是仅从输入数据中学习。通常用于“重建”输入数据点。例如,通过自编码器从噪声段中重建原始脑电信号。自编码器包括一个编码器和一个解码器神经网络(图3)。编码器将EEG记录编码为特征表示层。解码器解码特征表示并重建脑电信号。在前置任务中,可以对低分辨率(掩码)(噪声)EEG记录进行编码,然后解码,即重建高分辨率(完整/未掩码)(去噪)EEG记录。随后可以从自动编码器中提取编码器,堆叠到输出层(如图2中的模型修改任务),并在下游任务中进行微调。
图3.无监督前置自编码器示例,其中自编码器经过训练,可以从原始和/或对比增强中学习特征表示。
生成式前置技术
生成模型通常是无监督模型。它们可以“重建”或“生成”输入数据点。“重建”的一个例子是自编码器(图3),例如使用深度受限玻尔兹曼机来重建原始数据(无需增强)。“生成”的一个例子是使用生成对抗网络(GANs)创建与现有EEG输入库(标记或未标记)具有相似分布和特征的合成数据(图4)。GANs通常用于生成合成数据。
图4.生成对抗前置模型,包括生成器和鉴别器。
GAN包括两个部分:生成器和鉴别器(图4)。生成器生成合成数据(例如人工EEG记录)。随机值输入到称为“潜在空间”的输入层中。假定潜在空间存在一个“调谐器”,其中对其随机值进行轻微更改会导致生成的合成数据发生变化。然后,鉴别器接收合成数据,并计算生成的合成数据与实际数据库(即“分布”)(例如来自认知识别研究的EEG记录)相比的真实性/有效性的概率。参见StyleGAN2作为GAN应用于计算机视觉的结果示例。一旦训练完成,鉴别器就可以用于下游估计任务。GAN模型的优势在于无需数据增强;模型通过训练生成的数据与实际EEG记录的分布非常相似。但是,与监督前置模型相比,GANs训练的计算成本更高。
非常规和混合式前置模型
前置任务为下游任务开发了一个经过训练的模型,其中包含了学习参数和特征表示层。因此,可以考虑涵盖传统对比或生成式前置模型的解决方案。例如,对比监督模型不一定是二分的。它们可能涉及区分三种或多种类别的前置数据。在无监督自编码器中,解码过程可能包括两个解码器,其中一个解码器用于从掩蔽的EEG中重建特征表示[见图5(a)],另一个用于从降采样的EEG分辨率中进行重建[见图5(b)]。
图5.EEG潜在的无监督对比前置任务,其中左侧子图是编码器的输入,右侧子图是自编码器架构中解码器的最后一层。(a)从掩蔽信号重建原始信号。(b)从降采样信号重建原始信号。(c)从时域信号重建频域信号。
混合模型提供了一种融合有监督和无监督前置模型优点的解决方案。它们既包括无监督前置模型的复杂性,又包括有监督模型更稳定的特征表示能力。混合前置模型在非脑电应用中的可行性已得到证实。例如,编码器、聚类技术和鉴别器共同开发前置模型。鉴别器调查对比输入对的编码表示是否来自同一聚类。聚类可以使用K均值、基于密度的噪声空间聚类或期望最大化等技术进行计算。由此得到的模型仍然存在计算强度大的缺点。但它们能够跳过图2中的模型修改任务,并产生更准确的下游结果,因为特征表示在统计上比前置初始参数更加鲁棒/稳定。
注意事项与未来方向
最近研究表明,SSL技术有助于提高有监督EEG识别问题的准确性。然而,目前仍存在许多亟待解决的问题,例如如何选择最佳的前置数据增强方式,或者使用对比式、生成式或混合式EEG前置方法等。接下来,本文将阐述与这些方法有关的重要方面。
1)最佳增强技术:正如Mohsenvand等人(2020)研究所强调的那样,前置数据增强技术能够保持EEG记录的信息量和准确性。然而,对比式、生成式以及非常规/混合式的前置任务可能会在下游任务中显得随意或无关紧要。在对比模型中,增强的数据(以及在监督对比前置中的标签)通常与下游任务没有相似性/兼容性。例如,前置任务可能涉及区分脑电信号是否添加了高斯噪声。相比之下,下游任务可能包括根据脑电功率谱来判断一个单词随后是否可能被记住。
虽然学习到的特征最终有助于下游任务,但发现各种增强技术在与下游任务结合时能够提高下游准确性/性能的程度将是有益的。可以通过文献研究或实证探索前置任务对下游任务性能的影响来增强前置任务的选择。此外,人们可以利用机器学习特征选择或组合模式识别方法在少量标记数据上揭示不同数据变量如何影响下游输出(即原始问题的输出),并基于变量“重要性”设计与下游相关的对比增强。
2)对比式、生成式还是混合式EEG识别?目前还不清楚哪种前置技术对各种脑电(EEG)问题最为有效。使用少量伪标签的有监督对比模型比无监督对比模型(如自编码器)的计算量小,因为后者需要学习整个“重建”,而不仅仅是一些标签。然而,无监督模型存在一定的理论基础,比如它能够提取复杂的EEG特征和深度编码的特性,从而为下游模型提供更高精度的可能性。例如,自编码器在进行增强后重建信号,类似于Mohsenvand等人(2020)和Banville等人(2019,2021)提出的增强方法。在图像识别中,一种混合式方法侧重于图像不同视图的编码表示的聚类相似性。在EEG识别中,类似的方法是对时间记录的高度重叠块的特征表示进行聚类。另一种方法是从低分辨率重建高分辨率图像。在EEG中,类似的方法需要从降采样记录中重建信号,反之亦然。另一种方法是从频域重建时域,其中嵌入了信号的最重要特征。无论是有监督还是无监督,所有这些方法都能找到最适合下游任务的特征表示。未来的方法学研究可以对本文中讨论的各种有监督和无监督方法进行对比研究。
3)迁移学习和微调技巧:在标准的迁移学习和微调过程中,通常会借助一个已经训练好的模型(称为基础模型),并使用迁移学习和微调技术进行修改,以快速学习当前问题。基础模型通常包括数百个卷积层、循环层或密集层(即全连接层)。这些层已经在与当前问题不同的数据集上进行了(数天的)训练。这些数据集可能有成千上万的类别或包含数百万个数据点。基础模型包含学习到的参数、权重、滤波器和核,能够识别与基础模型所训练的同一数据域内任何问题的特征表示。基础模型的输入和输出层通常会被修改以与当前问题兼容。将输出层替换为与当前数据集输出兼容的可训练的密集层/SoftMax层。在迁移学习中,基础模型(或基础模型的一部分)被冻结,这意味着它的参数没有更新。相反,新添加的输出层使用相对较大的学习率进行多个epoch的训练。基础模型已经从数据中产生了丰富的特征表示;唯一的任务是从这种表示中学习,使用新添加的输出层来解决当前问题。基础模型(或基础模型的一部分)在微调中解冻。然后可以使用相对较小的学习率在几个epoch内更新其参数,以防止过拟合,特别是在当前数据集只有少量标记数据的情况下。微调通常会显著提高模型的准确率。
尽管存在数据域,SSL技术仍然需要在前置和下游阶段进行仔细的迁移学习和微调实现。无论SSL类型如何,前置中都有两种可能的情况:1)前置模型是从头开始设计的,具有各种层,包括卷积层、循环层和密集层(即全连接层),所有层都具有随机生成的参数;2)前置模型是基础模型的整体或部分。在实际操作中通常属于第二种情况,其中基础模型会使前置训练在计算上更加高效。在这种情况下,迁移学习并不起作用;目标不是解决前置任务,而是用当前数据中的信息丰富前置模型的特征表示层,以用于下游任务。因此,基础模型(或其中的一部分)被解冻并仅使用小学习率进行微调。然而,在下游任务中,这个过程与标准的迁移学习和微调类似,其中前置模型充当基础模型。
参考文献:M. H. Rafiei, L. V. Gauthier, H. Adeli and D. Takabi, “Self-Supervised Learning for Electroencephalography,” in IEEE Transactions on Neural Networks and Learning Systems, vol. 35, no. 2, pp. 1457-1471, Feb. 2024, doi: 10.1109/TNNLS.2022.3190448.
小伙伴们关注茗创科技,将第一时间收到精彩内容推送哦~