REAL-VALUED (MEDICAL) TIME SERIES GENERATION WITH RECURRENT CONDITIONAL GANS
ABSTRACT
生成对抗网络(GANs)作为一种训练模型以产生逼真数据的框架已经取得了显著的成功。在这项工作中,我们提出了循环GAN (RGAN)和循环条件GAN (RCGAN)来生成真实的实值多维时间序列,重点研究了它们在医疗数据中的应用。rgan在生成器和鉴别器中使用循环神经网络(RNNs)。在rcgan的情况下,这两个rnn都以辅助信息为条件。我们在一组玩具数据集中演示了我们的模型,在其中我们从视觉上和定量上(使用样本似然和最大平均差异)表明它们可以成功地生成现实的时间序列。我们还描述了针对GANs的新颖评估方法,其中我们生成一个合成标记的训练数据集,并在真实测试集上评估在合成数据上训练的模型的性能,反之亦然。我们用这些指标说明rcgan可以生成对监督训练有用的时间序列数据,而在实际测试数据上的性能仅略有下降。这是通过“序列化”MNIST的数字分类和对来自重症监护室的17,000名患者的医疗数据集进行早期预警系统训练来证明的。我们进一步讨论和分析了使用RCGAN生成真实的合成医疗时间序列数据时可能出现的隐私问题,并演示了RCGAN的差异私人训练的结果。
1 INTRODUCTION
在针对特定领域问题开发机器学习解决方案的过程中,访问数据是瓶颈之一。标准数据集(与相关任务)的可用性有助于提高学习系统在多个任务中的能力。然而,在其他领域,如医学,进展似乎滞后。人们很容易认为医学领域的任务更难——数据更复杂,噪音更大,预测问题的定义更不明确。尽管如此,研究人员获取数据的缺乏阻碍了模型比较、可重复性和最终的科学进步。然而,由于医疗数据的高度敏感性,其访问通常是高度控制的,或需要涉及和可能不完善的去识别。因此,这项工作的动机是利用和开发生成对抗网络(GANs)的框架来生成真实的合成医疗数据。这些数据可以在没有隐私问题的情况下共享和发布,甚至可以用于增加或丰富在不同或较小的患者队列中收集的类似数据集。此外,构建一个能够合成真实医疗数据的系统意味着对生成这些信息的过程进行建模,因此它可以代表开发在医疗环境中创建预测系统的新方法的第一步。
除了对机器学习研究社区的实用之外,这样的工具还有利于医学界在训练模拟器中的使用。在这项工作中,我们专注于合成实值重症监护室(ICU)的时间序列数据。在重症监护室,医生必须在时间压力下迅速做出决定,他们不能犹豫。在医疗培训中,使用模拟来培训医生已经成为标准,但这些模拟往往依赖于手工设计的规则和物理道具。因此,能够生成多样化和现实的ICU情况的模型可以立即应用,特别是当能够根据患者的潜在“状态”进行条件调节时。
GANs在生成逼真图像方面的成功(Radford et al., 2015;Ledig等人,2016;附近,2014;Reed等人,2016)认为它们适用于这项任务,然而有限的工作利用它们来生成时间序列数据。此外,GANs的评估在很大程度上仍然是一个尚未解决的问题,研究人员通常依赖于生成示例的可视化评估,这种方法既不切实际,也不适用于多维医学时间序列。
这项工作的主要贡献是:
1. 演示使用对抗性训练生成实值序列的方法。
2. 展示评估GANs的新方法。
3.生成合成医疗时间序列数据。
4. GANs和差分私有GANs的经验隐私分析。
2 RELATED WORK
自2014年问世以来(Goodfellow et al., 2014), GAN框架吸引了研究界的大量关注,其中大部分工作都集中在图像生成上(Radford et al., 2015;Ledig等人,2016;附近,2014;Reed等人,2016)。值得注意的是,(Choi等人,2017)设计了一种GAN来生成合成电子健康记录(EHR)数据集。这些电子病历包含二进制和计数变量,如ICD-9账单代码、药物和程序代码。他们专注于离散值数据和生成患者快照,这是对我们的实值、时间序列重点的补充。未来的工作可以结合这些方法来生成多模态合成医疗时间序列数据。
大多数使用GAN生成的顺序数据集中在对自然语言处理有用的离散令牌上(Y u等人,2016年),其中使用基于强化学习(RL)的替代方法来训练GAN。我们知道只有一项使用GAN生成连续值序列的初步工作,该工作旨在使用带有LSTM生成器和鉴别器的GAN生成复调音乐(Mogren, 2016)。主要的区别是架构上的:我们不使用双向鉴别器,并且生成器的输出不作为下一个时间步骤的输入反馈。此外,我们还介绍了这个循环GAN的条件版本。
条件GANs (Mirza & Osindero, 2014;Gauthier, 2014)根据附加信息调整模型,因此允许我们指导数据生成过程。这种方法主要用于图像生成任务(Radford et al., 2015;米尔扎和奥辛德罗,2014年;Antipov等人,2017)。最近,有条件GAN架构也被用于自然语言处理,包括翻译(Yang等人,2017)和对话生成(Li等人,2017),其中没有一个使用RNN作为鉴别器的首选,并且如前所述,由于数据的离散性,使用RL方法来训练模型。
在这项工作中,我们还介绍了一些新的方法来评估GANs,使用生成的合成数据的能力来训练有监督的模型。以相关的方式,在(Salimans et al., 2016)中引入了一种基于gan的半监督学习方法。然而,我们的目标是生成数据,这些数据可用于训练GAN训练时未知任务的模型。
我们简要探讨了使用差分私有随机梯度下降(Abadi et al., 2016)来生成具有更强隐私保证的RGAN,这与敏感的医疗数据尤其相关。另一种方法是使用PATE方法(Papernot et al., 2016)来训练鉴别器。在这种情况下,不是将噪声引入梯度(如(Abadi et al., 2016)),而是训练学生分类器来预测教师集合的噪声投票,每个教师都在不相交的数据集上进行训练。
3 模型:循环gan和循环条件gan
在这项工作中提出的模型遵循规则GAN的架构,其中生成器和鉴别器都被循环神经网络所取代。因此,我们提出了一个循环GAN (RGAN),它可以生成实值数据序列,以及一个循环条件GAN (RCGAN),它可以生成符合某些条件输入的实值数据序列。如图1a所示,生成器RNN在每个时间步取不同的随机种子,加上一个额外的输入,如果我们想用额外的数据来调节生成的序列。在图1b中,我们展示了鉴别器RNN如何获取生成的序列,以及一个额外的输入(如果它是RCGAN),并为输入序列的每个时间步骤生成合成或真实的分类。
生成器RNN在每个时间输入处取一个不同的随机种子,并产生一个合成信号。在RCGAN的情况下,它还在每个时间步骤上接受额外的输入,以调节输出。
判别器RNN采用真实/合成序列,并为每个时间步生成真实/合成分类。在RCGAN的情况下,它还在每个时间步骤上接受额外的输入,以调节输出。
具体来说,鉴别器被训练为最小化其每个时间步的预测和序列标签之间的平均负交叉熵。如果我们用RNN(X)表示由接收T向量序列{xt}Tt=1 (xt∈Rd)的RNN的T输出组成的向量或矩阵,用CE(a, b)表示序列a和b之间的平均交叉熵,则对{Xn, yn} (Xn∈RT ×d和yn∈{1,0}T)的鉴别器损失为:
对于实序列,yn是1的向量,对于合成序列,yn是0的向量。在每个训练小批中,鉴别器同时看到真实序列和合成序列。
生成器的目标是“欺骗”鉴别器将其输出分类为真,也就是说,它希望最小化鉴别器对生成序列的预测和“真”标签之间的(平均)负交叉熵,1s向量(我们写为1);
这里Zn是一个T点{zt}Tt=1的序列,从潜在/噪声空间Z中独立采样,因此Zn∈RT ×m,因为Z = Rm。非独立抽样的初步实验没有显示出任何明显的好处,但这将是一个进一步研究的主题。在这项工作中,为鉴别器和生成器rnn选择的体系结构是LSTM (Hochreiter & Schmidhuber, 1997)。
在条件情况下(RCGAN),每个RNN的输入在每个时间步上通过连接增加一些条件信息cn(对于样本n);
这样,RNN就不能通过遗忘来贴现条件信息。
对替代GAN目标的有前景的研究,如Wasserstein GAN (Arjovsky等人,2017;Gulrajani等人,2017)不幸的是,在我们的实验中没有发现rgan的简单应用。
在RNN上强制执行Lipschitz约束是一个需要进一步研究的主题,但可以通过使用酉RNN来帮助(Arjovsky等人,2016;Hyland & Rätsch, 2017)。
所有模型和实验都是使用scikit-learn (Pedregosa et al., 2011)和Tensorflow (Abadi et al., 2015)在python中实现的,代码可在公共git存储库中获得:ANON。
3.1 EVALUATION
评估GAN的性能具有挑战性。如(Theis等人,2015年)和(Wu等人,2016年)所示,用Parzen窗估计(Wu等人,2016年)或其他方式评估可能性可能具有误导性,并且生成器和鉴别器损失不容易对应“视觉质量”。这种模糊的质量概念最好由人类法官来评估,但这样做是不切实际的,而且代价高昂。在成像领域,诸如盗梦空间评分(Salimans et al., 2016)等评分已被开发用于帮助评估,而机械土耳其人则被用于分配人类劳动。然而,在实值顺序数据的情况下,并不总是容易甚至不可能对生成的数据进行可视化计算。例如,我们在本文中使用的ICU信号在非医学专家看来可能完全是随机的。
因此,在这项工作中,我们首先用一些可以直观评估的玩具数据集演示我们的模型。接下来,我们使用一组可量化的方法(如下所述),可以用作数据质量的指标。
3.1.1最大平均差异
如果GAN隐式地学习了真实数据的分布,我们认为它是成功的。我们通过研究它产生的样本来评估这一点。这是最大平均差异(MMD)的理想设置(Gretton等人,2007),并已被用作生成矩匹配网络的训练目标(Li等人,2015)。MMD询问两组样本——例如,一组来自GAN,另一组来自真实数据分布——是否由相同的分布生成。它通过比较样本的统计数据来做到这一点。在实践中,我们考虑两组样本(MMD2)之间统计量的平方差,并用 核 替换两个样本(函数)之间的内积。给定核K: X × Y→R,样本{xi}i=1:N, {yj}j=1:M, MMD2的无偏估计为:
在时间序列之间定义合适的核是一个活跃的研究领域。然而,大部分挑战来自于需要对齐时间序列。在我们的例子中,生成的样本和实际样本已经通过固定“时间”轴对齐。然后,我们选择将我们的时间序列视为向量(或矩阵,在多维情况下)进行比较,并使用径向基函数(RBF)核,使用向量/矩阵之间的平方 L' 2 范数或Frobenius范数;
为了选择一个合适的核带宽σ,我们在两个分布之间最大化MMD检验的幂的t统计量的估计量(Sutherland等,其中V是MMD2估计量的渐近方差。我们在训练期间使用验证集的分割来做到这一点-集的其余部分用于使用优化的带宽计算MMD2。在(Sutherland等人,2016)之后,我们将混合核定义为具有两个不同σs的RBF核的和,我们同时优化它们。我们发现MMD2比生成器或鉴别器损失更有信息,并且通过可视化评估与质量良好相关。
3.1.2在合成上训练,在真实上测试(TSTR)
我们提出了一种新的方法来评估GAN的输出,当监督任务可以在训练数据的领域上定义时。我们称之为“合成训练,真实测试”(TSTR)。简单地说,我们使用GAN生成的数据集来训练一个模型,然后在一组真实的例子上进行测试。这要求生成的数据具有标签——我们可以将这些标签提供给有条件的GAN,也可以使用标准的GAN来生成除了数据特征之外的标签。在这项工作中,我们选择了前者,如下所述。使用GANs共享合成的“去识别”数据,这个评价指标是理想的,因为它展示了合成数据用于实际应用的能力。我们在算法1中给出了这种GAN评估策略的伪代码。
Train on Real, Test on Synthetic (TRTS):类似于上面提出的TSTR方法,我们可以考虑相反的情况,称为“Train on Real, Test on Synthetic”(TRTS)。在这种方法中,我们使用真实数据来训练一组任务的监督模型。然后,我们使用RCGAN生成一个用于评估的合成测试集。在真正的分类器达到高精度的情况下(对于MNIST),这可以作为RCGAN生成令人信服的标签示例的能力的评估,并且它生成的特征是真实的。然而,与TSTR设置不同的是,如果GAN遭受模式崩溃,TRTS性能不会相应降低,因此我们认为TSTR是更有趣的评估。
4 .学习生成逼真的序列
为了证明该模型在受控环境中生成“逼真”序列的能力,我们考虑了几个关于合成数据的实验。在接下来的实验中,除非另有说明,合成数据由长度为30的序列组成。本节主要介绍非条件模型RGAN。
4.1正弦波
生成的正弦波的质量很容易通过视觉检查来确认,但是通过改变真实数据的振幅和频率,我们可以创建一个具有非线性变化的数据集。我们生成的波频率为[1.0,5.0],振幅为[0.1,0.9],相位在[−π, π]之间的随机相位。图2a的左侧显示了这些信号的例子,包括真实的和生成的(尽管它们很难区分)。
我们发现,尽管在潜在空间中缺乏强制语义的约束(如(Chen et al., 2016)),但我们可以通过改变潜在维度来改变生成样本的频率和相位,尽管表示没有“解纠缠”,而且潜在空间的一个维度影响信号的多个方面。
在这一点上,我们试图训练一个循环版本的V变分自动编码器(V AE) (Kingma & Welling, 2013),目的是将其性能与RGAN进行比较。我们尝试了(Fabius & van amersfort, 2014)中提出的实现,这可以说是实现循环V变分自动编码器(RV AE)最直接的解决方案。它包括用RNN替换V AE的编码器和解码器,然后使用编码器RNN的最后一个隐藏状态作为输入序列的编码表示。在执行重参数化技巧之后,生成的编码表示被用于初始化解码器RNN的隐藏状态。由于在这个简单的数据集中,所有序列都具有相同的长度,我们还尝试了另一种方法,其中输入序列的编码被计算为编码器RNN的所有隐藏状态的连接。使用这些架构,我们只能产生振幅和频率不一致的正弦波,质量明显不如RGAN产生的正弦波。重现这些实验的源代码包含在前面提到的git存储库中。我们认为这种方法需要进一步研究,特别是对于生成任务标记的数据将在本文后面介绍,到目前为止,我们也未能用RV AE完成。
4.2平滑函数
正弦波是简单的信号,很容易被模型再现。在我们最终的医学应用中,我们希望模型能再现复杂的生理信号,这些信号可能不遵循简单的动力学。
因此,我们认为学习任意光滑信号是比较困难的任务。高斯过程提供了一种对这种平滑函数进行采样的方法。我们使用RBF核来指定具有零值平均函数的GP。然后我们画30个等间距的样本。这相当于从一个多元正态分布中抽取了一个单次,该多元正态分布具有由RBF核在等距点网格上评估的协方差函数。在这样做的过程中,我们精确地指定了生成真实数据的概率分布,这使我们能够在这个分布下评估生成的样本。图2a的右侧显示了这个实验的例子(真实的和生成的)。真实和生成的时间序列的主要特征是它们表现出局部相关性的平滑性,这是RGAN快速捕获的。
因为我们可以访问数据分布,在图3中,我们展示了在训练期间,在数据分布下,一组生成样本的平均(日志)可能性是如何增加的。这是一个不完美的度量,因为它看不到生成样本的多样性——经常观察到的模式崩溃,或GANs的“Helvetica场景”(Goodfellow et al., 2014)——因此我们更倾向于MMD2度量(见图3)。尽管如此,令人鼓舞的是,尽管GAN目标不知道底层数据分布,但生成样本的可能性随着训练而提高。
RGAN生成平滑序列训练过程中数据分布下生成样本的生成器(虚线)、鉴别器(实线)损失、MMD2评分和对数似然的迹线(图2a输出)
4.3 mist作为时间序列
MNIST手写数字数据集在机器学习研究中无处不在。MNIST数字分类的准确性足够高,可以认为这个问题已经“解决”了,而生成MNIST数字对于传统的GANs来说似乎是一项几乎微不足道的任务。然而,按顺序生成MNIST不太常见(著名的例子是PixelRNN (Oord等人,2016),以及长内存RNN文献中MNIST的序列化(Le等人,2015))。为了序列化MNIST,每个28 × 28的数字形成一个784维的向量,这是我们可以用RGAN生成的序列。
这为生产样品提供了额外的好处,我们可以轻松地进行直观评估。为了使任务更易于处理,并探索RGAN生成多元序列的能力,我们将每个28x28图像视为28,28维输出的序列。我们展示了用这个数据集做实验的两种类型。在第一个中,我们训练一个RGAN以这种顺序的方式生成MNIST数字。图2b演示了生成的数字的逼真程度。
左上:真实MNIST数字。左下:在epoch 27生成的不切实际的数字。右:纪元100时产生的失真最小的数字。
对于第二个实验,我们将MNIST数字降采样到14x14像素,并考虑前三个数字(0、1和2)。使用这些数据,我们训练一个RCGAN,随后执行上面解释的TSTR(和TRTS)评估,用于对数字进行分类。也就是说,对于TSTR评估,我们使用GAN生成一个合成数据集,使用真实的训练标签作为输入。然后,我们在这些数据上训练分类器(卷积神经网络),并评估其在真实测试集上的性能。相反,对于TRTS,我们在真实数据上训练分类器,并在GAN生成的合成测试数据集上评估它。实验结果如表1所示。
为了获得报告精度上的误差条,我们用不同的随机初始化训练了RCGAN五次。TSTR结果表明,RCGAN生成的合成数据集足够真实,可以训练分类器,然后在实际测试数据上实现高性能。TRTS结果表明,考虑到在真实数据上训练的分类器的准确性非常高,测试集中的合成示例与它们的标签匹配程度很高。
5 .学习生成真实的icu数据
本文的主要目标之一是建立一个能够生成真实医疗数据集的模型,特别是ICU数据。为此,我们的工作基于最近发布的飞利浦eICU数据库1。该数据集由飞利浦提供的重症监护远程医疗计划收集。它包含了来自美国208个护理单位的约20万名患者,共224,026,866个条目分为33个表。从这些数据中,我们专注于生成四个最常记录的、由床边监测仪测量的定期采样变量:由脉搏血氧计(SpO2)测量的氧饱和度、心率(HR)、呼吸频率(RR)和平均动脉压(MAP)。在eICU数据集中,这些变量每五分钟测量一次。为了减少我们考虑的序列长度,我们每15分钟进行一次测量,并在每个窗口中取中值。这大大加快了我们基于lstm的GAN的训练,同时仍然捕获数据的相关动态。
在接下来的实验中,我们考虑患者入住ICU的开始,认为这是他们护理中的关键时刻。我们将重点放在他们停留的前4个小时,这将导致每个变量的16个测量值。虽然医疗数据通常充满了缺失值,但在这项工作中,我们通过丢弃缺失数据的患者(在降采样后)来规避这个问题。在以这种方式预处理数据后,我们最终得到了17693名患者的队列。最具限制性的是对非缺失MAP值的要求,因为这些测量是侵入性的。
5.1 TSTR TASKS IN EICU
ICU生成的数据很复杂,因此非医学专家很难发现其中的模式或趋势。因此,一个显示合成ICU数据的图无法提供足够的信息来评估其与真实数据的实际相似性。因此,我们使用TSTR方法评估ICU RCGAN的性能。
为了执行TSTR评估,我们需要在数据上执行一个(或多个)监督任务。重症监护室的一个相关问题是,病人在不久的将来是否会变得“危重”——这是一种早期预警系统。对于生成动态时间序列数据的模型,这是特别合适的,因为数据中的趋势可能是最具预测性的。基于我们的四个变量(SpO2, HR, RR, MAP),我们定义了“临界阈值”,并生成了该变量是否会在患者住院的下一个小时超过阈值的二进制标签,即在第4到5小时之间,因为我们认为前4个小时是“观察到的”。阈值显示在表2的列中。SpO2没有上限阈值,因为它是100%表示理想条件的百分比。
至于MNIST,我们通过从真实数据标签中绘制标签来“采样”标签,并将其用作RCGAN的条件输入。这确保了合成数据集和真实数据集中的标签分布是相同的,尊重标签不是独立的事实(患者不太可能同时患有高血压和低血压)。
按照算法1,我们训练RCGAN 1000个epoch,每50个epoch保存一个版本的数据集。然后,我们利用TSTR对合成数据进行评估。我们使用交叉验证选择最好的合成数据集的基础上,分类器的性能,但由于我们假设它还可能用于未知的任务,我们只使用3 7任务感兴趣的执行这一交叉验证步骤(用斜体表示在表2)。这个实验的结果展示在表2中,比较了性能通过一个随机森林分类器的训练预测7感兴趣的任务,在一个实验中使用真实数据,在另一个实验中使用合成数据。
随机森林分类器在使用真实数据训练和使用合成数据(测试集是真实的)(包括随机预测基线)训练时eICU任务的性能。AUPRC表示精度-召回曲线下面积,AUROC表示ROC曲线下面积。斜体表示那些在交叉验证中性能得到优化的任务。
6 gan只是记忆训练数据吗?
MNIST和eICU中TSTR表现的一种解释可能是GAN只是简单地“记忆”训练数据并复制它。如果是这种情况,那么用于训练GAN的(可能是私人的)数据将被泄露,在敏感的医疗数据上使用时会引起隐私问题。关键是模型的训练数据不应该被对手恢复。此外,虽然典型的GAN目标激励生成器重现训练示例,但我们希望它不会过度拟合到训练数据,并学习一个隐式分布,该分布在训练示例上达到峰值,在其他地方可以忽略不计。
为了回答这个问题,我们进行了三个测试——一个定性测试,两个统计测试,在以下小节中概述。虽然这些评估本质上是经验性的,但我们仍然相信,提出和测试的隐私评估措施对于快速检查RGAN生成数据的隐私属性非常有用——但没有强有力的隐私保证。
6.1比较重构误差分布
为了测试生成的样本看起来是否与训练集“太相似”,我们可以生成大量的样本,并计算到每个生成样本的最近邻居(在训练集中)的距离。我们可以将这些距离的分布与生成的样本和保留的测试集进行比较。然而,为了得到距离的准确估计,我们可能需要生成许多样本,并相应地计算许多成对距离。相反,我们有意地生成每个训练(或测试)设定点的最近邻居,然后比较距离。
我们通过最小化目标y和生成点之间的重建误差来生成这些最近的邻居;Lrecon(y)(Z) = 1−K(G(Z), y),其中K是第3.1.1节中描述的RBF核,使用中值启发式选择带宽σ (Bounliphone等人,2015)。我们通过最小化误差直到近似收敛(当梯度范数下降到阈值以下)来找到Z。
然后,我们可以询问是否可以区分不同输入数据的重建误差分布。具体地说,我们问是否可以区分训练集和测试集之间的误差分布。直观的感觉是,如果模型“记忆”了训练数据,它将实现比测试集更低的重构误差。我们使用Kolmogorov-Smirnov双样本检验来检验这些分布是否不同。对于产生正弦波的RGAN, p值为0.2±0.1,对于平滑信号,p值为0.09±0.04,对于图2b所示的MNIST实验,p值为0.38±0.06。对于用RCGAN训练的MNIST (TSTR结果见表1),p值为0.57±0.18。我们得出结论,在任何这些情况下,训练集和测试集之间重建误差的分布没有显着差异,并且模型似乎不偏向于重建训练集示例。
6.2插值
假设模型存在过拟合(隐式分布在训练样例区域具有很高的峰值),并且潜在空间中的大多数点映射到(或接近)训练样例。如果我们在潜在空间中走一条平滑的路径,我们期望在每一点上,相应生成的样本将具有“最近”(在潜在空间中)训练示例的外观,几乎没有变化,直到我们到达另一个训练示例的吸引子盆地,此时样本将切换外观。
我们定性地测试如下:我们对一对训练示例进行采样(我们用眼睛确认它们看起来并不是“太相似”),然后将它们“反向投影”到潜在空间中,以找到最接近的对应潜在点,如上所述。然后我们在这些潜在点之间进行线性插值,并在每个点上从生成器生成样本。图4显示了使用“平滑函数”数据集的此过程示例。样本显示了开始序列和输入序列之间明显的增量变化,与我们预期的相反,如果模型只是简单地记忆数据。
将训练样本反投影到潜在空间,并对其进行线性插值,可以在样本空间中产生平滑的变化。上图显示了从顶部(绿色,虚线)到底部(橙色,虚线)的样本空间距离。
距离度量是RBF核,带宽选择为训练样本之间的成对距离的中位数。原始的训练示例以虚线显示在底部和从上到下的第二个图中。
6.3比较生成的样品
我们可以使用MMD三样本检验(Bounliphone et al., 2015)来比较生成的完整样本集,而不是使用最近邻方法(如第6.1节所示)。X是生成的样本,Y和Z分别是测试集和训练集,我们问X和Y之间的烟雾密度是否小于X和Z之间的烟雾密度。这样构建测试是因为我们期望如果模型已经记住了训练数据,合成数据和训练数据之间的烟雾密度将显著低于合成数据和测试数据之间的烟雾密度。在这种情况下,MMD(合成,测试)≤MMD(合成,训练)的假设将是错误的。
因此,我们正在测试(如第6.1节所示)我们的零假设(模型没有记忆训练数据)是否可以被拒绝。我们观察到的平均p值为:第5.1节eICU数据:0.40±0.05,第4.3节MNIST数据:0.47±0.16,正弦波:0.41±0.07,平滑信号:0.07±0.04,第4节高分辨率MNIST RGAN实验:0.59±0.12(多假设检验校正前)。我们得出的结论是,我们不能拒绝原假设,即合成集和测试集之间的MMD最多与合成集和训练集之间的MMD一样大,这表明合成样本看起来与训练集并不比它们与测试集更相似。
7 不同隐私的训练RGAN
虽然第6节中描述的分析表明GAN不会优先生成训练数据点,但我们意识到医疗数据通常是高度敏感的,而且侵犯隐私的代价很高。为了更有力地保障合成医疗数据的隐私,我们调查了GAN使用不同的私人培训程序。不同隐私涉及数据库中单个记录的存在或不存在的影响。直观地说,不同隐私限制了获得相同结果的概率(在我们的例子中,是经过训练的GAN实例),前提是对底层数据集进行小扰动。如果训练程序保证(∈, δ)差分隐私,然后给出两个“相邻”数据集(不同于一条记录)D, D0,
其中M(D)是在D上训练得到的GAN, S是训练过程可能输出的任何子集(可能的GAN的任何子集),概率P考虑了过程M(D)中的随机性。因此,差异隐私要求M产生的GANs上的分布必须随着D的变化而“缓慢”变化,在哪里∈和δ约束了这个慢度。受最近的预印本(beaulieue - jones等人,2017)的启发,我们将(Abadi等人,2016)的微分私有随机梯度下降(DP-SGD)算法应用于鉴别器(因为生成器不会直接“看到”私有数据)。关于算法的进一步细节(以及上述差异隐私的定义),请参阅(Abadi et al., 2016)和(Dwork et al., 2006)。
在实践中,DP-SGD通过裁剪每个示例的梯度和批量添加噪声来操作。这意味着从任何单个示例获得的信号都是有限的,从而提供了不同的隐私。每次训练过程计算鉴别器的梯度时,都会“花费”一些隐私预算,这使我们能够评估 ∈ 和 δ 贯穿整个训练。我们使用(Abadi et al., 2016)的moments会计方法来跟踪这种隐私支出。找到既能提供可接受的隐私性又能提供真实GAN样本的超参数是具有挑战性的。我们使用TSTR评估,重点关注MNIST和eICU任务与RCGAN。
对于MNIST,我们将梯度裁剪为0.05,并添加均值为零和标准差为0.05×2的高斯噪声。用的∈ = 1, δ≤1.8×10−3,精度为0.75±0.03。牺牲更多隐私,用∈ = 2, δ≤2.5 × 10−4,精度为0.77±0.03。这些结果远低于非私有GAN报告的性能(表1),突出了在保持隐私的同时生成真实数据集的复杂困难。为了进行比较,在(Abadi等人,2016)中,他们报告了以不同的私有方式在真实数据集上训练MNIST分类器(完整任务)的准确率为0.95。(但是请注意,我们的GAN模型必须解决将数字建模为时间序列这一更具挑战性的任务。)eICU的结果如表3所示。对于这种情况,我们将梯度裁剪为0.1,并添加标准偏差0.1 × 2的噪声。与我们在MNIST上的发现形成惊人对比的是,我们观察到,即使在更严格的隐私设置下,差异隐私训练在eICU任务上的表现仍然很高(∈ = 0.5, δ≤9.8 × 10−3)。由差分私有GAN生成的样本的视觉评估表明,虽然它容易产生不太真实的序列,但它引入的错误对于我们考虑的任务来说似乎不重要。特别地,DP-GAN产生了更多的极值序列,但由于任务是预测极值,可能会保留序列中最显著的部分。引入隐私保护噪声的可能性尽管允许下游模型的训练,但这表明了隐私和GANs交叉领域有趣的研究方向。
8 结论
我们已经描述、训练和评估了用于生成实值序列数据的循环GAN架构,我们称之为RGAN。我们还开发了一个条件变体(RCGAN)来生成合成数据集,由具有相关标签的实值时间序列数据组成。由于这项任务提出了新的挑战,我们提出了新的解决方案来处理评估和隐私问题。通过生成标记训练数据-通过对标签进行调节并生成相应的样本,我们可以使用“TSTR技术”来评估模型的质量,其中我们在合成数据上训练模型,并在真实的测试集上评估它。我们已经使用“序列化”多变量MNIST在真实ICU病人的数据集上演示了这种方法,其中在合成数据集上训练的模型有时达到与真实数据相当的性能。在医学等领域,隐私问题阻碍了数据共享,这意味着随着这些技术的改进,可以在合成数据上开发模型,这些合成数据对实际任务仍然有价值。这可以为医学(或其他敏感领域)开发合成“基准”数据集,这种数据集已经在其他领域取得了巨大进展。我们还说明了这样的合成数据集不会对原始的敏感训练数据造成重大的隐私问题或数据泄漏,并且对于更严格的隐私保证,可以在训练RCGAN时使用差异隐私,但性能会有一定损失。