一种新的算法模型,填补微生物组纵向研究数据中的缺失值

news2024/11/24 17:48:12

谷禾健康

在这里插入图片描述

微生物组的纵向研究是一种长期跟踪微生物组变化的研究方法。在这类研究中,样本从同一人群或个人中多次采集,通过检测样本中微生物群落丰度的变化(如不同菌群的比例和种类),来了解微生物组随时间的变化趋势和特征。

根据微生物组不同菌群的变化,可以发现一些与健康或疾病相关的特征,从而为疾病预防和治疗提供参考。

但是,由于不同研究对象在纵向时间轴上的时间点分布不均匀且数量不同,难以进行有效的综合分析,一些时间点上的样本缺失导致大量数据无法利用。

为此,研究人员提出了一种名为DeepMicroGen的双向循环神经网络-生成对抗网络(GAN)模型,该模型根据观测值之间的时间关系进行训练,从而在时间序列数据中填补缺失值

本文介绍了DeepMicroGen模型的算法、并在性能评估上使用模拟和真实数据集与几种标准基线方法进行了比较,结果都表示DeepMicroGen模型无疑是优秀的

DeepMicroGen模型训练方法概述

在这里插入图片描述

如图中所示,DeepMicroGen模型主要分为两部分,生成器(Generator)和判别器(Discriminator)。

•生成器

生成器的目标是产生更真实的伪造数据,用于填补缺失值

•辨别器

判别器的目标是辨别真实的数据和伪造的数据,促使生成器不断地生成更加真实的虚假数据。

两者通过反复训练来相互对抗和优化,最终达到生成器生成的数据足以欺骗判别器的效果,从而提高模型的生成和预测能力

在进入模型训练前,要对输入的微生物组数据进行预处理,使用clr方法进行了归一化,同时,为了避免某些物种在所有样本中完全缺失的情况,即数据中不会出现零值,计算了伪计数(最小相对丰度除以2)。

▷DeepMicroGen模型中的生成器(Generator)训练

先判断每个时间点上是否存在该物种,0表示数据缺失1表示数据存在

在这里插入图片描述

然后计算出时间差δf,一个向量,用于表示前一个观测值与当前时间点之间的时间差。δb,与δf定义类似,但计算方向相反,这反映了下一个观测值的时间与当前时间点之间的差异。

这些变量的计算有助于更准确地捕捉时间序列数据中的时间相关性

在这里插入图片描述

接着将x(观测值)、e、δf和δb变量值输入至DeepMicroGen模型的生成器中,使用CNN模块提取捕捉系统发育关系的特征。

计算门水平的OTUs之间的Spearman相关性,得到相关性系数矩阵(一个p×p矩阵,其中p个OTUs在一个聚类中),利用下面的公式将矩阵中的每一行简化为相关系数的几何平均值,其中ρOTUjp是OTUj和OTUp之间的Spearman相关性。

在这里插入图片描述

然后OTUs按照几何平均值从大到小进行排序,进一步强化门水平OTU之间的关联。之后,将CNN模块分别应用于每个聚类并提取特征,该模块由两个1D-CNN层组成,卷积核大小为3,分别具有16和8个滤波器,每个滤波器后接一个Leaky ReLU激活函数和一个max-pooling层。

从每个聚类中提取的特征被连接并传递到biRNN模块。通过这种方式,DeepMicroGen模型可以同时利用门聚类和时间序列数据的相关性,提高对微生物组数据中缺失值的填充精度

为了训练模型,需要捕捉时间序列之间的关系,以便填充缺失值。因此,在模型中增加了一层具有tanh激活函数的单层biRNN模块,用于捕捉正向和反向的时间关系。

RNN(循环神经网络)单元的定义如下:其中,Wh是权重矩阵,bh是bias,hi−1是前一个时间点的隐藏状态(hidden state)

在这里插入图片描述

在biRNN 模块中的生成器应用中,前向(forward)和反向(backward)RNN单元都会产生一个生成的输出,分别用 x˜f和x˜b指示。

然后,每个生成的输出将与其对应的权重系数λf和λb相乘,λf和λb是根据时间差分计算出来的,bias向量bλf和bλb是模型通过训练学习得到的参数,最终的插补值 ˜x是由输入数据和生成数据按一定比例加权组合而成,如果输入数据中存在真实值,那么生成值就会被真实值替代。

其中,1是一个全1矩阵,xe是一个矩阵,其中第i列是x乘以一个单位向量ei(即只有第i个位置是x,其他位置均为0)。

在这里插入图片描述

▷ DeepMicroGen模型中的判别器与生成器之间的对抗训练

判别器由一个带有LSTM单元的一层RNN模块构成,判别器的训练过程旨在最小化两个不同的损失函数lossD和lossT,以此优化判别器的性能,从而提供准确的反馈信息给生成器,改进生成器的生成结果。

其中,lossD用于评估判别器的鉴别能力,即判断一个样本是真实值还是生成值的能力;lossT用于评估判别器对时间点的预测准确性

在这里插入图片描述

在生成器的训练过程中,会分别计算lossG、lossR和lossC。使得生成器产生更准确一致且真实的填充值。

lossG表示生成器的损失函数(Generator Loss),表示生成器在生成伪造数据过程中的误差;lossR表示真实数据损失函数(Real Data Loss),表示判别器对真实数据分类的误差;lossC表示伪造数据损失函数(Fake Data Loss),表示判别器对伪造数据分类的误差

在这里插入图片描述

最终,通过相互对抗和共同优化,判别器和生成器可以同时得到优化,并且生成器可以生成具有真实样本类似但又与数据集不完全相同的新数据。

DeepMicroGen是基于Tensorflow库(v1.8.0)构建的。在训练中使用了Adam优化算法,Adam的学习率被设置为0.001。

每一轮训练,生成器会在判别器经过5次迭代之后进行一次训练。当生成器的损失函数连续1000轮训练没有降低时,训练就会被结束。同时使用了Dropout(CNN层中的0.7比率)来缓解过拟合的问题。

下图为训练过程的损失函数曲线:

在这里插入图片描述

DeepMicroGen模型的性能评估

实验设计

使用的测试数据集包括1个模拟数据集2个真实数据集(DIABIMMUNE和BONUS-CF数据集)。

DIABIMMUNE数据集内含从三个国家(芬兰、爱沙尼亚和俄罗斯)招募的婴儿粪便样本,这些国家在1型糖尿病过敏的发病率方面存在很大差异。

根据16s rRNA扩增子测序,选择了133名受试者的1064份粪便样本(时间点为第4、7、10、13、16、19、22和28个月),其中包含115个种水平的OTUs。BONUS-CF数据集内含231个婴儿的粪便样本,这些婴儿中,有一部分存在囊性纤维化(CF)或高风险发展成囊性纤维化的情况。

研究人员选择了113名受试者的452份在5个月、6个月、8个月和10个月时的粪便样本,使用WGS测序。模拟数据是基于DIABIMMUNE数据集模拟了200名受试者。

使用了三种不同类型的缺失值填补方法进行性能评估。采用简单的方法(平均值和中位数)进行插补,然后比较了线性曲线拟合三次曲线拟合和基于移动窗口(window-size = 3)的缺失值填补方法。

还使用了广泛用于纵向数据集的缺失值填补方法:基于链式方程的多重插补(MICE)和最后一次观测值向前插补(LOCF)。使用平均绝对误差(MAE)来衡量不同缺失值填补方法的性能。

★ 实验结果表明DeepMicroGen模型优于其他方法

DeepMicroGen模型在模拟数据集上的MAE为1.866,优于其他方法,其中MICE的表现次之,为1.942。其他方法的MAE分别为:三次曲线拟合(1.943)、线性曲线拟合(1.990)、Median(2.277)、Mean(2.298)、Moving window(2.452)、LOCF(2.698)。DeepMicroGen在真实数据集上也取得了最好的成绩,MAE分别为1.6090.486

在这里插入图片描述

DeepMicroGen模型利用GAN与CNN结合提取OTU特征来推算微生物组数据。研究人员为了观察不同组件对imputation性能的影响,通过移除或改变模型中的组件设计了四种变体DeepMicroGen模型。然后分别使用DIABIMMUNE数据集进行10倍交叉验证,并计算MAE进行性能评估。

如下图所示,与所有四种变体模型相比,DeepMicroGen表现出最佳性能

在这里插入图片描述

评估DeepMicroGen模型在不同数据缺失率下的表现。随机(MAR)或非随机(MNAR)删除10%到80%的数据,使用DeepMicroGen模型进行缺失值填补,实验重复5次,计算MAE。结果表示除MNAR缺失率为40%外,DeepMicroGen模型在大多数情况下的MAE仍然是最低的。

评估DeepMicroGen模型生成的插补值是否能够与原始数据保持相似性。研究人员随机丢弃10%-80%的数据,并使用DeepMicroGen和其他方法进行填补。

对于每种方法,分别比较了Shannon指数结果,NMDS分析结果。还计算量真实值和插补值分别与这两者间的pearson相关系数。

结果表示mean、median、MICE、linear和cubic方法的插补值与真实值的alpha多样性存在显著差异(P<0.05)。

MW和LOCF方法进行插补得到的数据,其alpha多样性与真实数据较为接近,但它们与真实数据的相关性较低

★ DeepMicroGen模型的到的插补值与真实数据相似,相关性最高

而通过DeepMicroGen模型得到的插补值,其alpha多样性与真实数据相似,并且相关性最高。在比较beta多样性时,还可以看到DeepMicroGen模型生成的插补值与真实数据之间有重叠,而其他方法却几乎没有重叠。

在这里插入图片描述

此外,研究人员还测试了是否能够识别真实数据中相对丰度值(RA)为0的,并准确预测。准备了两个数据集合,分别是{true zero RAs}和{predicting zero RAs},分别表示真实数据集中RA=0的OTU集合和生成插补值数据集中RA=0的OTU集合。依次比较这两个集合之间的对称差,预测准确率和MAE值

在这里插入图片描述

★ 能够有效保留原始数据特征,利于下游分析

这些结果都表明DeepMicroGen模型生成的插补值能够有效地保留原始数据的特征有助于下游分析

评估DeepMicroGen模型是否可以提高疾病预测能力。在DIABIMMUNE数据集中,141名婴儿有鸡蛋、牛奶和花生过敏结果的临床信息,其中117名婴儿有8个时间点的所有样本,而其他25名受试者没有样本。

研究人员利用LSTM神经网络分类器对蛋、牛奶和花生过敏等疾病进行了预测,使用clr转换后的相对丰度数据作为DeepMicroGen模型数据输入,比较经重复5次5-fold交叉验证计算 的平均AUC值,与其他插补值生成方法相比,DeepMicroGen模型在所有过敏疾病的预测表现中实现了最高的改善效果,其中花生过敏的预测表现提高了19.5%

在这里插入图片描述

编辑​

DeepMicroGen模型的局限性

由于DeepMicroGen模型较好的结果表现是假定样本是在相同的时间间隔下生成的,如果样本的时间间隔不规律,那么DeepMicroGen模型的表现可能不太好。

因此,最好有一定数量的样本在每个时间点上。当然,对于这类数据,DeepMicroGen模型也能训练并生成插补值,只是精确度可能会降低

结论

DeepMicroGen 模型为微生物组数据缺失值填补提供了一种有效的方法,并且在实验中表现出了良好的性能,在疾病预测方面的潜力也不逊色。

据文中介绍,基于深度学习的纵向数据填补方法已经被用于特定的研究领域,如用于阿尔茨海默病进展的MRI特征插补,患者管理的电子健康记录插补,以及肺癌风险评估的CT图像插补。

这为利用不完整的纵向数据集进行微生物组研究的科学家们提供了支持。

参考文献

Choi JM, Ji M, Watson LT, Zhang L. DeepMicroGen: a generative adversarial network based method for longitudinal microbiome data imputation. Bioinformatics. 2023 Apr 26:btad286. 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/558855.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LeetCode225.用队列实现栈】你足够了解栈和队列吗?

​ 你好&#xff0c;欢迎来到我的博客&#xff01;作为一名程序员&#xff0c;我经常刷LeetCode题目来提升自己的编程能力。在我的博客里&#xff0c;我会分享一些我自己做过的题目和解题思路&#xff0c;希望能够帮助到大家。今天&#xff0c;我想和大家分享一道挑战性较高的题…

ApplicationRunner使用

本文来说下CommandLineRunner和ApplicationRunner的使用 文章目录 ApplicationRunner使用示例程序结果 CommandLineRunner使用示例程序结果 ApplicationListener触发时机使用实例程序结果注意问题 ApplicationRunner 使用起来很简单&#xff0c;只需要实现CommandLineRunner或者…

手机也可以搭建个人博客?安卓Termux+Hexo搭建属于你自己的博客网站【cpolar实现公网访问】

文章目录 1. 安装 Hexo2. 安装cpolar内网穿透3. 公网远程访问4. 固定公网地址 Hexo 是一个用 Nodejs 编写的快速、简洁且高效的博客框架。Hexo 使用 Markdown 解析文章&#xff0c;在几秒内&#xff0c;即可利用靓丽的主题生成静态网页。 下面介绍在Termux中安装个人hexo博客并…

领英Linkedin开发客户技巧分享

近期领英也是发布公告说2023年8月9号linkedin将关闭领英职场&#xff0c;我看很多有在用领英的小伙伴在问&#xff0c;这里回复一下&#xff0c;国内职场跟咱们做外贸使用linkedin国际版没啥太大关系&#xff0c;大可放心&#xff0c;要说影响的话肯定是有一些的&#xff0c;以…

数据库提权

数据库提权的前提就是得到数据库的账号密码。在webshell或本地进行提权。 数据库提权分为四步&#xff1a; 1.服务探针&#xff0c;探测出数据库的类型&#xff08;端口扫描等&#xff09; 2.信息搜集&#xff0c;就是获取到数据库的账号密码。权限要高。 读取数据库密码的…

SUSE系统修改静态IP

Suse系统使用yast管理配置&#xff0c;默认创建虚拟机&#xff0c;是使用DHCP获取动态IP的&#xff0c;这样非常不利于管理。因此&#xff0c;最好使用静态IP。 当前操作系统&#xff1a; eoisu01:~> uname -a Linux su01 6.3.2-1-default #1 SMP PREEMPT_DYNAMIC Mon May …

【服务器数据恢复】断电导致raid6磁盘扇区损坏的数据恢复案例

服务器数据恢复环境&#xff1a; 某品牌存储&#xff0c;12块SAS硬盘组建RAID6磁盘阵列&#xff0c;划分一个卷&#xff0c;分配给几台Vmware ESXI主机做共享存储。 卷中存放了大量的Windows虚拟机&#xff0c;虚拟机通过模板创建的&#xff0c;系统盘大小一致&#xff0c;数据…

苹果营收及增速分析,2022年营收达2055亿美元,增速为7%

众所周知&#xff0c;2007年1月&#xff0c;被乔布斯称为“苹果将彻底改变手机”的第一代iPhone正式发布&#xff0c;并于当年6月底上市销售。上市后&#xff0c;其受欢迎程度令人咋舌&#xff0c;销量一骑绝尘。短短5年内&#xff0c;其市场份额也由最初的3%升至18%&#xff0…

学术科研专用ChatGPT来了!

自从ChatGPT发布之后&#xff0c;各路大神都开始研究如何把它加入到自己的「科研工作流」当中。 比如「数学天才」陶哲轩就表示&#xff0c;他已经将ChatGPT纳入了自己的工作流程。 最近&#xff0c;一位网友也分享了自己的「ChatGPT 学术优化」项目。 没想到&#xff0c;在Gi…

六、数据仓库详细介绍(ETL)工具篇上

0x00 前言 在上篇&#xff0c;我们介绍过&#xff0c;ETL 的实现方式可以分为三种类型&#xff1a;完全依赖数据库、自研、第三方 ETL 工具。 我们需要根据实际情况去选择合适的方案。对于相对简单的 ETL 系统我们可以完全依赖数据库或者内部开发一个小型的的流程控制、调度工…

燕千云助力ITSM知识沉淀与复用

数字化时代IT服务知识沉淀痛点 随着企业数字化进程的推进&#xff0c;企业需要购入更多的智能化、数字化设备及软件&#xff0c;高效生产的同时&#xff0c;问题也层出不穷。而IT服务管理&#xff0c;可以为企业减少密集型的资源消耗&#xff0c;帮助企业以更高效、更流程化的…

28K入职字节的那天,我哭了····

先说一下自己的个人情况&#xff0c;计算机专业&#xff0c;18年本科毕业&#xff0c;一毕业就进入了“阿里”测试岗(进去才知道是接了个阿里外包项目&#xff0c;可是刚毕业谁知道什么外包不外包的)。 更悲催的是&#xff1a;刚入职因为家里出现一些变故&#xff0c;没有精力…

小电源,大讲究

高速先生成员--姜杰 成功的电源设计千篇一律&#xff0c;失败的直流压降各有各的秘密。 对于电源的直流压降&#xff0c;高速先生之前分享过一些低电压、大电流的电源案例&#xff0c;其实&#xff0c;对于种类繁多的小电源&#xff0c;由于电流相对较小&#xff0c;设计过程中…

玩了一下Midjourney很酷的设计工具

阿酷tony / 原创内容 / 2023-5-23 Midjourney是一款2022年3月面世的AI绘画工具&#xff0c;只要输入想到的文字&#xff0c;就能通过人工智能产出相对应的图片&#xff0c;耗时只有大约一分钟。 图 / Midjourney效果 图 / Midjourney效果 图 / Midjourney效果 图 / Midjourne…

基于copy命令的图片文本隐写(Misc出题)

这是一张普通的图片 我们使用010editor打开&#xff0c;很正常的jpg图片 这里顺便说一下&#xff0c;jpg图片会高亮&#xff0c;png则不会&#xff0c;下图则是一张png的图片 新建一个TXT文本&#xff0c;里面是我们想要给出的提示内容 在cmd里面切换到这些文件所在目录 copy命…

详细讲解u-boot之网络移植与调试

目录 一、前章回顾 二、硬件原理图检查 1.确认硬件原理图的fec对应的phy地址 2.修改网卡fec1的phy地址 3.网络初始化检查 4.fec部分管脚确认 5.检查是否存在多设备管脚复用 6.使用默认ENET2 三、编译烧写&#xff0c;下载验证 1.设置网络环境变量 2.使用软件配置&…

Http协议网络读卡器Request获取刷卡数据Response回应驱动显示

三种提交方式可自由设置 RFID网络WIFI无线TCP/UDP/HTTP可编程二次开发读卡器POE供电语音-淘宝网 (taobao.com) HttpReader.aspx.cs using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Web.UI; using System.Web.UI.WebCont…

Leetcode763. 划分字母区间

Every day a Leetcode 题目来源&#xff1a;763. 划分字母区间 解法1&#xff1a;贪心 题解&#xff1a;划分字母区间 由于同一个字母只能出现在同一个片段&#xff0c;显然同一个字母的第一次出现的下标位置和最后一次出现的下标位置必须出现在同一个片段。因此需要遍历字…

Python-对象的三大特性

Python-对象的三大特性 更多优秀文章&#xff0c;请扫码关注个人微信公众号或搜索“程序猿小杨”添加。 面向对象编程&#xff0c;是许多编程语言都支持的一种编程思想。简单理解是&#xff1a;基于模板&#xff08;类)去创建实体&#xff08;对象&#xff09;&#xff0c;使用…

好程序员:web前端学习要多久?自学前端能找到工作吗?

不少小伙伴看到前端这个岗位发展前景好&#xff0c;薪资待遇高&#xff0c;工作相对稳定&#xff0c;很多人都想转行学前端&#xff0c;但好程序员想说的是&#xff0c;这些都不了解&#xff0c;你怎么能把前端学会呢。所以想要转行学前端的小伙伴们还是赶紧收藏这篇文章吧~ 一…