论文阅读(十五):DNA甲基化水平分析的潜变量模型

news2025/1/31 22:54:26

1.论文链接:Latent Variable Models for Analyzing DNA Methylation

摘要:

脱氧核糖核酸(DNA)甲基化与细胞分化密切相关。例如,已经观察到肿瘤细胞中的DNA甲基化编码关于肿瘤的表型信息。因此,通过研究DNA甲基化数据的多元结构,可以有效地增强对肿瘤生物学的理解。在某种程度上,这些数据具有离散的潜在结构,它可以被视为编码不同的肿瘤亚型(在癌症研究中)或组织类型(更一般地)。然而,在某些情况下,可能有更多的证据表明连续的潜在结构反映了连续的变化范围。本章讨论了在过去十年中用于分析DNA甲基化数据的几种特定潜变量模型,包括在低维环境中建模DNA甲基化数据的方法,例如在候选基因研究中,以及在高维环境中建模DNA甲基化的递归分区混合模型方法。

关键词:DNA甲基化,隐变量模型,递归分区混合模型

DNA甲基化与细胞分化密切相关。例如,已经观察到肿瘤细胞中的DNA甲基化编码关于肿瘤的表型信息。因此,通过研究DNA甲基化数据的多元结构,可以有效地增强对肿瘤生物学的理解。在某种程度上,这些数据具有离散的潜在结构,它可以被视为编码不同的肿瘤亚型(在癌症研究中)或组织类型(更一般地)。然而,在某些情况下,可能有更多的证据表明连续的潜在结构反映了连续的变化范围。本章讨论了在过去十年中用于分析DNA甲基化数据的几个特定的潜变量模型。首先讨论了在低维环境中(如候选基因研究中)建模DNA甲基化数据的方法。离散和连续潜变量是有区别的,前者由尼特混合模型或其非参数类似物(通常被描述为聚类)组成,后者由通常涉及数值积分的潜在特质模型组成。然后在高维环境中建模DNA甲基化的方法,例如从表达中获得的数据,微阵列,进行了讨论。在这种情况下,连续潜变量变得难以操作和解释,因此重点只放在计算效率高的聚类方法上。递归分区混合模型(RPMM)以类似于分层聚类的分层格式呈现类,从而允许以常规算法不支持的方式进行树修剪。然而,RPMM不能处理从现今标准甲基化阵列获得的数据。因此,RPMM配备了一个预处理步骤,以产生半监督RPMM(SS-RPMM),这是一个可扩展的过程。

15.1介绍

表观遗传学是研究基因功能的可遗传变化,而这些变化不能用DNA序列的变化来解释。任何多系统生命形式的发育都是以系统性细胞分化为基础的,由细胞的谱系定型决定,其起源可以追溯到多能祖细胞。现在已经确定,这种谱系承诺的标志是有丝分裂可遗传的表观遗传变化,反映了复杂的转录程序。一个这样的表观遗传标记是在DNA碱基对C和鸟嘌呤(G)(CpG二核苷酸)的胞嘧啶(C)上添加甲基;这种甲基化标记与染色质和核小体DNA sca?old的改变紧密相关,而染色质和核小体DNA sca?old又负责个体细胞内基因表达的协调[20,23,32]。因此,DNA甲基化与细胞分化密切相关,其CpG二核苷酸序列上的甲基化蛋白实质上编码了有关其细胞功能的信息.例如,图15.1,来自[8],描述了一个聚类热图,显示了11种不同组织类型基于其500个CpG二核苷酸处的DNA甲基化蛋白聚类的程度。图15.1表明,从多变量的角度来看,DNA甲基化的测量保留了许多关于细胞类型的信息。

这一事实已在癌症生物学中被利用来区分肿瘤,这些肿瘤在其分子特征的基础上在组织病理学上看起来相似。特别是,CpG岛甲基化表型(CIMP)已成为了解癌症的流行构建体[16,35,42,43]。从本质上讲,已经观察到肿瘤细胞中的DNA甲基化,在少数基因的启动子区域中测量,编码关于肿瘤的表型信息。因此,通过研究DNA甲基化测量的向量Y的多变量结构,有效地增强了对肿瘤生物学的理解。在某种程度上,Y具有离散的潜在结构,它可以被视为编码不同的肿瘤亚型(在癌症研究中)或组织类型(更一般)。然而,在某些情况下,可能有更多的证据表明连续的潜在结构反映了连续的变化范围[29,30]。

对于给定的CpG,可以预期细胞的克隆群体具有分类甲基化状态,0、1/2或1,这取决于CpG分别在两条染色体、一条染色体或两条染色体上是否甲基化。由于半甲基化(仅在一条染色体上的DNA甲基化)相对罕见,因此克隆细胞群体上的DNA甲基化分析可以被视为观察到的二分变量向量上的潜在变量问题。虽然肿瘤群体通常是克隆的,但在实践中,在没有劳动密集型显微切割技术的情况下,通常很难将肿瘤细胞与周围的正常细胞或间质组织分离。此外,人们对测定全血中的DNA甲基化感兴趣[31,39,6],其DNA甲基化状态由不同循环血细胞的混合物决定[34,44]。因此,DNA甲基化测量在实践中可能是单位区间内的连续变量,双峰(在相对克隆的细胞群体的情况下)或单峰(在极其异质的混合物如血液的情况下)。

假设Y的各分量的分布取决于技术。有各种各样的测定和微阵列平台可用于测量DNA甲基化; Peter Laird最近的综述中提供了一个全面的列表[25]。流行的例子包括甲基化特异性聚合酶链反应(PCR)[15],COBRA [45],PCR后焦磷酸测序[41],MethyLight [12],Sequenom [21],Illumina甲基化阵列[3-5]和MeDIP [36]。这些方法中的第一个是劳动密集型方法的例子,适用于候选基因研究或微阵列结果的验证,而后两个方法允许高通量分析。甲基化特异性PCR(MSP)为每个询问的位点(基因)产生二分值,未甲基化(编码为0)和甲基化(编码为1)。COBRA、焦磷酸测序、MethyLight、Sequenom和Illumina甲基化阵列为每个询问的基因座产生0和1之间的区间缩放值。一些平台,如MethyLight,原则上可以产生任意大的值,超过1,尽管这种难以解释的事件通常很少发生。另一方面,MeDIP产生以规则间隔测量的荧光强度值,具有非常密集的基因组覆盖范围,并且通常减少到与p值相关的峰值强度;峰值的解释意味着是二分法的。

图15.2说明了本章所考虑的模型类型。假设来自潜在大量J个个体基因座的DNA甲基化测量值Yij具有由它们对共同的未观察到的变量Zi的依赖性引起的相关性。变量Zi可以是分类变量或单变量连续变量,代表分子亚型或总体甲基化倾向,本身可能受协变量xi的影响。从统计建模的角度来看,这是一个看似简单的公式,但潜在的大量基因座,J,可以复杂的估计和解释。

在本章的其余部分,我们讨论了几个特定的潜变量模型,这些模型在过去十年中被用来分析DNA甲基化数据。在第17.2节中,我们讨论了在低维环境(小J)中建模DNA甲基化数据的方法,例如,候选基因研究在这里,我们区分离散和连续的潜变量,前者由尼特混合模型或其非参数类似物(通常被描述为聚类)组成,后者由通常涉及数值积分的潜在特质模型组成。在第17.3节中,我们讨论了在高维环境(大J)中建模DNA甲基化的方法,例如,数据来自表达微阵列。在这种情况下,连续潜变量变得难以操作和解释,因此我们只关注计算效率高的聚类方法。

在下面的数学阐述中,矩阵总是用粗体大写字母表示。大写字母也用于指定一个随机变量,而小写字母则用于指定数量。粗体字母也表示矢量(随机或固定),而普通类型表示标量。除非另有说明,否则所有向量都假定为列向量,其中行向量被写为转置列向量。

15.2低维环境下DNA甲基化的潜变量方法

当位点数J的值相对较小时,可以构建丰富的图形模型。在本节中,我们描述了几种用于小候选基因研究的方法,这些方法大多出现在世纪的前十年中期。

15.2.1离散潜变量

当Zi是离散变量时,相应的潜变量分析导致聚类问题。尽管许多流行的非参数聚类技术,如K均值或分层聚类,已用于DNA甲基化数据的分析[35],但有证据表明基于可能性的方法可能提供上级结果[37]。因此,我们在本章中主要关注这种基于似然性的方法,这些方法通常被称为基于模型的聚类[13,14]。这些方法最终依赖于我们现在描述的“尼特混合物模型”。

15.2.2连续潜变量

15.3高维环境下DNA甲基化的潜变量方法

现代DNA甲基化研究利用高密度微阵列甚至基于测序的技术,导致高维数据集的J值极大。表15.2展示了常见可用阵列的维度与第17.2节中描述的应用中遇到的维度的比较。在这种情况下,一维连续的Z是不切实际的,而维度足以建模Y的多变量Z会导致使用严格的基于似然的方法时计算不可行。即使是有限混合模型(15.1)在使用标准软件如Mplus[13]进行拟合时也很耗时。因此,分析高维基因组数据的可行算法需要简化假设。在本节中,我们描述了一些用于分析DNA甲基化阵列的方法。

15.3.1基于模型的聚类:递归分区混合模型

RPMM已在许多环境中使用。在其首次亮相[18]时,它被用于对图15.1中所示的211个组织的DNA甲基化过程进行聚类,从而产生与组织类型高度对应的潜在类别。在一项检查胸膜间皮瘤和正常胸膜的DNA甲基化的研究中,RPMM分类与肿瘤和正常分类高度一致,与肺石棉负荷相关,并预测患者生存[7]。在另一项检查HNSCC肿瘤的研究中[28],RPMM类别区分了正常和肿瘤样本,如图15.4所示,并与其他病因因素良好相关,如图15.5所示(第400页)。对应于这些HNSCC肿瘤子集的RPMM类别分配也与拷贝数改变的类别相关[33],如图15.6所示(第400页)。在一项乳腺癌研究中,RPMM甲基化类别与肿瘤大小、酒精和膳食叶酸摄入量相关[9],在一项神经胶质瘤研究中,发现RPMM类别与生存率和IDH1基因突变相关[10]。在结肠癌中发现了RPMM甲基化类别和突变之间的类似关联[16]。

15.3.2半监督递归分区混合模型

RPMM算法被设计为解决分析GoldenGate甲基化阵列(Illumina)的要求,其询问J = 1505个CpG位点。然而,来自Illumina的标准甲基化阵列现在询问从27 578到485 577个CpG位点的任何地方,远远超过甚至RPMM的计算能力。此外,对于任何给定的临床或流行病学问题,甚至可能很难制定一个简单的潜在变量模型,可以有意义地与感兴趣的结果相关。

受Bair和Tibshirani [1]提出的“半监督”方法的启发,RPMM配备了预处理步骤以产生半监督RPMM(SS-RPMM)[24]。在该方法中,根据DNA甲基化测定值关于临床结果提供信息的程度对每个CpG进行排序。选择M个信息量最大的CpG以包括在RPMM算法中,其中M的值经由十倍交叉验证来选择以优化预测性能。在独立数据集中验证结果(可能通过在对CpG进行排名之前将较大样本分成训练集和测试集来获得):通过独立数据集中受试者的经验贝叶斯预测RPMM类别分配,并评估预测的类别成员资格和结果之间的关联。独立或分裂样本验证用于规避可能由于使用将用于进行最终预测推断的数据预选位点而导致的过度设置的可能性。

SS-RPMM已用于膀胱癌病例对照研究,以预测使用In 27 K微阵列(Illumina)从全血中测定的DNA甲基化的病例状态[31]。此外,它已被用于来自相同阵列技术的数据,以检查人类胎盘中DNA甲基化与婴儿生长受限之间的关联[2]。

15.4结论

我们概述了用于DNA甲基化数据分析的潜在变量模型。所使用的两种主要模型类型是尼特混合模型(15.1),一种本质上离散的潜变量建模方法,以及潜在特质模型(15.5)的变体。随着时间的推移,前一种方法比后一种方法更有用,因为它的结果已被证明更容易解释,并且与CpG岛甲基化表型(CIMP)的想法一致,该想法包含DNA甲基化过程中固有的“分子亚型”,或者在分析mRNA表达数据的背景下类似的想法[1]。此外,Nite混合模型更容易扩展到高维环境,其中通过连续潜在特征对相关性进行充分表征将需要中等或高维的多变量潜在连续维度,从而使数值求积复杂化,并导致MCMC方法即使在中等维度下也被证明是繁琐的[19]。然而,最近的工作已经将奇异值分解[26]或独立成分分析[40]应用于mRNA表达和DNA甲基化数据,目的是表征技术噪声并对其进行解释。这些论文中考虑的高维需要类似于[24]中提出的基因座选择技术,因此代表了类似于上面第17.3节中讨论的折衷方案。

在低维设置中,模型(15 - 1)可以以类似于模型(15 - 5)的方式调节协变量xTγ。然而,在高维中,要求γ对所有类保持恒定会破坏通过递归划分数据集所获得的计算增益。因此,首选方法是在第二阶段分析中估计类别成员关系的协变量依赖性;简单的双变量方法出现在[7,28]中,而用于模拟更复杂的多变量关联的多项逻辑回归方法出现在[9]中。目前的研究涉及使用更复杂的多变量分布g来解释与相同基因相关的CpG基因座之间的相关性,或者通过两个不同的阵列测量的相同CpG基因座之间的相关性(例如,在不同的组织或在同一组织在不同的时间点);也正在调查的是更多的生物驱动的选择CpG基因座的方法,类似于SS-RPMM。

参考文献

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2288082.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android View 的事件分发机制解析

前言:当一个事件发生时(例如触摸屏幕),事件会从根View(通常是Activity的布局中的最顶层View)开始,通过一个特定的路径传递到具体的View,这个过程涉及到三个关键的阶段:事…

内容检索(2025.01.30)

随着创作数量的增加,博客文章所涉及的内容越来越庞杂,为了更为方便地阅读,后续更新发布的文章将陆续在此汇总并附上原文链接,感兴趣的小伙伴们可持续关注文章发布动态! 博客域名:http://my-signal.blog.cs…

【25美赛A题-F题全题目解析】2025年美国大学生数学建模竞赛(MCM/ICM)解题思路|完整代码论文集合

我是Tina表姐,毕业于中国人民大学,对数学建模的热爱让我在这一领域深耕多年。我的建模思路已经帮助了百余位学习者和参赛者在数学建模的道路上取得了显著的进步和成就。现在,我将这份宝贵的经验和知识凝练成一份全面的解题思路与代码论文集合…

新鲜速递:DeepSeek-R1开源大模型本地部署实战—Ollama + MaxKB 搭建RAG检索增强生成应用

在AI技术快速发展的今天,开源大模型的本地化部署正在成为开发者们的热门实践方向。最火的莫过于吊打OpenAI过亿成本的纯国产DeepSeek开源大模型,就在刚刚,凭一己之力让英伟达大跌18%,纳斯达克大跌3.7%,足足是给中国AI产…

H264原始码流格式分析

1.H264码流结构组成 H.264裸码流(Raw Bitstream)数据主要由一系列的NALU(网络抽象层单元)组成。每个NALU包含一个NAL头和一个RBSP(原始字节序列载荷)。 1.1 H.264码流层次 H.264码流的结构可以分为两个层…

【PyTorch】6.张量形状操作:在深度学习的 “魔方” 里,玩转张量形状

目录 1. reshape 函数的用法 2. transpose 和 permute 函数的使用 4. squeeze 和 unsqueeze 函数的用法 5. 小节 个人主页:Icomi 专栏地址:PyTorch入门 在深度学习蓬勃发展的当下,PyTorch 是不可或缺的工具。它作为强大的深度学习框架&am…

实现基础的shell程序

1. 实现一个基础的 shell 程序,主要完成两个命令的功能 cp 和 ls 1.1.1. cp 命令主要实现: ⽂件复制⽬录复制 1.1.2. ls 命令主要实现: ls -l 命令的功能 1.1. 在框架设计上,采⽤模块化设计思想,并具备⼀定的可扩…

【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】1.18 逻辑运算引擎:数组条件判断的智能法则

1.18 逻辑运算引擎:数组条件判断的智能法则 1.18.1 目录 #mermaid-svg-QAFjJvNdJ5P4IVbV {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-QAFjJvNdJ5P4IVbV .error-icon{fill:#552222;}#mermaid-svg-QAF…

知识库管理系统助力企业实现知识共享与创新价值的转型之道

内容概要 知识库管理系统(KMS)作为现代企业知识管理的重要组成部分,其定义涵盖了系统化捕捉、存储、共享和应用知识的过程。这类系统通过集成各种信息来源,不仅为员工提供了一个集中式的知识平台,还以其结构化的方式提…

SpringBoot 日志与配置文件

SpringBoot 配置文件格式 Properties 格式 Component ConfigurationProperties(prefix "person") //和配置文件person前缀的所有配置进行绑定 Data public class Person {private String name;private Integer age;private Date birthDay;private Boolean like;pr…

Qt中Widget及其子类的相对位置移动

Qt中Widget及其子类的相对位置移动 最后更新日期:2025.01.25 下面让我们开始今天的主题… 一、开启篇 提出问题:请看上图,我们想要实现的效果是控件黄色的Widge(m_infobarWidget)t随着可视化窗口(m_glWidge…

【Node.js】Koa2 整合接口文档

部分学习来源:https://blog.csdn.net/qq_38734862/article/details/107715579 依赖 // koa2-swagger-ui UI视图组件 swagger-jsdoc 识别写的 /***/ 转 json npm install koa2-swagger-ui swagger-jsdoc --save配置 config\swaggerConfig.js const Router requir…

Docker/K8S

文章目录 项目地址一、Docker1.1 创建一个Node服务image1.2 volume1.3 网络1.4 docker compose 二、K8S2.1 集群组成2.2 Pod1. 如何使用Pod(1) 运行一个pod(2) 运行多个pod 2.3 pod的生命周期2.4 pod中的容器1. 容器的生命周期2. 生命周期的回调3. 容器重启策略4. 自定义容器启…

leetcode——排序链表(java)

给你链表的头结点 head ,请将其按 升序 排列并返回 排序后的链表 。 示例 1: 输入:head [4,2,1,3] 输出:[1,2,3,4] 示例 2: 输入:head [-1,5,3,4,0] 输出:[-1,0,3,4,5] 示例 3: …

基于springboot的校园部门资料管理系统

博主介绍:java高级开发,从事互联网行业多年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了多年的设计程序开发,开发过上千套设计程序,没有什么华丽的语言,只有实…

数据结构初阶之堆的介绍与堆的实现

一、堆的概念与结构 如果有一个关键码的集合,把它的所有元素按完全二叉树的顺序存储在一个一维数组中,并满足:,则称为小堆(或大堆)。 将根结点最大的堆叫做最大堆或大根堆,根结点最小的堆叫做…

Day29(补)-【AI思考】-精准突围策略——从“时间贫困“到“效率自由“的逆袭方案

文章目录 精准突围策略——从"时间贫困"到"效率自由"的逆袭方案**第一步:目标熵减工程(建立四维坐标)** 与其他学习方法的结合**第二步:清华方法本土化移植** 与其他工具对比**~~第三步:游戏化改造…

docker中运行的MySQL怎么修改密码

1,进入MySQL容器 docker exec -it 容器名 bash 我运行了 docker ps命令查看。正在运行的容器名称。可以看到MySQL的我起名为db docker exec -it db bash 这样就成功的进入到容器中了。 2,登录MySQL中 mysql -u 用户名 -p 回车 密码 mysql -u root -p roo…

leetcode——二叉树的中序遍历(java)

给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输入:root [1,null,2,3] 输出:[1,3,2] 示例 2: 输入:root [] 输出:[] 示例 3: 输入:root [1] 输出…

信息安全专业优秀毕业设计选题汇总:热点选题

目录 前言 毕设选题 开题指导建议 更多精选选题 选题帮助 最后 前言 大家好,这里是海浪学长毕设专题! 大四是整个大学期间最忙碌的时光,一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理…