RNA-seq 详细教程:count 数据探索(4)

news2024/11/24 4:33:56

学习目标

  1. 了解 RNA-seq count 数据的特征
  2. 比较 count 数据的不同数学模型
  3. 确定最适合 RNA-seq count 数据的模型
  4. 了解设置生物学重复对于鉴定样本间差异的好处

1. 计数矩阵

当开始差异表达基因分析时,先从一个矩阵开始,该矩阵总结了数据集每个样本中的基因水平表达。矩阵中的行对应基因,列对应样本。在矩阵的每个位置,有一个整数值,表示源自样本中特定基因的序列读取总数(如下图)。

count
count

计数越高表明与该基因相关的读数越多,表明该基因的表达水平越高。然而,这不一定是真的,我们将在本课和课程的后面深入探讨这一点。

2. 数据特征

为了了解 RNA-seq 计数是如何分布的,让我们绘制单个样本 Mov10_oe_1 的计数直方图:

ggplot(data) +
  geom_histogram(aes(x = Mov10_oe_1), stat = "bin", bins = 200) +
  xlab("Raw expression counts") +
  ylab("Number of genes")
histogram
histogram

上图展示了一些 RNA-seq count 数据的共有特征:

  1. 与大部分基因相关的计数较少
  2. 由于没有设置表达上限,因此直方图右方有很长的尾巴
  3. 数据的变化范围很大

查看直方图的形状,发现它不是正态分布的。对于 RNA-seq 数据,情况总是如此。此外,正如我们之前观察到的,数据是整数计数而不是连续测量。在决定使用哪种统计模型时,我们需要考虑这些特征。

3. 数据建模

计数数据一般可以用各种分布建模:

  • 二项 分布 [1]
  • 泊松分布

那么应该选择那一个呢?

RNA-seq 数据中,代表了非常多的 RNA,提取出特定转录本的概率非常小。这种情况泊松分布可能是最合适的。然而,这还取决于我们数据中均值和方差之间的关系。

3.1. 均值与方差

为了评估正在处理的数据的特征,可以使用与 Mov10 过表达”对应的三个重复样本。

首先计算样本的均值,再计算方差,最后通过作图的方法,确定它们之间的关系。

# 均值
mean_counts <- apply(data[,6:8], 1, mean)       

# 方差
variance_counts <- apply(data[,6:8], 1, var)

# 构建data.frame
df <- data.frame(mean_counts, variance_counts)

# 可视化
ggplot(df) +
        geom_point(aes(x=mean_counts, y=variance_counts)) + 
        scale_y_log10(limits = c(1,1e9)) +
        scale_x_log10(limits = c(1,1e9)) +
        geom_abline(intercept = 0, slope = 1, color="red")

图应该类似于下面的散点图。每个数据点代表一个基因,红线代表 x = y

scatterplot
scatterplot
  1. 均值不等于方差(数据点的散布不在对角线上)。
  2. 对于具有高平均表达的基因,重复之间的方差往往大于平均值(散点在红线上方)。
  3. 对于平均表达较低的基因,相当分散。我们通常将其称为“异方差性”。也就是说,对于低范围内的给定表达水平,我们观察到方差值有很多可能性。

4. 重复与差异

生物重复代表对应于同一样本类别或组的多个样本(即来自不同小鼠的 RNA)。直觉上,我们期望来自同一样本组的样本(即在相似条件或扰动下的样本)表现出相似的转录谱。大多数情况下,一个组内的样本会有很高的相似度,但也难免会有很多差异。基因表达的这种差异的来源可以归因于许多因素,其中一些是可知的,而另一些则仍然未知。

alt

通过差异表达分析,我们寻找在两个或多个组之间表达发生变化的基因。例如,

  • 处理 vs. 对照
  • 表达与某些变量或临床结果的相关性

但是,数据发生的变化比预期的要多得多。表达水平不同的基因不仅是实验的结果,也可能是外部原因的结果。差异表达分析的目标是识别和纠正差异来源,以便我们可以将 interestinguninteresting 区分开来。

此处绘制了“未处理”和“处理”组中 GeneA 的表达(计数)。每个点对应于单个样本的表达,并且根据它们属于哪个组对点进行着色。

figure
figure

“处理”组 GeneA 的平均表达水平是“未处理”组的两倍。但是考虑到组内观察到的差异(跨重复),组间表达的差异是否显著?

差异可能实际上并不显著。在确定基因是否差异表达时,我们需要考虑数据的变化(以及它可能来自哪里)。使用负二项分布对我们的数据建模使我们能够做到这一点。

4.1. 重复数

那么应该设置多少个重复呢?

多总是更好!我们建议每个样品组至少重复三次,但如果您可以将其增加任意数量,那更好。重复的价值在于,随着您添加更多数据,将获得越来越精确的组均值估计,并最终更有信心,可靠地区分样本类别之间的差异。

更多重复的作用:

  1. 估计每个基因的差异
  2. 随机化出未知的协变量
  3. 发现异常值
  4. 提高表达和变化估计的精度

下图评估了测序深度和重复次数对差异表达基因数量关系

replicates
replicates

请注意,与增加测序深度相比,重复次数的增加往往会返回更多的差异表达基因。因此,通常更多的重复比更高的测序深度更好,但需要注意的是,检测低表达的差异表达基因和执行异构体水平的差异表达需要更高的深度。

5. DESeq2

DESeq2 是一种流行的基因水平差异表达分析工具。它使用负二项分布,与某些方法相比采用了稍微更严格的方法,但在灵敏度和特异性之间取得了良好的平衡(减少了假阳性和假阴性)。

我们将在本教程中使用 DESeq2[2] 进行分析。 DESeq2 的分析步骤在下面的流程图中以绿色和蓝色显示。

flowchart
flowchart

欢迎Star -> 学习目录

更多教程 -> 学习目录


参考资料

[1]

EdX: https://www.youtube.com/watch?v=fxtB8c3u6l8

[2]

DESeq2: https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0550-8

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/51145.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ZMQ请求应答模式之无中间件的可靠性--自由者模式

一、引言 我们讲了那么多关于中间件的示例&#xff0c;好像有些违背“ZMQ是无中间件”的说法。但要知道在现实生活中&#xff0c;中间件一直是让人又爱又恨的东西。实践中的很多消息架构能都在使用中间件进行分布式架构的搭建&#xff0c;所以说最终的决定还是需要你自己去权衡…

3.8、集线器与交换机的区别

1、早期总线型以太网 最初使用粗同轴电缆作为传输媒体&#xff0c;后来是用相对便宜的细同轴电缆 普遍认为有源器件不可靠&#xff0c;无缘的电缆线最可靠&#xff08;并没有那么可靠&#xff09; 2、只用双绞线和集线器 HUB 的星型以太网 主机中的以太网卡及集线器个接口使…

Old money风盛行,柯罗芭KLOVA演绎中式奢华

Ralph Lauren先生说过&#xff1a;“奢侈是一种感性的生活方式。它和本季推出什么新品无关。它更关乎个人风格和舒适、轻松的环境。奢侈品是质量和永恒的优雅”。Ralph lauren以一己之力托起Old money风格的半壁江山&#xff0c;它属于带着一丝上流社会的雅痞绅士&#xff0c;优…

一起学时序分析之建立/保持时间裕量

何为裕量&#xff1f; 裕量&#xff0c;英文名称叫做“Slack”。我们在Vivado实现后的报告中常常能看到这样一栏&#xff1a; 因为都是缩写&#xff0c;所以我们来解释一下前四栏的含义&#xff1a; WNS&#xff0c;即Worst Negative Slack&#xff0c;最差负时序裕量。这个表…

leetcode:1579. 保证图可完全遍历【并查集思路】

目录题目截图题目分析ac code总结题目截图 题目分析 从删除比较难&#xff0c;考虑增加增加的过程中无用的边就可以删除考虑alice和bob各自的联通分量最后希望都是1&#xff0c;一开始都是n如果将两个独立的联通分量连起来了&#xff0c;那么连通分量个数减1这里很明显就是用并…

kubernetes-Pod详解2

kubernetes-Pod详解2 文章目录kubernetes-Pod详解2Pod生命周期创建和终止pod的创建过程pod的终止过程初始化容器钩子函数容器探测方式一&#xff1a;Exec方式二&#xff1a;TCPSocket方式三&#xff1a;HTTPGet重启策略Pod调度定向调度NodeSelector亲和性调度NodeAffinityPodAf…

Kamiya丨Kamiya艾美捷AREG酶联免疫吸附试验原理

Kamiya艾美捷AREG酶联免疫吸附试验预期用途&#xff1a; 该试剂盒是一种用于体外定量测量大鼠AREG的夹心酶免疫测定法血清、血浆和其他生物流体。仅供研究使用。不用于诊断程序。 存储&#xff1a; 所有试剂应按照小瓶上的标签保存。校准器、检测试剂A、检测试剂B和96孔带板应…

ZMQ之高可靠对称节点--双子星模式

一、概览 双子星模式是一对具有主从机制的高可靠节点。任一时间&#xff0c;某个节点会充当主机&#xff0c;接收所有客户端的请求&#xff1b;另一个则作为一种备机存在。两个节点会互相监控对方&#xff0c;当主机从网络中消失时&#xff0c;备机会替代主机的位置。 双子星模…

gateway网关聚合knife4j文档,同时兼容swagger2与swagger3

基于前两篇文章&#xff0c;进行整合 springcloud-gateway 聚合swagger3请求接口丢失appliactionName解决 springcloud-gateway聚合knife4j接口文档 为何要兼容&#xff1f;微服务开发者有的使用了swagger2版本&#xff0c;有的使用了swagger3版本&#xff0c;但暴露外部给前…

聊一聊我的第一个开源项目

项目地址&#xff1a;https://github.com/kpretty/hdd 我在21年的国庆写过一篇文章&#xff1a;《Docker 实战&#xff1a;部署hadoop集群》&#xff0c;当时也是刚接触docker&#xff0c;作为docker第一个练手项目对很多概念理解的不是很到位&#xff0c;因此那篇文章所使用的…

基于PHP+MySQL菜品食谱美食网站的设计与实现

美食是人类永恒的追求,现在有很多的美食爱好者,他们希望通过自己的各种方式来学习更多的美食制作方式,以及分享自己制作美食的一些过程,说让更多的人。享受到更加美味可口的饭菜。本系统也是基于这样的目的来进行开发的。 本系统是通过PHP&#xff1a;MySQL来进行开发,主要实现…

存储器扩展,画图题

目录 存储器与CPU的接口 地址线的连接 数据线的连接 控制线的连接&#xff08;读写和片选&#xff09; 考题 引出 第一题 第二题 第三题 计算地址范围&#xff08;这里用的38译码器&#xff09; 第四题 填空题 第五题 第六题&#xff08;2017&#xff09; 要求&…

【微信小程序】CSS模块化、使用缓存在本地模拟服务器数据库

&#x1f3c6;今日学习目标&#xff1a;第十五期——CSS模块化、使用缓存在本地模拟服务器数据库 &#x1f603;创作者&#xff1a;颜颜yan_ ✨个人主页&#xff1a;颜颜yan_的个人主页 ⏰预计时间&#xff1a;25分钟 &#x1f389;专栏系列&#xff1a;我的第一个微信小程序 文…

【这款神器可以有】3DMAX一键墙体门洞窗洞插件使用教程

3DMAX一键墙体门洞窗洞插件&#xff0c;只需导入户型图&#xff0c;单/双面墙体一键生成。 【主要功能】 --一键生成墙体 --一键门洞 --一键窗洞 --支持单/双面墙体生成 【安装方法】 无需安装&#xff0c;直接拖动插件脚本到3dmax窗口即可打开插件。 【快速开始】 将3dm…

11.我为 Netty 贡献源码 | 且看 Netty 如何应对 TCP 连接的正常关闭,异常关闭,半关闭场景

我为 Netty 贡献源码 | 且看 Netty 如何应对 TCP 连接的正常关闭&#xff0c;异常关闭&#xff0c;半关闭场景 本系列Netty源码解析文章基于 4.1.56.Final版本 写在前面..... 本文是笔者肉眼盯 Bug 系列的第三弹&#xff0c;前两弹分别是: 抓到Netty一个Bug&#xff0c;顺带来…

【Spring(七)】带你手写一个Spring容器

有关Spring的所有文章都收录于我的专栏&#xff1a;&#x1f449;Spring&#x1f448; 目录 前置准备 第一步、创建我们自定的注解 第二步、创建我们自己的容器类 测试 总结 相关文章 【Spring&#xff08;一&#xff09;】如何获取对象&#xff08;Bean&#xff09;【Spring&a…

CSS伪类使用详解

基本描述 CSS伪类是很常用的功能&#xff0c;主要应用于选择器的关键字&#xff0c;用来改变被选择元素的特殊状态下的样式。 伪类类似于普通CSS类的用法&#xff0c;是对CSS选择器的一种扩展&#xff0c;增强选择器的功能。 目前可用的伪类有大概40多个&#xff0c;少部分有兼…

Spring Bean的生命周期理解

一、Spring Bean的生命周期大的概括起来有四个阶段&#xff1a; 1、实例化 2、属性填充注入 3、初始化使用 4、Bean的销毁 二、如流程图所示 三、步骤说明 1、实例化 实例化一个Bean&#xff0c;即new 2、IOC依赖注入 按照Spring上下文对实例化的Bean进行属性填充注入 3、setB…

昆船智能上市:预计年营收19亿到22.5亿 市值48亿

雷递网 雷建平 11月30日昆船智能技术股份有限公司&#xff08;简称&#xff1a;“昆船智能”&#xff0c;证券代码&#xff1a;301311&#xff09;今日在深交所创业板上市。昆船智能本次发行股票6000万股&#xff0c;发行价为13.88元&#xff0c;募资8.33亿元。昆船智能开盘价为…

2022CTF培训(七)逆向专项练习

附件下载链接 babyre 首先是一个迷宫&#xff0c;由于答案不唯一&#xff0c;因此到 dfs 求出所有路径。 #include <bits/stdc.h>constexpr char s[] "**************.****.**s..*..******.****.***********..***..**..#*..***..***.********************.**..*…