RPKM、FPKM 和 TPM cpm

落在一个基因区域内的read counts数目取决于基因长度和测序深度。一个基因越长，测序深度越高，落在其内部的reads数目就会相对越多。而为了比较不同样本中不同基因的表达量，就去除测序深度和基因长度的的影响。采用了两个标准化：reads数标准化和长度标准化

一,计算并不复杂，记住测序深度和基因长度就OK

RPKM、FPKM 和 TPM这三个指标试图标准化测序深度和基因长度。以下是您如何为 RPKM 执行此操作：

计算样本中的总读数并将该数字除以 1,000,000——这是我们的“每百万”比例因子。
将读取计数除以“每百万”比例因子。这使测序深度标准化，为您提供每百万读数 (RPM)
将 RPM 值除以基因的长度，以千碱基为单位。这为您提供 RPKM。

FPKM 与 RPKM 非常相似。RPKM 是为单端 RNA-seq 制作的，其中每个读数对应一个已测序的片段。FPKM 是为配对末端 RNA-seq 制作的。使用配对末端 RNA-seq，两个读数可以对应一个片段，或者，如果对中的一个读数没有映射，一个读数可以对应一个片段。RPKM 和 FPKM 之间的唯一区别是 FPKM 考虑到两个读取可以映射到一个片段（因此它不会将该片段计算两次）。

TPM 与 RPKM 和 FPKM 非常相似。唯一的区别是操作顺序。以下是计算 TPM 的方法：

将读取计数除以每个基因的长度（以千碱基为单位）。这为您提供了每千碱基 (RPK) 的读数。
计算一个样本中的所有 RPK 值并将这个数字除以 1,000,000。这是您的“每百万”比例因子。
将 RPK 值除以“每百万”比例因子。这为您提供了 TPM。

测序的度量单位

在RNA-Seq中，我们通常使用RPKM（全称为Reads Per Kilobase Million）或FPKM（Fragments Per Kilobase Million）来进行均一化，这些均一化的数据（normalized data）主要解决两个问题：

测序深度（这个是指Million这一部分，侧重于数量），我们知道，测序深度越高，那么比对到基因上的reads数就越多；
基因的长度（这个指的是Kilobase这一部分，侧生于长度），我们知道，一个基因越长，那么比对到这个基因上的reads数就越多。

不过现在我们还使用TPM（全称为Transcripts per million）来作为均一化后的基因的表达单位，如下所示：

image

为了能够更好的区分这三个单位，即RPKM，FPKM和TPM，我们就通过一个简单的案例来说明一下，在这个案例中，我们一共有3个重复，分别为Rep1，Rep2和Rep3，检测了4个基因，分别为A，B，C，D，如下所示：

image

从上面的图表可以发现，Rep3的reads数比其它的2个更多，如下所示：

image

我们再看一下基因B，它的长度（4kb）是基因A（2kb）的2倍，这个或许就可以说明为什么基因B的reads数是基因A的reads数的2倍了，如下所示：

image

RPKM

RPKM的全称为Reads Per Kilobase Million，中文翻译就是每千个碱基的转录每百万映射读取的reads数。

现在我们使用RPKM来均一化这些数据，如下所示

image

均一化的步骤如下所示

第一步：均一化read深度。

我们计算一下某个重复的总reads数，然后用它们除以10，这里我们只是简单地模拟一下，真正的应该是除以1000000，因为RPKM的M指的就是million，是百万，但如果要除以1百万的话，小数点太多，不太直观，如下所示：

image

现在就得到了总reads数除以10的结果，分别为3.5，4.5，10.6，此时，再用每个基因对应的reads数除以相应的前面结果，例如对于Rep1中的基因A来说，就是使用10除以3.5，也就是2.86，得到的这个单位我们称之为RPM，也就是reads per million，如下所示：

image

第二步：均一化基因长度。

在这一步骤中，我们需要对基因的长度进行均一化，如下所示：

image

此时，用RPM的数值除以每个基因的长度，例如，对于Rep1的基因A来说，就是2.86，基因A的长度是2kb，那么这个数值就是2.86除以2等于1.43，这就是RPKM，如下所示：

image

现在我们看一下RPKM的效果，在均一化之前的数据与均一化之后的数据，我们可以发现，经过均一化后的数据，每个重复里的每个基因的RPKM就非常接近了，如下所示：

image

FPKM

FPKM的全称为Fragments Per Kilobase Million，对应的中文就是每千个碱基的转录每百万映射读取的fragments。FPKM与RPKM的计算非常接近，其中区别就在于一个是FPKM的Fragemnts，而RPKM则是reads。

另外，RPKM通常用于单端测序，FPKM常用于双端测序，如下所示：

image

在RNA-Seq中，我们建库时会把DNA打断成小片段（fragment），两端加上接头，然后测序。

如果是单端测序，那么一个fragmetns就对应了一条read，如下所示：

image

如果是双端测序，那么一条fragments就对应两条reads，当然，有时候双端测序也有可能出现一条fragment对应一条read（另外一条read有可能会因为质量低而被剔除），FPKM就保证了，一条fragment的两条reads不会被统计2次，如下所示：

image

也就是说FPKM是以fragment为准，而不是以reads数为准，它们的计算方式是一样的。

TPM

TPM的全称为Transcripts per million，中文就是每百万条reads的转录本。我们现在还以原来的案例，看一下TPM是如何计算的。

第一步：均一化基因长度。

每个重复中的每个基因的reads数除以该基因的长度，对于Rep1的基因A来说，就是10除以2，也就是5，也叫RPK，如下所示：

image

第二步：均一化测序深度。

先计算出一个重复中总的RPK之和，然后除以10，对于Rep1来说，总的RPK是15，除以10就是1.5，如下所示：

image

然后再用每个基因的RPK除以上面计算出来的数值，对于Rep1的基因A来说，就是5除以1.5，即3.33，如下所示：

image

经过TPM这样的均一化后，我们可以发现，这3个重复的数值就比较接近了。

TPM和RPKM的区别

我们比较一下RPKM与TPM均一化扣的结果，如下所示：

image

TPM和RPKM（FPKM）都是基于基因的长度与测序深度进行均一化的，但是它们也有所不同。我们看一下，对于每个重复来说，它们的总TPM和RPKM的数据数据之间的是存在一定差异的，如下所示：

image

对于RPKM来说，每个重复的总RPKM值不一样，分别是4.29，4.5和4.25。

对于TPM来说，每个重复的总TPM是相同的，都是10（也就是说总的TPM）。

我们再来看一下这两种的差异有何重要意义。

我们先看下面的3个饼图，每个饼图的有大小相同，数值都是10。从中我们可以发现，对于同样的饼图来说，一份3.33的扇形（它代表了Rep1中的基因A）肯定比一份3.32的扇形（它代表了Rep2中的基因A）要大。而TPM就能发现这种3.33和3.32的这种差异，我们可以看到，在Rep1的总reads数中，比对到基因A上的reads数的比例肯定比Rep3中相应的比例要高，如下所示：

image

为什么会出现这种差异，我们可以再看上图，我们可以发现，在Rep3中，比对到基因D上的reads数所占的比例要大于Rep1中，比对到基因D的reads数的比例。通过TPM我们更容易发现，在每个重复中，比对到哪些基因上的reads更高或更低。

而对于RPKM这种均一化来说，很难比较比对到哪个基因上的总reads高，因为每个重复的总reads数都不同，也就是说这个饼图形的大小都不一样，如下所示：

image

还看上图，对于Rep1中的基因A来说，它的RPKM是1.43，而在Rep3中，基因A的RPKM是1.42，那么我们不能直接说在Rep1中，比对到基因A上的总Reads数大于Rep3中基因A的总Reads数，也就是无法直接说在Rep1中基因A的转录水平高于Rep3中基因A的转录水平，因为Rep1和Rep3的总RPKM不同。

而对于TPM就不一样，每个重复的总TPM是一样的，这样很容易比较相同基因在不同的重复中的转录水平高低。由于RNA-Seq主要是研究基因的转录水平，也就是说研究基因的转录本的reads的相对比例，因此使用TPM更加合理，如下所示：

image

CPM

有的时候还需要做到CPM，CPM的计算流程为：①总reads数除以100万；②用每个样本中的每个基因对应的reads数再除以①中的数字，就是CPM。

总reads数除以100万主要是为了方便计算CPM，否则CPM的数值会非常小，不方便，如下所示：

image

用途：在某些情况下，只想了解每个基因被覆盖到的相对reads数，而不希望对其做长度校正，就会使用这个指标。在某些RNA-seq文章或一些软件输出结果中（如edgeR）会出现。CPM只对read count相对总reads数做了数量的均一化。当如果想进行表达量的基因间比较，则就需要考虑基因长度的不同。如果进一步做长度的均一化，就是RPKM。

参考

StatQuest学习笔记24——RPKM FPKM TPM - 简书 (jianshu.com)