零基础入门转录组数据分析——绘制差异火山图
差异分析的火山图(Volcano Plot)在生物信息学数据分析中,特别是在基因表达差异分析中,是一个非常直观和有用的工具。
本教程将从导入的数据结构开始,一步步带大家在R中绘制好看的火山图,最后对火山图进行解读,确保读者理解代码的同时学会解读火山图里的每个元素所代表的意思。
首先来看一下最终的火山图长啥样:
火山图的构建基于两个主要的度量指标:
基因表达对数2倍变化(Log2FoldChange):这个指标衡量了基因在不同组别之间的表达水平变化。正值表示基因表达上调,负值表示表达下调。
统计显著性(p.value/p.adj):这个指标是基因表达变化的p值,用于评估观察到的效应(如基因表达的变化)是否可能是由于随机误差引起的,通常认为P < 0.05则结果是显著的,并且更小的p.value/p.adj意味着变化更显著。
注:绘制差异火山图需要用到差异分析的结果
差异分析参考之前的教程:生信数据分析——limma差异分析和生信数据分析——DESeq2差异分析
本项目以GSE203346数据集(高通量测序数据)展示火山图绘制过程
实验分组:疾病组(18例),对照组(19例)
R版本:4.2.2
R包:tidyverse,lance,ggplot2,ggrepel
废话不多说,代码如下:
设置工作空间:
rm(list = ls()) # 删除工作空间中所有的对象
setwd('/XX/XX/XX') # 设置工作路径
if(!dir.exists('./01_DEGs')){
dir.create('./01_DEGs')
} # 判断该工作路径下是否存在名为01_DEGs的文件夹,如果不存在则创建,如果存在则pass
setwd('./01_DEGs/') # 设置路径到刚才新建的01_DEGs下
加载包:
library(tidyverse)
library(lance)
library(ggplot2)
library(ggrepel)
导入差异分析结果(limma/DESeq2都可以):
DEG <- read.csv('./GSE203346/DEG_all.csv', row.names = 1, check.names = F)
sig_diff <- read.csv('./GSE203346/DEG_sig.csv', row.names = 1, check.names = F)
DEG如下图所示, sig_diff与DEG相似,只不过sig_diff少了那些没有显著差异的基因。
直接通过ggplot2绘制火山图(需要用到的是DEG中的log2FoldChange,pvalue,change这三列)
ggplot(data = DEG, aes(x = log2FoldChange, y = -log10(pvalue), color = change)) +
geom_point(size = 1.2, alpha = 0.4, na.rm = T) # 设置点的大小和透明度
修改火山图中散点的颜色(上调基因用红色,下调基因用绿色,不显著基因用灰色表示)
ggplot(data = DEG, aes(x = log2FoldChange, y = -log10(pvalue), color = change)) +
geom_point(size = 1.2, alpha = 0.4, na.rm = T)+ # 设置点的大小和透明度
scale_color_manual(values = c("seagreen", "darkgray","firebrick3")) # 设置颜色
给火山图横纵坐标加上阈值线:(横坐标是-0.5,0.5,纵坐标是-log10(0.05))
注:这个阈值线可以自己调整,要和差异分析的筛选阈值保持一直
ggplot(data = DEG, aes(x = log2FoldChange, y = -log10(pvalue), color = change)) +
geom_point(size = 1.2, alpha = 0.4, na.rm = T)+ # 设置点的大小和透明度
scale_color_manual(values = c("seagreen", "darkgray","firebrick3"))+ # 设置颜色
geom_vline(xintercept = c(-0.5, 0.5), # 给x坐标轴的-0.5, 0.5处添加竖线
lty = 4, # lty参数设置竖线的形式(直线,虚线等)
col = "black", # 竖线颜色设置为黑色
lwd = 0.4 # 设置线条的宽度
) +
geom_hline(yintercept = -log10(0.05), # 给y坐标轴添加横线
lty = 4, # lty参数设置竖线的形式(直线,虚线等)
col = "black", # 竖线颜色设置为黑色
lwd = 0.4 # 设置线条的宽度
)
给火山图添加主题,并且设置x轴,y轴,标题以及副标题字体,大小和颜色(其中axis.text是坐标轴文本设置,axis.title是坐标轴标题设置,plot.title是标题设置)
问:什么是主题?
答: ggplot2主题是一种系统,它允许对图像中的非数据元素进行精细的调整,而不会影响几何对象和标度等数据元素。主题不能改变图像的感官性质,但可以使图像更具美观,满足整体一致性的要求。
简单说:可以理解成是一个模板,这个模板对网格线、背景色、图片留白以及标题设置等都有统一的设定,可以在主题的基础上进一步修改字体,排版等一切元素
如下面代码中用到的就是theme_bw()这个主题,之后在theme()中修改主题的参数
ggplot(data = DEG, aes(x = log2FoldChange, y = -log10(pvalue), color = change)) +
geom_point(size = 1.2, alpha = 0.4, na.rm = T)+ # 设置点的大小和透明度
scale_color_manual(values = c("seagreen", "darkgray","firebrick3"))+ # 设置颜色
geom_vline(xintercept = c(-0.5, 0.5), # 给x坐标轴的-0.5, 0.5处添加竖线
lty = 4, # lty参数设置竖线的形式(直线&#x