第七章 转录组学:基因芯片及RNA_sep数据分析
大部分是可以转录的 大概70-80%可Rna
从此区域出来的rna 来看 编码基因 只占据很小的一部分 2%左右
更多的区域转录出来的是非编码rna
转录组学的测序方法 基因芯片 + RNA-sep
基因芯片只是了解思想
重点是RNA-sep
第一节 基因表达芯片数据分析
1.1 基因芯片概述
芯片很小
探针对应的序列是已知的
同时检测几百万个,所以说是高通量的
结合之后会有荧光信号
芯片数据
cel 文件
是荧光信号处理完的文件
x y 就是坐标 也就是探针的位置
mean 就是探针的信号值
cdf文件
是注释文件 就是序列信息 探针对应的序列信息是什么
一般使用官方的cdf文件就可以
PM 和 MM的概念
PM是完全匹配的 真实的
MM是和PM相邻的 MM中间位置是错配的
MM 用来评估噪音,就是可能出现的非特异性的杂交
1.2 归一化
保留生物学的差异 而不是实验导致的差异
1.2.1 归一化的方法之一:线性归一化
1.2.2 分位数归一化
举例:
归一化后
1.2.3 归一化的好坏的衡量 MA图
B图 x轴是表达量 y轴是差异 最理想的y都在 0 附近
1.3 基因表达量计算
怎么样从探针那里去计算基因的表达量呢?
1.3.1 MAS4方法
1.3.2 RMA方法
取log的原因
第二节 RNA-seq数据分析
2.1 RNA-seq介绍
2.2 RNA-seq 数据质控和比对
2.3 表达量定量和归一化
RPKM
TPM
第三节 差异表达基因分析
3.1 数据探索分析
3.1.1 聚类
批次效应
3.1.2 主成分分析
3.2 差异表达分析
应用
显著性检验
软件
软件
热图和火山图
3.3 多重假设检验校正
第四节 基因注释和功能分析
4.1 通路分析
4.2 基因集富集分析
4.3 常用基因通路数据库
4.4 常用通路分析工具