Circos图其实是一个用途非常广泛的图形,可以用于表征基本上任何类型的数据,包括把我们常见的散点图、折线图和柱状图等都可以整合到Circos当中。特别是,Circos尤其适合用来描述生物信息学和基因组学的数据。
1.绘制Circos图
目前绘制Circos图的方法很多,perl语言、R语言等等都可以完成,今天分享的是TBtools的“AdvancedCircos”的可视化模式。TBtools中的“AdvancedCircos”功能支持可视化多组连续或离散数据。
利用Tbtools绘制Circos图
Circos图通常包含4类数据:
1.第一类是染色体骨架:它是Circos图的主干,是必需的输入数据。默认输入数据由两个必填列,一个是染色体ID,另一个是染色体长度信息。用户也可以在第三列增加可选RGB代码,以指定染色体骨架的颜色。
2.第二类是特定染色体区域的特征数据:可用于标记特定区间,如基因或QTL(数量性状基因座)位置。相应的输入是一个以制表符分隔的文件,其中包含四个必填列和一个可选列:染色体ID、区域标记标签、起始坐标、结束坐标和RGB代码(可选)。
第一列染色体编号,第二列gene编号,第三列染色体起始位置,第四列染色体终止位置。最终得到下图文件。
3.第三类显示染色体区域的关联信息:通常用于显示同源区域或染色体相互作用关系等。这类数据通常放在Circos图的最内层---一般是共线性分析----MCScanX。
输入文件由六个必填列和一个可选列组成,以制表符分隔,分别是染色体ID、起始坐标、终止坐标、染色体ID、起始坐标、终止坐标和RGB代码(可选)。
4.第四类是染色体区域统计数据:可以以各种方式显示,包括连续数据(以热图、条形图、折线图或点图显示)和离散数据(以三角形、箭头或平铺/矩形显示)。
对于连续数据,输入文件的格式为“染色体ID、起始坐标、结束坐标和以数字标示的值”(图1B-E);对于离散数据,输入文件格式为“染色体ID、起始坐标、结束坐标和RGB代码”
对于箭头符号,当起始坐标大于结束坐标时,其方向相反。通过调整绘图跨度,可以堆叠Circos绘图上的不同轨迹,以实现各种可视化类型组合,如图1I所示。矩形/平铺轨迹用于突出显示染色体部分区域。
2.基因组数据可视化
在构建好基因组骨架之后,我们可以在这个基础上添加轨道来展示基因组的一些特征:
如GC含量、未知碱基、基因密度、测序数据覆盖度分布、基因组变异数据、重复序列以及LRT等。