1. 输入去除重复的BAM文件
一般采用BWA MEM比对到参考基因组,对得到的BAM文件去除PCR重复,将去除重复的BAM文件作为窗口reads计数的输入文件。
去除重复方法参考本人文章:
生信软件23 - Samtools和GATK去除PCR重复方法汇总
2. 窗口文件制作
左到右列分别为: 染色体名称、窗口编号、窗口开始位置、窗口结束位置、 是否进行reads计数(1表示否,0表示是)
对着丝粒、端粒和高度重复区域需设置将reads计数设置为1,即不对该窗口reads进行计数。
一般将窗口划分为1000kb 、 200kb、 100kb 和 20kb。
窗口划分参考本人文章:
生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计
以下为100kb窗口文件。
3. 指定大小窗口的reads计数
python实现。
# count_windo