DGV结构变异数据库通常用来过滤检测的CNV、Indels等结构变异信息,以达到去除假阳性的目的。
下载的bedToBigBed和bigBedToBed为二进制程序,已编译好,可以直接使用。
1. 基础软件和文件下载
# bedToBigBed下载
wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/bedToBigBed
chmod a+x bedToBigBed
# bigBedToBed下载
wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/bigBedToBed
chmod a+x bigBedToBed
# 下载hg19基因组大小文件
wget https://genome.ucsc.edu/goldenPath/help/hg19.chrom.sizes
# hg38
wget https://genome.ucsc.edu/goldenPath/help/hg38.chrom.sizes
2. DGV数据库hg19和hg38版本下载和转换
UCSC DGV 数据下载地址: https://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=dgvPlus&hgta_table=dgvGold&hgta_doSchema=describe+table+schema
结果文件dgvMerged.hg19.bed,存储了共计826661条结构变异(CNV, Inversion, Indels)信息。
2.1 bigBed转bed文件
########## hg38版本下载和转换 ##########
# 使用bigBedToBed进行bigBed转bed
./bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/dgv/dgvMerged.bb stdout > dgvMerged.hg38.bed
########## hg19版本下载和转换 ##########
./bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg19/dgv/dgvMerged.bb stdout > dgvMerged.hg19.bed
less -S dgvMerged.hg19.bed
统计结构变异类型
cat dgvMerged.hg19.bed|cut -f10|sort|uniq
2.2 bed转bigBed文件
bedToBigBed程序需要输入三个变量,第一个是**.bed文件路径**,第二个是参考基因组大小文件.chrom.sizes路径,第三个是**.bigBed(.bb)文件输出路径**。
# 提取chr16染色体信息为例
cat dgvMerged.hg19.bed |grep '^chr16' > dgvMerged.hg19.chr16.bed
# # .bed文件需要sort -k1,1 -k2,2n
sort -k1,1 -k2,2n dgvMerged.hg19.chr16.bed > dgvMerged.hg19.chr16.sorted.bed
# 转换
./bedToBigBed dgvMerged.hg19.chr16.sorted.bed hg19.chrom.sizes dgvMerged.hg19.chr16.bb