VET:基因变异VCF数据集便捷提取工具

news2025/1/23 7:04:57

VET:Vcf Export Tools

工具简介

VET是一个基于R语言开发的变异位点信息批量提取工具,主要功能是根据VCF数据集,按照基因ID、样品ID、变异位点ID等参数,实现批量提取,同时支持变异位点结构注释,一步搞定变异数据的快速提取。

########## WelCome to VCF Export Tools ###########
>>>>>>>>>>>>>>>> Design By BioNote <<<<<<<<<<<<<<<<<
可选参数:
[1]根据基因ID提取变异数据
[2]根据物理位置提取变异数据
[3]根据样品名称提取变异数据
[4]根据SNP名称提取变异数据
--------------------------------------------------
[INFO]第一个参数填选项,第二个参数填项目备注名称
[INFO]第三个参数选择是否过滤样本,默认为“N”
[INFO]第四个参数选择是否进行结构注释,默认为“N”
[INFO]运行方法 $ Rscript ./run.R 1 test Y Y
>>>>>>>>>>>>>>>> 程序版本:V 2.0.1 <<<<<<<<<<<<<<<<
##################################################

功能与应用

基因测序后经过上游分析得到的VCF文件储存了所有样本对应的所有变异信息,通常数据量非常大,在实际使用中需要根据情况对指定信息进行提取。目前已有vcftools或bcftools等工具能够实现上述操作,但是用的时候参数比较复杂,整个过程略显繁琐。


本工具集成了R、tidyverse、Python、vcftools、bcftools、snpEff等常用工具,开发便捷式流程实现批量操作。

主要应用场景是对大规模VCF原始数据集进行提取,支持多种个性化方式

  • 按基因ID提取指定基因内变异信息
  • 按材料名称提取某些材料变异信息
  • 按变异位点名称筛选指定变异信息
  • 按照物理位置提取指定区段内数据

支持流式操作,提取后筛选指定样品并对每个变异位点进行结构注释(判断错义突变、移码突变等),最终将结果文件打包生成压缩包。

使用方法

  • 第一步:输入待提取的信息
  • 第二步:运行Run.R脚本
  • 第三步:下载结果文件

可以批量操作,无需手写代码。

原理介绍

VCF是生信研究中储存基因变异信息的重要格式,通常经过测序上游分析后得到一份具有丰富信息量的vcf或者vcf.gz文件。

alt

以“##”开头的行表示注释信息,一般记录了字段类型和历史命令,这部分相当于一个日志信息。剩下的数据部分类似一个表格,大体上每行是一个变异位点,每列是一个材料样本。

变异位点(简称SNP)是按照染色体上不同位置进行统计的,展示不同材料中在某个位置碱基差异。

alt

按照突变的类型可以分为3种类型:

  • 缺失:Del,某些碱基不见了
  • 插入:Ins,新出现了某些碱基
  • 替换:SNP,单核苷酸多态性变异

alt 一般常见的VCF文件主要由上述信息组成,对于大规模测序得到的多个样品合并VCF文件,可能包含几千万行×几千列(亿级数据量)。

在实际进行分析时,可能只需要考虑某几个基因或者是一小段区间内的变异数据,因此需要对VCF文件进行提取,只取出想要的一小部分,这个过程涉及到Linux下不同软件的相互配合。

VET 源代码

首先,建立项目文件夹并生成以下结构:

Aug  9 16:30 00_scripts
Aug 17 15:24 01_INPUT_GeneID.txt
Aug 17 16:09 01_out_byGeneID
Aug  9 18:30 02_INPUT_Postion.txt
Aug 10 11:25 02_out_byPostion
Aug 10 11:02 03_INPUT_SampleName.txt
Aug  4 15:13 03_out_bySampleName
Aug  4 15:31 04_INPUT_SNP.txt
Aug  4 15:14 04_out_bySNP
Aug  6 11:34 05_INPUT_filevcf.txt
Aug  6 11:33 05_out_bySnpEff

程序初始化

下面的代码为程序初始化过程,将会加载tidyverse等软件包,并读取重要参数,完成后将获得输出提示。

#!/usr/local/bin/Rscript
# VCF Export Tools 基因型变异数据批量提取工具,快捷提取VCF文件
# 依赖软件:Python、bcftools、tidyverse、snpeff
suppressPackageStartupMessages(library("cli"))
suppressPackageStartupMessages(library("tidyverse"))
cli::cli_text("########## WelCome to VCF Export Tools ###########
 \n >>>>>>>>>>>>>>>> Design By Jewel <<<<<<<<<<<<<<<<<
 \n可选参数:
 \n\t[1]根据基因ID提取变异数据
 \n\t[2]根据物理位置提取变异数据
 \n\t[3]根据样品名称提取变异数据
 \n\t[4]根据SNP名称提取变异数据
 \n--------------------------------------------------
 \n[INFO]第一个参数填选项,第二个参数填项目备注名称
 \n[INFO]第三个参数选择是否过滤样本,Y为过滤指定样本
 \n[INFO]第四个参数为'Y'时将对vcf文件进行变异结构注释
 \n[INFO]例如 $ ./run.R 1 test Y Y
 \n>>>>>>>>>>>>>>>> 程序版本:V 2.0.1 <<<<<<<<<<<<<<<<
 \n ##################################################"
)
 args <- commandArgs(T)
if(length(args)!=4){stop("参数输入有误,请检查输入格式,示例“./Run.R 1 jobname Y/N Y/N")}
# CONFIG SETTING:
db_file <- "wgs_all.vcf.gz" # 设置数据库名称
db_name <- "WGS"

# 程序初始化,删除上次输出结果文件----------
OPT <- args[1] # 程序子选项
JOB <- args[2] # 项目备注信息
SAM <- args[3] # 是否过滤样本
EFF <- args[4] # 是否结构注释
print(str_c("INFO   当前选择的数据库为:",db_file))
print(str_c("INFO   当前项目名称为: ",OPT," <-> ",JOB))
print(str_c("INFO   是否对样品进行过滤(Y为过滤指定样本,否则不过滤):"),SAM)
print(str_c("INFO   是否对vcf进行结构变异注释(Y为进行注释,否则不注释):"),EFF)
system("rm -rf ./01_out_byGeneID/*")
system("rm -rf ./02_out_byPostion/*")
system("rm -rf ./03_out_bySampleName/*")
system("rm -rf ./04_out_bySNP/*")
system("rm -rf ./05_out_bySnpEff/*")
cli::cli_text("INFO   系统输出文件夹初始化完成")

根据基因ID提取变异信息

根据输入的参数进行判断,如果选项为1,则执行下面的步骤,主要调用Python程序进行信息检索,并由bcftools工具批量提取变异信息,若需要根据指定样品进行过滤,则利用view功能对样品进行筛选,最后生成结果压缩文件。

if (OPT == "1"){
  cli::cli_text("INFO   待提取的基因ID如下,将自动自取上下游3000bp内的变异数据")
  id <- read.table("./01_INPUT_GeneID.txt",header = F)
  print(id$V1)
  cli::cli_text("INFO   基因ID信息整理完毕,接下来开始检索物理区间")
  system("Rscript prefix_gene_filter.R ./01_INPUT_GeneID.txt")
  cli::cli_text("INFO   接下来执行Python脚本调用bcftools提取基因变异信息")
  system(str_c("python bcftools_view_filiter_Chr.py --input ./00_scripts/id.txt --vcf ./",
               db_file))
  cli::cli_text("INFO   提取完成,对结果进行打包压缩")
  
  if (SAM == "Y"){
    for (i in 1:nrow(id)){
      system(str_c("bcftools view --force-samples -S ",
                   "./03_INPUT_SampleName.txt ",
                   id$V1[i],".vcf.gz > ",
                   id$V1[i],".vcf"))
    }
    system("mv ./Traes*vcf ./01_out_byGeneID/")
    system("rm -rf ./Traes*vcf.gz")
    system(str_c("tar -czvf ",format(Sys.Date(), "%Y_%m_%d"),"_",JOB,"_ExportFrom_",db_name,
                 "_LOTSample_Filter_ByGeneID",".tar.gz ./01_out_byGeneID/* ./Tips.pdf"))
  }else{
    system("mv ./Traes* ./01_out_byGeneID/")
    system(str_c("tar -czvf ",format(Sys.Date(), "%Y_%m_%d"),"_",JOB,"_ExportFrom_",db_name,
                 "_AllSample_Filter_ByGeneID",".tar.gz ./01_out_byGeneID/* ./Tips.pdf"))
  }
  cli::cli_text("INFO   任务运行结束,请及时下载结果文件,下次运行前将清空结果文件")
}

根据物理位置提取变异信息

根据指定的物理区间判断染色体的和起止位置,并结果VCF文件筛选指定区间内的变异数据,采用bcftools的 filter功能进行实现,提取完成后进行打包压缩。

if (OPT == "2"){
  cli::cli_text("INFO   待提取物理区间如下,正在提取中......")
  region <- read.table("./02_INPUT_Postion.txt",header = F)
  for (i in 1:nrow(region)){
    print(str_c("Index: ",i,"   Region: ",region$V1[i],"   Info: ",region$V2[i]))
    system(str_c("bcftools filter ",db_file," --regions ",region$V1[i]," > ",region$V1[i],"_",region$V2[i],".vcf"))
    system("mv Chr* ./02_out_byPostion/")
    system("rename : _ ./02_out_byPostion/*")
    system("rename - _ ./02_out_byPostion/*")
  }
  cli::cli_text("INFO   提取完成,对结果进行打包压缩")
  system(str_c("tar -czvf ",format(Sys.Date(), "%Y_%m_%d"),"_",JOB,"_ExportFrom_",db_name,
               "_AllSample_Filter_ByPositin",".tar.gz ./02_out_byPostion/* ./Tips.pdf"))
  cli::cli_text("INFO   任务运行结束,请及时下载结果文件,下次运行前将清空结果文件")
}

今天分享的内容就到这里,还有两个功能正在开发中,之后有时间再分享关于提取指定位点名称和结构注释的方法,目前这项工具还未完成,如需抢先体验请后台联系,后续将开源至Github,欢迎转发分享。


参考资料:

https://mp.weixin.qq.com/s/DdXyqiW7c7lCp4103flQZQ

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/893800.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

慎投!新增4本期刊被“On Hold”!快自查

又新增了被标记的期刊&#xff01;截至目前&#xff0c;小编从科睿唯安旗下的“Master Journal List”官网查到&#xff0c;本次新增4本ESCI期刊被标记&#xff0c;目前有8本SCIE期刊&#xff0c;1本SSCI期刊&#xff0c;13本ESCI期刊&#xff0c;共22本期刊被标记为“On Hold”…

应用案例 | 基于高精度三维机器视觉的车门框定位涂胶系统应用

Part.1 项目背景 传统的涂胶方式容易受到人工操作的限制&#xff0c;存在涂胶位置不准确、涂胶厚度不均匀等问题。随着汽车制造对涂胶质量和生产效率的要求越来越高&#xff0c;汽车制造商对于车门框定位涂胶的精度要求也越来越高&#xff0c;基于高精度三维机器视觉技术的车门…

用AI做表情包制作方法教程

今天要给大家分享的是用Midjourney制作微信表情包变现项目&#xff1b;在6月份给大家做过一期表情包的案例拆解&#xff0c;那期只作了案例分享和一些教程&#xff0c;这次我们得获得了最新的实战收益数据&#xff0c;下面是收益数据&#xff01; 以前在没有AI工具的情况下&…

SpringBoot复习:(53)TransactionInterceptor是在哪里配置的?

我们知道SpringBoot的事务(Transactional)最终是通过TransactionInterceptor的invoke方法调用invokeWithinTransaction方法来开启事务控制的。 TransactionInterceptor bean在哪里配置的呢&#xff1f;在ProxyTransactionManagementConfiguration: 可以看到这里创建了一个Tra…

《人力资源》期刊简介及投稿要求

《人力资源》期刊简介及投稿要求 《人力资源》杂志创刊于1989年&#xff0c;是经新闻出版总署批准的一级期刊&#xff0c;是目前国内人力资源领域的实操性杂志。创刊30年来&#xff0c;作为人力资源领域的唯一官媒&#xff0c;我们始终坚持将全面推进“人才强国战略”为己任&a…

ElasticSearch-安装部署全过程

本文已收录于专栏 《中间件合集》 目录 概念说明什么是ElasticSearch什么是Kibana什么是RESTful API 提供服务安装过程安装ElasticSearch1.下载ElasticSearch 安装包2.解压安装包3.进入解压之后的文件夹4.创建一个data文件夹用来存储数据5.进入config文件夹编辑elasticsearch.y…

前端编辑页面修改后和原始数据比较差异

在软件研发过程中&#xff0c;会遇到很多编辑页面&#xff0c;有时编辑页面和新增页面长的基本上一样&#xff0c;甚至就是一套页面供新增和编辑共用。编辑页面的场景比较多&#xff0c;例如&#xff1a; 场景一、字段比较多&#xff0c;但实际只修改了几个字段&#xff0c;如…

LED电子显示屏在安防监控中心的作用

在安防监控中心&#xff0c;调度中心被视为核心要素&#xff0c;而LED电子显示屏则成为完整调度系统中人机互动的中心环节&#xff0c;涵盖人员调度、计划制定等关键决策&#xff0c;其地位举足轻重&#xff0c;主导全局。LED电子显示屏展示系统主要用途包括信息交流、人机互动…

使用GPT 自动化您的代码库

推荐&#xff1a;使用 NSDT场景编辑器 助你快速搭建可二次编辑的3D应用场景 介绍 随着人工智能领域的发展和演变&#xff0c;我们已经看到了GPT&#xff0c;ChatGPT&#xff0c;Bard等强大工具的兴起。程序员正在使用这些工具来简化他们的工作流程并优化他们的代码库。它使他们…

RWKV系列2-RWKV-LM

训练数据集 https://data.deepai.org/enwik8.zip 使用分类参考 https://zhuanlan.zhihu.com/p/639629050 模型分类和使用任务 解码参数&#xff0c;推荐值&#xff1a; 小说和对话&#xff1a;temp 1.2 topp 0.5 或 temp 1.4 topp 0.4 或 temp 1.7 topp 0.3 或 temp 2 top…

Openlayers实战:移动鼠标至重叠几何图形上,获取多层所有features信息

在Openlayers的实际项目中,经常会出现在某个区域内有多个矢量层叠加的情况,这个时候点击内部一点,我们要获取到所有矢量层的信息。如果做到这一点呢,这个示例就演示了两个图层叠加,获取到全部信息的情形。 效果图 源代码 /* * @Author: 大剑师兰特(xiaozhuanlan),还是…

Leetcode61 旋转链表

给你一个链表的头节点 head &#xff0c;旋转链表&#xff0c;将链表每个节点向右移动 k 个位置。 示例1&#xff1a; 输入&#xff1a;head [1,2,3,4,5], k 2 输出&#xff1a;[4,5,1,2,3] 示例2&#xff1a; 输入&#xff1a;head [0,1,2], k 4 输出&#xff1a;[2,0,1] …

材料行业可以转IC设计后端吗?

近来有许多材料行业的小伙伴通过后台来问我对于职业规划的看法&#xff0c;甚至有些小伙伴直接点明了某个行业适不适合自己&#xff0c;那么我这边仅以近年来比较热门的数字芯片设计来展开讲讲&#xff0c;材料适不适合转行做IC呢。 对于理工科的同学而言&#xff0c;选择哪个…

网络安全设备篇——加密机

加密机是一种专门用于数据加密和解密的网络安全设备。它通过使用密码学算法对数据进行加密&#xff0c;从而保护数据的机密性和完整性。加密机通常被用于保护敏感数据&#xff0c;如金融信息、个人身份信息等。 加密机的主要功能包括&#xff1a; 数据加密&#xff1a;加密机使…

药品最新研究信息查询系统

查找最新药物研究进展信息在患者治疗选择、医疗实践、科学研究、药物监管和政策制定、教育和学术研究等方面都具有重要的应用价值。它可以为各个领域的人员提供最新的科学依据和决策支持&#xff0c;促进医学领域的发展和提高医疗质量。 但在查找药物最新研究进展信息时通常需要…

【数据库服务网格】浅谈Database Mesh及未来

文章目录 前言1. 服务网格&#xff1a;Service Mesh服务网格优势 2. 数据库服务网格&#xff1a;Database Mesh3. 数据服务网格&#xff1a;Data Mesh 前言 Database Mesh&#xff0c;这一概念是由开源软件shardingsphere的作者张亮&#xff0c;最早于2018年提出的。其含义是D…

又双叒叕!五大数据库全方位注释,抗性宏基因组分析项目再次升级!

基于宏基因组测序的抗性基因分析是目前ARGs分析的重要手段&#xff0c;五大数据库全面注释分析&#xff0c;一网打尽ARGs、MRGs、BRGs、MGEs、致病菌注释。 项目报告不仅包含抗性基因的多样性、丰度和分布模式&#xff0c;还能获得包括抗性组变化驱动因素、指示基因识别、抗性组…

Java智慧工地系统源码(微服务+Java+Springcloud+Vue+MySQL)

智慧工地系统是依托物联网、互联网、AI、可视化建立的大数据管理平台&#xff0c;是一种全新的管理模式&#xff0c;能够实现劳务管理、安全施工、绿色施工的智能化和互联网化。围绕施工现场管理的人、机、料、法、环五大维度&#xff0c;以及施工过程管理的进度、质量、安全三…

SpringCloud最新最全面试题

目录 一、简单说一说什么是微服务&#xff1f; 二、微服务有哪些优缺点&#xff1f; 三、微服务、分布式、集群的区别&#xff1f; 四、什么是Eureka&#xff1f; 五、Eureka有那两大组件&#xff1f; 六、actuator是什么&#xff1f; 七、Discovery是什么&#xff1f; …

4.1 C++ Boost 字符串处理库

Boost 库是一个由C/C语言的开发者创建并更新维护的开源类库&#xff0c;其提供了许多功能强大的程序库和工具&#xff0c;用于开发高质量、可移植、高效的C应用程序。Boost库可以作为标准C库的后备&#xff0c;通常被称为准标准库&#xff0c;是C标准化进程的重要开发引擎之一。…