使用geneHapR进行基因单倍型分析(以vcf文件为例)

news2024/11/27 19:47:58

前记

       在群体基因组学研究中,我们常常需要知道一些位点的变异情况,以便于根据对应的表型信息估算这些位点的效应,同时了解这些位点在不同亚群之间的变化情况。这个时候我们就需要进行单倍型分析(Haplotype Analysis),单倍型分析是研究基因组中特定区域的单倍型状态的方法,通过确定个体的单倍型组合及其频率,了解基因座间的关联性以及对特定性状影响。

       geneHapR是2023年发布的一款可用于单倍型分析的R包,由中国农业科学院刁现民老师课题组开发,发表于BMC旗下Bioinformatics期刊,该包的使用方法较为简单,适用于新手入门分析。

       本文以vcf文件为例,演示如何进行单倍型分析。

一、geneHap包简介

1、geneHap的工作流程

如下图所示,可以看到,用户需要准备的包括:基因型文件、注释文件和样本信息文件,以及后续会用的表型文件。输出的主要内容有:变异位点的可视化、单倍型网络、地理分布、表型比较和连锁不平衡热图。

geneHapR的工作流程

2、geneHapR的安装

打开R或Rstudio,输入以下代码进行安装:

library(BiocManager)
BiocManager::install(c("Biostrings", "GenomicRanges", "muscle", 
                       "IRanges", "rtracklayer", "trackViewer"))
install.packages("geneHapR")
library(geneHapR)

二、输入文件的设置

        需事先查询好目的基因的物理位置信息,使用bcftools工具提取目的基因的vcf变异信息文件,代码如下:

#bcftools将vcf生成bgzip和index格式
bcftools view my.vcf -Oz -o my.vcf.b.gz
bcftools index my.vcf.b.gz

#提取基因的vcf文件
bcftools filter my.vcf.b.gz --regions chr1:3478748-3480748 > mygene.vcf

在R中读取该文件:

vcf <- import_vcf("mygene.vcf")

单纯地进行基因的单倍型分析(即获取基因的不同单倍型分类情况),只需基因的vcf文件!

三、进行单倍型分析

R或Rstudio,输入以下代码:

library(geneHapR)
setwd("D:/Working-Folder/R-work/geneHapR/")

vcf <- import_vcf("mygene.vcf")
geneID <- "mygene"      # 基因ID
Chr <- "num"           # 基因所处的染色体名称
start <- start        # 基因的起始位置(染色体坐标)
end <- end          # 基因的终止位置(染色体坐标)
hapPrefix <- "Hap"        # 单倍型名称的前缀
# 从VCF开始单倍型鉴定
hapResult <- vcf2hap(vcf, hapPrefix = hapPrefix,
                     hetero_remove = TRUE, # 移除包含杂合位点的样本
                     na_drop = TRUE) # 移除包含基因型缺失的样本
# 对单倍型结果进行汇总整理
hapSummary <- hap_summary(hapResult, hapPrefix = hapPrefix)

# 将单倍型鉴定结果保存到硬盘
write.hap(hapResult, file = "mygene.hapResult")
write.hap(hapSummary, file = "mygene.hapSummary")

# 导入之前的单倍型分析结果
hapResult <- import_hap(file = "mygene.hapResult")
hapSummary <- import_hap(file = "mygene.hapSummary")

# 以表格形式展示各单倍型的基因型
plotHapTable(hapSummary,             # 单倍型结果
             hapPrefix = hapPrefix,  # 单倍型名称前缀
             angle = 45,             # 物理位置的角度
             displayIndelSize = 0,   # 图中展示最大的Indel大小
             title = geneID)         # 图片标题

运行结束后,会产生一个表格型图片,显示该基因的单倍型信息。

可以看到,该基因有6种单倍型,最后面一列是每种单倍型对应的样本数目。

四、优异单倍型挖掘

       获取单倍型及对应的样本信息后,再结合对应的表型,进行多重比较,即可获知哪一种单倍型的表型最好。此过程可在Excel活GraphPad Prism等软件进行,过程较为简单,在此不再演示。

五、参考信息

geneHapR做基因单倍型分析-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/zhang_rl/article/details/130831155

GitHub - ZhangRenL/geneHapRContribute to ZhangRenL/geneHapR development by creating an account on GitHub.icon-default.png?t=N7T8https://github.com/ZhangRenL/geneHapRgeneHapR: an R package for gene haplotypic statistics and visualization | BMC Bioinformatics | Full Text (biomedcentral.com)icon-default.png?t=N7T8https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-023-05318-9

后记

以上是简单使用geneHapR包进行单倍型分析的操作,后续讲述该包的其它功能(基因结构、LD分析、单倍型网络和地理分布等)。

--------2024.4.12

--------CXGG

千里之行,始于足下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1590479.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第07-1章 计算机网络相关概念

7.1 本章目标 了解网络协议的概念了解网络体系结构熟悉ISO/OSI参考模型以及每一层的功能掌握TCP/IP模型各层的主要协议及其功能熟练掌握IP地址、子网规划等相关内容 7.2 网络协议的概念 7.2.1 概念介绍 &#xff08;1&#xff09;网络协议&#xff1a;计算机网络和分布系统中…

AndroidAutomotive模块介绍(三)CarService服务

前言 上一篇文档总结 Android Automotive 框架的 APP 和 API 部分内容&#xff0c;本篇文档将会继续根据 Android Automotive 框架结构&#xff0c;总结 Framework 层 CarService 服务的内容。 本文档对 Android Automotive Framework 层服务将会按照如下顺序展开描述&#x…

4. Django 探究FBV视图

4. 探究FBV视图 视图(Views)是Django的MTV架构模式的V部分, 主要负责处理用户请求和生成相应的响应内容, 然后在页面或其他类型文档中显示. 也可以理解为视图是MVC架构里面的C部分(控制器), 主要处理功能和业务上的逻辑. 我们习惯使用视图函数处理HTTP请求, 即在视图里定义def…

一、flask入门和视图

run启动参数 模板渲染 后端给前端页面传参 前端页面设置css from flask import Flask, render_template,jsonify# 创建flask对象 app Flask(__name__)# 视图函数 路由route app.route("/") def hello_world():# 响应&#xff0c;返回给前端的数据return "h…

将数学表达式对分子分母先因式分解再约分化简simplify()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 将数学表达式 对分子分母 先因式分解 再约分化简 simplify() [太阳]选择题 请问以下输出结果正确的是&#xff1a; from sympy import simplify from sympy.abc import x, y A (x**2 2*x 1)…

第07-2章 TCP/IP模型

7.7 TCP/IP模型详解 7.7.1 简介 应用层的PDU>APDU&#xff08;Application PDU&#xff09; 表示层的PDU>PPDU&#xff08;Presentation PDU&#xff09; 会话层的PDU>SPDU&#xff08;Session PDU&#xff09; 7.7.2 TCP/IP协议体系 &#xff08;1&#xff09;TCP…

【尝试】域名验证:配置github二级目录下的txt文件

【尝试】域名验证&#xff1a;配置github二级目录下的txt文件 写在最前面一、初始化本地仓库二、设置远程仓库1. 远程仓库 URL 没有设置或设置错误添加远程仓库修改远程仓库 2. 访问权限问题3. 仓库不存在步骤 1: 在你的仓库中添加文件步骤 2: 确认GitHub Pages设置步骤 3: 访问…

原型模式:复制对象的智能解决方案

在软件开发过程中&#xff0c;对象的创建可能是一个昂贵的操作&#xff0c;特别是当对象的初始化包括从数据库加载数据、进行IO操作或进行复杂计算时。原型模式是一种创建型设计模式&#xff0c;它通过复制现有的实例来创建新的对象实例&#xff0c;从而避免了类初始化时的高成…

高校实习管理系统的设计与实现(论文+源码)_kaic

摘 要 如今社会上各行各业&#xff0c;都喜欢用自己行业的专属软件工作&#xff0c;互联网发展到这个时候&#xff0c;人们已经发现离不开了互联网。新技术的产生&#xff0c;往往能解决一些老技术的弊端问题。因为传统高校实习管理系统信息管理难度大&#xff0c;容错率低&am…

llama-factory SFT系列教程 (三),chatglm3-6B 命名实体识别实战

背景 llama-factory SFT系列教程 (一)&#xff0c;大模型 API 部署与使用llama-factory SFT系列教程 (二)&#xff0c;大模型在自定义数据集 lora 训练与部署本文为llama-factory SFT系列教程 第三篇 简介 利用 llama-factory 框架&#xff0c;基于 chatglm3-6B 模型 做命名…

Linux内核之自旋锁:自旋锁初始化之spin_lock_init用法实例(四十五)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

23、链表-反转链表

思路: 第一种方式还是集合方式&#xff0c;用数组装一下&#xff0c;然后从未到头遍历组装就行 第二种方式&#xff1a; 首先构建一个prenull开始遍历 获取nexthead.nexthead.nextpre,将head节点的next指针指向pre&#xff0c;前驱节点pre来到head位置 prehead&#xff1b;…

MySQL索引、B+树相关知识汇总

MySQL索引、B树相关知识汇总 一、有一个查询需求&#xff0c;MySQL中有两个表&#xff0c;一个表1000W数据&#xff0c;另一个表只有几千数据&#xff0c;要做一个关联查询&#xff0c;如何优化&#xff1f;1、为关联字段建立索引二、小表驱动大表 二、b树和b树的区别1、更高的…

一起学习python——基础篇(17)

今天我说一下python中有关文件的操作。 1、检测一个目录里面有无这个文件夹、有无txt文件&#xff0c;代码如下&#xff1a; import os #文件的路径 testPath"D:/pythonFile" testPath2"D:/pythonFile/test.txt" #使用exists()方法检查是否存在文件…

【刷题】图论——最小生成树:Prim、Kruskal【模板】

假设有n个点m条边。 Prim适用于邻接矩阵存的稠密图&#xff0c;时间复杂度是 O ( n 2 ) O(n^2) O(n2)&#xff0c;可用堆优化成 O ( n l o g n ) O(nlogn) O(nlogn)。 Kruskal适用于稀疏图&#xff0c;n个点m条边&#xff0c;时间复杂度是 m l o g ( m ) mlog(m) mlog(m)。 Pr…

要申请开通融资融券账户,有那些条件?

1、什么是融资融券交易? 融资融券交易&#xff0c;又称信用交易&#xff0c;是指投资者向具有融资融券业务资格的证券公司提供担 保物&#xff0c;借入资金买入交易所上市证券&#xff08;融资交易&#xff09;或借入交易所上市证券并卖出&#xff08;融券交易&#xff09; 的…

古月·ROS2入门21讲——学习笔记

第一讲&#xff1a;ROS/ROS2是什么 1. ROS的诞生 对于越来越复杂的智能机器人系统&#xff0c;已经不是一个人或者一个团队可以独立完成的&#xff0c;如何高效开发机器人&#xff0c;是技术层面上非常重要的一个问题&#xff0c;针对这个问题&#xff0c;一群斯坦福大学的有…

根据后端获取到的文档流,下载打开显示“无法打开文件”

原代码&#xff1a; download(item) {this.axios.get(api.download/item.name).then(res > {// console.log(res)let bob new Blob([res.data],{type: application/vnd.ms-excel})const link document.createElement(a);let url window.URL.createObjectURL(bob);link.d…

【JAVA基础篇教学】第四篇:Java条件语句

博主打算从0-1讲解下java基础教学&#xff0c;今天教学第四篇&#xff1a; Java条件语句。 在Java中&#xff0c;条件语句用于根据不同的条件执行不同的代码块。Java提供了if、else if和else等关键字来实现条件判断。 一、if语句 if语句用于执行一个代码块&#xff0c;如果给…

牛客周赛 Round 39(A,B,C,D,E,F,G)

比赛链接 官方题解&#xff08;视频&#xff09; B题是个贪心。CD用同余最短路&#xff0c;预处理的完全背包&#xff0c;多重背包都能做&#xff0c;比较典型。E是个诈骗&#xff0c;暴力就完事了。F是个线段树。G是个分类大讨论&#xff0c;出题人钦定的本年度最佳最粪 题目…