如何构建基因单倍型网络

news2024/11/21 2:39:36

一. 单倍型网络

单倍型网络图通常是指在遗传学和进化生物学中使用的一种图形表示法,用于描述不同个体或群体之间的遗传关系。这种图形通常用于研究基因或DNA序列在不同个体之间的变化和传递。在单倍型网络图中,节点表示不同的单倍型,而边表示这些单倍型之间的关系。单倍型是指一组基因座上的等位基因排列,通常由父母传递给子代。通过分析这些单倍型之间的关系,研究人员可以了解基因在群体中的传播方式,推断进化过程,以及研究种群的遗传结构等。这种图形表示法在基因组学研究中经常用于研究人类群体、动植物种群等,以揭示基因变异和演化的模式

基因单倍型网络(Genetic Haplotype Network)是一种用于分析基因组数据的工具,它可以帮助理解不同基因型之间的关系和演化历史。

二. 构建基因单倍型网络通常涉及以下步骤:

  1. 收集基因数据:首先,需要收集感兴趣的基因的数据。这些数据可以来自于实验室的基因测序实验、公共数据库(如dbSNP、1000 Genomes Project等)或者其他的来源。

  2. 数据预处理:对收集到的基因数据进行预处理是非常重要的。这可能包括去除低质量的数据点、处理缺失值、进行基因型的编码等。确保数据的质量和一致性对于构建准确的单倍型网络至关重要。

  3. 计算单倍型:单倍型是指在一对等位基因上的一组遗传标记的特定组合。通常,基因数据会包含多个单核苷酸多态性位点(SNP),而每个SNP有两种等位基因(如A和T)。通过分析这些SNP的组合模式,可以确定不同的单倍型。

  4. 构建网络:一旦获得了单倍型数据,就可以开始构建单倍型网络了。在网络中,每个节点代表一个单倍型,而边则表示单倍型之间的关系。通常,基因单倍型网络是基于遗传距离或相似性来构建的,这可以使用各种算法和技术来完成,如最小生成树算法、中位数网络算法等。

  5. 可视化和分析:构建网络后,通常需要对其进行可视化和分析,以便更好地理解基因型之间的关系。常见的可视化工具包括Cytoscape、Gephi等。此外,还可以使用网络分析方法来识别网络中的关键节点、社区结构等,以揭示基因型之间的演化模式和功能关联。

总的来说,构建基因单倍型网络需要对基因数据进行仔细处理和分析,并利用适当的算法和工具来揭示基因型之间的关系和演化历史。

1.基因型和单倍型:

在基因组中,基因型是指一个个体在一对基因座上的基因的组合。单倍型是指在一个特定基因座上的一组等位基因的排列方式。每个个体有两个基因,分别来自母亲和父亲。一个基因座上的两个等位基因组成一个单倍型

2.举例

在这个图中,每个节点代表一个单倍型,用A和B表示基因座上的两个等位基因。例如,节点"A1B1"表示在这个基因座上,个体拥有A1和B1两个等位基因。图中的连接表示遗传关系。

现在,我们来进行一些简单的分析:

  1. 亲缘关系: 通过图中的连接,我们可以看到哪些单倍型是由共同的祖先传递而来的。例如,A1B1和A1B2之间有连接,说明它们可能有共同的父母。
  2. 基因流动: 通过观察图中的连接模式,我们可以了解基因在群体中的传递方式。如果有很多连接穿越整个图,说明基因在群体中的流动较为频繁。
  3. 群体结构: 如果图中存在明显的分支结构,表示群体中可能存在亚群体,基因在这些亚群体之间的交流较少。

三.用PopART构建单体型网络和单体型地图

软件下载

直接官网下载就好,PopART。

PopART,该软件支持Windows,Mac,Linux系统,而且用起来也非常方便,支持多种常用的Network构建方法,关键是该软件支持地图的形式展示单体型分布。下面简单介绍一下该软件的使用方法。

PopART的输入文件格式为NEXUS,一般主要用到两个部分DATA和TRAITS。

#NEXUS

begin data;

dimensions ntax=4 nchar=30;

format datatype=dna missing=N gap=-;

matrix

seq1 CCACCGTTGCTAAAAATTCATGACACAAGG

seq2 CCACAGTTTCTAAAAATTCGTGATACAAGG

seq3 CCACAGTTGCTACAAATTCATGATACAAGG

seq4 CCACAGGTGCTAAAAATTCATGAAACAAGG

;

end;

BEGIN TRAITS;

Dimensions NTRAITS=5;

Format labels=yes missing=? separator=Comma;

TraitLatitude 53 43.6811 5.4 -25.61 -0;

TraitLongitude 16.75 87.3311 26.5 134.355 -76;

TraitLabels Europe Asia Africa Australia America;

Matrix

seq1 10,5,0,6,0

seq2 0,0,5,0,0

seq3 4,0,10,0,0

seq4 0,0,0,4,2

;

END;

DATA部分主要纪录单体型信息,比较好理解。

TRAITS部分主要纪录单体型来源的群体。如上所示,例子中取了来自5个大洲的样本,一共4种单体型,TRAITS纪录了每种单体型在不同大洲取样的个数,如seq1Europe有10个,在Asia有5个等等。关键字TraitLatitude和TraitLongitude纪录5个群体取样地点的经纬度,该信息在单体型网络构建中可以不用,当需要用地图展示单体型地理分布时,需要填该信息。

NEXUS文件生成后,打开PopART,通过File -> Open输入NEXUS文件,然后通过菜单栏Network选择单体型网络构建算法,如常用的Median Joining Network。选择Median Joining Network后,会提示填写Epsilon参数,该参数用来控制推断中间单体型的细节程度,该值越大,会展示更多推断的中间单体型,一般选择默认的0就好。填好该参数后,点击OK,就生成了我们需要的单体型网络。然后通过菜单栏Edit下的选项,对图中群体的颜色、字体、图例等进行调整。

数据准备

PopART的输入文件是.nex格式文件,该文件主要包含两个部分内容:DATA和TRAITS,也就是序列信息和分组信息。

DATA准备

当然是准备我们要用来建立单体型网络图的序列文件,画图前要先把所有样本的该序列都做alignment(ClustalW、Muscle等软件)。

拿到序列文件后,就开始构建.nex文件中的DATA部分,把这个复杂的步骤交给DnaSP

打开DnaSP->载入比对好的序列文件.fas->Generate->Haplotype file->储存为.nex文件

TRAITS准备

这个部分如字面意思,告诉软件数据的分组信息,直接人工添加到上一步生成的.nex文件的最下方(用记事本打开.nex文件编辑)。格式如下图所示:

TRAITS

红框所示部分为样本总分组数;黄框所示部分为样本分组名称;蓝框所示部分为单体型名称和每个分组在该单体型中的样本数量。(注意:分隔符号是Tab键)

画单体型网络图

打开PopART->导入上述.nex文件->选择Network->TCSnetwork

可通过菜单栏各个选项调整群体颜色、字体、比例等。

画单体型地图

选择View->Switch to map view

补充

上面提到,如果我们用来分析的样品不是某基因,而是基因组SNP序列,那么,我们需要找到强连锁区。

#用plink过滤低频位点
plink --vcf xxxx.vcf --maf 0.05 --geno 0.2 --recode vcf-iid -out xxxx-maf0.05 --allow-extra-chr
#用plink筛选连锁区
plink --vcf xxxx-maf0.05.vcf --indep-pairwise 100 50 0.2 -out xxxx-maf0.05-LD --allow-extra-chr --make-bed
#用plink找到强连锁区
plink --noweb --bfile xxxx-maf0.05-LD --blocks no-pheno-req --allow-extra-chr

强连锁区的结果储存在.blocks.det文件中,该文件第一列为染色体/contig名称;第二列为连锁区的开始位置;第三列为连锁区结束位置。找到感兴趣的区域,用beagle软件提出该区域构建DATA文件。

java -Xss5m -Xmx4g -jar YourWayToBeagle/beagle.jar gt=xxxx-maf0.05.vcf out=phased chrom=Chr:start-end
#VCF转换phy
vcf2phylip.py -i phased.vcf.gz
#有了phy文件拿到Win操作系统下,用Bioedit就可以变成fasta格式

上述VCF转换fasta脚本来源:vcf2phylip.py

进化分析Arlequin

Arlequin软件也可以进单倍型分析

参考来源:

PopART构建单倍型网络图 - 知乎 (zhihu.com)

单体型网络的构建——Haplotype Network - 简书 (jianshu.com)

单倍型地理图绘制

PoPART下载

DnaSP下载

beagle下载

进化分析Arlequin全教程,不来看看吗? - 知乎 (zhihu.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1691543.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自己搭建ntp服务器

1、背景 终端在使用过程中,发现联网后进行NTP(network time protocol,网络时间协议)校时过程中,经常出现校时失败的问题,特别是本地环境,因此需要在自己这边搭建测试环境。 2、搭建步骤 2.1 安葬服务器 sudo apt-get…

Python项目:数据可视化_下载数据【笔记】

源自《Python编程:从入门到实践》 作者: Eric Matthes 02 下载数据 2.1 sitka_weather_07-2021_simple.csv from pathlib import Path import matplotlib.pyplot as plt import csv from datetime import datetimepath Path(D:\CH16\sitka_weather_0…

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 5月25日,星期六

每天一分钟,知晓天下事! 2024年5月25日 星期六 农历四月十八 1、 气象台:未来三天,北方雷雨侵扰,南方暴雨大暴雨将成片出现,今年首个台风生成在即。 2、 人社部:拟增加网络主播等19个新职业&am…

“高考钉子户”唐尚珺决定再战2024年高考

“高考钉子户”唐尚珺决定在2024年再次参加高考,这个选择确实很特别也很有趣。十几年连续参加高考,他已经积累了大量的备考经验和应试技巧。这样的经验对于高考辅导机构来说无疑是非常宝贵的资源,他如果选择去辅导机构当老师,应该…

运算符重载(上)

目录 运算符重载日期类的比较判断日期是否相等判断日期大小 赋值运算符重载赋值运算符重载格式赋值运算符只能重载成类的成员函数不能重载成全局函数用户没有显式实现时,编译器会生成一个默认赋值运算符重载,以值的方式逐字节拷贝 感谢各位大佬对我的支持…

使用llama.cpp实现LLM大模型的格式转换、量化、推理、部署

使用llama.cpp实现LLM大模型的量化、推理、部署 大模型的格式转换、量化、推理、部署概述克隆和编译环境准备模型格式转换GGUF格式bin格式 模型量化模型加载与推理模型API服务模型API服务(第三方)GPU推理 大模型的格式转换、量化、推理、部署 概述 llama.cpp的主要目标是能够在…

微信小程序反编译/解包

微信小程序反编译/解包 环境与工具 操作系统:Windows 11 23H2 微信版本:3.9.10.19 Q:如何找到小程序文件位置? A:在微信的设置找到文件路径,小程序文件位于 \WeChat Files\Applet\。 Q:小程…

centos下yum -y install npm报没有可用软件包 npm

yum -y install npm安装报错 失败原因是因为缺少epel(epel是社区打造的免费开源发行软件包版本库,系统包含大概1万多个软件包),需要先安装epel-release 解决方法: 1、先安装epel-release yum -y install epel-releas…

1106 2019数列

solution 维护长度为4的数组&#xff0c;对于第四位之后的数字&#xff0c;为所维护数组的所有元素之和 的个位数 #include<iostream> using namespace std; int main(){int n, a[4] {2, 0, 1, 9}, cnt 0, d;scanf("%d", &n);for(int i 0; i < n; …

dmanywhere的docker制作

dmanywhere的docker制作 官网地址&#xff1a; http://www.dmanywhere.cn/ 下载相关执行文件。 Dockerfile的默认命名是“Dockerfile”&#xff0c; 在构建镜像时&#xff0c;如果没有指定Dockerfile文件&#xff0c;Docker通常会寻找名为“Dockerfile”的文件 1.Dockerf…

Python使用连接池操作MySQL

测试环境说明&#xff1a;Python版本是 3.8.10 &#xff0c;DBUtils版本是3.1.0 &#xff0c;pymysql版本是1.0.3 首先安装指定版本的连接池库DBUtils 、还有pymysql pip install DBUtils3.1.0 pip install pymysql1.0.3创建文件 sqlConfig.py # sqlConfig.pyimport pymysql…

vue2vue3为什么el-table树状表格失效?

上图所示&#xff0c;后端返回字段中有hasChildren字段。 解决树状表格失效方案&#xff1a; 从后端拿到数据后&#xff0c;递归去掉该字段&#xff0c;然后就能正常显示。&#xff08;复制下方代码&#xff0c;直接用&#xff09; 亲测有效&#xff0c;vue2、vue3通用 /**…

【飞舞的花瓣】飞舞的花瓣代码||樱花代码||表白代码(完整代码)

关注微信公众号「ClassmateJie」有完整代码以及更多惊喜等待你的发现。 简介/效果展示 这段代码是一个HTML页面&#xff0c;其中包含一个canvas元素和相关的JavaScript代码。这个页面创建了一个飘落花瓣的动画效果。 代码【获取完整代码关注微信公众号「ClassmateJie」回复“…

泰克TBS2204B示波器如何设置存储时间?

示波器是电子测量领域中不可或缺的重要仪器之一。泰克公司生产的TBS2204B数字示波器是一款广受欢迎的中端市场产品&#xff0c;其中存储时间设置是用户需要掌握的关键操作之一。 TBS2204B示波器的存储时间设置涉及以下几个方面&#xff1a; 1. 存储时间基准 存储时间基准决定…

深度神经网络——什么是 K 均值聚类?

K 均值聚类 K 均值聚类是 无监督学习在所有无监督学习算法中&#xff0c;K 均值聚类可能是使用最广泛的&#xff0c;这要归功于它的强大功能和简单性。 K-means 聚类到底是如何工作的&#xff1f; 简而言之&#xff0c;K 均值聚类的工作原理是 创建参考点&#xff08;质心&am…

拼多多携手中国农业大学,投建陕西佛坪山茱萸科技小院

5月16日下午&#xff0c;中国农业大学陕西佛坪山茱萸科技小院在佛坪县银厂沟村揭牌。佛坪县素有“中国山茱萸之乡”的美誉&#xff0c;是全国山茱萸三大基地之一&#xff0c;当地山茱萸是国家地理标志产品&#xff0c;山茱萸肉产量位居全国第二。 为充分发挥佛坪县得天独厚的山…

【在Postman中,如果后端返回的是String类型的数据但不是JSON格式,报错】

在Postman中&#xff0c;如果后端返回的是String类型的数据但不是JSON格式 问题描述解决办法 postman后端返回的String数据,不是json,怎么设置结果的接收&#xff1f; 问题描述 在postman中测试接口&#xff0c;报错Error&#xff1a;Abort&#xff0c;或者显示返回数据校验失…

C#_初识变量类型与方法

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace ConsoleApp2 {class Program{static void Main(string[] args){///--------常用的变量类型float a 3.12f; //单精度32bit浮点型后缀要加fdou…

LED显示屏的智能化发展与未来趋势

摘要&#xff1a;随着智能化技术的飞速发展&#xff0c;LED显示屏行业也迎来了新的变革。本文将探讨LED显示屏的智能化发展方向&#xff0c;包括人屏互动、大屏中控智能化&#xff0c;以及智能LED显示屏在不同领域的应用前景。 1、引言 在智能化浪潮的推动下&#xff0c;LED显示…

掌握代码注释:提升代码可读性的秘密武器

新书上架~&#x1f447;全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目录 一、为什么我们需要注释&#xff1f; 二、如何添加单行注释&#xff1f; 使用井号 # 添加单…