群体遗传 — 核苷酸多样性π

news2025/1/14 18:22:17

群体遗传 — 核苷酸多样性π

**核苷酸多样性(nucleotide diversity),记为π,是分子遗传学中一个重要的概念,用于量化种群内部或不同种群间的遗传多样性。**这一概念由根井正利和李文雄在 1979 年提出。核苷酸多样性的计算基于从一个种群中获得的多个样本 DNA 序列上相同位点碱基差异的平均值,反映了群体内不同个体 DNA 序列间的平均碱基差异比例,从而广泛用于表征种群的遗传多样性水平。这种方法用数学公式表示如下:

xixj分别代表第i个和第j个序列的对应频率[注 1]。πij则为两个序列之间不同位点所占百分比[注 2]。n则为总样本数。

选择压力分析

**通过核苷酸多样性进行选择压力分析的本质是基因组上受选择区域的变异位点杂合率下降。**如下图所示,当一个有利突变发生后,这个突变基因的适合度越高,就越容易被选择固定。当这个位点被快速固定之后,与此基因座紧密连锁的染色体区域,由于搭车效应也被固定下来,该区域及其连锁的区域表现为多态性降低,纯和度增加。

基因组上受选择程度越高,则杂合度程度越低,对应的核苷酸多样性越低。因此对全基因组的核苷酸多样性进行检测,可以推断出这一种群所受到的选择压力及基因组中受到选择的区域。

上图中展示了甘蓝型油菜地方品种的全基因核苷酸多样性水平显著高于改良后的栽培种,表明油菜栽培种受到了较强的人工选择影响。

扫码关注微信公众号【生信F3】获取更多生物信息学最新知识。

ShengXinF3_QRcode

计算方法

1 计算全基因组核苷酸多样性

**输入文件:**单个种群的全基因组VCF文件。

**使用工具:**VCFtools v0.1.16 (https://vcftools.github.io/man_latest.html;Danecek et al.,2011)

使用VCFtools对VCF文件中的特定样本进行扫描以计算单个种群的基因组核苷酸多样性,指令如下:

vcftools --vcf Samples.vcf \
	--window-pi 20000 \
	--window-pi-step 10000 \
	--keep PopA.SampleID.txt \
	--out PopA.Win20k-Step10k
  • --vcf Samples.vcf 表示输入文件为Samples.vcf;

  • --window-pi 20000表示20Kb的窗口大小扫描该VCF文件;

  • --window-pi-step 10000表示窗口以10Kb的步长在基因组上进行滑动和计算(该参数一般以窗口大小的一半进行设定);

  • --keep PopA.SampleID.txt 表示包含种群样本ID的文件名。

    当VCF文件包含来自不同种群的个体时需要以 --keep(保留一个或多个个体)或 --remove(剔除一个或多个个体)选项对样本加以区分和筛选,以此确保分析结果的准确性。样本ID需要与VCF文件中保持一致,每行单独存储一个样本ID。

  • --out PopA.Win100k-Step10k 表示输出结果的文件名前缀。

基于上述命令,可获得PopA.Win20k-Step10k.windowed.pi 结果文件(其文件格式如下图所示)。

注:每个结果文件第一行为表头信息,CHROM为基因组中染色体/Scaffold编号;BIN_START 为每个窗口的起始坐标,BIN_END为终止坐标;N_VARIANTS表示该窗口内所包含的SNPs数目;PI为核苷酸多样度。

2 滑动窗口设置

选择清除分析为什么使用滑动窗口?

利用滑动窗口寻找受进化选择的基因组区间主要有以下三个原因:

  1. 由于连锁不平衡的存在,受选择压力的位点不可能单独存在,因此我们需要以基因组区间为单位,而非单个位点;
  2. 在测序深度有限或采用混池测序的时候,单个位点检测到的SNP多态性信息准确性不高,但如果我们将范围放大到一定程度做整体考量则可尽可能减小SNP分型错误位点的影响;
  3. 加入滑动窗口步长是为了探究连续滑动窗口之间核苷酸多样新是否存在剧烈波动,有利于较为精细的定位受到自然选择的核心区域。

因此,在进行滑动窗口分析的时候,窗口大小的选择是非常重要的。**如果窗口过小,窗口内的SNP数可能会不足,杂合率的计算可能会受到极端值的影响,从而造成假阳性;窗口过大的话,如果潜在受选择区间的杂合率本来很小,但是由于受到其他相邻未受选择区域的影响,又可能会稀释掉原本显著的受选择区间。**既然这么重要,那滑动窗口的大小怎样选择呢?

如何确定滑动窗口的最优大小?

利用核苷酸多样性进行选择清除分析时窗口大小的设定一般要考虑三个主要因素:

  1. 基因组组装质量

    如果在上游SNPs的获取等数据处理中,其所用参考基因组质量不高且序列拼装得较为碎片化(scaffold水平)时,则建议窗口不要取得太大(容易导致在拼装很短的scaffold上出现扫描区域长度的不均匀),一般选择10或20K大小的窗口进行扫描;

  2. LD衰减距离

    不同物种随繁殖力和世代间隔的差异,LD 衰减速度也不同。与全基因组关联分析中通过LD衰减距离确定候选基因的范围相似,在种群规模较大时,我们最好结合LD衰减距离来确定滑动窗口大小,此时推荐选择LD衰减距离的一半左右作为窗口大小。

  3. 变异位点密度

    在2012年PNAS的一篇研究猪选择进化的文章里面,作者给我们提供了一个思路(文章标题:Strong signatures of selection in the domestic pig genome)。文章作者在进行滑窗分析的时候,尝试了从10-550K的窗口大小,并且统计了不同窗口大小里面的SNP分布的直方图。

pi_winsize

作者发现,当窗口太小的时候,小于20个SNP的窗口有很多,不利于后面的杂合率的分析。但是如果窗口过大的话又像我们刚刚提到的,可能会检测不到较小的选择区间。所以文章作者在这里选择了150Kb的这样一个适中窗口大小来进行后续的分析。

综上所述,在针对不同物种的研究的时候,可以选择尝试不同的滑动窗口来进行分析,选择比较合适的窗口来进行后续的选择分析。如果我们还是拿不太准,则可按以下建议确定窗口大小:

1)先选择一个较小(10K,20K或50K等)的窗口进行分析(窗口设置太大容易导致选择信号被基因组的背景信号掩盖);

2)查看输出结果文件中 N_VARIANTS 这一列记录的各个窗口的SNP数量,一般而言,只要保证大部分窗口含有足量的SNP(>20个SNP)可用就可以保证分析的可靠性了。

3 定位选择压力区间

得到结果后,我们首先可以从全基因组层面解析该群体的平均核苷酸多样度水平(平均值或者中位值)和分布模式。以PopA.Win20k-Step10k.windowed.pi文件为例,使用R语言进一步对全基因组窗口化的核苷酸多样性计算结果进行解析。

# 在R环境下将结果文件“PopA.Win20k-Step10k.windowed.pi”读入‘Diversity’变量中用于后续统计分析;
Diversity<-read.table(file="PopA.Win20k-Step10k.windowed.pi", header=T)
# 计算该群体全基因组窗口化核苷酸多样度平均值、标准差、中位值
mean(Diversity$PI)
sd(Diversity$PI)
median(Diversity$PI)
# 统计该群体全基因组窗口化核苷酸多样度的分布密度
distr<-density(Diversity$PI);
plot(distr, main="Distribution of Nucleotide diversity", xlab="Bins of Windowed θπ (20K)", ylab="Frequency", col="skyblue2");
pi_density

全基因组范围的核苷酸多样度符合正态分布,其平均值和标准差的大小往往反映了该种群基因组总体的遗传进化特征。

通过计算和比较种群基因组的遗传多样性,可用于揭示基因组中哪些区域经历了快速演化,例如受到了自然或人工选择的影响。因此,对于单个种群,我们可以在基因组不同区域进行扫描,观察基因型多样性(杂合率)的变化,那些杂合率下降的区域可能就是受进化选择的区域,其中的基因就是潜在受选择的基因。

例如:从结果文件‘PopA.Win20k-Step10k.windowed.pi’,中提取chr01染色体上的核苷酸多样性计算结果,并解析窗口化π在染色体上的分布和波动。θπ显著偏低的遗传区域暗示可能经历了自然或人工选择作用。

# 从全基因组的结果文件中提取chr01区域的结果用以分析
grep "^chr01\s" PopA.Win20k-Step10k.windowed.pi >> chr01.PopA.Win20k-Step10k.windowed.pi

利用R语言可视化:

# 读取该染色体区域的结果信息到变量‘chr1’中
chr1<-read.table(file="chr01.PopA.Win20k-Step10k.windowed.pi", header=T)
# 直方图显示该染色体上窗口化θπ的分布和波动
plot(chr1$BIN_START, chr1$PI, ylab="Windowed θπ", xlab="Scans on chr01", pch=20, type="h", col="gray")

pi_chr

由图可见,基因组中某些区域的多样度水平会急剧变小而偏离于基因组平均水平,统计上这些区域一般可以第一或第五分位数分别表征其对基因组偏离的显著性(1%和5%显著性差异)。它们往往反映了该区域可能经历了非随机的演化事件(例如自然选择);上图中,核苷酸多样度水平低于红色虚线(表征基因组第五分位数阈值)的遗传区域则可能经历了选择作用。

4 选择清除分析ROD

对单个种群的分析表明,核苷酸多样性在染色体上并不是恒定不变,不同区域存在较大波动。**然而,多样性显著低的区域并非全部由选择压力导致,其它显著差异的DNA遗传特性,如重组率和突变速率等也会显著影响基因组杂合度。**此外,选择压力一般发生在两个种群之间。因此,对单个种群分析核苷酸多样性找到的潜在受选择区间会存在大量的假阳性。

在当前的群体分化研究中,我们更多的选择同时计算两个种群(野生和栽培种群间,驯化和未驯化间)的核苷酸多样性并进行比较,根据比较后的显著差异结果得到潜在受选择的区间。

ROD (reduction of diversity) 一般通过比较野生群体和驯化群体(或其他参照群体)的核苷酸多样性计算得来,其计算公式可以简单表示为:

ROD = π(野生群体) / π(驯化群体)

这个公式的结果是一个比值,表明了驯化种群相对于野生种群的核苷酸多样性减少程度。ROD值越大,表明驯化群体的核苷酸多样性相对降低的越多,可能受到的选择压力越大。

ROD

我们一般选取最大的1%和5%ROD值所在窗口作为选择清除分析候选区间。

扫码关注微信公众号【生信F3】获取更多生物信息学最新知识。

ShengXinF3_QRcode

参考

  1. Danecek, P., Auton, A., Abecasis, G., Albers, C. A., Banks, E., DePristo, M. A., Handsaker, R. E., Lunter, G., Marth, G. T., Sherry, S. T., McVean, G., Durbin, R. and Genomes Project Analysis, G. (2011). The variant call format and VCFtools. Bioinformatics 27(15): 2156-2158.
  2. https://cn.bio-protocol.org/bio101/e1010601

本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1287874.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

zabbix的自动发现机制、代理功能、SNMP监控

一、自动发现&#xff08;不安全&#xff0c;有时会失效&#xff0c;建议手动添加主机&#xff09; 1、定义 zabbix主动与服务端联系&#xff0c;将自己的地址和端口发送给服务端&#xff0c;实现自动添加监控主机 客户端是主动的一方 2、缺点 若自定义网段中主机数量太多…

Python 全栈体系【四阶】(二)

第二章 pandas 一、pandas 介绍 Python Data Analysis Library pandas 是基于 NumPy 的一种工具&#xff0c;该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型&#xff0c;提供了高效地操作大型结构化数据集所需的工具。 二、pandas 核心数…

C语言进阶之路-数组与指针

目录 一、学习目标 二、数组入门 基本概念 语法释义&#xff1a; 定义&#xff1a; 访问&#xff1a; 赋值&#xff1a; 字符数组 多维数组 数组万能拆解法 三、指针入门 内存地址 基地址 取址符 指针基础 指针的定义&#xff1a; 指针的赋值 指针的尺寸 四、…

快手数仓面试题附答案

题目 1 讲一下你门公司的大数据项目架构&#xff1f;2 你在工作中都负责哪一部分3 spark提交一个程序的整体执行流程4 spark常用算子列几个&#xff0c;6到8个吧5 transformation跟action算子的区别6 map和flatmap算子的区别7 自定义udf&#xff0c;udtf&#xff0c;udaf讲一下…

java:slf4j、log4j、log4j2、logback日志框架的区别与示例

文章目录 背景SLF4J - 简单日志门面:Log4j - 强大而古老的日志框架:Log4j2 - Log4j的升级版:Logback - Log4j的继任者:比较Springboot集成slf4j、log4j2参考 背景 在Java开发中&#xff0c;日志记录是一个不可或缺的组成部分。为了满足不同的需求&#xff0c;Java社区涌现出多…

the name of a constructor must match the name of the enclosing class

构造器名匹配封闭类名 命令码的位置关系不对 解决&#xff1a;调整 命令码所在层级

探索人工智能领域——每日20个名词详解【day9】

目录 前言 正文 总结 &#x1f308;嗨&#xff01;我是Filotimo__&#x1f308;。很高兴与大家相识&#xff0c;希望我的博客能对你有所帮助。 &#x1f4a1;本文由Filotimo__✍️原创&#xff0c;首发于CSDN&#x1f4da;。 &#x1f4e3;如需转载&#xff0c;请事先与我联系以…

基于高德API实现网络geoJSON功能(整体)

代码实现&#xff1a; <script>// 3、初始化一个高德图层const gaode new ol.layer.Tile({title: "高德地图",source: new ol.source.XYZ({url: http://wprd0{1-4}.is.autonavi.com/appmaptile?langzh_cn&size1&style7&x{x}&y{y}&z{z},w…

Axure网页端高复用组件库, 下拉菜单文件上传穿梭框日期城市选择器

作品说明 组件数量&#xff1a;共 11 套 兼容软件&#xff1a;Axure RP 9/10&#xff0c;不支持低版本 应用领域&#xff1a;web端原型设计、桌面端原型设计 作品特色 本作品为「web端组件库」&#xff0c;高保真高交互 (带仿真功能效果)&#xff1b;运用了动态面板、中继…

Hadoop学习笔记(HDP)-Part.09 安装OpenLDAP

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

CUDA简介——Grid和Block内Thread索引

1. 引言 前序博客&#xff1a; CUDA简介——基本概念CUDA简介——编程模式CUDA简介——For循环并行化 Thread Index&#xff1a; 每个Thread都有其thread index。 在Kernel中&#xff0c;可通过内置的threadIdx变量来获取其thread index。threadIdx为三维的&#xff0c;有相…

nodejs+vue+微信小程序+python+PHP在线购票系统的设计与实现-计算机毕业设计推荐

伴随着信息时代的到来&#xff0c;以及不断发展起来的微电子技术&#xff0c;这些都为在线购票带来了很好的发展条件。同时&#xff0c;在线购票的范围不断增大&#xff0c;这就需要有一种既能使用又能使用的、便于使用的、便于使用的系统来对其进行管理。在目前这种大环境下&a…

电子学会C/C++编程等级考试2023年03月(四级)真题解析

C/C++等级考试(1~8级)全部真题・点这里 第1题:最佳路径 如下所示的由正整数数字构成的三角形: 7 3 8 8 1 0 2 7 4 4 4 5 2 6 5 从三角形的顶部到底部有很多条不同的路径。对于每条路径,把路径上面的数加起来可以得到一个和,和最大的路径称为最佳路径。你的任务就是求出最…

ATECLOUD电源自动测试系统打破传统 助力新能源汽车电源测试

随着新能源汽车市场的逐步扩大&#xff0c;技术不断完善提升&#xff0c;新能源汽车测试变得越来越复杂&#xff0c;测试要求也越来越严格。作为新能源汽车的关键部件之一&#xff0c;电源为各个器件和整个电路提供稳定的电源&#xff0c;满足需求&#xff0c;确保新能源汽车的…

JSON 语法详解:轻松掌握数据结构(上)

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…

《微信小程序开发从入门到实战》学习四十一

4.3 云开发文件存储 文件存储功能支持将任意数量和格式的文件&#xff08;如图片和视频&#xff09;保存在云端&#xff0c;支持 以文件夹的形式将文件归类。 在云开发控制台中&#xff0c;可以对云端保存的文件进行管理。 也可以通过文件存储API对文件进行上传、删除、移动…

Android Chips(标签)

目录 一、流式布局标签发展历程 二、类型及使用 2.1 Chip.Action(默认值) 2.2 Chip.Entry 2.3 Chip.Filter 2.4 Chip.Choice 三、常用事件 3.1 OnClickListener 3.2 OnCheckedChangeListener 3.3 OnCloseIconClickListener 四、ChipGroup 4.1 ChipGroup Chip.Choi…

java开发神器之ecplise的基本使用

java开发神器之ecplise的基本使用 一、ecplise的安装二、利用ecplise创建工作空间 一、ecplise的安装 免安装eclipse程序包 二、利用ecplise创建工作空间 1、准备好eclipse的程序包&#xff0c;右键执行程序。 2、若打开eclipse显示如下第一张图的界面提示&#xff0c;是因…

leetcode 1004. 最大连续1的个数 III(优质解法)

代码&#xff1a; class Solution {public int longestOnes(int[] nums, int k) {int lengthnums.length;int zero0; //计数器&#xff0c;计数翻转 0 的个数int max0; //记录当前获得的最长子数组长度for(int left0,right0;right<length;right){if(nums[right]0){zero;wh…

scipy笔记:scipy.interpolate.interp1d

1 主要使用方法 class scipy.interpolate.interp1d(x, y, kindlinear, axis-1, copyTrue, bounds_errorNone, fill_valuenan, assume_sortedFalse) 2 主要函数 x一维实数值数组&#xff0c;代表插值的自变量y N维实数值数组&#xff0c;其中沿着插值轴的 y 长度必须等于 x 的…