【基于R语言群体遗传学】-6-表型计算等位基因频率、最大似然估计方法

news2025/1/10 12:11:07

到目前为止,我们主要讨论了等位基因和基因型频率,以及我们如何可以从一个推断出另一个。但是,如果我们不知道等位基因频率,只知道种群中存在哪些表型呢?如果我们足够幸运,知道哪些表型对应哪些基因型,我们可以很容易地估计等位基因频率!

前面的内容可以先看我之前的博客内容:群体遗传学_tRNA做科研的博客-CSDN博客

从表型计算等位基因频率

让我们考虑不同的血型作为一个简单的例子。人类通常只能有四种主要的血型:A、B、AB和O。这些血型中的每一个都对应于带有等位基因a、b或i的某种基因型:我们通过下表看一下不同血型对应的基因型

血型ABOAB
基因型aa或者aibb或者bi只能是ii只能是ab

假设我们感兴趣的是找出a、b和i等位基因的比例。我们将使用先前确定的样本个体的血型(表型)(Nikolic等人,2010)我们样本中的表型比例可以通过将每种血型的数量除以个体总数(N)来找到:

AB <- 5
A <- 30
B <- 7
O <- 36
(N <- AB + A + B + O)
A/N
#[1] 0.3846154
B/N
#[1] 0.08974359
AB/N
#[1] 0.06410256
O/N
#[1] 0.4615385

所以,大约38%的样本具有A型血表型,约9%为B型血,仅约6%为AB型血,而大约46%为O型血。这似乎并没有告诉我们太多关于a、b和i等位基因本身的总体频率,但找到表型比例是一个很好的第一步。还记得基于哈代-温伯格比例的预期基因型计算吗?我们已经知道O型血只能有ii基因型,根据哈代-温伯格预测,我们期望ii基因型的数量应该是基础i等位基因频率的平方值(p²i)。因此,假设的i等位基因频率(pi)就是ii基因型总比例的平方根:

(Pi <- sqrt(O/N))

请注意,我们只是从关注O型血表型开始,虽然A型和B型血表型也包含一定比例的i等位基因作为ai和bi杂合子,但我们理论上预期的ii纯合子数量不会受到另外两个等位基因“隐藏”i等位基因作为杂合子这一事实的影响。

请记住,我们假设哈代-温伯格假设的所有条件都在起作用(例如,等位基因的完全随机关联),因此理论比例仍然成立。因此,现在至少我们知道在我们的样本中,i等位基因的预期等位基因频率约为68%。这为我们开始计算a和b等位基因的频率提供了一个起点。我们可以在这里建立同样的方程,看看我们如何得到基因型aa、ai(A型血表型)和ii(O型血表型)的所有个体的频率。 因此,如果我们想求解我们的血型等位基因频率的方程,我们再次假设它是由哈代-温伯格比例正确表示的,我们需要pa以及pi。我们通过计算A型和O型的所有情况的基因型频率进行计算推导:

可以推为:

并且因为我们知道这个值仅仅是样本中A型和O型血型的总比例,我们可以使用我们已经收集到的表型值来找到它。

这样我们就从表型数据中计算得到了a的等位基因频率,同样的方式,我们也可以得到b的等位基因频率:我们通过R语言进行计算

(Pa <- sqrt((A+O)/N)-Pi)
(Pb <- sqrt((B+O)/N)-Pi)

现在我们把三个基因频率进行加和:

Pa + Pb + Pi
#[1] 0.9829837

我们发现合起来是一个不足1的数,但是很接近1

问题在于,表型频率与真正的哈代-温伯格预测相比略有偏差,我们在解决等位基因频率时,没有充分考虑到这种“张力”,而是独立于整体逐步进行的。为了帮助说明,这里是我们基于等位基因频率估计得出的AB杂合子的预测数量。 在哈代-温伯格原理下,如果等位基因频率分别为p和q,则AB血型的预期频率应该是2pq。然而,如果实际观察到的AB血型频率与这个预期值有所偏差,这可能表明存在一些违反哈代-温伯格原理假设的条件,比如非随机交配、自然选择、基因漂变或突变等。 当我们分别独立地计算每个等位基因频率时,我们可能没有充分考虑这些因素对整体等位基因频率分布的影响。因此,尽管我们可以使用表型频率来估计等位基因频率,但如果这些频率不完全符合哈代-温伯格平衡的预期,我们的估计就可能不够准确。 为了更全面地考虑这些“张力”,我们可能需要采用更复杂的统计方法或模型,这些方法能够同时考虑所有等位基因和表型频率之间的关系,以及可能影响这些频率的其他遗传和进化因素。这样,我们才能更准确地理解和解释观察到的遗传变异,并在必要时调整我们的等位基因频率估计。

最大似然估计

N*2*Pa*Pb
#[1] 2.368042

然而,观察到的数量是这个值的两倍多。我们可以做得更好,编写一个算法来修改这些估计值,使其基于整个观察数据集的同时达到最大似然解。 在这种情况下,最大似然估计(MLE)是一种非常有用的方法。MLE的目标是找到一组参数值,使得在给定这些参数值的情况下,观察到当前数据集的概率最大化。在遗传学中,这意味着我们要找到一组等位基因频率,使得观察到的表型频率最有可能出现。 为了实现这一点,我们可以构建一个似然函数,该函数将观察到的表型频率与由特定等位基因频率预测的表型频率之间的差异作为输入。然后,我们可以使用优化算法(如梯度下降法)来调整等位基因频率,直到似然函数达到最大值。 这个过程通常涉及到以下几个步骤:

1. 根据观察到的表型频率初始化等位基因频率的估计值。

2. 构建似然函数,该函数衡量在给定当前等位基因频率估计值的情况下,观察到的表型频率出现的概率。

3. 使用优化算法(如梯度下降法)调整等位基因频率估计值,以最大化似然函数。

4. 重复步骤3,直到似然函数收敛到一个最大值,或者达到预定的迭代次数。

通过这种方式,我们可以得到一组更准确的等位基因频率估计值,这些估计值能够更好地反映整个数据集的信息,而不仅仅是单独的表型频率。这种方法有助于我们更准确地理解和解释遗传数据,特别是在表型频率不完全符合哈代-温伯格平衡预期的情况下,我们进行一个简单的例子,更为精准及复杂的例子看下面一节。

# 安装并加载必要的包
if (!requireNamespace("MASS", quietly = TRUE))
  install.packages("MASS")
library(MASS)

# 定义似然函数
likelihood <- function(freqs, obs_freqs) {
  p_A <- freqs[1]^2 + 2 * freqs[1] * freqs[3]
  p_B <- freqs[2]^2 + 2 * freqs[2] * freqs[3]
  p_AB <- 2 * freqs[1] * freqs[2]
  p_O <- freqs[3]^2
  
  # 计算似然值
  like <- prod(dbinom(obs_freqs, rep(1, length(obs_freqs)), c(p_A, p_B, p_AB, p_O)))
  return(like)
}

# 观察到的表型频率
obs_freqs <- c(0.38, 0.09, 0.06, 0.46)

# 初始化等位基因频率估计值
initial_freqs <- c(0.3, 0.2, 0.5)

# 使用优化算法寻找最大似然解
opt_freqs <- optim(par = initial_freqs, fn = likelihood, obs_freqs = obs_freqs, method = "BFGS")$par

# 输出结果
print(opt_freqs)

期望值最大化算法(expectation maximization algorithm)

算法是一个大多数人熟悉但难以轻易定义的术语。这个词实际上来源于九世纪数学家Muh .ammad ibn Mūsā al-Khwārizmı(拉丁化的al-Khwārizmı被称为“Algorismus”)的名字,他也给我们带来了“代数”这个词(阿拉伯语中的al-jabr意味着“重新连接”或“完成”)。一个非常简单的定义是,算法就是一系列按特定顺序执行的操作。算法在大多数定量学科中非常标准,最近机器学习的算法类型已被应用于群体遗传学推断。机器学习最近在许多数据分析领域成为了一个热门话题,并经常被视为一种全新的方法。然而,许多传统使用的方法与机器学习的概念完全相同;也就是说,不断更新信息以得出更准确的结论。其中一种实现这一目标的方法被称为期望最大化(EM)算法。 之前,在我们的血型示例中,我们能够计算出在给定样本大小并假设我们处于哈代-温伯格平衡的情况下,我们会预期看到哪些基因型。

# 计算基因型频率 Paa
Paa <- A * (Pa^2 / (Pa^2 + 2 * Pa * Pi))
# 输出 Paa 的值
print(Paa)

# 计算基因型频率 Pai
Pai <- A * (2 * Pa * Pi / (Pa^2 + 2 * Pa * Pi))
# 输出 Pai 的值
print(Pai)

# 计算基因型频率 Pbb
Pbb <- B * (Pb^2 / (Pb^2 + 2 * Pb * Pi))
# 输出 Pbb 的值
print(Pbb)

# 计算基因型频率 Pbi
Pbi <- B * (2 * Pb * Pi / (Pb^2 + 2 * Pb * Pi))
# 输出 Pbi 的值
print(Pbi)

# 计算基因型频率 Pii,这里直接赋值为常数O
Pii <- O
# 输出 Pii 的值
print(Pii)

# 计算基因型频率 Pab,这里直接赋值为常数AB
Pab <- AB
# 输出 Pab 的值
print(Pab)

现在我们可以通过哈代温伯格频率重新推算等位基因频率:

# 计算Pa的值
Pa <- ((2 * Paa) + Pai + Pab) / (2 * N)
Pa

# 计算Pb的值
Pb <- ((2 * Pbb) + Pbi + Pab) / (2 * N)
Pb

# 计算Pi的值
Pi <- ((2 * Pii) + Pai + Pbi) / (2 * N)
Pi

再通过我们重新计算的等位基因频率去反推基因型频率:
 

# 计算Paa的值
Paa <- A * (Pa^2 / (Pa^2 + 2 * Pa * Pi))
Paa

# 计算Pai的值
Pai <- A * (2 * Pa * Pi / (Pa^2 + 2 * Pa * Pi))
Pai

# 计算Pbb的值
Pbb <- B * (Pb^2 / (Pb^2 + 2 * Pb * Pi))
Pbb

# 计算Pbi的值
Pbi <- B * (2 * Pb * Pi / (Pb^2 + 2 * Pb * Pi))
Pbi

然后我们可以一次又一次地重新估计等位基因频率,直到我们收敛到等位基因频率的最大似然值。

现在我们可以开始重新编写实际的函数来帮助我们进行最大似然估计。

# 清除工作空间
rm(list = ls())

# 初始化变量
# AB: AB血型个体数量
# A: A血型个体数量
# B: B血型个体数量
# O: O血型个体数量
# N: 总个体数量
# Pi: O血型基因频率
# Pa: A血型基因频率
# Pb: B血型基因频率
# Pi0, Pa0, Pb0: 上一次迭代的基因频率
# counter: 迭代次数
AB <- 5
A <- 30
B <- 7
O <- 36
N <- AB + A + B + O
Pi <- sqrt(O / N)
Pa <- sqrt((A + O) / N) - Pi
Pb <- sqrt((B + O) / N) - Pi
Pi0 <- 0
Pa0 <- 0
Pb0 <- 0
counter <- 0

# 定义EM函数
# 该函数使用期望最大化(EM)算法来估计基因频率
EM <- function(Pi, Pa, Pb){
  # 当基因频率的变化小于一定阈值时停止迭代
  while((round(Pi0, 12) != round(Pi, 12)) ||
        (round(Pa0, 12) != round(Pa, 12)) ||
        (round(Pb0, 12) != round(Pb, 12))){
    Pi0 <- Pi
    Pa0 <- Pa
    Pb0 <- Pb
    
    # 根据上一次迭代的基因频率计算新的基因频率
    Paa <- A * (Pa0^2 / (Pa0^2 + 2 * Pa0 * Pi0)) # A血型个体的AA基因型频率
    Pai <- A * (2 * Pa0 * Pi0 / (Pa0^2 + 2 * Pa0 * Pi0)) # A血型个体的AO基因型频率
    Pbb <- B * (Pb0^2 / (Pb0^2 + 2 * Pb0 * Pi0)) # B血型个体的BB基因型频率
    Pbi <- B * (2 * Pb0 * Pi0 / (Pb0^2 + 2 * Pb0 * Pi0)) # B血型个体的BO基因型频率
    Pii <- O # O血型个体的OO基因型频率
    Pab <- AB # AB血型个体的AB基因型频率
    
    # 更新基因频率
    Pa <- ((2 * Paa) + Pai + Pab) / (2 * N)
    Pb <- ((2 * Pbb) + Pbi + Pab) / (2 * N)
    Pi <- ((2 * Pii) + Pai + Pbi) / (2 * N)
    
    # 增加迭代次数
    counter <- counter + 1
  }
  
  # 返回最终的基因频率和迭代次数
  return(c(paste("Pi =", Pi, ", Pa =", Pa, ", Pb=", Pb, ", Number of loops =", counter)))
}

# 调用EM函数
EM(Pi, Pa, Pb)
c(Pi, Pa, Pb) # Our initial estimates

 可以得到估计完后和为1。

即使我们有任意的起始等位基因频率,比如pi = pa = pb = 1/3,算法仍然应该快速收敛到这些相同的值。到目前为止,我们主要关注的是固定时间点的数据集,并且主要是将等位基因频率的样本与基于无限大的理论种群的预测进行比较。在下一篇博客中,我们将开始研究有限种群以及随时间变化的等位基因频率。

谢谢大家的点赞关注收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1898088.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

散度的可视化

散度的可视化 flyfish 向量场和散度 假设我们有一个简单的向量场&#xff1a; F ( x , y , z ) \mathbf{F} (x, y, z) F(x,y,z)在这里&#xff0c;向量场 F \mathbf{F} F 是由三个分量组成的向量&#xff0c;每个分量是空间坐标 x x x、 y y y、 z z z 的函数&#xff…

详细的讲解一下网络变压器应用POE ,AT BT AF BF的概念,做电路连接指导分析

网络变压器在应用POE&#xff08;Power over Ethernet&#xff09;技术时&#xff0c;承担着重要的角色。它不仅负责数据的传输&#xff0c;同时也为网络设备提供电力。在IEEE 802.3标准中&#xff0c;定义了几个与POE相关的标准&#xff0c;包括802.3af、802.3at、802.3bt等&a…

分享6个自己每天都会打开的网站

分享6个自己每天都会打开的网站&#xff0c;有实用办公网站&#xff0c;也有休闲摸鱼网站&#xff0c;链接直达&#xff0c;速看~ 1、鸠摩搜索 https://www2.jiumodiary.com/ 一个免费的电子书下载网站&#xff0c;页面干净无广告&#xff0c;只有一个搜索框&#xff0c;输入…

力扣双指针算法题目:复写零

1.题目 . - 力扣&#xff08;LeetCode&#xff09; 2.解题思路 本题要求就是对于一个数组顺序表&#xff0c;将表中的所有“0”元素都向后再写一遍&#xff0c;且我们还要保证此元素之后的元素不受到影响&#xff0c;且复写零之后此数组顺序表的总长度不可以改变&#xff0c;…

微信开发者工具报错 Error: module ‘xxx.js‘ is not defined, require args is ‘xxx.js‘

背景 报错如下 检查 代码逻辑和写法都是ok的微信开发者工具重新打开项目又是可以的 解决方案 先确保微信开发者工具和uniapp的将js编译成es5都开着&#xff08;这个是默认开的&#xff09; 然后把微信开发者工具关了重开 一般做这一步就会好了&#xff0c;但是只是临时解…

基于python 的动态虚拟主机

将自己电脑上的Python脚本文件上传到虚拟机/var/www/cgi-bin/目录下 [rootlocalhost conf.d]# cd /var/www/cgi-bin/ [rootlocalhost cgi-bin]# rz -E rz waiting to receive.编辑vhost.conf配置文件 [rootlocalhost conf.d]# vim vhost.conf<virtualhost 192.168.209.140…

10元 DIY 一个柔性灯丝氛围灯

之前TikTok上特别火的线性氛围灯Augelight刚出来的时候一度卖到80多美金&#xff0c;国内1688也能到400多人民币。 随着各路国内厂商和DIY创客的跟进&#xff0c;功能变多的同时价格一路下滑&#xff0c;虽然有的质感的确感人&#xff0c;但是便宜啊。 甚至关注的up有把成本搞到…

vxe-table合并行数据;element-plus的el-table动态合并行

文章目录 一、vxe-table合并行数据1.代码 二、使用element-plus的el-table动态合并行2.代码 注意&#xff1a;const fields 是要合并的字段 一、vxe-table合并行数据 1.代码 <vxe-tableborderresizableheight"500":scroll-y"{enabled: false}":span-m…

实验三 图像增强—灰度变换

一、实验目的&#xff1a; 1、了解图像增强的目的及意义&#xff0c;加深对图像增强的感性认识&#xff0c;巩固所学理论知识。 2、学会对图像直方图的分析。 3、掌握直接灰度变换的图像增强方法。 二、实验原理及知识点 术语‘空间域’指的是图像平面本身&#xff0c;在空…

使用Session实现单点登录(SSO)

仅仅是一种思路&#xff0c;细节不做具体说明。

servlet学校会场预约系统-计算机毕业设计源码72972

摘要 学校会场预约是学校管理中的重要环节&#xff0c;但传统的手工预约方式存在效率低下和信息不准确等问题。为了提高预约效率和减少管理成本&#xff0c;许多学校开始采用基于Servlet技术的会场预约系统。本论文旨在设计和实现一种高效的Servlet学校会场预约系统&#xff0c…

已经安装deveco-studio-4.1.3.500的基础上安装deveco-studio-3.1.0.501

目录标题 1、执行exe文件后安装即可2、双击devecostudio64_3.1.0.501.exe2.1、安装Note (注意和4.1的Note放不同目录)2.2、安装ohpm (注意和4.1版本的ohpm放不同目录)2.3、安装SDK (注意和4.1版本的SDK放不同目录) 1、执行exe文件后安装即可 2、双击devecostudio64_3.1.0.501.e…

pycharm如何使用jupyter

目录 配置jupyter新建jupyter文件别人写的方法&#xff08;在pycharm种安装&#xff0c;在网页中使用&#xff09; pycharm专业版 配置jupyter 在pycharm终端启动一个conda虚拟环境&#xff0c;输入 conda install jupyter会有很多前置包需要安装&#xff1a; 新建jupyter…

Docker:二、常用命令

&#x1f341;docker常用命令 官方帮助文档&#xff1a;https://docs.docker.com/reference/ &#x1f332;帮助命令&#xff08;版本信息&#xff09; docker -v # 显示docker版本 docker version # 显示docker版本信息 docker info # 显示docker系统信息 docker 命…

Excel多表格合并

我这里一共有25张表格: 所有表的表头和格式都一样,但是内容不一样: 现在我要做的是把所有表格的内容合并到一起,研究了一下发现WPS的这项功能要开会员的,本来想用代码撸出来的,但是后来想想还是找其他办法,后来找到"易用宝"这个插件,这个插件可以从如下地址下载:ht…

Python中frozenset,秒变不可变集合,再也不用担心多线程了!

目录 1、Frozenset基础介绍 🌐 1.1 Frozenset定义与创建 1.2 不可变集合特性 1.3 与Set的区别对比 2、Frozenset操作实践 🧩 2.1 初始化与添加元素尝试 2.2 成员测试: in & not in 2.3 集合运算: 并集、交集、差集 2.4 使用场景示例: 字典键、函数参数默认值 …

DisFormer:提高视觉动态预测的准确性和泛化能力

最新的研究进展已经显示出目标中心的表示方法在视觉动态预测任务中可以显著提升预测精度&#xff0c;并且增加模型的可解释性。这种表示方法通过将视觉场景分解为独立的对象&#xff0c;有助于模型更好地理解和预测场景中的变化。 尽管在静态图像的解耦表示学习方面已经取得了一…

聊天交友系统开发专业语聊交友app开发搭建同城交友开发婚恋交友系统相亲app开发

1、上麦相亲互动:直播间内除了红娘外&#xff0c;还有男女用户两个视频麦位&#xff0c;直播间符合要求的用户可以申请上麦 2、公屏聊天:为上麦用户可以通过在公屏发言的方式参与直播间内的话题互动。 3、私信,异性用户之间可以发送私信消息&#xff0c;通过付费或开通会员可解…

Spring 6.1.10版本源码编译

每篇一句 我们对时间的感知其实非常主观&#xff0c;我们越习惯于我们的生活方式&#xff0c;生活里面的新鲜感就越少&#xff0c;我们对时间 的感知就越快&#xff0c;生命就越短。 1.源码下载 进入Spring官网 https://spring.io/ 按照上图步骤进入如下Spring Framework链…

通过RpmBuild构建redis-5.0.9版本的RPM类型包

系列文章目录 rpmbuild基础知识 文章目录 系列文章目录前言一、rpmbuild相关操作1、安装rpmbuild命令2、安装spec文件检查工具3、查看rpmbuild版本4、编译工具安装5、修改rpm制作包的默认路径 二、资源准备1、创建rpmbuild工作目录2、目录作用解释3、下载redis源码包4、上传re…