使用BWGS进行基因型数据预测

news2024/11/26 15:33:07

标题:小麦基因组选择育种通道方法

描述:专门为小麦全基因组选择育种设计的包

编码方式:UTF-8 

URL:GitHub - byzheng/BWGS: 2021 BreedWheat Genomic Selection pipeline

BugReports :https://github.com/byzheng/BWGS/issues 

接下来要重点说明的是BWGS的预测:

 使用模型选择选项,仅使用基因型数据计算目标人群的GEBV预测。基本的代码如下:

bwgs.predict( geno_train, pheno_train, geno_target, FIXED_train = "NULL", FIXED_target = "NULL", MAXNA = 0.2, MAF = 0.05, geno.reduct.method = "NULL", reduct.size = "NULL", r2 = "NULL", pval = "NULL", MAP = "NULL", geno.impute.method = "NULL", predict.method = "GBLUP" )

下面是对代码中出现的各项的要求数据格式:

geno_train:

训练群体基因型矩阵(n x m):n个品系,m个标记。基因型应编码为-1,0,1,NA。缺失数据是允许的,并编码为NA。这里几个需要注意的地方是编码最好为-1,0,1,虽然编码为0,1,2本质上应该相同,训练群体应该转化为矩阵形式,这里允许有缺失数据的存在。

pheno_train:

训练表型的表型向量(n x 1)。此向量不应缺少值。否则,pheno_train和geno_train中的缺失值(NA)都将被省略。此时注意表型是向量形式,不应该有缺失值存在,要记得查看是否是向量形式。

geno_target:

目标群体基因型矩阵(z x m):具有与geno_train中相同m标记的z系。基因型应编码为-1,0,1,NA。缺失数据是允许的,并编码为NA。除了pop_reduct_method、nTimes和nFolds之外,其他参数与bwgs.cv的参数相同,因为预测只运行一次,使用整个训练群体进行模型估计,然后应用于目标群体。训练群体的基因型矩阵为 nxm,此时的目标群体的基因型矩阵的行数不用和训练群体的保证相同。

FIXED_train:

用于训练的固定效果矩阵,要与某些方法(如BGLR中包含的方法)一起使用,必须具有与geno相同的行名,并编码为(-1 0 1)

FIXED_target:

用于定位的固定效果矩阵,要与某些方法(如BGLR中包含的方法)一起使用,必须具有与geno相同的行名,并编码为(-1 0 1)

MAXNA:

geno中过滤标记列时允许的缺失值的最大比例。默认值为0.2

MAF:

基因组中筛选标记列的最小等位基因频率;默认值为0.05

geno.reduct.method:

允许对标记的子集进行采样,以加快计算时间和/或避免引入比信息标记更多的噪声。选项包括:

RMR:标记子集的随机抽样(不替换)。与参数“reduct.marker.size”一起使用

中间这些参数都不是非必须,一般用不到,下边我们直接来看一下本文用到的方法。

predict.method:

基因组育种价值预测方法的选择。可用的选项有:

GBLUP:使用基于标记的关系矩阵执行G-BLUP,通过BGLR R-library实现。相当于标记效应的岭回归(RRBLUP)。

EGBLUP:执行EG-BLUP,即BLUP使用“平方”关系矩阵来模拟上位2x2相互作用,如Jiang&Reif(2015)所述,使用BGLR库

RR:岭回归,使用包glmnet。理论上严格等同于gblup。

LASSO:最小绝对收缩和选择算子是另一种惩罚回归方法,它产生比RR更多的收缩估计。由glmnet库运行。

EN:弹性网(Zou和Hastie,2005),它是RR和套索的加权组合,使用glmnet库

几种贝叶斯方法,使用BGLR库:

BRR:贝叶斯岭回归:与rr-blup相同,但贝叶斯分辨率。以高斯分布诱导所有标记效应向零的均匀收缩(de los Campos等人,2013年)

BL:贝叶斯LASSO:在标记方差先验上使用指数先验,导致标记效应的双指数分布(Park&Casella 2008)

BA:贝叶斯A使用标记效应的标度先验分布。

BB:Bayes B,使用点质量为零的混合分布和具有标度t分布的非零标记效应板(Habier等人,2011年)。

BC:贝叶斯C与贝叶斯B相同,具有高斯分布的板。

有关这些方法的更详细描述,请参见Perez&de los Campos 2014(http://genomics.cimmyt.org/BGLR-extdoc.pdf)。

三种半参数方法:

RKHS: reproductive kernel Hilbert space and multiple kernel MRKHS, using BGLR (Gianola and van Kaam 2008).基于遗传距离和核函数来调节标记效应的分布。这种方法被认为是检测非加性效应的有效方法。

RF:随机森林回归,使用随机森林库(布雷曼,2001年,布雷曼和卡特勒2013年)。该方法使用基于bootstrapping数据的树节点上的回归模型。应该能够捕捉到标记之间的相互作用

SVM:支持向量机,由e1071库运行。有关详细信息,请参见Chang,Chih-Chung和Lin,Chih-Jen:LIBSVM:支持向量机库http://www.csie.ntu.edu.tw/~cjlin/libsvm

BRNN:前馈神经网络的贝叶斯正则化,带有R包BRNN(Gianola等人,2011年)。To keep computing time in reasonable limits, the parameters for the brnn function are neurons=2 and epochs = 20.

Value:

对象bwgs.predict返回维数为nx3的矩阵。列包括:

预测BV:验证集的GEBVs的nx1向量(geno_valid的行)

gpredSD:估计GEBV的标准偏差

CD:每个GEBV的决定系数,估计为sqrt((1-stdev(GEBVi))^2/2g)

请注意,gpredSD和CD仅适用于使用BGLR库的方法,即GBLUP、EGBLUP、BA、BB、BC、BL、RKHS和MKRKHS。这两列包含方法RF、RR、LASSO、EN和SVM的NA。

data(inra) # Prediction using GBLUP method

predict_gblup <- bwgs.predict(geno_train = TRAIN47K, pheno_train = YieldBLUE, geno_target = TARGET47K, MAXNA = 0.2, MAF = 0.05, geno.reduct.method = "NULL", reduct.size = "NULL", r2 = "NULL", pval = "NULL", MAP = "NULL", geno.impute.method = "MNI", predict.method = "GBLUP")

这是代入数据集的使用方法,大家可以通过这里查看数据集的格式,从而改变你自己的数据集的格式用于分析。

Description:

inra数据包含一组geno47K(760 x 47839)、pheno(760 x 1)和MAP47K(47839 x 3)。表型表型包含多年/地点试验中产量性状(YLD)的调整基因型平均值。

inra数据包含一组geno47K(760 x 47839)、pheno(760 x 1)和MAP47K(47839 x 3)。表型表型包含多年/地点试验中产量性状(YLD)的调整基因型平均值。此时可以看到过程中分别用到的数据的格式。

 

 以上是按照目录顺序依次查看三个表格的结果,下边是产生的预测值

Format:

类的对象数据帧10000行3列。

matrix类的对象(继承自array),有100行10000列。

matrix类的对象(继承自array),有100行10000列。

长度为100的类numeric对象。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1009116.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue2 | Vant uploader实现上传文件和图片

需求&#xff1a; 实现图片和文件的上传&#xff0c;单个图片超过1M则压缩&#xff0c;全部文件加起来不得超过10M。 效果&#xff1a; 1. html <van-form ref"form"><van-field name"uploader" label"佐证材料" required><t…

TypeScript枚举(Enums)和泛型(Generics)

&#x1f3ac; 岸边的风&#xff1a;个人主页 &#x1f525; 个人专栏 :《 VUE 》 《 javaScript 》 ⛺️ 生活的理想&#xff0c;就是为了理想的生活 ! 目录 枚举 异构枚举 枚举成员的类型 泛型 1. 函数泛型 2. 接口泛型 3. 类泛型 接下来我们将学习TypeScript 中的两…

无涯教程-JavaScript - ISREF函数

描述 如果指定的值是参考,则ISREF函数返回逻辑值TRUE。否则返回FALSE。 语法 ISREF (value) 争论 Argument描述Required/OptionalvalueA reference to a cell.Required Notes 您可以在执行任何操作之前使用此功能测试单元格的内容。 适用性 Excel 2007,Excel 2010,Exce…

机器故障预测:未来24小时的决胜时刻!!!

一、背景介绍 这个竞赛的焦点是预测机器是否会在未来24小时内故障。数据包括与机器性能相关的各种特征&#xff0c;例如温度、振动、功耗和传感器读数。目标变量是二进制的&#xff0c;表示机器是否在未来24小时内故障&#xff08;1&#xff09;或未故障&#xff08;0&#xf…

计算机竞赛 机器视觉opencv答题卡识别系统

0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 答题卡识别系统 - opencv python 图像识别 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非常推荐&#xff01; &#x1f947;学长这里给一个题目综合评分(每项满分5分…

selenium 网页自动化-在访问一个网页时弹出的浏览器窗口,我该如何处理?

前言 相信大家在使用selenium做网页自动化时&#xff0c;会遇到如下这样的一个场景&#xff1a; 在你使用get访问某一个网址时&#xff0c;会在页面中弹出如上图所示的弹出框。 首先想到是利用Alert类来处理它。 然而&#xff0c;很不幸&#xff0c;Alert类处理的结果就是没…

解决java.text.ParseException: Unparseable date: “invalid_date“

解决java.text.ParseException: Unparseable date: "invalid_date" 前言摘要引言正文1. 理解异常的根本原因2. 处理日期字符串格式问题3. 处理非法字符或无效日期信息4. 异常处理 总结参考资料 博主 默语带您 Go to New World. ✍ 个人主页—— 默语 的博客&#x1f…

创造引人入胜的网页体验:掌握 CSS 动画

&#x1f482; 个人网站:【工具大全】【游戏大全】【神级源码资源网】&#x1f91f; 前端学习课程&#xff1a;&#x1f449;【28个案例趣学前端】【400个JS面试题】&#x1f485; 寻找学习交流、摸鱼划水的小伙伴&#xff0c;请点击【摸鱼学习交流群】 在现代网页设计中&#…

Leetcode算法入门与数组丨2. LeetCode入门

文章目录 前言LeetCode 是什么LeetCode 注册LeetCode 学习LeetCode 题库LeetCode 刷题页面 & 刷题语言选择LeetCode 题解LeetCode 刷题流程LeetCode 刷题攻略 前言 Datawhale组队学习丨9月Leetcode算法入门与数组丨打卡笔记 这篇博客是一个 入门型 的文章&#xff0c;主要…

Failed to connect to bitbucket.org port 443 错误原因, 解决办法

最近使用SourceTree来访问bitbucket.org的代码托管Git, 当Pull或者Push发现操作失败: Failed to connect to bitbucket.org port 443 错误原因: 无法链接到网站地址, 可能是DNS解析IP地址错误, 或者网站维护, 大概率是被墙或者DNS解析错误. 解决办法: 如果您的浏览器能够访问b…

iOS技术博主指南:填写苹果应用上架中的隐私政策信息

摘要&#xff1a;本文将详细介绍iOS技术博主在苹果应用上架过程中如何填写隐私政策信息。博主可以通过App Store Connect为应用程序提供隐私政策网址和用户隐私选项网址&#xff0c;并了解如何填写隐私政策文本。本文将提供步骤和注意事项&#xff0c;帮助博主顺利完成隐私政策…

数据库-理论基础

目录 1.什么是数据库&#xff1f; 2.数据库与文件系统的区别&#xff1f; 3.常见的数据库由那些&#xff1f; 4.关系型数据库(MySQL&#xff09;的特征及组成结构介绍 1.什么是数据库&#xff1f; 数据&#xff1a;描述事物的符号记录&#xff0c;可以是数字&#xff0c;文…

SSTI注入利用姿势合集

文章目录 前言SSTI模板注入原理&#xff1f;关于Python的类知识构造链的思路Jinjia2获取配置信息lipsumrequesturl_forget_flashed_messagesg对象 Jinjia2 Bypass.绕过引号绕过_绕过init过滤[ ]被过滤 羊城杯2023[决赛] SSTI2020XCTF 华为专项赛Tornado通用手法tornado.templat…

电脑字体怎么改?4个方法快速更改字体!

“我的电脑字体看起来很不习惯&#xff0c;想给电脑换个字体。电脑字体应该怎么改呢&#xff1f;哪位朋友可以给我支支招呀&#xff1f;” 电脑字体的不同可能会让用户在使用电脑时有不同的体验。有些电脑用户可能想使用比较正式的字体&#xff0c;但有些用户可能会比较喜欢可爱…

算法|Day49 动态规划17

LeetCode 647- 回文子串 题目链接&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 题目描述&#xff1a;给你一个字符串 s &#xff0c;请你统计并返回这个字符串中 回文子串 的数目。 回文字符串 是正着读和倒过来读一样的字符串。 子…

RS485(一):电路与波形

一、RS485电路 ​RS485( Recommended Standard-485&#xff09;是隶属于OSI模型-物理层的电气特性&#xff0c;规定为 2 线、半双工、平衡传输线的多点异步通信标准&#xff0c;通信采用差分信号传输。 典型485应用电路如下图所示&#xff1a; 其中 、# 分别控制接收和发送…

深度学习-全连接神经网络-训练过程-权值初始化- [北邮鲁鹏]

文章目录 思想避免全零初始化随机权值初始化权值初始化太小&#xff1a;权值初始化太大Xavier初始化目标为什么输入和输出分布会变得不同&#xff1f;Xavier在使用Tanh时的表现好Xavier在使用ReLU时的表现不好 HE初始化&#xff08;MSRA&#xff09;权值初始化总结 思想 通过调…

ARMv8架构简介

ARMv8-A架构和处理器 ARMv8-A架构 ARMv8‑A 架构是针对应用程序配置文件的最新一代 ARM 架构。 ARMv8 这个名称用于描述整体架构,现在包括 32 位执行状态和 64 位执行状态。它引入了使用 64 位宽寄存器执行的能力,同时保持与现有 ARMv7 软件的向后兼容性。 ARMv8‑A 架构引…

电脑死机的时候,CPU到底在做什么?

电脑死机&#xff0c;应该每个接触计算机的小伙伴都经历过吧。 尤其是早些年&#xff0c;电脑配置还没现在这么高的时候&#xff0c;多开几个重量级应用程序&#xff0c;死机就能如约而至&#xff0c;就算你把键盘上的CTRLALTDELETE按烂了&#xff0c;任务管理器也出不来&…

GIS前端-地图事件编程

GIS前端-地图事件编程 图层操作事件地图状态事件交互事件弹出框事件导出PDF 在地图上的一切操作均要采用地图事件机制来实现&#xff0c;即通过鼠标、键盘等交互&#xff0c;触发地图相关事件&#xff0c;进而调用相关功能接口函数实现相应的GIS功能。在具体的实现过程中&#…