基于信息增益的特征重要性分析

news2024/10/5 20:16:45

培训和测试样本

用于模型评估的数据集包括8652个F1杂交玉米样本,这些样本具有测量的抽穗天数(DTT)株高(PH)和穗重(EW)表型,这些表型来自母体库和30名父系测试者小组的杂交,遵循北卡罗来纳-II设计(方法)。母体库是先前报道的立方(完全双列设计加上不平衡育种样杂交)群体,包含1428个近交系,由代表局部适应性等位基因的24个精英创始人系发展而来。父系库包含30个测试品系,涵盖6个主要杂种优势群,大部分是代表外来优势等位基因的改良海外种质。因此,该群体由30组父系半同胞亚群体(简称F1s)组成,表现出不同模式的杂种优势效应。说明了30个F1亚群的数据结构,用于设计不同的预测框架,以客观地评估模型的精度和稳定性。8652个样本包含两个完整的F1群体,由1428个母系和2个父系测试系郑58和京724之间的2856个杂种组成。207个母系品系和30个父系测试者的杂交产生了6210个F1,由于母系创始人和父系测试者的不同遗传起源,在基因型上表现出强群体分层(图1b,附加文件1:图S1)。为了消除亚群之间表型变异的系统偏差,表型值被标准化为每个F1群体内的z分数,相对排名用于表示绝对值。由于一组非冗余特征对于ML避免维数爆炸至关重要,因此均匀分布在基因组中的32,559个单倍型标签单核苷酸多态性(SNPs)被用作基因型特征(方法)。

 基础ML模型的评价

为了确保对GS中的ML方法进行客观的评估,我们遵循了构建ML系统的过程,该系统包括特征选择、模型选择、模型评估、模型优化、特征重要性分析、模型解释,最后是软件基准测试。我们首先使用1428个母体系(方法)的数据集,在rrBLUP和其他15个先前发表的GS工具之间进行了一系列基准测试。rrBLUP表现出优越的预测精度和计算效率,然后被选为统计模型的代表,与ML方法进行比较(附加文件1:图S3)。由于不同的ML算法可能适用于不同的预测目标和数据特征,我们选了五个常用的基础ML模型进行初步评估,并将其与rrBLUP进行比较,即支持向量回归(SVR)、随机森林(RF)、人工神经网络(ANN)、k-最近邻(KNN)和梯度增强(GB)回归树。五个MLs模型的评估是在由网格搜索功能调整的最佳超参数下进行的(附加文件1:表S1)。具有现场测量表型的6210个F1主要用于评估模型精度。使用以下框架进行交叉验证(CV),重复30次,以生成每种方法的精度分布(r,Pearson相关系数):即29个F1亚群作为训练样本,使用32,559个SNP作为特征预测其余亚群。由于GB和rrBLUP的精确度相当,并且都优于其他四种ML方法(图1c),因此选择GB与rrBLUP进行进一步比较。

具有不同样本划分方式的预测框架可能会影响模型的稳定性,并且由于总体分层,不适当的划分可能会导致不正确的过度拟合。特别是对于主要依靠远亲杂种优势群体杂交的玉米杂交育种,预测框架是确保模型稳定性的关键因素。为了解决这个问题,使用四种不同的框架将训练与测试样本的比例设置为5:1:当训练样本覆盖测试样本中母亲和父亲(M和P)兄弟姐妹、仅母亲(M)兄弟姐妹、仅父亲(P)兄弟姐妹和父母(都不是)兄弟姐妹的基因型时(图2a)。如图2b所示,覆盖两种亲本基因型的训练样本表现出最高精度,其次是仅覆盖母体基因型的训练样本;当训练样本仅覆盖父系基因型或两种亲代基因型都不覆盖时,精确度会大大下降。特别是对于EW,当父母都不在训练样本中时,精确度下降了近两倍。然后,我们评估了两组完全表型化的郑58和京724 F1的模型稳定性,使用一个群体训练模型并预测另一个群体。rrBLUP的精确度略好于GB,可能是因为母系系是来自具有明确系谱的相同立方群体的密切相关的兄弟姐妹(图2c)。

模型精度评估

基于不同的预测目标和训练样本与测试样本的划分,我们使用不同的CV方法来评估模型的精度。相应图中使用的用于比较rrBLUP和LightGBM的统计检验的显著性水平(p值)在附加文件1:表S5中给出。

(1)为了使用6210个(207个母系× 30个父系)F1评估五个基础ML模型(图1c),29个F1群体被用作训练样本来预测F1群体的其余部分。重复该程序30次,以测试所有30个F1群体的精确度,从而可以为每个模型生成精确度分布(r,预测和测量表型之间的Pearson相关性)。

(2)为了评估训练数据的采样率对预测精度的影响,使用6210个f1的总体设计了四个场景,即测试集的固定大小(621个样本)、训练集的固定大小(621个样本)、9:1的固定比例(训练与测试)和1:9的固定比例(训练与测试)(图4)。对于前两个场景,设置了9个比率(9:1、7:1、5:1、3:1、1:1、1:3、1:5、1:7和1:9)的训练和测试,然后以每个比率随机构建训练和测试集30次,以生成LightGBM和rrBLUP的精度分布。对于最后两种情况,9个人口规模,固定比例为9:1和1:9,然后在每个尺寸下随机构建训练和测试集30次。

(3)为了评估亲本组成对预测的影响(图2b),将6210个F1分成30个亚组,其中25个用作训练样本来预测其余5个亚组中的F1。重复该程序30次,以生成精度分布。

(4)为了评估不同F1群体之间的精确度(图2c),首先使用1428个郑58 F1作为训练样本来预测1428个京724 F1;然后,首先使用1428个京724 F1作为训练样本来预测1428个正58 F1。

(5)为了评估不同GB变体的模型拟合能力(图3a),具有测量表型的8652 F1被用于首先训练模型,然后生成8652 F1的预测表型。随后,计算8652个f1的预测和测量表型之间的皮尔逊相关性,以代表每个模型的拟合能力。

(6)为了比较有和没有亲本表型作为附加特征的LightGBM和rrBLUP之间的精度(图3c),首先使用6210个F1s+1221个郑58 F1s作为训练样本来预测1221个京724 F1s然后,首先用6210个F1+京724个F1作为训练样本来预测1221个正58个F1。

(7)为了测试由LightGBM执行的分类任务(图5),用早期、中度和晚期DTT(EW的GCA)标记1428个母体系,并执行五倍CVs来训练模型,随后生成ROC曲线和AUC值来表示精度。为了测试rrBLUP的分类任务(附加文件1:图S6),根据观察到的表型,首先用早期、中度和晚期DTT(EW的GCA)标记1428个母体系。在rrBLUP预测后,根据预测表型的值对品系进行重新标记,随后生成ROC曲线和AUC值来表示精确度。

(8)为了评估通过LightGBM进行特征选择的有效性(图6a),将1428个母系品系中80%的取样重复30次,并在每次重复时计算IGs,以选择高效的SNPs来重新训练LightGBM,随后预测其余20%品系的表型。

熵是反映一组样本分散程度的数学指标。低熵值表示样品分散程度低,由于决策树以叶节点表型的平均值作为预测值,训练样本叶节点的熵越低,预测值的精度越高。

在LightGBM的特征重要性分析中,信息增益(IG)值用于表示分离样本前后熵的变化,这可以反映树节点(SNP)在区分表现出强表型差异的样本的两个分支方面的有效性。因此,具有高IGs的SNPs表明在分类样品中具有高功效。在模型训练期间完成树构建的所有迭代之后,IG值对于每个SNP,求和以代表其特征重要性,这可能反映了其在基因型和表型之间关联的能力。为了从测试样本中排除SNP效应的影响,首先由LightGBM在80%行的每次采样中计算IGs作为训练集,并根据IGs总和从高到低的排序,选择前12、24、48、96、192、384、1000、2000、3000和4000个SNP作为重新训练LightGBM的特征。然后用该模型预测其余20%品系的表型。重复取样30次,生成30个皮尔逊相关性,用于绘制每组SNP的精度分布图。同时,对从32,559个SNP中随机取样的相同数量的SNP应用相同的程序,以绘制精度分布图作为对比。最后,使用32,559个SNPs对1428个母系品系进行rrBLUP,以计算三个性状的基线精度。

基因型特征向数字特征的转换

对于rrBLUP和机器学习工具,应该首先根据训练和测试群体中每个SNP的等位基因频率将基因型特征转换为数字特征。当使用0,1,2编码方案时,两个主要等位基因的纯合基因型(AA)编码为0,一个主要等位基因和一个次要等位基因的杂合基因型(AB)编码为1,两个次要等位基因的纯合基因型(BB)编码为2。除了0,1,2编码方案之外,LightGBM可以采用替代的0-9编码方案来表示基因型的所有形式,例如在CropGBM中使用的转换规则,如下所示:AA(0),AT(1),TA(1),AC(2),CA(2),AG(3),GA(3),TT(4),TC(5),CT(5),TG(6),GT(6),CC(7),CG(8),GC(8),GG(9)。

一般配合力的计算

一般配合力(GCA)是基于其与其他品系杂交行为的自交系的平均值。计算如下:

 其中GCAi代表亲本i的GCA,Xi是i亲本杂交后代的平均值,X是所有杂交后代的总体平均值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/947893.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

服务报network error错误

问题:服务请求时会偶发性的报【network error网络超时】(请求瞬间就报) 可能原因: 服务器linux内核调优时将:net.ipv4.tcp_tw_recycle设置为1,开启TCP连接中TIME-WAIT sockets的快速回收,默认为…

GNU make系列之介绍Makefile(0)

一.欢迎来到我的酒馆 在本章节介绍Makefile。 目录 一.欢迎来到我的酒馆二.GNU make 预览三.一个简单的Makefile四.make程序如何处理Makefile文件五.在Makefile中使用变量 二.GNU make 预览 2.1 GNU make工具会自动决定哪些程序需要被重新编译,并且执行相应的命令来…

彩虹外链网盘V5.5更新 支持批量封禁/优化加载速度

彩虹外链网盘V5.5更新 支持批量封禁/优化加载速度 彩虹外链网盘,是一款PHP网盘与外链分享程序,支持所有格式文件的上传,可以生成文件外链、图片外链、音乐视频外链,生成外链同时自动生成相应的UBB代码和HTML代码,还可…

Mybatis1.7 修改

1.7 修改 1.7.1 编写接口方法1.7.2 编写SQL语句1.7.3 编写测试方法 如图所示是修改页面,用户在该页面书写需要修改的数据,点击 提交 按钮,就会将数据库中对应的数据进行修改。注意一点,如果哪儿个输入框没有输入内容,我…

苹果手机怎么录音?分享2个简单方法

录音软件能够帮助我们记录学习和工作中一些重要的笔记、讲座、课堂语录、音乐灵感等等。录制完成后它会自动生成文件,可供人们随时随地进行听阅。 但对于刚使用苹果手机的用户来说,他们还不太熟悉苹果系统,所以找不到语音备忘录在哪里。那么…

Linux CentOS7sed的替换及逆转功能

在各项工作,需要大量的文本处理。有时,想把文件按行翻转一下,最后一行显示在第一行,倒数第二行显示在正数第二行,等等。这是行的逆转要求,可以通过命令tac对文件操作,达到目的;有时&…

百望云产业链图谱引领数字变革 赋能企业高价值数字资产管理

全球经济相互依存度增加,技术进步的速度越来越快,市场竞争日益激烈……这些因素共同塑造了一个复杂多变、不确定性极高的商业环境。在当今风云变幻的经济格局和市场波动不断的大背景下,众多企业们面临着如何利用海量数据赋能业务决策的挑战和…

0829【综述】面向时空数据的区块链研究综述

摘要:时空数据包括时间和空间2个维度,常被应用于物流、供应链等领域。传统的集中式存储方式虽然具有一定的便捷性,但不能充分满足时空数据存储及查询等要求,而区块链技术采用去中心化的分布式存储机制,并通过共识协议来保证数据的安全性。研究现有区块链1.0、2.0和以Block-DAG为…

Java--输入(格式化)输出

1、读取输入 要想通过控制台进行输入,首先需要构造一个与“标准输入流”System.in关联的Scanner对象。 import java.util.*; // Scanner类定义在java.util包中 ​ Scanner in new Scanner(System.in); java.util.Scanner Scanner(InputStream in) 用给定的输人流…

CSDN每日一练 |『清理磁盘空间』『奇偶排序』『编号分组』2023-08-30

CSDN每日一练 |『清理磁盘空间』『奇偶排序』『编号分组』2023-08-30 一、题目名称:清理磁盘空间二、题目名称:奇偶排序三、题目名称:奇偶排序四、题目名称:编号分组 一、题目名称:清理磁盘空间 时间限制:1…

e与phi不互素的情况

情况一:e较大且与(p-1)或(q-1)中任意一个不互素 例题:moeCTF2022---Signin 题目源码: from Crypto.Util.number import * from secret import flag mbytes_to_long(flag) pgetPrime(512) qgetPrime(512) print(p,p) print(q,q) np*q e65537…

DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 论文精读笔记

DEFORMABLE DETR DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 参考:AI-杂货铺-Transformer跨界CV又一佳作!Deformable DETR:超强的小目标检测算法! 摘要 摘要部分,作者主要说明了如…

Mybatis1.8 删除一行数据

1.8 删除一行数据 1.8.1 编写接口方法1.8.2 编写SQL语句1.8.3 编写测试方法 如上图所示,每行数据后面都有一个 删除 按钮,当用户点击了该按钮,就会将改行数据删除掉。那我们就需要思考,这种删除是根据什么进行删除呢?是…

HttpClient 绕过证书验证- sun.security.validator.ValidatorException: PKIX

sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target 问题 package com.example.demo.test;import com.alibaba.fastjson2.JS…

MySQL的备份与恢复以及日志管理

目录 一、数据备份的重要性 二、数据库备份的分类 1、物理备份 2、逻辑备份 (1)完全备份:每次对数据进行完整的备份 (2)差异备份:备份自从上次完全备份之后被修改的过文件 (3&#xff09…

优化爬虫请求:如何选择合适的爬虫ip轮换策略?

在进行爬虫任务时,使用隧道爬虫ip并采用合适的轮换策略可以提高稳定性和效率。选择合适的隧道爬虫ip轮换策略可以优化您的爬虫请求过程。 1、考量目标网站特点 不同网站对于频繁请求可能有不同限制或反爬机制。 了解目标网站是否存在IP封禁、验证码等问题&#xff…

初创公司如何选择小型办公室

初创公司寻找小型办公室时,有多种选择。不同的办公室类型具有不同的租金成本、交通便利程度和对公司发展的影响。本文将比较几种不同的小型办公室,为初创公司提供选择建议。 共享办公空间 共享办公空间是一种适合初创公司和自由职业者的办公室类型。这种…

Mybatis1.10 Mybatis参数传递

1.10 Mybatis参数传递 1.10.1 多个参数1.10.2 单个参数 Mybatis 接口方法中可以接收各种各样的参数,如下: 多个参数单个参数:单个参数又可以是如下类型 POJO 类型Map 集合类型Collection 集合类型List 集合类型Array 类型其他类型 1.10.1 …

Kubernetes技术-Kubernetes集群环境搭建准备

1.搭建环境规划 在搭建k8s的时候可以分为两种: 单master集群,故名思意,只有一个master管理节点和多个node节点。如下图所示: 多master集群,故名思意,有多个master管理节点和多个node节点。如下图所示: 2.服务器硬件要求 (1).测试环境要求(教学、研究等环境) Master节点:至…

《Kali渗透基础》15. WEB 渗透

kali渗透 1:WEB 技术1.1:WEB 攻击面1.2:HTTP 协议基础1.3:AJAX1.4:WEB Service 2:扫描工具2.1:HTTrack2.2:Nikto2.3:Skipfish2.4:Arachni2.5:OWAS…