全基因组选择:LightGBM通过提升GWAS敏感性促进基因挖掘

news2024/9/22 5:25:25

GWAS是识别性状相关基因和理解性状背后的遗传结构的有效方法,随着下一代测序技术的快速发展,基因分型费用显著降低,而在大规模人群的情况下,表型已成为GWAS的瓶颈。由于测序技术的快速发展,获取基因的成本已经显著降低,但是获取表型的成本并未降低,因为获取表型的话需要经过种子的种植培育等过程,所需时间较长,不如基因可以直接通过基因分型获取那么简单,进行GWAS分析的话需要同时用到基因型和表型,所以此时表型的获取便成为了GWAS分析的瓶颈。

对于由多个基因控制的数量性状,群体大小对于GWAS检测能力尤为关键,一般的分析当然都是群体越大越容易进行分析,分析的结果也更为准确,对于多个基因控制的数量性状,基因相当于是自变量,性状相当于是因变量,群体数量太少的话很容易就过拟合了,极端情况下出现个体数量少于基因总数。

据推测,如果基因组预测是精确的,预测的表型可以用于未测量的样品进行GWAS分析,如果进行预测的方法得当,证明预测准确性很高,那么预测的表型就可以直接用于分析,就可以大大降低成本。因此,可以节省表型费用;然而,一个合适数量的群体应该被确立出来,理论上说群体是越大越好,但是群体变大之后成本又会相应增加。为了验证这一假设,使用7431个样本(6210 F1s + 1221 Jing724 F1s)作为训练集,去预测1221个Zheng58 F1s的DTT 、PH 和 EW 表型。然后,我们比较了来自具有观察表型的7431个样本和包含具有预测表型的1221个F1的8652个样本的GWAS信号,将包含预测样本 1221 个Zheng58 F1s 的8652个样本和不包含1221 Zheng58 F1s的7431个样本的GWAS信号进行比较。

至于DTT性状,在两个群体中检测到MADS69和ZCN8峰,并且8652个样品表现出增强的SNP效应,可能是由于群体大小的增加。同样,PH和EW的GWAS也表现出与BRD1和MADS69基因相关的增强信号。

此外,我们测试了LightGBM对代谢化合物含量的可预测性,代谢化合物可能被认为是由少数生物合成酶决定的一种定性性状。 在266个核心种质中测量的两个未表征代谢物(5.47_216.1009和3.32_594.1573 N)的含量被用作表型,以预测它们在另外509个未测量品系中的含量。随后,在266系和775(509+266)系中分别进行两种代谢物的GWAS。从这里我们可以看到是采取的和之前相同的思路,先用一部分进行预测,再将用于预测的个体和预测的加起来与用于预测的个体进行含量比较对比出差异。至于5.47_216.1009,在具有测量含量的266个品系中检测到一个显著峰,对应于基于CornCyc注释的编码参与脂肪酸生物合成的β-酮酰基-ACP合酶的候选基因Zm00001d002103,在包括具有预测含量的509个样品的775个品系中,发现与基因Zm00001d002103相关的相同峰具有增强的信号。266个品系中代谢物3.32_594.1573 N的GWAS检测到编码UDP-葡萄糖基转移酶(ZmUGTs)的串联重复基因簇,在包含预测样品的775个品系中显示相同的GWAS信号。因此,对训练群体中最初检测到的基因的GWAS识别不仅验证了LightGBM的精度,而且证明了GS策略在表型分析费用显著降低的未开发种质的基因挖掘中的实用性。然而,应该注意的是,这种策略可能只适用于具有高可预测性的性状,并且使用预测的表型可能无法准确估计QTL效应。因此,这种方法仅适用于未开发种质上性状相关QTL的粗略作图,以鉴定训练群体和预测群体之间共享相似单倍型模式的基因组区域。

 通过LightGBM预测增强GWAS灵敏度。在将具有预测表型的1221个F1添加到具有观察到的表型的7431个训练样品中后,DTT、PH和EW上的GWAS信号增强。蓝色、绿色和红色虚线分别代表1E5、1E6和2.2 E7的p值。在将具有预测表型的509个品系添加到266个训练样本后,代谢化合物5.47_216.1009(左图)和3.32_594.1573 N(右图)上的b GWAS信号增强。蓝色、绿色和红色虚线分别代表1e−5、1e−6和2.2 e−7的p值。

总结以上我们可以看出,题目中所说的增强GWAS敏感性就是通过预测将之前就存在的那些信号增强,使信号更容易检测出来,分别通过两个案例验证了这个结果,分别表现出了增强的SNP效应和相关峰有增强的信号。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/931857.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分享几个 Selenium 自动化常用操作

最近工作会用到selenium来自动化操作一些重复的工作,那么在用selenium写代码的过程中,又顺手整理了一些常用的操作,分享给大家。 常用元素定位方法 虽然有关selenium定位元素的方法有很多种,但是对于没有深入学习,尤…

Python“牵手”当当网商品列表数据,关键词搜索当当网API接口数据,当当网API接口申请指南

当当网平台API接口是为开发电商类应用程序而设计的一套完整的、跨浏览器、跨平台的接口规范,当当网API接口是指通过编程的方式,让开发者能够通过HTTP协议直接访问当当网平台的数据,包括商品信息、店铺信息、物流信息等,从而实现当…

AVR128 智能风扇设计-proteus-程序

一、系统方案 模拟的电风扇的工作状态有3种:自然风、常风及睡眠风。使用三个按键S1-S3设置自然风、常风及睡眠风。 再使用两个按键S4和S5,S4用于定时电风扇定时时间长短的设置,每按一次S4键,定时时间增加10秒,最长60秒…

MacOS软件安装包分享(附安装教程)

目录 一、软件简介 二、软件下载 一、软件简介 MacOS是一种由苹果公司开发的操作系统,专门用于苹果公司的计算机硬件。它被广泛用于创意和专业应用程序,如图像设计、音频和视频编辑等。以下是关于MacOS的详细介绍。 1、MacOS的历史和演变 MacOS最初于…

功能强大的网站检测工具Web-Check

什么是 Web-Check ? Web-Check是一款功能强大的一体化工具,用于查找有关网站/主机的信息。目前仪表版上可以显示:IP 信息、SSL 信息、DNS 记录、cookie、请求头、域信息、搜索爬虫规则、页面地图、服务器位置、开放端口、跟踪路由、DNS 安全扩…

UE4/5的Custom节点:在VScode使用HLSL(新手入门用)

目录 custom节点 VSCode环境安装 将VSCode里面的代码放入Custom中 custom节点 可以看到这是一个简单的Custom节点: 而里面是可以填写代码的: 但是在这里面去写代码会发现十分的繁琐【按下enter后,不会换行,也不会自动缩进】 …

关于UG/NX二次开发的历史和发展前景

UG/NX是一款广泛应用于计算机辅助设计与制造领域的软件,具有强大的二次开发能力。本文将介绍UG/NX二次开发的历史和发展前景。 一、UG/NX二次开发的历史 UG/NX最初由美国UGS公司(后被西门子收购)开发,是一款集成了CAD、CAM和CAE…

docker 重装提示 Exising installation is up to date 解决方法

Windows Docker 重装提示 Exising installation is up to date 解决方法 出现这个问题是因为卸载Docker没有卸载干净,导致无法重装 解决方法: 按下WindowR唤起命令输入界面,输入 regedit 打开注册表编辑在地址栏输入HKEY_LOCAL_MACHINE\SOFTW…

大数据之Maven

一、Maven的作用 作用一:下载对应的jar包 避免jar包重复下载配置,保证多个工程共用一份jar包。Maven有一个本地仓库,可以通过pom.xml文件来记录jar所在的位置。Maven会自动从远程仓库下载jar包,并且会下载所依赖的其他jar包&…

【MOS管的作用和工作原理】

数电/模电知识学习与分享001 MOS管的作用和工作原理1、MOS管基本概念2、MOS管基本原理3、MOS管广泛作用4、MOS管特点4、参考文献 MOS管的作用和工作原理 1、MOS管基本概念 MOS管(Metal-Oxide-Semiconductor Field-Effect Transistor)是一种常用的半导体…

100个Python小游戏,上班摸鱼我能玩一整年【附源码】

哈喽铁子们 表弟最近在学Python,总是跟我抱怨很枯燥无味,其实,他有没有认真想过,可能是自己学习姿势不对? 比方说,可以通过打游戏来学编程! 今天给大家分享100个Python小游戏,一定…

个人记录:划分

原始数据展示 每五个大图移动一次所有的大图名称的小图片。 读取指定图片格式的图片名称,内置函数map执行,文件移动 图片01-17[:27] 图片17-70要改27为25 import os import shutil # source dataset/sat_train/ source_path "/mnt/sdb1/fenghaixia/dsm/da…

考虑储能电池参与一次调频技术经济模型的容量配置方法(matlab代码)

目录 1 主要内容 储能参与调频原理 储能参与一次调频的充放电策略 2 部分代码 3 程序结果 4 下载链接 1 主要内容 该程序复现文献《考虑储能电池参与一次调频技术经济模型的容量配置方法》模型,以调频效果最优为目标,考虑储能参与一次调频的充放电…

Tcp 协议的接口测试

首先明确 Tcp 的概念,针对 Tcp 协议进行接口测试,是指基于 Tcp 协议的上层协议比如 Http ,串口,网口, Socket 等。这些协议与 Http 测试方法类似(具体查看接口自动化测试章节),但在测…

函数式编程-Stream流学习第二节-中间操作

1 Stream流概述 java8使用的是函数式编程模式,如同它的名字一样,它可以用来对集合或者数组进行链状流式操作,让我们更方便的对集合或者数组进行操作。 2 案例准备工作 我们首先创建2个类一个作家类,一个图书类 package com.stream.model;…

VMware软件安装包分享(附安装教程)

目录 一、软件简介 二、软件下载 一、软件简介 VMware软件是一种虚拟化软件,可以将一台计算机分成多个虚拟机,每个虚拟机都可以运行独立的操作系统和应用程序,从而实现多个不同的工作环境共用同一台硬件设备。以下是关于VMware软件的详细介…

38、springboot为 spring mvc 提供的静态资源管理,覆盖和添加静态资源目录

springboot为 spring mvc 提供的静态资源管理 ★ Spring Boot为Spring MVC提供了默认的静态资源管理: ▲ 默认的四个静态资源目录: /META-INF/resources > /resources > /static > /public ▲ ResourceProperties.java类的源代码&#xff0…

Java进阶篇--进程和线程的区别

进程和线程 进程 在一个操作系统中,每个独立执行的程序都可称之为一个进程,也就是“正在运行的程序”。目前大部分计算机上安装的都是多任务操作系统,即能够同时执行多个应用程序,最常见的有Windows、Linux、Unix等。比如在Wind…

最新社会工程学技术

人本身是防御体系中最大的漏洞。由于人心的不可测性,决定了无法像修补漏洞一样对人打补丁,只能通过后天培养安全意识来预防这种情况发生。虽然社会工程学的本质是心理战术,但是可以使用很多技术手段进行辅助,本节介绍社会工程学常…

REDIS 7 教程 数据类型-进阶篇

⑥ *位图 bitmap 1. 理论 由0和1 状态表现的二进制位的bit 数组。 说明:用String 类型作为底层数据结构实现的一种统计二值状态的数据类型 位图本质是数组,它是基于String 数据类型的按位操作。该数组由多个二进制位组成,每个二进制位都对应一个偏…