plink中的BGEN格式的数据如何用

news2024/11/17 11:36:17

这里,介绍一下BGEN格式的数据,他的文件格式是这样的:a.bgen,这是一个新的数据格式,目前应用不如plink的二进制文件:.bim,.bed,.fam。这里介绍一下如何相互转换。

1. bgen格式介绍

现代遗传关联研究通常使用数万至数十万个体的数据,这些数据是全基因组数千万标记的基因分型或估算的。基于这些数据的文本表示的传统数据格式(如IMPUTE输出的GEN格式或变量调用格式)有时不太适合这些数据量。事实上,对于简单的程序,解析这些格式所花费的时间可以支配程序执行时间。

本页介绍了二进制GEN文件格式(“BGEN”格式),旨在解决这些问题。BGEN是一种稳健的格式,其设计具有特定的混合特性,我们认为这对此类研究很有用。它的目标是用于大型、潜在的遗传数据集。主要功能包括:

  • 存储直接输入和输入数据的能力。

  • 存储非阶段基因型和阶段性单倍型数据的能力。

  • 通过使用高效的、可变精度的压缩位表示和压缩,文件大小较小。

  • 每变量压缩的使用使格式易于索引和编目。

例如,下图显示了在1号染色体上121668个SNP的18496个样本的数据集中,列出各种常见格式(Y轴)、文件大小(X轴)的变体识别数据(即基因组位置、ID字段和等位基因)所需的时间。下面定义的BGEN的两个变体都显示了出来。

下面图中,X周是文件的带下,用log10转换了。Y坐标是处理的时间,文件的格式:

  • 压缩的gen文件
  • 压缩的vcf文件
  • bgen文件
  • bed文件
  • vcf原始文件
  • gen文件

可以看到,bgen1.2,bed,bgen1.1三个格式,文件大小最小,处理时间最短,bed文件没有bgen包含的信息多,所以,这里推荐使用bgen格式。

对于PLINK二进制(.bid)文件,标识数据存储在单独的文件(.bim文件)中,因此时间实际上为零。对于基于文本的格式,文件压缩的使用和读取性能之间存在显著的权衡。BGEN以334Mb存储了22.5亿个基因型的整个数据集,每个基因型略多于一位,在该测试中耗时1.5秒。

(当然,所有格式的性能优化都是可能的,因此上面的图不会代表最佳可能的时序,但应被视为说明性的。)

BGEN格式已用于多个主要项目,包括Wellcome Trust Case Control Consortium 2、MalariaGEN项目和ALSPAC研究。它已被英国生物银行采用为全基因组估算基因型的发布格式。

2. 处理bgen的软件

这里,常用的软件:

  • Mega2
  • LDstore
  • PLINK
  • STITCH

在这里插入图片描述

对于R语言用户,可以用:rbgen包处理

对于Python用户,可以用:bgen-readerpybgen包处理

还有一些C++的程序可以处理,具体参考:https://www.well.ox.ac.uk/~gav/bgen_format/software.html

3. bgen格式转为plink的文件(ped,map)

注意,plink读取bgen文件时,需要指定:

  • .bgen
  • .sample

这两个文件都要存在。bgen文件是二进制文件,sample文件是包括ID_1,ID_2, missing sex的四列数据。

plink2 --bgen t1.bgen 'ref-last' --sample t1.sample --export ped --out x1
  • –bgen文件:指定t1.bgen,后面跟着参数:ref-last,表示ref是放到后面,而不是默认的major为ref
  • –sample 文件,指定 t1.sample,后面跟着sample文件,这两个文件要分开指定
  • –export ped,指定输出的格式,是输出plink的文本文件

4. bgen格式转为plink的二进制文件(bed,bim和bed)

plink2 --bgen t1.bgen 'ref-last' --sample t1.sample --make-bed --out x1

参数和上面一致,输出用--make-bed定义输出格式为bed,bim,fam

5. plink二进制文件转为bgen格式

plink2 --bfile a1 --export bgen-1.1 --out t1

  • –bfile,读取二进制的前缀
  • –export bgen-1.1 输出bgen格式的文件,还可以用bgen-1.2

就酱!

其它参考资料:plink2.0和plink1.9的忧伤笔记

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/73015.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[附源码]计算机毕业设计JAVA中小企业人事管理系统

[附源码]计算机毕业设计JAVA中小企业人事管理系统 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM my…

HMS Core 6.8.0版本发布公告

分析服务 ◆ 游戏行业新增“区服分析”埋点模板及分析报告,支持开发者分服务器查看用户付费、留存等指标,可进一步评估不同服务器的玩家质量; ◆ 新增营销活动报告,可查看广告任务带来的曝光、点击相关信息,让营销推…

阿里P7晒工资条,看完真的扎心了……

前几天,有位老粉私信我,说看到某95后学弟晒出阿里P7的工资单,他是真酸了…想狠补下技术,努力冲一把大厂。 为了帮到他,也为了大家能在最短的时间内做面试复习,我把软件测试面试系列都汇总在这一篇文章了。…

关于信息系统监理师考试怎么备考?

信息系统监理师是属于软考的中级科目,是水平考试,取得证书后就具备了任职中级职称的资格,并可以注册为信息系统监理师,进行信息系统监理工程师的执业工作。 注册监理工程师,是指经考试取得中华人民共和国监理工程师资…

041-推箱子游戏1

上一讲:040-JAVA集合及GUI综合应用(实现简单的订单管理系统)_CSDN专家-赖老师(软件之家)的博客-CSDN博客 下一讲:推箱子游戏源代码 摘要: 1、使用JAVA基础知识 2、GUI界面编程实现推箱子界面,常用控件的综合应用; 3、使用JAVA绘图技术实现推箱子过程的绘图功能;…

追觅身陷「多事之秋」!一场无法投机的「卡位战」

清洁电器市场正释放着新的商业活力。 GfK数据显示,今年上半年在整体家电市场低迷的同时,清洁机器人市场零售额保持了同比15%的增速,仍然是家电行业的主要增长点。其中,线上市场扫地机器人销售仍然居首位,但洗地机反超…

项目笔记:Arduino读取SD卡

1 硬件连接(使用Arduino Uno): CS -> 10 SCK -> 13 MOSI -> 11 MISO -> 12 VCC ->5V GND -> GND 2 让Arduino检测到SD卡 官方测试程序:检测SD卡连接并输出卡型号 /*SD card testThis example shows how use…

Linux 磁盘结构,文件系统与inode

🧸🧸🧸各位大佬大家好,我是猪皮兄弟🧸🧸🧸 文章目录一、关于磁盘①磁盘②CHS寻址⑤磁盘结构的抽象二、文件系统①inode与文件的关系②创建文件,系统做的事③删除文件,系…

如何升级展锐RM500U模组的5GCPE固件

本文镜像:https://blog.csdn.net/weixin_45326556/article/details/128236605 如何升级展锐RM500U模组的5GCPE固件1. 准备工作2. 安装5GCPE串口驱动3. 升级固件3.1 选择固件3.2 选择串口号3.3 下载固件3.4 下载固件意外情况4. 重新启动5.参考文献1. 准备工作 从网盘…

智慧旅游景区Web3D可视化GIS综合运营平台

建设背景 2014年8月,《国务院关于促进旅游业改革发展的若干意见》。 2015年年初,原国家旅游局发布《关于促进智慧旅游发展的指导意见》。 2021年12月,国务院印发《“十四五”旅游业发展规划》。 在国家和有关部门的引导和支持下&#xff…

卡塔尔世界杯-诸神黄昏

世界杯 世界杯概述:国际足联世界杯(FIFA World Cup)简称“世界杯”,是世界上最高荣誉、最高规格、最高竞技水平、最高知名度的足球比赛,与奥运会并称为全球体育两大最顶级赛事,影响力和转播覆盖率超过奥运会的全球最大…

openGauss数据库安装(2.0.0企业版安装)

目录1. 准备环境2. 预安装3. 正式安装4. 启动并登录数据前言此次数据库的系统安装环境仍然是openEuler20.03LTS,openGauss安装版本是2.0.0版本,相对于极简版安装,确实多了一些工具,例如gs_om工具,极简版安装是没有的,企…

前后端传参

1、路径传参 前端传一个参数:123 后端接收一个参数:123 // /{}是必须写的,id是自定义的// PathVariable 这个注解也是必须写的,否则接不到参数GetMapping("/{id}")//使用什么类型去接收id的值,要看你后端需要…

损失函数是如何设计出来的

损失函数是如何设计出来的? 可以直接观看b站优质博主的视频,该博主讲的也是非常通透。劝大家直接去看视频,我这只是做一个学习笔记。 https://www.bilibili.com/video/BV1Y64y1Q7hi/?spm_id_from333.788&vd_sourcee13ed5ec556f20f3f3c2…

Medical Image Segmentation Review:The Success of U-Net

目录 医学图像分割综述:UNet的成功 1.摘要与介绍 2.分类 2.1.2D Unet 2.2 3D UNet 3.UNet扩展 3.1对于跳跃连接的增强与改进 3.1.1--增加跳跃连接数量 3.1.2--对跳跃连接过程中的特征进行处理 3.1.3--编码器和解码器特征图的组合 3.2--主干网络的改进与增…

【Lilishop商城】No3-2.模块详细设计,系统设置(系统配置、行政区划、物流公司、滑块验证码图片、敏感词过滤)的详细设计

仅涉及后端,全部目录看顶部专栏,代码、文档、接口路径在: 【Lilishop商城】记录一下B2B2C商城系统学习笔记~_清晨敲代码的博客-CSDN博客 全篇会结合业务介绍重点设计逻辑,其中重点包括接口类、业务类,具体的结合源代码…

【JavaWeb开发-Servlet】day04-学生成绩管理系统-环境搭建与展示页面

1、项目名称:学生成绩管理系统 2、技术要求:Java、Servlet、JSP、HTML5、JavaScript、Css 3、编译环境:JDK1.8、eclipse2022、TomCat9.0 4、基本功能:增、删、改、查、分页、登录、注册 目录 一、创建项目 (1&#x…

自动化测试平台(一):前期准备和后端服务搭建

一、前言 本专栏会基于djangoreact,并结合这些年自己构建多个自动化测试平台的经验,从0开始,一步一步教会你实现一个完备的商用级自动化测试平台,真正意义上能够降本增效创造价值的平台。 二、前期准备 安装mysql,版…

用Virtuoso和Abstract完成gds2lef

需要用到的工具有virtuoso和abstract。 数模混合的项目通常需要模拟完成模块设计,把接去数字的pin打上label(text),数字的floorplan才能正式开始。 如果只需要简单的数字PR boundary和pin点位置,那么只使用virtuoso就…

MySQL分区详解

目录 一、定义 1.1 概述 1.2 分区的优势 二、分区的类型 2.1 检查MySQL是否支持分区 2.2 类型 2.3 分区的其他操作 一、定义 1.1 概述 数据库分区是一种物理数据库设计技术。虽然分区技术可以实现很多效果,但其主要目的是为了在特定的SQL操作中减少数据读写…