gwas数据获取如何获取完整的GWAS summary数据(1)------GWAS catalog数据库

news2024/9/28 11:11:45

IEU OpenGWAS project (mrcieu.ac.uk)

UK Biobank - UK Biobank

GWAS Catalog 

在孟德尔随机化(Mendelian randomization,MR)研究中,对于暴露数据我们只需要那些显著的SNP信息,这样的信息在各种GWAS数据库中都是很容易获取的。但是,关于结局的数据,由于需要SNP和结局不相关,所以很多时候这种不显著的结果无法直接从文章或者数据库中查询到,这时候我们需要下载完整的GWAS summary数据了,这种数据一般包含上百万乃至上千万的SNP信息,所以数据量比较大(压缩后在200M左右),希望大家有所认识,有所准备。

接下来,我将介绍如何从GWAS catalog下载完整的GWAS summary 数据

首先,进入GWAS catalog的官网(https://www.ebi.ac.uk/gwas/),点击Summary statistics(如下图所示)

进入Summary statistics后点击Available studies(如下图所示)

最后,你将进入如下界面(链接:https://www.ebi.ac.uk/gwas/downloads/summary-statistics)

该界面主要由三部分组成

第一块是 “List of published studies with summary statistics“(如下图所示):这里的GWAS研究都是已经发表的,质量有保证,你可以在检索框(红色标记处)里输入关键词检索感兴趣的表型。

第二块是 “List of prepublished/unpublished studies with summary statistics“(如下图所示):这里的GWAS研究是未发表见刊的(可能是来源于预印本),质量无法保证,你可以在检索框(红色标记处)里输入关键词检索感兴趣的表型。这里的表型可能会比较新,是对已发表数据的补充。当你实在找不到数据时,不妨来这里试试。

第三块是“Additional sources of summary statistics“(如下图所示):这里整理汇总了目前GWAS研究协作体(consortium)的相关信息。一般这些协作体会建有自己的网站来存储数据,我们可以到它们的官网上下载完整的GWAS summary 数据。图中用红色标记的是冠心病研究的协作体。

GWAS catalog数据库是一个宝藏,米老鼠在这里抛砖引玉,希望大家能更深入地研究利用它,也欢迎私信交流你的idea(微信:MedGen16)!

PS: GWAS catalog有时候需要开国外代理模式才能使用,小伙伴们提前准备好哈!

ssgac

获取gwas的来源

 

包含的数据

 

1 读取exposure数据

1.2 保存exposureshuju

开始实操

读取暴露数据

读取结局数据

harmonize data 

mr

敏感性分析 

 显著且相互独立,获取工具变量

 优点就是快,缺点就是有可能

可能不相互独立 连锁不平衡

5 * 10 -8

 

说明工具变量与暴露相关   与结局不相关。

可能丢掉了snp

step1 r读取暴露数据

 需要相关性设置 subset函数   5*10 -8

独立性设置     clump函数   去除连锁不平衡   ld r2越小越好,通常0.001 最大0.1.   

取决于snp数     distance 500kb也可以

统计强度设置  f>10较好

 1.1  需要相关性设置 subset函数   5*10 -8

1.2修改文件的列名

1.3 独立性设置 重新读取subset之后的暴露数据read_exposure_data

clump默认  ldr2<0.01

可以之后再clump  clump_data

 step2 读取outcomedata

1 read.table 

2 merge 取交集

2.1 改列名

 

3 read_out_come_data

小结

 效应等位基因

 需要使用代码协调 A--.>T

代理snp

代理snp 设置为0.8  越大越说明他们之间存在连锁不平衡 说明他们之间相互影响大  他们互相替代的可能性就高

但是独立性设置时候要让ld r2尽可能小0.001

样本重叠了

暴露数据 50w 

结局数据 100w

snp数据必须大于500w才能用  正常可达1000w

step3协调 harmonise

剔除回文序列 

保存文件

 确保暴露的snp与结局不相关

snp与暴露要相关

snp与结局不相关  符合假设

 

step4 mr

ivw为随机效应模型

结局为连续变量使用 beta值  以0 为界

结局为分类变量时候 ,需要对数转化,使用or 以1为界

使用其他方法

mr(dat,method_list=c())

 画散点图时,选择想要的方法画图

5 结果可视化

6 敏感性分析包括:异质性检测  多效性检测 

异质性检测

异质性《0.05 则存在异质性,

有异质性,对结果的可靠性不影响

nbdistribution 设置为1w,更准确

6.1 找出对异质性影响最大的snp run_mr_pressor

nb

 

这个离群值对方向是否有影响  没影响则p>0.05 

l列出离群值  p小于0.05  则说明存在异质性

如果异质性很多,及时扔到几个snp,重新计算还是会有异质性的

6.2 异质性可视化funnel plot

越对称 越好 

也会存在  ;即使不存在异质性  漏斗图也不对称

6.2 多效应 mr_pleiotropy_test()  结果不好就撤退,文章发不了

功能多效性 水平多效性

比如 snp可能通过别的表型作用于ad,而不是通过bmi这个表型来作用域ad

 0.078》0.05 没有多效性

使用egger_intercept来评估多效应

egger与y轴的截距 p值是来评估截距是否存在

如果p》0.05 ,则没有显著性,说明截距不存在

如果p《0.05,则有显著性。表明当snp为0时,对outcome存在非0的效应,说明snp可能通过影响其他表型来对结局产生影响。说明存在水平多效性。 这样的结果就不能使用

(snp对暴露的影响为0时,对结局仍产生非0影响,说明存在其他的中间因素来影响结局,具有水平多效性)

6.3 leave-one-out 

如果结果比较好,置信区间都应该再虚线的右边 

丢第第一个rs3817334时,剩下的snp再去做

总结

使用r来分析

1 提取暴露数据 

2 导入结局数据 

 

后续都一样 

筛查snp的第二表型 如果存在第二表型 就要可能需要筛掉它

7 统计学效能计算 power

sample size 是总样本量

 a默认0.05

k 病例数所占总数的比例

or值为计算出来的值

  r2 是所有snp(60个)的r2加起来的值  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1235819.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2019ICPC南京站

A A Hard Problem 题意&#xff1a;给定一个正整数 n &#xff0c;你需要找出最小整数 k&#xff0c;满足&#xff1a;从{1,2,⋯,n}中任意选择长度为k的子集&#xff0c;存在两个不同的整数 u,v∈T, 且 u 是 v 的因数。 思路&#xff1a;打表找规律 #include <bits/std…

分类问题的评价指标

一、logistic regression logistic regression也叫做对数几率回归。虽然名字是回归&#xff0c;但是不同于linear regression&#xff0c;logistic regression是一种分类学习方法。 同时在深度神经网络中&#xff0c;有一种线性层的输出也叫做logistic&#xff0c;他是被输入…

【docker下安装jenkins】(一)

目的&#xff1a;在Linux操作系统&#xff08;x86_64)下&#xff0c;使用docker部署jenkins&#xff0c;python使用压缩包安装 安装jenkins的步骤 &#xff11;、编排jenkins的docker-compose.yml文件 说明&#xff1a;这里遇到部署jenkins后&#xff0c;占用内存8G,所以重新…

智能时代的智能工具(gpt)国产化助手

目前gpt对代码以及其他领域都是可以支持&#xff0c;在国内有很多&#xff0c;常用的百度的 文心一言 &#xff0c;阿里的 通义千问 &#xff0c;还有&#xff08;“豆包”&#xff0c;“”讯飞星火“”&#xff09;等&#xff0c;除了写代码可以外&#xff0c;也可以很好的支持…

设计模式—结构型模式之享元模式

设计模式—结构型模式之享元模式 享元模式(Flyweight Pattern)&#xff0c;运用共享技术有效地支持大量细粒度对象的复用。系统只使用少量的对象&#xff0c;而这些对象都很相似&#xff0c;状态变化很小&#xff0c;可以实现对象的多次复用。对象结构型。 在享元模式中可以共…

OpenCV中的形态学8

文章目录 形态学概述图像全局二值化阈值类型自适应阈值二值化OpenCV腐蚀获取形态学卷积核OpenCV膨胀开运算闭运算形态学梯度顶帽运算黑帽操作小结 形态学概述 开运算&#xff1a;先做腐蚀后做膨胀&#xff08;腐蚀可以理解为缩小&#xff09; 闭运算&#xff1a;先膨胀后腐蚀 …

LeetCode209.长度最小的子数组(滑动窗口法、暴力法)

LeetCode209.长度最小的子数组 1.问题描述2.解题思路3.代码4.知识点 1.问题描述 给定一个含有 n 个正整数的数组和一个正整数 target 。找出该数组中满足其总和大于等于 target 的长度最小的 连续子数组 [numsl, numsl1, ..., numsr-1, numsr] &#xff0c;并返回其长度。如果…

OpenGeometry 开源社区特聘子虔科技云CAD专家 共建云几何内核

11月5日&#xff0c;由广东省工业和信息化厅、广东省科学技术厅、广东省教育厅、深圳市人民政府主办的2023工业软件生态大会在广东省深圳市召开。 开幕式上&#xff0c;备受关注的云几何内核开源平台——OpenGeometry开源社区正式发布。这意味着在几何引擎领域将通过开源这个模…

界面控件DevExpress WPF流程图组件,完美复制Visio UI!(一)

DevExpress WPF Diagram&#xff08;流程图&#xff09;控件帮助用户完美复制Microsoft Visio UI&#xff0c;并将信息丰富且组织良好的图表、流程图和组织图轻松合并到您的下一个WPF项目中。 P.S&#xff1a;DevExpress WPF拥有120个控件和库&#xff0c;将帮助您交付满足甚至…

专业课140+总分420+东南大学920专业综合考研,信息学院通信专业考研分享

专业课140总分420东南大学920专业综合考研&#xff0c;信息学院通信专业考研分享 我是三月开始系统考研备战&#xff0c;寒假先看的高数全书&#xff0c;奈何在家效率极其低下&#xff0c;才草草看了前三四章。回校后学习的比较认真&#xff0c;每天大概保持10个小时左右&…

List操作的一些常见问题

文章目录 阿里巴巴开发手册强制规约&#xff1a;1. Arrays.asList转换基本类型数组2. Arrays.asList返回的List不支持增删操作3. 对原始数组的修改会影响到我们获得的那个List4. ArrayList.subList强转ArrayList导致异常5. ArrayList中的subList切片造成OOM6.Copy-On-Write 是什…

nodejs微信小程序+python+PHP-维斯公司财务管理系统的设计与实现-计算机毕业设计推荐

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性&#xff1a;…

【libGDX】使用Mesh绘制三角形

1 Mesh 和 ShaderProgram 简介 1.1 创建 Mesh 1&#xff09;Mesh 的构造方法 public Mesh(boolean isStatic, int maxVertices, int maxIndices, VertexAttribute... attributes) public Mesh(boolean isStatic, int maxVertices, int maxIndices, VertexAttributes attribut…

使用MONAI轻松加载医学公开数据集,包括医学分割十项全能挑战数据集和MedMNIST分类数据集

在深度学习中&#xff0c;使用公开数据集具有以下优点&#xff1a; 提供了一个标准化的基准来比较不同算法或模型的性能&#xff0c;因为这些公共数据集被广泛使用&#xff0c;许多研究人员都使用它们来评估他们的方法。可以节省大量的时间和金钱&#xff0c;因为这些数据集已…

Pytorch从零开始实战10

Pytorch从零开始实战——ResNet-50算法实战 本系列来源于365天深度学习训练营 原作者K同学 文章目录 Pytorch从零开始实战——ResNet-50算法实战环境准备数据集模型选择开始训练可视化模型预测总结 环境准备 本文基于Jupyter notebook&#xff0c;使用Python3.8&#xff0c…

成长在于积累——https 认证失败的学习与思考

1. 引言 本周二长城项目在收尾过程中&#xff0c;出现了一个车端无法进行注册的问题&#xff1a;curl提示证书认证失败&#xff08;其实已经能确认问题方向了&#xff0c;运维人员去确认证书问题即可&#xff09;。虽然最终的原因是由于长城运维人员导致的。但是这个过程让我颇…

享元模式 rust和java的实现

文章目录 享元模式介绍实现javarust实现代码 rust仓库rust仓库 享元模式 享元模式&#xff08;Flyweight Pattern&#xff09;主要用于减少创建对象的数量&#xff0c;以减少内存占用和提高性能。这种类型的设计模式属于结构型模式&#xff0c;它提供了减少对象数量从而改善应…

【Go语言实战】(26) 分布式搜索引擎

Tangseng 基于Go语言的搜索引擎 github地址&#xff1a;https://github.com/CocaineCong/tangseng 详细介绍地址&#xff1a;https://cocainecong.github.io/tangseng 这两周我也抽空录成视频发到B站的&#xff5e; 本来应该10月份就要发了&#xff0c;结果一鸽就鸽到现在hh…

SPASS-指数平滑法

基本概念及统计原理 基本概念 指数平滑法的思想来源于对移动平均预测法的改进。指数平滑法的思想是以无穷大为宽度&#xff0c;各历史值的权重随时间的推移呈指数衰减&#xff0c;这样就解决了移动平均的两个难题。 统计原理 简单模型 Holt线性趋势模型 案例 为了研究上海市…