代谢组数据分析七:从质谱样本制备到MaxQuant搜库

news2024/10/7 2:25:48

前言

LC-MS/MS

Liquid Chromatography-Mass Spectrometry(LC-MS/MS ,液相色谱-质谱串联)可用于残留化合物检测、有机小分子检测、鉴定和定量污染物以及在医药和食品领域添加剂检测和生物小分子等检测。

LC-MS/MS一般包含五个步骤(Figure 1):

  1. 样本制备;
  2. 样本分离:使用液相色谱方法分离;
  3. 质谱上机:离子化、LUMOS原理、采集模式(DDA、DIA、SRM/PRM);
  4. 质谱鉴定:谱图格式(Raw、MzXML、MGF)、搜库、打分算法、FDR质控、蛋白推断;
  5. 生信分析:谱图校验和下游数据统计分析。

步骤详解

样本制备

提取样品中的蛋白质后,再使用蛋白酶对蛋白进行酶切处理,一般处理后的肽段在35AA以内即可上机(Figure2)。常用蛋白酶是Trypsin。

样本分离

液相色谱包括固定相和流动相的一类分离技术,以液体作为流动相,固定相可以是多种类型也可以是液体也可以是固体等。Figure3 固定相是3A中圆孔材料,流动相是两类液体,液体A可将肽段插入到固定相中。在不断增加液体B的浓度后,肽段可以及液体B的浓度大小呈现梯度整齐分布,最后计算肽段在液相过程的保留时间(Retention time, RT),该指标反应肽段的疏水作用,时间越长疏水效果越强。

质谱上机

质谱仪的构成简要图(Figure 4

质谱仪元件

离子源 [Ion Sources make ions from sample molecules.]

  • 基质辅助激光解吸电离(MALDI)
  • 电喷雾电离(ESI)

质量分析器[Mass analyzers separate ions based on their mass-to-charge ratio (m/z)]

  • 傅立叶变换离子回旋加速器(FT-MS)
  • 线性离子阱(Linear ion trap)
  • 三维离子阱(3D ion trap)
  • 轨道离子阱(Orbitrap)
  • 四极杆(Quadrupole)
  • 飞行时间(Time-of-flight, TOF)

信号检测器[Ion Detector registers the number of ions at each m/z value.]**

  • 微通道板(Microchannel Plate)
  • 电子倍增器(Electron Multiplier)
  • 光电倍增混合管(Hybrid with photomultiplier)

质谱图谱示意图(Figure5)图解:

  1. 正面主视图是液相色谱图(以Retention Time作为X轴,intensity可认为是relative abundance作为Y轴),每个峰表示RT时间相近也即是疏水作用强度相同的肽段离子;
  2. 侧面黑色X轴是m/Z是一级质谱图,x轴是肽段的质荷比,每一个峰表示该比值下的肽段集合;
  3. 侧面蓝色是上一步一级图谱同质荷比下的二级图谱,是分辨率更高的图谱结果;
  4. intensity可以理解为色谱和质谱的响应强度。

数据采集模式

非靶向质谱数据采集模式:Full-scan(全扫描)、DDA(数据依赖采集)和DIA(数据非依赖采集)。

  • 全扫描模式是将肽段一级和二级图谱分开全部扫描,所需时间较长,但获取的峰最多。

  • DDA数据依赖采集,根据全扫描的一级图谱中的一堆母离子的intensity以及动态时间去解析二级图谱,但该过程可能后漏掉携带有用信息的峰;**优点:**DDA采用了较窄m/z窗口,二级质谱图没有干扰离子影响,搜库鉴定容易;**缺点:**丰度依赖,谱图采样随机性大,重复性差。

  • DIA数据非依赖采集,在一级图谱扫描过程不对碎裂母离子做筛选,而是设置窗口(窗口大小依据仪器和软件设定),落在该窗口内的母离子全部进入二级碎裂得到二级图谱。**优点:**全面获取所有离子的碎片信息。**缺点:**采集点多会导致谱图信息过度,难以解析。鉴定需要依赖于预先lable的DDA库。

    由于DIA是一次性放了一堆母离子进来,同时碎裂,所以对于DIA来说,不是一张谱图对应一个母离子,而是一堆谱图对应一堆来自多个母离子的碎片离子混合物。因此,我们不可能通过对二级谱图的解析来得到一个一个的母离子。

    那我们应该如何解析呢?我们用DIA二级谱图与平行实验中的DDA的二级谱图进行比对,从中抽取出相同的二级信号,拿这些数据来进行DIA数据的定性以及相应的定量,而这个定量就是依赖于MS2的信号强度。

Targeted是靶向质谱数据采集

质谱鉴定

质谱的原始图谱格式通常有:

  • Thermo RAW(赛默飞二进制加密的图形文件,Thermo Xcalibur Browser软件查看);

  • MGF(Mascot Generic Format,是常用格式但仅保留二级谱图信息,原始数据一般不能被肽段图谱比对打分软件识别,需要经过格式转换为打分软件可识别的格式);

  • mzXML

质谱打分比对软件

图谱识别可通过De novo和Database Search两种方式实现.

搜库策略:软件根据设定理论参数对蛋白数据库模拟实验过程进行理论酶切,接着理论肽段又会生成理论图谱,最后将实验得到的图谱也就是质谱的图谱和数据库模拟出的理论图谱进行比较,最终鉴定和定量蛋白质。Figure7

搜库步骤

搜索引擎会对数据库里所有的蛋白序列进行理论酶切,得到肽段序列,再对肽段序列进行理论碎裂,形成理论谱图。

然后,用每一张导入搜索引擎的实验谱图与落入母离子质量误差窗口内的理论谱图进行匹配打分,并选择打分最好的理论谱图对应的肽段作为该实验谱图的鉴定结果。

搜库质控:实验图谱和理论图谱匹配不一定正确,一般需要设置p value等评估匹配结果的指标阈值

错误匹配原因:

  1. 蛋白质序列库不完整或者存在测序错误;
  2. 未知修饰,导致谱图难以被正确鉴定;
  3. 酶切实验的偏差,比如错切、漏切等;
  4. 母离子或子离子质量偏差;
  5. 搜索引擎的打分无法区分谱图对应的正确肽段和错误肽段,因此需要评价肽段鉴定的可靠性,搜索引擎才能根据鉴定到的可信肽段序列进行蛋白质推断。

定性和定量蛋白质

在获取质谱图谱数据后,可通过带有搜库引擎的软件进行定性和定量鉴定蛋白质。我们从仪器中心获得去质谱原始data是Thermo RAW的二进制加密文件,在一般的搜库软件是无法识别的,需要使用ThermoRawFileParser或MSconvert转换为软件可识别的文件。(FAIMS技术相当于在现有图谱分级基础上又再一次对肽段进行分级)

PS:在获取图谱过程中,常会用到2018年才推出的FAIMS(High-Field Asymmetric Waveform Ion Mobility Spectrometry)技术以用于加载不同电压(肽段在ESI离子化后,进入质谱之前实现快速气相分离,提高分离的峰容量),直接使用多电压下的raw data做MaxQuant定量分析是错误的,MaxQuant软件只能识别单电压的raw data,因此需要使用FAIMS MzXML Generator 软件将raw data转换成各自电压下的MzXML文件。

软件

格式转换软件

  • ThermoRawFileParser
  • MSconvert
  • FAIMS MzXML Generator

搜库软件:

  • 免费:MaxQuant,MSGFplus,Comet(前一个最好用win版本,后两个用linux版本,然后后两个是最好用主流的质控软件);
  • 收费:Proteome Discoverer, Mascot;
  • 也有基于X!Tandem算法的rTANDEM R包。

结果评估:

  • PTXQC R包

  • proteoQC R包

数据库

来自欧洲生物信息学中心的UniProt KB数据库是现在使用较多的蛋白质数据库。除了选择公共数据库外,还可以自行添加或者从头构建蛋白质数据库(一般会加入实验室常见污染物数据库,方便剔除)。另外,如果所研究的物种没有对应的蛋白质数据库,可选择最近物种的序列库。

实操过程

下面部分是原始质谱数据定性和定量蛋白质过程:

  1. 安装数据转换和搜库软件:本教程基于MaxQuant 1.6.17.0版本,该软件可从MaxQuant官网直接下载或从子目录Software直接解压获取。另外,需和仪器中心确定是否使用了FAIMS技术后,再从子目录Software中解压安装FAIMS MzXML Generator软件;

  2. 下载蛋白质数据库Database子目录下已下载23/2/2021年的human的Uniprot蛋白质数据,或者直接上Uniprot官网下载(1.进入官网,选择Proteomes;2.以human作为关键字搜索后,选择Organism的Homo sapiens后进入;3.进入下图后选择Download按钮以FASTA格式下载数据即可);

  3. 转换原始数据格式:若使用FAIMS技术,则需要使用FAIMS MzXML Generator软件将RAW转换成40/60/80不同电压下的mzXML文件,否则跳过该步骤;

  4. 搜库鉴定蛋白质:我们使用免费开源的MaxQuant 1.6.17.0版本软件进行鉴定蛋白质,在运行前,需要配置好一下参数和注意以下事项:

    • Raw data功能项导入图谱数据(mzXML),可通过最右侧功能栏设置样本的名称和分组等信息;

    • Group-specific parameters:

      • “Modifications”:选择样本相关的修饰(LabelFree增加Deamidation(NQ)、Gln->pyro-Glu);

      • “Instrument”:MaxQuant会自动选择机器类型,也可以手动修改,参数选择软件默认的即可;

      • “digestion”:选择默认的Trypsin/P;

      • “Label-free quantification”:选择LFQ及其默认参数。

    • Global parameters:(其他参数选择默认参数即可,也可根据实际情况自行设置)

      • “Sequence”:选择"Add"导入蛋白质fasta文件,并点"Identifier",选择"Up to first space";

      • “Identification”:选择Match between runs;

      • “Label-free quantification”:选择iBAQ;

      • “Folder locations”:可自行设置Combined结果的输出路径也可使用默认。

    • 在设置完所有参数后,点击上面File选择保存parameters files,方便下次重复运行。

    • 完成保存设置参数文件后,最左下方提供选择CPU数目,一般设置电脑total(CPU) -1的数目。设置完成后,可在电脑空闲时候选择Start,即可在Performance界面看到软件在运行的状态。

结果

MaxQuant完成蛋白质定性和定量后,会生成如下combined目录,其子目录txt下的proteinGroups.txt文件即是蛋白质结果文件。

下游数据分析

下游数据分析可参考。

致谢

感谢张乐同学seminar分享的PPT,本文很多图片或知识点来自于他的PPT,再次感谢。

参考

  1. A Critical Review of Trypsin Digestion for LC-MS Based Proteomics

  2. Peptide retention time prediction

  3. 蛋白质组学数据分析基础3

  4. 2019-11-12p值、E值、FDR、q值…你晕菜了吗?

  5. MGF Files (MS/MS container files)

  6. ThermoRawFileParser

  7. proteoQC

  8. MaxQuant – Information and Tutorial

  9. Bioconductor的质谱蛋白组学数据分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1637905.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

yolov5口罩检测实战

学习资料提要:手把手教你使用YOLOV5训练自己的目标检测模型-口罩检测-视频教程_搭建yolo目标检测的环境. 使用yolo-air模块来做实验-CSDN博客 在B站上有这个UP主的实操视频 一 环境安装 1.先在anaconda prompt 里面 (1)conda activate 会转为(base&…

【LeetCode刷题】875. 爱吃香蕉的珂珂

1. 题目链接 875. 爱吃香蕉的珂珂 2. 题目描述 3. 解题方法 简单的用我自己的理解来解释一下这道题的意思。 所以也就是说找到一个速度k,看还有没有比k更小的速度能吃完数组中的香蕉,如果有则继续寻找,没有则是k这个速度。就好比上面的解释…

HarmonyOS 4.0(鸿蒙开发)01 - 怎么学习鸿蒙引导篇

作为公司的全栈开发工程师 以及 未来的发展是有鸿蒙这个阶段的,以及本身具有这个技术栈由此后续会分享自己在实战中学习到的东西,碰到的bug都会分享出来,这是引导篇期待后续的更新 学习目标: 理解HarmonyOS操作系统的架构和开发…

Django后台项目开发实战八

添加候选人提交简历功能 第八阶段 安装第三方注册包 pip install django-registration-redux 在 setting.py 注册,并添加配置 INSTALLED_APPS [grappelli,registration,django.contrib.admin,django.contrib.auth,django.contrib.contenttypes,django.contrib.…

展会资讯 | 现场精彩回顾 阿尔泰科技参展2024第23届中国国际(西部)光电产业!

2024第23届中国国际(西部)光电产业博览会,在成都世纪城新国际会展中心圆满落幕!来自各地的光电领域设备及材料厂商汇聚一堂,展示前沿技术及创新成果。 展会现场,来自全国各地的500余家企业就精密光学、信息…

ubuntu22.04 cmake 配置mysql

报错信息: CMake Error at CMakeLists.txt:33 (find_package): By not providing “FindMySQL.cmake” in CMAKE_MODULE_PATH this project has asked CMake to find a package configuration file provided by “MySQL”, but CMake did not find one. Could not…

MySQL:设置唯一索引还是出现重复数据

一、MySQL中null和null不相等 MySQL中:两个值比较会出现:true、false、null 三种情况; null和null相比较会出现未知的类型 二、然后看完这个视频 美团二面:我记得明明加了mysql唯一索引,为啥还会出现重复数据吗&…

手拉手springboot整合kafka

前期准备安装kafka 启动Kafka本地环境需Java 8以上 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 Kafka启动方式有Zookeeper和Kraft,两种方式只能选择其中一种启动,不能同时使用。 Kafka下载…

【独立版】商城盲盒源码带uniapp(H5+小程序+APP三端)全开源

前端uniapp开源代码,可用HBuilder工具无限发行H5、小程序和打包app,后端PHP开源源码,支持二开。 内有安装搭建教程,轻松部署,搭建即可运营,内置永久免费更新地址,后续无忧升级。 【独立版】商…

github托管静态页面

免费在线上空间,不用简直就是浪费,关键还不限流量赶紧去折腾一下 这是搭建的GitHub托管网页,由于是GitHub的服务器,国内访问会非常!慢 下载 Watt Toolkit 这里我建议下载一个软件 Watt Toolkit 它是一个开源跨…

ArcGIS专题图制作—利用ArcGIS和Blender制作真实感的3D底图

小编前几日发布的3D地形图很多小伙伴表示很感兴趣,今天就大致做出来一个教程,技术不精,希望能给大家一些帮助! 教程录制好视频了,大家可以自行查看!链接如下: 超好看底图! 使用ArcG…

redis 高可用 Sentinel 详解

写在前面 redis 在我们日常的业务开发中是十分常见的,而redis的可用性就必须要有很高的要求,那么 redis集群的高可用由有一个或者多个 Sentinel(哨兵) 实例组成的 哨兵系统来保证的。 哨兵 由一个或者多个 Sentinel 实例组成的 Sentinel 系统可以监控任…

图床搭建GitHub+PicGo+jsdelivr(CDN)+Typora(内附加速工具)

目录 安装PicGo GitHub配置与加速器 配置PicGo 使用typroa 安装PicGo PicGo是一个用于上传图片的客户端,支持拖拽上传、剪贴板上传,功能十分方便。 下载地址: https://github.com/Molunerfinn/PicGo/releases 个人网盘自取版本2.4.0…

C++成员初始化列表

我们在类的构造函数中使用成员初始化列表可以带来效率上的提升,那么成员初始化列表在编译后会发生什么就是这篇文章要探究的问题 文章目录 引入成员初始化列表用成员初始化列表优化上面的代码成员初始化列表展开成员初始化列表的潜在危险 参考资料 引入 考虑下面这…

CSS高级选择器

一、属性选择器 以value开头的att属性的E元素&#xff1a;E[att^"value"]{ ;} a[href^http]{background-color"red";} css a[href^http]{background-color"red"; } html <!DOCTYPE html> <html lang"en"> <head&…

特斯拉全自动驾驶系统Tesla‘s Full-Self Driving (FSD)

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl Overview Tesla’s FSD is a suite of features that includes Autopilot, Navigate on Autopilot, Auto Lane Change, Autopark, Summon, and Traffic Light and Stop Sig…

数字旅游引领未来智慧之旅:科技应用深度重塑旅游生态,智慧服务全面升级打造极致高品质旅游体验

随着信息技术的飞速发展&#xff0c;数字旅游作为旅游业与科技融合的新兴业态&#xff0c;正以其独特的魅力和优势&#xff0c;引领着旅游业迈向智慧之旅的新时代。数字旅游不仅通过科技应用重塑了旅游生态&#xff0c;更通过智慧服务为游客带来了高品质的旅游体验。本文将深入…

C语言嵌入Lua解释器的方法

Lua语言是一个轻量的脚本语言&#xff0c;可以用很少的资源运行其解释器 C语言是一个很常用的语言&#xff0c;广泛用于嵌入式等底层场景 这两个语言结合&#xff0c;可以应用于嵌入式等多个场景。比如&#xff0c;一些硬件公司会允许开发者使用Lua语言操作其硬件 Lua的安装…

PySpark学习---销售情况数据统计分析案例

需求分析&#xff1a; 某公司是做零售相关业务&#xff0c;旗下出品各类收银机. 目前公司的收银机已经在全国铺开,在各个省份均有店铺使用.机器是联网的,每一次使用都会将售卖商品数据上传到公司后台.老板现在想对省份维度的销售情况进行统计分析 逻辑需求&#xff1a; 1.各省销…

APScheduler定时器使用:django中使用apscheduler,使用mysql做存储后端

一、基本环境 python版本&#xff1a;3.8.5 APScheduler3.10.4 Django3.2.7 djangorestframework3.15.1 SQLAlchemy2.0.29 PyMySQL1.1.0二、django基本设置 2.1、新增一个app 该app用来写apscheduler相关的代码 python manage.py startapp gs_scheduler 2.2、修改配置文件s…