一文读懂 UniProt 数据库(2023 最新版)

news2025/1/26 14:16:15

img

一、UniProt 数据库介绍

Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三大数据库的资源。

  • EBI( European Bioinformatics Institute):欧洲生物信息学研究所(EMBL-EBI)是欧洲生命科学旗舰实验室EMBL的一部分。位于英国剑桥欣克斯顿的惠康基因组校园内,是世界上基因组学领域最强的地带之一。
  • SIB(the Swiss Institute of Bioinformatics):瑞士日内瓦的SIB维护着ExPASy(专家蛋白质分析系统)服务器,这里包含有蛋白质组学工具和数据库的主要资源。
  • PIR(Protein Information Resource):PIR由美国国家生物医学研究基金会(NBRF)于1984年成立,旨在协助研究人员识别和解释蛋白质序列信息。

二、UniProt 数据库构成

img

目前,UniProt由主要由以下子库构成:

数据库名全名用途
Swiss-ProtProtein knowledgebas (review)高质量的、手工注释的、非冗余的数据库
TrEMBLProtein knowledgebase (unreview)自动翻译蛋白质序列,预测序列,未验证的数据库
UniParcSequence非冗余蛋白质序列数据库
UniRefSequence clusters聚类序列减小数据库,加快搜索的速度
ProteomesProtein sets from fully sequenced genomes为全测序基因组物种提供蛋白质组信息

他们的关系如下:

通过EMBL,GenBank,DDBJ等公共数据库得到原始数据,处理后存入UniParc的非冗余蛋白质序列数据库。

UniParc作为数据仓库,再分别给UniProtKB,Proteomes,UniRef提供可靠的数据集。

这里的UniProtKB 由两个子库构成 Swiss-Prot,TrEMBL。

Swiss-Prot 经过人工验证和注释,是高质量的蛋白质注释数据。但人工效率在高速增长的蛋白质数据面前显得极其低效。因此,注释这些数据需要大量时间,为了弥补这一问题。

TrEMBL 被建立用于存储由机器自动翻译和预测的蛋白质序列。显然,这必然导致蛋白质质量下降。

简而言之,在UniProtKB数据库中Swiss-Prot是由TrEMBL经过手动注释后得到的高质量非冗余数据库,也是我们今后常用的蛋白质数据库之一。

img

三、Swiss-Prot 介绍

高质量的、手工注释的、非冗余的数据集

Swiss-Prot 提供高水平注释(例如,蛋白质功能,其域结构,翻译后修饰,变体等的描述)和蛋白质序列。

Swiss-Prot由Amos Bairoch博士在1986年创建,由瑞士生物信息学研究所开发,随后由欧洲生物信息学研究所的Rolf Apweiler开发。也就是说EBI和SIB共同制作了Swiss-Prot和TrEMBL数据库。

注释主要来自文献中的研究成果和E-value校验过计算分析结果,有质量保证的数据才被加入该数据库 。

手动注释

注释会用相关出版物通过搜索数据库(例如PubMed)进行识别。阅读每篇论文的全文,然后提取信息并将其添加到条目中。科学文献中的注释包括但不限于:

  • 蛋白质和基因名称
  • 功能
  • 特定于酶的信息,例如催化活性,辅因子和催化残基
  • 亚细胞定位
  • 蛋白质相互作用
  • 表达方式
  • 重要域和站点的位置和角色
  • 离子,底物和辅因子结合位点
  • 通过自然遗传变异,RNA编辑,替代剪接,蛋白水解加工和翻译后修饰产生的蛋白质变异形式

计算机预测

Swiss-Prot条目的注释中使用了一系列序列分析工具,包括手动检测和评估,计算机预测。

这些预测包括翻译后修饰,跨膜结构域和拓扑,信号肽,结构域识别和蛋白质家族分类。

也包括序列之间的差异:可变剪接,自然变异,错误的起始位点,错误的外显子边界,移码,未识别的冲突。

这里包含了很多第三方算法和软件

3.1、查询蛋白质基础操作

1、进入官网:https://www.uniprot.org/

img

1、切换数据库,也就是上面介绍的

2、输入基因名,uniprot id,物种名等都可以

3、点击进行搜索

4、进入搜索结果页面

https://www.uniprot.org/uniprotkb?query=oct4

新版界面主要由,搜索框,搜索结果表,和左边过滤选项面板构成

img

5、过滤选项面板

  • 来源库:Reviewed:存储在Swiss-Prot数据库中经过验证的蛋白数据,Unreviewed:存储在TrEMBL数据库中没有经过验证的蛋白数据
  • 物种,点击Popular organisms切换到该物种,或者在 Taxonomy通过 taxid 来筛选。什么是 Taxonomy?https://blog.csdn.net/u011262253/article/details/95304930/
  • 蛋白质相关注释内容:直接点击对应管关键字
  • 注释分数:分数越高,注释内容质量越高
  • 蛋白质长度:单位是氨基酸,AA

6、搜索结果表

依次是Unprot ID,蛋白质Uniprot名称,蛋白质名称,基因名,物种名,序列长

7、比对操作

  • 序列与蛋白库比对:如果需要Blast来查看某个蛋白有哪些序列相似的蛋白序列,先选中感兴趣蛋白前的方框,点击Blast
  • 多序列比对:先选中感兴趣蛋白前的方框,点击Align

8、数据下载

下面以 PO5F1_HUMAN 为例。

先选中感兴趣蛋白前的方框,点击Download下载。

img

下载对应的fasta序列来看看:

img

3.2、UniProt Fasta 文件介绍

>sp|Q01860|PO5F1_HUMAN POU domain, class 5, transcription factor 1 OS=Homo sapiens OX=9606 GN=POU5F1 PE=1 SV=1
MAGHLASDFAFSPPPGGGGDGPGGPEPGWVDPRTWLSFQGPPGGPGIGPGVGPGSEVWGI
PPCPPPYEFCGGMAYCGPQVGVGLVPQGGLETSQPEGEAGVGVESNSDGASPEPCTVTPG
AVKLEKEKLEQNPEESQDIKALQKELEQFAKLLKQKRITLGYTQADVGLTLGVLFGKVFS
QTTICRFEALQLSFKNMCKLRPLLQKWVEEADNNENLQEICKAETLVQARKRKRTSIENR
VRGNLENLFLQCPKPTLQQISHIAQQLGLEKDVVRVWFCNRRQKGKRSSSDYAQREDFEA
AGSPFSGGPVSFPLAPGPHFGTPGYGSPHFTALYSSVPFPEGEAFPPVSVTTLGSPMHSN

首先看 > 后的注释信息

  • sp:Swiss-Prot数据库的简称,也就是上面说的验证后的蛋白数据库

  • Q01860:UniProt ID号

  • PO5F1_HUMAN:是UniProt 的登录名

  • POU domain, class 5, transcription factor 1:蛋白质名称

  • OS=Homo sapiens:OS是Organism简称,Homo sapiens为人的拉丁文分类命名,也就是这是人的蛋白质

  • OX=9606:Organism Taxonomy,也就是物种分类数据库Taxonomy ID

  • GN=POU5F1:Gene name,基因名为POU5F1

  • PE=1:Protein Existence,蛋白质可靠性,对应5个数字,数字越小越可靠:

    • 1:Experimental evidence at protein level
    • 2:Experimental evidence at tranlevel
    • 3:Protein inferred from homology
    • 4:Protein predicted
    • 5:Protein uncertain
  • SV=1:Sequence Version,序列版本号

3.3、查询蛋白质高级搜索

1、点击 Advanced展开左侧菜单

2、点击蓝色按钮选择搜索字段,在对应右侧输入框填写内容

3、如果不需要字段置空,或者点击 Remove移除

4、填写如下内容,即可搜索得到还有蛋白质三维结构的蛋白质列表

img

5、进入搜索结果

[https://www.uniprot.org/uniprotkb?query=(taxonomy_id:9606)%20AND%20(structure_3d:true)](https://www.uniprot.org/uniprotkb?query=(taxonomy_id:9606) AND (structure_3d:true))

img

3.4、蛋白质 ID 转换

1、进入官网https://www.uniprot.org/

可以在两个入口,点击后进入

img

2、工作页面

这里以下列蛋白质 ID 作为输入,搜索这些蛋白质三维结构的 PDB ID 为例

A1A4S6
A1L3X0
A2RUC4
A4GXA9
A6H8Y1
A6NGG8
D3W0D1
O00159
O00161
O00168
O00214
O00268
O00291
O00300
O00329
O00330
O00409
O00422
O00444
O00478
O00487
O00506
O00560
O00622
O00746

From database中选择我们的输入数据格式是 UniprotKB AC/ID

To database中选择我们需要转换的 PDB

点击 Map进入工作流程

img

点击 Completed进入工作结果页面

img

这里显示了匹配的 PDB id,因为一个 蛋白质ID 可能对应多个PDB ID,因此转换结果较多。

点击 Download进行下载

img

四、UniProtKB/TrEMBL 介绍

在认识到序列数据的生成速度超过了Swiss-Prot的注释能力时,为了给不在Swiss-Prot中的那些蛋白质提供自动注释,UniProt创建了TrEMBL(翻译的EMBL核苷酸序列数据库)。

在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都会被自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。之前提到的PIR组织制作了蛋白质序列数据库(PIR-PSD)也包含在其中。

五、UniParc 介绍

UniProt Archive(UniParc)包含来自主要公共可用蛋白质序列数据库的所有蛋白质序列的非冗余数据集。蛋白质可能存在于几个不同的来源数据库中,并且在同一数据库中存在多个副本。 为了避免冗余,UniParc仅将每个唯一序列存储一次。 相同序列被合并,无论它们来自相同还是不同物种。 每个序列都有一个稳定且唯一的标识符(UPI),从而可以从不同的来源数据库中识别相同的蛋白质。

UniParc仅包含蛋白质序列,没有注释。 UniParc条目中的数据库交叉引用允许从源数据库检索有关该蛋白质的更多信息。 当源数据库中的序列发生更改时,UniParc将跟踪这些更改,并记录所有更改的历史记录。

六、UniRef 介绍

UniProt Reference Clusters(UniRef):聚类序列可显著减小数据库大小,从而加快序列搜索的速度。用于计算的蛋白质序列来自UniProtKB和部分UniParc记录的序列。

UniRef100序列将相同的序列和序列片段(来自任何生物)合并到一个UniRef条目中,用于显示代表性蛋白质的序列。 使用CD-HIT算法对UniRef100序列进行聚类,并构建UniRef90和UniRef50。UniRef90和UniRef50分别代表每个簇由与最长序列分别具有至少90%或50%序列同一性的序列组成。

img

七、蛋白质结构和序列预测的更新

最新版的 UniProt 整合了深度学习模型预测的结果,包括:

1、由 DeepMind 团队构建 AlphaFold2 预测的蛋白质三维结构

官网:https://alphafold.ebi.ac.uk/

Uniprot 资源:https://www.uniprot.org/alphafold?query=*

img

2、由 Google Brain 团队构建ProtNLM 预测的蛋白质序列注释,

预印本:https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

UniProt 资源:https://www.uniprot.org/uniprotkb?query=(source:google)

img

不得不说,现在生信是越来越卷了。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/168906.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【面试题】前端最新面试题-浏览器 dom、bom篇

原文见:语雀(https://www.yuque.com/deepstates/interview/fsitlt) ● BOM ● window对象 ○ frames ■ iframe ■ 跨窗口通信 ■ 同源策略/跨域 ○ navigator ● DOM ○ DOM结构 ○ DOM操作 ○ DOM事件 ■ 表单事件 ● 浏览器渲染 ○ 进程、…

Vue组件化编程的组件通信

对于组件化编程,组件之间的通信技术无疑是非常重要的内容,需要将细节牢牢把握。 组件通信,就是子组件放置在父组件内之后,父组件如何向子组件传递参数以及子组件如何与外部组件进行互动。 这部分的知识很重要,需要展开…

基于Ubuntu20.04搭建OpenHarmony v3.0.6的qemu仿真环境

基于Ubuntu20.04搭建OpenHarmony v3.0.6的qemu仿真环境0. 前言1. 安装Ubuntu1.1 更换华为源1.2 安装必要工具2. 下载代码2.1 解压与目录设置3. 配置环境3.1 安装库和工具3.2 设置python版本3.3 安装编译工具hb3.4 切换dash为bash4. 编译4.1 hb构建4.2 启动qemu5. 第二种环境配置…

Java之日期与时间、JDK8新增日期类、包装类、正则表达式、Arrays类、常见算法和Lambda表达式

目录日期与时间DateSimpleDateFormatCalendar概述JDK8新增日期类概述、LocalTime /LocalDate / LocalDateTimeInstantDateTimeFormatterDuration/PeriodchronoUnit包装类正则表达式Arrays类Arrays类概述,常用功能演示Arrays类对于Comparator比较器的支持常见算法选择…

[论文翻译] GIKT: A Graph-based Interaction Model forKnowledge Tracing

摘要随着在线教育的快速发展,知识追踪(KT)已成为追踪学生知识状态并预测他们在新问题上的表现的基本问题。在线教育系统中的问题通常很多,并且总是与更少的技能相关联。然而,以往的文献未能将问题信息与高阶问题-技能相…

计网必会:电路交换和分组交换

电路交换和分组交换的概念和区别,为什么分组交换更有效? 电路交换:由于电路交换在通信之前要在通信双方之间建立一条被双方独占的物理通路(由通信双方之间的交换设备和链路逐段连接而成) 特点是源和目标点建立起名副其…

C语言中的void*是什么?

目录1.void *是什么2.void*的解引用3.void*类型的应用场景1.void *是什么 我们之前学过许多类型的指针变量,如整形指针,字符指针,甚至数组指针,函数指针等。 int a 10; int *pa &a;//整形指针pa接受一个整形变量a的地址但…

阻塞队列-BlockingQueue

一、BlockingQueue介绍BlockingQueue 继承了 Queue 接口,是队列的一种。Queue 和 BlockingQueue 都是在 Java 5 中加入的。阻塞队列(BlockingQueue)是一个在队列基础上又支持了两个附加操作的队列,常用解耦。两个附加操作:支持阻塞…

Win10 每天蓝屏多次,蓝屏代码0x3B:SYSTEM_SERVICE_EXCEPTION

环境: 联想E14笔记本 Win10 专业版 问题描述: Win10 每天发生蓝屏多次,蓝屏代码0x3B:SYSTEM_SERVICE_EXCEPTION 查看事件查看器,系统日志筛选ID1001的事件,蓝屏多次基本上都是3B这错误代码 解决方案: 1.禁用AMD显…

vue3 pinia 状态管理(清晰明了)

前言 最近学习cloud项目,前端使用到 vue3 ts 等技术,其中包括 pinia ,从一脸懵到渐渐清晰过程,在此记录一下,若有不足,希望大佬可以指出。 中文官方文档:https://pinia.web3doc.top/ 一、什…

2022年海南省职业院校技能大赛“网络安全”比赛任务书

2022年海南省职业院校技能大赛“网络安全” 比赛任务书 一、竞赛时间 总计:360分钟 二、竞赛任务书内容 (一)拓扑图 (二)A模块基础设施设置/安全加固(350分) 一、项目和任务描述&#xff…

服务器怎么防勒索病毒

行业背景 随着金融行业信息化建设的飞速发展,金融行业信息化系统经过多年的发展建设,目前信息化程度已经达到了较高水平。信息技术在提高管理水平、促进业务创新、提升企业竞争力方面发挥着日益重要的作用。 需求分析 随着金融信息化的深入发展&#…

Linux调试器-gdb使用

目录 1. 背景 2. 开始使用 3. 理解 创建需要调试的代码 debug&&release 4 详细调试 list/l 行号 list/l 函数名 r或run break(b) info b(reak) d num disable breakpoints enable breakpoints n (next) s(step) breaktrac…

ConcurrentHashMap 的优化及其与HashTable, HashMap的区别

目录 1.优化一:减小锁粒度 2.优化二:只针对写操作加锁 3.优化三:CAS 4.优化四:扩容方式 HashMap是线程不安全的,HashTable是线程安全的,关键方法加锁了.我们更推荐的是ConcurrentHashMap ,更优化的线程安全哈希表 接下来我们总结一下ConcurrentHashMap 进行了哪些优化,比H…

Nessus 扫描log4J漏洞

系列文章 Nessus介绍与安装 Nessus Host Discovery Nessus 高级扫描 Nessus 扫描web服务 Nessus 扫描log4J漏洞 1.扫描环境搭建 1.centos7 安装装宝塔面板 2.面板里下载docker 3.进入centos检查docker是否生效 docker --version4.安装docker-compose Docker Compose是一个…

使用WordPress搭建知识库门户网站的优缺点

使用知识库软件进行知识管理,帮助企业节约成本,为客户提供一个自助服务平台,提高客户满意度,据调查,73%的客户宁愿在网上搜索答案,而不是给工作人员打电话或者发短信,搭建一个知识库可能会耗费时…

TCP如何保证可靠传输,为什么应用层还需要确认机制

TCP的可靠传输实现 以下区别: 1、可靠传输(有序,保证对方一定接受到) 2、流量控制 这两个功能都是依靠滑动窗口来实现的 TCP实现可靠传输依靠的有 序列号、自动重传、滑动窗口、确认应答等机制。 序列号 首先我们说下序列号&am…

文件操作相关知识

1、为什么使用文件 前面我们在实现通讯录时,每次运行结束后,我们所存储的数据都会消失。这是因为我们将数据存储在栈区、堆区等内存上,而内存是不具有持久性的,程序退出时,权限还给操作系统,这些数据就会丢…

Unity 3D PC平台发布|| Unity 3D Web 平台发布||Unity 3D Android平台发布

Unity 3D PC平台发布 PC 是最常见的游戏运行平台。 随着欧美游戏的崛起,PC 平台随之发生游戏登陆大潮。 在 PC 平台上发布游戏的步骤: 打开要发布的 Unity 3D 工程,执行 File → Build Settings 菜单命令。在 Platform 列表框中选择 PC&am…

Jenkins, docker-compose动态修改镜像版本升级部署

docker-compose镜像版本动态控制 提取.env文件进行配置通用环境变量 # 当前机器用户的home路径 HOST_HOME/home/guimu # 上传文件临时路径 TMP_DATA_PATH${HOST_HOME}/tempdata/ # media的home路径 MEDIA_HOME/media # 挂载的mysql的data路径 MYSQL_DATA_PATH${HOST_HOME}/my…