uniprot系列相关数据库介绍

news2025/2/24 6:23:49

https://www.uniprot.org/uniprotkb/P49711/entry#family_and_domains

上面是一个CTCF human蛋白质条目,

我们来看看family & domain条目中涉及到的蛋白质家族以及结构域数据库:

1,funfam:

CATH: Protein Structure Classification Database at UCL

所以实际上是一个蛋白质结构的分类数据库(domain-structure-系统进化分析)

2,gene3D:

http://gene3d.biochem.ucl.ac.uk/Gene3D/(暂时无法登入)

CATH: Protein Structure Classification Database at UCL

这个条目中所导向的数据库其实和前面一条一样

Gene3D是基于蛋白质序列的结构域预测数据库,通过利用CATH分类的信息,使用序列比对和HMMs来预测蛋白质序列中的结构域

3,interpro:蛋白质家族和功能域注释

InterPro

也是一个蛋白质家族/分类数据库,主要分类是为了功能分析

interpro数据库集成了以下资源,可以实现同一入口可访问多个集成的数据库

InterPro是一个集成了多个蛋白质相关数据库的综合性工具,它通过整合PROSITE、PRINTS、Pfam和ProDom等13个数据库的注释文件,提供了一个统一的平台进行蛋白质功能注释和预测。这些数据来自全球生物信息学研究者的合作,使得InterPro能够提供更加全面和准确的蛋白质功能描述。

InterPro数据库将数据按照不同条目类型进行了分类。不同字母标识代表不同的条目类型及大致数量。点击任一图标可显示由此条目类型过滤的InterPro数据

同时,数据库提供了多个关键物种分类,点击任一物种可以跳转至其对应的信息页面。

数据库主页右侧提供了最新和最常用的InterPro条目列表,包含条目类型、名称和登录号。

Search提供了序列搜索、文本搜索和结构域结构搜索。 

—— 序列搜索

使用序列搜索,需要填写FASTA格式序列或上传含有FASTA格式序列的文本文件。每次最多可以提交100个序列。

个性化勾选下方数据库进行过滤搜索。

点击下方“Search”按钮,页面自动跳转至Results菜单栏下,显示目前搜索任务正处在运行,需要1分钟左右完成搜索。

点击任务条目可查看具体的搜索结果,页面上方显示当前任务标题、ID等信息。

中间显示了预测的InterPro蛋白家族成员(红框)、 展示用户所提交的序列全长(绿框)、构成蛋白的代表性结构域的概况(蓝框)、InterPro条目(黄框)。在InterPro条目数据的下方,数据库使用了不同颜色的标签标记了对InterPro条目有贡献的不同成员数据库。

结果页面下方提供了InterPro条目相关的GO terms和PANTHER数据库的GO terms。

序列搜索的结果,数据库提供了多种下载格式。

—— 文本搜索

文本搜索可以搜索以下信息(示例):

Name or keyword(e.g.Afadin)

InterPro accession(e.g.IPR000562)

Member database signature accession(e.g.PF00040)

Protein accession(e.g.P04937) or identifier/short name(e.g.FINC_RAT)

PDB structure(e.g.6AR9)

Gene name(e.g.BRCA2)

GO terms(e.g. GO:0005911)

Proteome accession(e.g.UP000000304)

Taxonomy accession(e.g.7240)

Set/Clan accession(e.g.CL0451)

键入搜索信息后,搜索结果直接显示在搜索框下方。

—— 结构域结构搜索

结构域结构搜索是搜索包含特定Pfam/InterPro结构域的蛋白序列,这些结构域以特定的方式排列,因此被称为结构域结构。

点击下方绿色“+”添加结构域,点击红色“x”添加需要排除的结构域,可以通过填写结构域名称、Pfam登录号等信息选择结构域。

选择“Order of domain matters”可以进行以结构域特定顺序排列的查询。

选择“Exact match”可以精准查询只包含所选结构域的蛋白(蛋白中没有额外的结构域)。

完成上述个性化选择后搜索,搜索页面下方直接加载搜索结果(蓝框)。页面右侧可以选择结构域结构基于InterPro或Pfam(绿框),同样给我们提供了多种下载格式的选择(红框)。

Browse

提供了By InterPro、By Mmber DB、By Protein、By Structure、By Taxonomy、By Proteome和By Clan/Set 7种不同的切入口。

这里以“By InterPro”为例演示使用流程。

进入“By InterPro”,InterPro条目是基于InterPro成员数据库提供一个或多个标签而确定的独特的蛋白质同源超家族、家族、结构域、重复或重要位点。

页面左侧为筛选项,红框中包含了InterPro类型(不同颜色的字母代表不同类型)和GO Terms,绿框是各条目的简介,点击任意条目均可直接跳转到其Overview页面。

这里以点击“IPR000001”条目为例演示。点击该词条,查看详细信息。

—— Proteins

数据库提供了蛋白列表。

——Domain Architectures

提供了基于Pfam特征匹配此条目蛋白的不同结构域的排列信息,还提供了有关结构域在蛋白序列中的位置信息以及与其他结构域的组合信息。

—— Taxonomy

此条目匹配的物种列表均来源于UniProt数据库。

点击图标(蓝框)可以切换不同的表现形式,从左到右分别表示:

① 与此条目匹配的蛋白所对应所有物种的表格。

② 与此条目匹配的蛋白所对应所有物种的分类树。

③ 与此条目匹配的蛋白的分类分布图。(系统默认展示)

④ 发现的关键物种的蛋白数量。

—— Proteomes

蛋白质组列表表示成员展现的蛋白与此词条相匹配的情况。

该部分的数据均来源于UniProt数据库。

—— Structures

页面提供PDBe数据库中与此条目中的蛋白序列相匹配的结构信息。

——AlphaFold

展示由DeepMind生成的蛋白结构预测结果。右侧显示蛋白预测结构的交互视图,使用不同颜色标记不同的置信分,滑动鼠标可以放大缩小或旋转调整3D视图。

下方的列表结果显示生成结构预测的InterPro条目匹配到uniprot条目的统计结果。

——Interactions

列表中展示已经被实验数据证实蛋白间相互作用的特性与此条目匹配的统计信息。

点击分子对可以直接跳转至IntAct和EuropePMC。

——Pathways

由MetaCyc和Reactome数据库提供的与此条目相关的pathway统计信息。

总之:

然后在功能注释方面能够做的:

1.结构域和功能位点识别:

InterPro数据库能够准确预测蛋白质中存在的结构域和功能位点。通过分析蛋白质的序列,该工具可以识别并分类这些关键功能区域,为理解蛋白质的功能和相互作用提供重要信息。使用InterPro数据库可以进行多序列比对,帮助研究者比较不同蛋白质之间的相似性和差异性。通过多序列比对,可以发现保守区域和特异位点,进而揭示蛋白质家族成员的功能和进化关系。

2.可视化工具与结果解释:

InterPro提供多种可视化工具,如结构域和功能位点的三维模型展示,帮助用户直观理解数据。此外,结果页面还提供了详细的注释和解释,使研究人员能够更清晰地分析和讨论其发现。

3.注释结果解读:

InterPro数据库的注释结果通常分为几类,包括基因家族、结构域、功能位点等。这些分类有助于明确蛋白的功能和结构特点,便于进一步分析和研究。基因家族分类是InterPro数据库的核心功能之一。通过分析蛋白质序列,InterPro能够将蛋白分配到特定的基因家族中,如核糖体、肌动蛋白等,提供其进化和功能上的关联信息。

4.结构域识别:

InterPro使用先进的算法对蛋白质的结构域进行识别和注释。结构域是蛋白质中具有特定功能的局部区域,识别这些区域有助于理解蛋白的功能和交互作用。

5.信号肽与跨膜区分析:

InterPro还提供了信号肽和跨膜区的注释功能。信号肽指导蛋白质在细胞内的定位和运输,跨膜区则影响蛋白质的膜穿透性,这些信息对于理解蛋白功能至关重要。

4,PANTHER

https://www.pantherdb.org/ 

专注于蛋白质家族、亚家族、功能分类以及基于进化关系的功能注释分析。它是分析基因功能和基因组数据的重要工具,广泛应用于系统生物学研究中;

PANTHER是一个蛋白质家族和功能注释数据库,基于物种间的进化关系进行蛋白质功能预测。它提供了蛋白质家族、功能注释和进化关系的信息,用于研究蛋白质功能和进化;

PANTHER的新方法是对相关基因的子家族进行注释,这些基因(而非单个基因)可能会同时共享功能。

——》也就是说要从蛋白质编码gene的层面上去分析

5,PROSITE

Expasy - PROSITE

PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。

6,pfam:

现在pfam数据库已经停止更新,并入了InterPro里面

实际上就是集成在interpro数据库中的;

现在pfam数据库已经停止更新,并入了InterPro里面——》
我们在做基因家族鉴定的时候,需要用到pfam数据库中的隐马尔科夫模型结构文件(.hmm)

Pfam数据库是蛋白质家族的数据库,根据多序列比对结果和隐马尔可夫模型,将蛋白质分为不同的家族;

众多蛋白质家族,各家族由序列比对和隐马尔可夫模型表示

7,SMART

SMART: Main page

SMART(一个简单的模块化架构研究工具)允许识别和注释遗传移动域以及分析域结构。在信号传导、细胞外和染色质相关蛋白中发现的 500 多个域家族都是可检测的。这些域在系统发育分布、功能类别、三级结构和功能重要残基方面进行了广泛注释。在非冗余蛋白数据库中发现的每个域以及搜索参数和分类信息都存储在关系数据库系统中。

SMART是蛋白结构域的数据库,该数据库最新版本为v8,收录了1300多个蛋白结构域信息,覆盖了来自uniprot, ensembl等多个数据库的蛋白。

该数据库有以下两种模式

  1. normal

  2. genomic

normal模式下包含了所有uniprot, ensembl的蛋白质信息,这些蛋白序列是存在冗余的,genomic模式下只包含了拥有完整蛋白质组的物种的信息。

两种模式可以通过SETUP菜单进行切换,通过颜色可以辨别所处的模式,示意如下

通过右上角的Search SMART按钮,可以检索该数据库,支持以下蛋白名称和domain两种检索方式。

输入uniprot或者ensembl 数据库中的蛋白ID进行检索,示例如下,根据uniprot数据库中的蛋白IDC1S_HUMAN进行检索

检索页面包含如下结果

1.  domian 结构图

从图中,可以看出,该蛋白质包括以下5种domain

  1. CUB

  2. EGF_CA

  3. CCP

  4. Tryp_SPc

还提供了每个结构域的位置信息

2. 蛋白质相互作用

提供了来自STRING数据库的蛋白相互作用信息,示意如下

3.  pathway 信息

提供了Metabolic pathway 和 Kegg pathway 两个数据库的通路注释信息,示意如下

4. orthology group 注释

提供了来自eggNOG数据库的注释信息,示意如下

5. 转录后修饰

提供了来自PTM数据库的转录后修饰信息,示意如下

按照domain进行检索,示例如下,根据domian名称CUB进行检索。对于每个domain, 采用SM开头的编号唯一标识,同时提供了和其他数据库的关联信息,还支持下载多序列比对的结果。

再比如说我搜索CTCF:
SMART: Sequence analysis results for CTCF_HUMAN能够直观的看到结构域,首先是11个ZF结构域,然后粉红色的就是的低复杂度区域了;

以及具体是哪些结构域,

当然这个结构域我们和uniprot中的比对一下,其实是不一样的,

首先ZF大家都对得上,但是uniprot中有个disorder区域,但在SMART数据库中左边就是3个LCR低复杂度区域,而且坐标都不一样;

选择参考时候各有所需,个人以uniprot数据库为主(比较权威)


然后上面的这个就是PPI

然后就是PTM,也就是翻译后修饰:

我们可以点击前往这个PTMcode网站,或者直接在这个网站中搜索CTCF_human,

注意这个网站需要flash,个人使用flash center进入浏览

PTMcode 2: Exploring CTCF

注意结合其中的位点信息

然后就是同源注释:

8,supfam

https://supfam.org/

也是一个基于隐马尔可夫模型注释蛋白超家族的数据库

9,MoboDB

MobiDB

蛋白质无序区域分析与功能预测数据库

内在无序蛋白质结构和功能信息,汇总文献注释、实验数据以及所有已知蛋白质序列的预测的综合性数据库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2304238.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于AIGC的图表自动化生成工具「图表狐」深度评测:如何用自然语言30秒搞定专业级数据可视化?

一、工具核心定位:自然语言驱动的数据可视化 作为数据科学从业者,我们常面临非技术同事的图表制作需求。传统流程需经历数据清洗→结构转换→图表配置→样式调整四大阶段,耗时且易出错。 图表狐(官网预览👇&#xff…

rpc到自己java实现rpc调用再到rpc框架设计

目录 rpc(Remote Procedure Call)rpc一般架构为什么要引入rpc自己实现rpc调用1. 新建一个maven项目,加入hessian依赖2. 服务端3. Stub代理4. 客户端测试输出5. rpc程序分析附 请求参数和序列化程序 6. 总结 回顾RPCRPC 序列化协议RPC 网络协议注册中心的引入dubbo框…

Milvus向量数据库可视化客户端Attu

概述 关于Milvus的介绍,可搜索网络资料。Milvus的使用还在摸索中;打算写一篇,时间待定。 关于Attu的资料: 官网GitHub文档 对于Milvus的数据可视化,有如下两个备选项: Milvus_cli:命令行工…

【落羽的落羽 数据结构篇】顺序结构的二叉树——堆

文章目录 一、堆1. 概念与分类2. 结构与性质3. 入堆4. 出堆 二、堆排序三、堆排序的应用——TOP-K问题 一、堆 1. 概念与分类 上一期我们提到,二叉树的实现既可以用顺序结构,也可以用链式结构。本篇我们来学习顺序结构的二叉树,起个新名字—…

基于STM32的智能农业大棚环境控制系统

1. 引言 传统农业大棚环境调控依赖人工经验,存在控制精度低、能耗高等问题。本文设计了一款基于STM32的智能农业大棚环境控制系统,通过多参数环境监测、作物生长模型与精准执行控制,实现大棚环境的智能优化,提高作物产量与品质。…

Git常见命令--助力开发

git常见命令: 创建初始化仓库: git 将文件提交到暂存区 git add 文件名 将文件提交到工作区 git commit -m "注释(例如这是发行的版本1)" 文件名 查看状态 如果暂存区没有文件被提交显示: $ git status On…

一:将windows上的Python项目部署到Linux上,并使用公网IP访问

windows中python的版本:python3.13.1,项目使用的是虚拟环境解释器 linux系统:仅有python3.6.7 服务器:阿里云服务器有公网IP,访问端口XXXX 在linux上安装python3.13.1 linux中如果是超级管理员root,执行所…

【数据标准】数据标准化是数据治理的基础

导读:数据标准化是数据治理的基石,它通过统一数据格式、编码、命名与语义等,全方位提升数据质量,确保准确性、完整性与一致性,从源头上杜绝错误与冲突。这不仅打破部门及系统间的数据壁垒,极大促进数据共享…

计算机视觉:经典数据格式(VOC、YOLO、COCO)解析与转换(附代码)

第一章:计算机视觉中图像的基础认知 第二章:计算机视觉:卷积神经网络(CNN)基本概念(一) 第三章:计算机视觉:卷积神经网络(CNN)基本概念(二) 第四章:搭建一个经典的LeNet5神经网络(附代码) 第五章&#xff1…

七星棋牌顶级运营产品全开源修复版源码教程:6端支持,200+子游戏玩法,完整搭建指南(含代码解析)

棋牌游戏一直是移动端游戏市场中极具竞争力和受欢迎的品类,而七星棋牌源码修复版无疑是当前行业内不可多得的高质量棋牌项目之一。该项目支持 6大省区版本(湖南、湖北、山西、江苏、贵州),拥有 200多种子游戏玩法,同时…

编程考古-忘掉它,Delphi 8 for the Microsoft .NET Framework

忘掉它吧,作一篇记录! 【圣何塞,加利福尼亚 – 2003年11月3日】在今日的Borland开发者大会上,Borland正式推出了Delphi 8 for Microsoft .NET Framework。这款新版本旨在为Delphi开发者提供一个无缝迁移路径,将现有的…

[通俗易懂C++]:指针和const

之前的文章有说过,使用指针我们可以改变指针指向的内容(通过给指针赋一个新的地址)或者改变被保存地址的值(通过给解引用指针赋一个新值): int main() {int x { 5 }; // 创建一个整数变量 x,初始值为 5int* ptr { &x }; // 创建一个指针 ptr,指向 …

大一高数(上)速成:导数和微分

目录 1.分段函数的可导性: 2.隐函数求导: 3.参数方程求导: 4.对数求导法: 5.函数的微分: 1.分段函数的可导性: 2.隐函数求导: 3.参数方程求导: 4.对数求导法: 5.函数的微分:

京东cfe滑块 分析

声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 逆向分析 headers {"accept&qu…

react 踩坑记 too many re-renders.

报错信息: too many re-renders. React limits the number of randers to prevent an infinite loop. 需求 tabs只有特定标签页才展示某些按钮 button要用 传递函数引用方式 ()>{} *还有要注意子组件内loading触发 导致的重复渲染

BGP分解实验·19——BGP选路原则之起源

当用不同的方式为BGP注入路由时,起源代码将标识路由的来源。 (在BGP表中,Network为“i”,重分布是“?”) 实验拓扑如下: R2上将来自IGP的路由10.3.3.3/32用network指令注入BGP;在R4上将来自I…

单机上使用docker搭建minio集群

单机上使用docker搭建minio集群 1.集群安装1.1前提条件1.2步骤指南1.2.1安装 Docker 和 Docker Compose(如果尚未安装)1.2.2编写docker-compose文件1.2.3启动1.2.4访问 2.使用2.1 mc客户端安装2.2创建一个连接2.3简单使用下 这里在ubuntu上单机安装一个m…

家用路由器的WAN口和LAN口有什么区别

今时今日,移动终端盛行的时代,WIFI可以说是家家户户都有使用到的网络接入方式。那么路由器当然也就是家家户户都不可或缺的设备了。而路由器上的两个实现网络连接的基础接口 ——WAN 口和 LAN 口,到底有什么区别?它们的功能和作用…

实操解决Navicat连接postgresql时出现‘datlastsysoid does not exist‘报错的问题

1 column “datlastsysoid“ does not exist2 Line1:SELECT DISTINCT datalastsysoid FROM pg_database问题分析 Postgres 15 从pg_database表中删除了 datlastsysoid 字段引发此错误。 决绝方案 解决方法1:升级navicat 解决方法2:降级pgsql 解决方…

3分钟idea接入deepseek

DeepSeek简介 DeepSeek 是杭州深度求索人工智能基础技术研究有限公司开发的一系列大语言模型,背后是知名量化资管巨头幻方量化3。它专注于开发先进的大语言模型和相关技术,拥有多个版本的模型,如 DeepSeek-LLM、DeepSeek-V2、DeepSeek-V3 等&…