https://www.uniprot.org/uniprotkb/P49711/entry#family_and_domains
上面是一个CTCF human蛋白质条目,
我们来看看family & domain条目中涉及到的蛋白质家族以及结构域数据库:
1,funfam:
CATH: Protein Structure Classification Database at UCL
所以实际上是一个蛋白质结构的分类数据库(domain-structure-系统进化分析)
2,gene3D:
http://gene3d.biochem.ucl.ac.uk/Gene3D/(暂时无法登入)
CATH: Protein Structure Classification Database at UCL
这个条目中所导向的数据库其实和前面一条一样
Gene3D是基于蛋白质序列的结构域预测数据库,通过利用CATH分类的信息,使用序列比对和HMMs来预测蛋白质序列中的结构域
3,interpro:蛋白质家族和功能域注释
InterPro
也是一个蛋白质家族/分类数据库,主要分类是为了功能分析
interpro数据库集成了以下资源,可以实现同一入口可访问多个集成的数据库
InterPro是一个集成了多个蛋白质相关数据库的综合性工具,它通过整合PROSITE、PRINTS、Pfam和ProDom等13个数据库的注释文件,提供了一个统一的平台进行蛋白质功能注释和预测。这些数据来自全球生物信息学研究者的合作,使得InterPro能够提供更加全面和准确的蛋白质功能描述。
InterPro数据库将数据按照不同条目类型进行了分类。不同字母标识代表不同的条目类型及大致数量。点击任一图标可显示由此条目类型过滤的InterPro数据
同时,数据库提供了多个关键物种分类,点击任一物种可以跳转至其对应的信息页面。
数据库主页右侧提供了最新和最常用的InterPro条目列表,包含条目类型、名称和登录号。
Search提供了序列搜索、文本搜索和结构域结构搜索。
—— 序列搜索
使用序列搜索,需要填写FASTA格式序列或上传含有FASTA格式序列的文本文件。每次最多可以提交100个序列。
个性化勾选下方数据库进行过滤搜索。
点击下方“Search”按钮,页面自动跳转至Results菜单栏下,显示目前搜索任务正处在运行,需要1分钟左右完成搜索。
点击任务条目可查看具体的搜索结果,页面上方显示当前任务标题、ID等信息。
中间显示了预测的InterPro蛋白家族成员(红框)、 展示用户所提交的序列全长(绿框)、构成蛋白的代表性结构域的概况(蓝框)、InterPro条目(黄框)。在InterPro条目数据的下方,数据库使用了不同颜色的标签标记了对InterPro条目有贡献的不同成员数据库。
结果页面下方提供了InterPro条目相关的GO terms和PANTHER数据库的GO terms。
序列搜索的结果,数据库提供了多种下载格式。
—— 文本搜索
文本搜索可以搜索以下信息(示例):
Name or keyword(e.g.Afadin)
InterPro accession(e.g.IPR000562)
Member database signature accession(e.g.PF00040)
Protein accession(e.g.P04937) or identifier/short name(e.g.FINC_RAT)
PDB structure(e.g.6AR9)
Gene name(e.g.BRCA2)
GO terms(e.g. GO:0005911)
Proteome accession(e.g.UP000000304)
Taxonomy accession(e.g.7240)
Set/Clan accession(e.g.CL0451)
键入搜索信息后,搜索结果直接显示在搜索框下方。
—— 结构域结构搜索
结构域结构搜索是搜索包含特定Pfam/InterPro结构域的蛋白序列,这些结构域以特定的方式排列,因此被称为结构域结构。
点击下方绿色“+”添加结构域,点击红色“x”添加需要排除的结构域,可以通过填写结构域名称、Pfam登录号等信息选择结构域。
选择“Order of domain matters”可以进行以结构域特定顺序排列的查询。
选择“Exact match”可以精准查询只包含所选结构域的蛋白(蛋白中没有额外的结构域)。
完成上述个性化选择后搜索,搜索页面下方直接加载搜索结果(蓝框)。页面右侧可以选择结构域结构基于InterPro或Pfam(绿框),同样给我们提供了多种下载格式的选择(红框)。
Browse
提供了By InterPro、By Mmber DB、By Protein、By Structure、By Taxonomy、By Proteome和By Clan/Set 7种不同的切入口。
这里以“By InterPro”为例演示使用流程。
进入“By InterPro”,InterPro条目是基于InterPro成员数据库提供一个或多个标签而确定的独特的蛋白质同源超家族、家族、结构域、重复或重要位点。
页面左侧为筛选项,红框中包含了InterPro类型(不同颜色的字母代表不同类型)和GO Terms,绿框是各条目的简介,点击任意条目均可直接跳转到其Overview页面。
这里以点击“IPR000001”条目为例演示。点击该词条,查看详细信息。
—— Proteins
数据库提供了蛋白列表。
——Domain Architectures
提供了基于Pfam特征匹配此条目蛋白的不同结构域的排列信息,还提供了有关结构域在蛋白序列中的位置信息以及与其他结构域的组合信息。
—— Taxonomy
此条目匹配的物种列表均来源于UniProt数据库。
点击图标(蓝框)可以切换不同的表现形式,从左到右分别表示:
① 与此条目匹配的蛋白所对应所有物种的表格。
② 与此条目匹配的蛋白所对应所有物种的分类树。
③ 与此条目匹配的蛋白的分类分布图。(系统默认展示)
④ 发现的关键物种的蛋白数量。
—— Proteomes
蛋白质组列表表示成员展现的蛋白与此词条相匹配的情况。
该部分的数据均来源于UniProt数据库。
—— Structures
页面提供PDBe数据库中与此条目中的蛋白序列相匹配的结构信息。
——AlphaFold
展示由DeepMind生成的蛋白结构预测结果。右侧显示蛋白预测结构的交互视图,使用不同颜色标记不同的置信分,滑动鼠标可以放大缩小或旋转调整3D视图。
下方的列表结果显示生成结构预测的InterPro条目匹配到uniprot条目的统计结果。
——Interactions
列表中展示已经被实验数据证实蛋白间相互作用的特性与此条目匹配的统计信息。
点击分子对可以直接跳转至IntAct和EuropePMC。
——Pathways
由MetaCyc和Reactome数据库提供的与此条目相关的pathway统计信息。
总之:
然后在功能注释方面能够做的:
1.结构域和功能位点识别:
InterPro数据库能够准确预测蛋白质中存在的结构域和功能位点。通过分析蛋白质的序列,该工具可以识别并分类这些关键功能区域,为理解蛋白质的功能和相互作用提供重要信息。使用InterPro数据库可以进行多序列比对,帮助研究者比较不同蛋白质之间的相似性和差异性。通过多序列比对,可以发现保守区域和特异位点,进而揭示蛋白质家族成员的功能和进化关系。
2.可视化工具与结果解释:
InterPro提供多种可视化工具,如结构域和功能位点的三维模型展示,帮助用户直观理解数据。此外,结果页面还提供了详细的注释和解释,使研究人员能够更清晰地分析和讨论其发现。
3.注释结果解读:
InterPro数据库的注释结果通常分为几类,包括基因家族、结构域、功能位点等。这些分类有助于明确蛋白的功能和结构特点,便于进一步分析和研究。基因家族分类是InterPro数据库的核心功能之一。通过分析蛋白质序列,InterPro能够将蛋白分配到特定的基因家族中,如核糖体、肌动蛋白等,提供其进化和功能上的关联信息。
4.结构域识别:
InterPro使用先进的算法对蛋白质的结构域进行识别和注释。结构域是蛋白质中具有特定功能的局部区域,识别这些区域有助于理解蛋白的功能和交互作用。
5.信号肽与跨膜区分析:
InterPro还提供了信号肽和跨膜区的注释功能。信号肽指导蛋白质在细胞内的定位和运输,跨膜区则影响蛋白质的膜穿透性,这些信息对于理解蛋白功能至关重要。
4,PANTHER
https://www.pantherdb.org/
专注于蛋白质家族、亚家族、功能分类以及基于进化关系的功能注释分析。它是分析基因功能和基因组数据的重要工具,广泛应用于系统生物学研究中;
PANTHER是一个蛋白质家族和功能注释数据库,基于物种间的进化关系进行蛋白质功能预测。它提供了蛋白质家族、功能注释和进化关系的信息,用于研究蛋白质功能和进化;
PANTHER的新方法是对相关基因的子家族进行注释,这些基因(而非单个基因)可能会同时共享功能。
——》也就是说要从蛋白质编码gene的层面上去分析
5,PROSITE
Expasy - PROSITE
PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。
6,pfam:
现在pfam数据库已经停止更新,并入了InterPro里面
实际上就是集成在interpro数据库中的;
现在pfam数据库已经停止更新,并入了InterPro里面——》
我们在做基因家族鉴定的时候,需要用到pfam数据库中的隐马尔科夫模型结构文件(.hmm)
Pfam数据库是蛋白质家族的数据库,根据多序列比对结果和隐马尔可夫模型,将蛋白质分为不同的家族;
众多蛋白质家族,各家族由序列比对和隐马尔可夫模型表示
7,SMART
SMART: Main page
SMART(一个简单的模块化架构研究工具)允许识别和注释遗传移动域以及分析域结构。在信号传导、细胞外和染色质相关蛋白中发现的 500 多个域家族都是可检测的。这些域在系统发育分布、功能类别、三级结构和功能重要残基方面进行了广泛注释。在非冗余蛋白数据库中发现的每个域以及搜索参数和分类信息都存储在关系数据库系统中。
SMART是蛋白结构域的数据库,该数据库最新版本为v8,收录了1300多个蛋白结构域信息,覆盖了来自uniprot, ensembl等多个数据库的蛋白。
该数据库有以下两种模式
-
normal
-
genomic
normal
模式下包含了所有uniprot, ensembl的蛋白质信息,这些蛋白序列是存在冗余的,genomic
模式下只包含了拥有完整蛋白质组的物种的信息。
两种模式可以通过SETUP
菜单进行切换,通过颜色可以辨别所处的模式,示意如下
通过右上角的Search SMART
按钮,可以检索该数据库,支持以下蛋白名称和domain两种检索方式。
输入uniprot或者ensembl 数据库中的蛋白ID进行检索,示例如下,根据uniprot数据库中的蛋白IDC1S_HUMAN
进行检索
检索页面包含如下结果
1. domian 结构图
从图中,可以看出,该蛋白质包括以下5种domain
-
CUB
-
EGF_CA
-
CCP
-
Tryp_SPc
还提供了每个结构域的位置信息
2. 蛋白质相互作用
提供了来自STRING数据库的蛋白相互作用信息,示意如下
3. pathway 信息
提供了Metabolic pathway 和 Kegg pathway 两个数据库的通路注释信息,示意如下
4. orthology group 注释
提供了来自eggNOG数据库的注释信息,示意如下
5. 转录后修饰
提供了来自PTM数据库的转录后修饰信息,示意如下
按照domain
进行检索,示例如下,根据domian名称CUB
进行检索。对于每个domain, 采用SM开头的编号唯一标识,同时提供了和其他数据库的关联信息,还支持下载多序列比对的结果。
再比如说我搜索CTCF:
SMART: Sequence analysis results for CTCF_HUMAN能够直观的看到结构域,首先是11个ZF结构域,然后粉红色的就是的低复杂度区域了;
以及具体是哪些结构域,
当然这个结构域我们和uniprot中的比对一下,其实是不一样的,
首先ZF大家都对得上,但是uniprot中有个disorder区域,但在SMART数据库中左边就是3个LCR低复杂度区域,而且坐标都不一样;
选择参考时候各有所需,个人以uniprot数据库为主(比较权威)
然后上面的这个就是PPI
然后就是PTM,也就是翻译后修饰:
我们可以点击前往这个PTMcode网站,或者直接在这个网站中搜索CTCF_human,
注意这个网站需要flash,个人使用flash center进入浏览
PTMcode 2: Exploring CTCF
注意结合其中的位点信息
然后就是同源注释:
8,supfam
https://supfam.org/
也是一个基于隐马尔可夫模型注释蛋白超家族的数据库
9,MoboDB
MobiDB
蛋白质无序区域分析与功能预测数据库
内在无序蛋白质结构和功能信息,汇总文献注释、实验数据以及所有已知蛋白质序列的预测的综合性数据库