蛋白质数据库是指专门存储蛋白质相关信息的数据库。它们收集、整理和存储大量的蛋白质数据,包括蛋白质序列、结构、功能、互作关系、表达模式、疾病关联等信息。蛋白质数据库提供了对这些数据的检索、查询和分析功能,为科学研究人员、生物信息学家和药物研发人员等提供了重要的资源。
蛋白质数据库的内容通常来自于实验室实际测定的蛋白质数据,如蛋白质序列测定、结晶学、核磁共振、质谱等技术获得的数据。这些数据经过验证和标准化后,被整合到数据库中,使研究者能够方便地访问和利用这些数据进行各种研究工作。
下面是笔者总结的常用蛋白质数据库及网址,供大家参考。
⓪BioXFinder:BioXFinder是国内第一个也是唯一一个生物数据库:收录50多万条高质量的、整合多个来源数据,手工注释的非冗余的蛋白质信息,包含蛋白质的基本信息、序列、序列特征、功能、名称和谱系、亚细胞定位、疾病与变异、翻译后修饰、表达、相互作用等信息。
蛋白结构库:收录19多万条经过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质结构数据。包括蛋白3D结构、基本信息、实验数据、参考文献等。
BioXFinder:https://bio.bcpmdata.com/
图片来源:BioXFinder
①UniProt:UniProt是一个综合性的蛋白质数据库,提供了大量蛋白质的序列、结构、功能、互作关系和注释信息。它整合了多个来源的数据,包括Swiss-Prot、TrEMBL和PIR数据库。
UniProt: https://www.uniprot.org/
②Protein Data Bank (PDB):PDB是存储蛋白质和其他生物大分子结构的数据库。它提供了实验确定的蛋白质结构的三维坐标数据,可用于结构生物学研究、药物设计和分子模拟等领域。
Protein Data Bank (PDB): https://www.rcsb.org/
③NCBI Protein:NCBI Protein是美国国家生物技术信息中心(NCBI)提供的蛋白质数据库,包含了大量的蛋白质序列数据,可以进行蛋白质的基本信息查询和比对分析。
NCBI Protein: https://www.ncbi.nlm.nih.gov/protein/
④Ensembl:Ensembl是一个综合性的基因组注释数据库,包含了多个物种的基因组序列、基因结构、转录本和蛋白质信息。它提供了基因组浏览器和分析工具,方便研究人员进行基因组研究和比较基因组学分析。
Ensembl: https://www.ensembl.org/
⑤Swiss-Prot:Swiss-Prot是一个人工注释的蛋白质数据库,提供了高质量的蛋白质序列和注释信息。它包含了详细的蛋白质功能、结构域、修饰、亚细胞定位等注释,并提供了丰富的参考文献。
Swiss-Prot: https://www.uniprot.org/uniprot/?query=reviewed:yes
⑥RefSeq:RefSeq是NCBI提供的一个综合性蛋白质和核酸序列数据库,包含了多个物种的参考序列。它提供了高质量的基因和蛋白质序列、注释信息和参考文献,可用于基因组学、遗传学和生物信息学研究。
RefSeq: https://www.ncbi.nlm.nih.gov/refseq/
⑦STRING:STRING是一个蛋白质互作关系数据库,整合了多种数据源的蛋白质互作信息,包括实验验证的互作、计算预测的互作和文献报道的互作。它提供了蛋白质互作网络的可视化和分析工具,用于研究蛋白质相互作用网络和功能模块。
STRING: https://string-db.org/
⑧InterPro:InterPro是一个蛋白质家族和结构域注释数据库,整合了多个注释资源的信息。它提供了蛋白质序列的功能和结构域注释,帮助研究人员理解蛋白质的功能和结构。
InterPro: https://www.ebi.ac.uk/interpro/
⑨Pfam:Pfam是一个蛋白质家族数据库,提供了多个物种的蛋白质家族和结构域的注释信息。它基于多序列比对和隐马尔可夫模型,用于蛋白质功能预测和注释。
Pfam: https://pfam.xfam.org/
⑩SMART:SMART是一个蛋白质结构和功能域注释数据库,提供了多个物种的蛋白质结构域的注释信息。它帮助研究人员理解蛋白质的功能和结构域的进化关系。
SMART: http://smart.embl-heidelberg.de/
⑪KEGG:KEGG是一个生物信息学资源,包括了基因组、基因、蛋白质、代谢通路和疾病等信息。它提供了蛋白质序列、功能注释、代谢通路和信号通路的信息,用于研究生物系统和药物开发。
KEGG: https://www.genome.jp/kegg/
⑫NCBI GenBank:NCBI GenBank是一个综合性的核酸序列数据库,包含了来自不同物种的基因组、mRNA和蛋白质序列。它提供了大量的核酸序列数据和相关的注释信息,可用于基因组学、遗传学和生物信息学研究。
NCBI GenBank: https://www.ncbi.nlm.nih.gov/genbank/
⑬NCBI RefSeq:NCBI RefSeq是NCBI提供的一个综合性的参考序列数据库,包含了多个物种的基因组、转录本和蛋白质序列。它提供了高质量的基因和蛋白质序列、注释信息和参考文献,用于基因组学、遗传学和生物信息学研究。
NCBI RefSeq: https://www.ncbi.nlm.nih.gov/refseq/
⑭NCBI Conserved Domain Database (CDD):NCBI CDD是一个蛋白质保守结构域数据库,用于识别蛋白质序列中的保守结构域和功能模块。它整合了多个结构域数据库的信息,提供了蛋白质序列的结构域注释和功能预测。
NCBI Conserved Domain Database (CDD): https://www.ncbi.nlm.nih.gov/cdd/
⑮NCBI Protein Clusters:NCBI Protein Clusters是一个蛋白质聚类数据库,将相似的蛋白质序列聚类在一起形成蛋白质家族。它基于序列相似性和聚类算法,用于蛋白质家族的注释和功能预测。
NCBI Protein Clusters: https://www.ncbi.nlm.nih.gov/proteinclusters/
⑯NCBI Structure:NCBI Structure是NCBI提供的蛋白质结构数据库,包含了实验确定的蛋白质三维结构数据。它提供了蛋白质结构的三维坐标、结构域注释和功能预测,可用于结构生物学研究和药物设计。
NCBI Structure: https://www.ncbi.nlm.nih.gov/structure/
⑰NCBI COG (Clusters of Orthologous Groups):NCBI COG是一个蛋白质正交群数据库,用于识别不同物种中的正交群(Orthologous Groups)。它基于物种间的蛋白质序列相似性和功能保守性,用于研究蛋白质的进化关系和功能注释。
NCBI COG (Clusters of Orthologous Groups): https://www.ncbi.nlm.nih.gov/COG/
⑱NCBI GEO (Gene Expression Omnibus):NCBI GEO是一个基因表达数据的存储库,包含了来自不同实验的基因表达谱数据。它提供了基因表达谱的原始数据和分析结果,可用于研究基因调控和生物过程的表达模式。
NCBI GEO (Gene Expression Omnibus): https://www.ncbi.nlm.nih.gov/geo/
⑲NCBI SRA (Sequence Read Archive):NCBI SRA是一个高通量测序数据的存储库,包含了来自不同实验的测序数据。它提供了原始的测序数据和相关的注释信息,可用于基因组学、转录组学和变异分析等研究。
NCBI SRA (Sequence Read Archive): https://www.ncbi.nlm.nih.gov/sra/
⑳NCBI dbSNP (Single Nucleotide Polymorphism Database):NCBI dbSNP是一个单核苷酸多态性数据库,收集了人类和其他物种中的单核苷酸变异信息。它提供了单核苷酸多态性的注释和频率信息,用于研究遗传变异和疾病相关的基因变异。
NCBI dbSNP (Single Nucleotide Polymorphism Database): https://www.ncbi.nlm.nih.gov/snp/
㉑NCBI ClinVar:NCBI ClinVar是一个临床相关遗传变异数据库,收集了与人类疾病相关的遗传变异信息。它提供了遗传变异的临床意义、相关疾病和相关文献,用于研究遗传疾病的诊断和治疗。
NCBI ClinVar: https://www.ncbi.nlm.nih.gov/clinvar/
㉒NCBI dbGaP (Database of Genotypes and Phenotypes):NCBI dbGaP是一个基因型和表型数据库,用于存储和共享人类遗传研究的数据。它包含了基因型、表型和临床数据,可用于研究遗传变异和复杂疾病的遗传基础。
NCBI dbGaP (Database of Genotypes and Phenotypes): https://www.ncbi.nlm.nih.gov/gap/
㉓PANTHER (Protein ANalysis THrough Evolutionary Relationships):PANTHER是一个蛋白质家族和功能注释数据库,基于物种间的进化关系进行蛋白质功能预测。它提供了蛋白质家族、功能注释和进化关系的信息,用于研究蛋白质功能和进化。
PANTHER (Protein ANalysis THrough Evolutionary Relationships): http://www.pantherdb.org/
㉔SUPERFAMILY:SUPERFAMILY是一个蛋白质结构和功能域数据库,基于结构域的结构和功能进行蛋白质分类和注释。它提供了蛋白质结构域的注释和功能预测,用于研究蛋白质的结构和功能。
SUPERFAMILY: http://supfam.org/
㉕PROSITE:PROSITE是一个蛋白质结构域和模体数据库,用于识别蛋白质序列中的结构域和模体。它基于序列模式和保守模体进行蛋白质序列的注释和功能预测。
PROSITE: https://prosite.expasy.org/
㉖HPRD (Human Protein Reference Database):HPRD是一个人类蛋白质参考数据库,提供了人类蛋白质的序列、结构、功能和互作关系信息。它整合了多个数据源的信息,用于研究人类蛋白质的功能和相互作用网络。
HPRD (Human Protein Reference Database): http://www.hprd.org/
㉗BioGRID:BioGRID是一个生物网格数据库,收集了蛋白质相互作用的实验验证数据。它提供了蛋白质相互作用网络的数据和分析工具,用于研究蛋白质相互作用和信号通路。
BioGRID: https://thebiogrid.org/
㉘IntAct:IntAct是一个蛋白质相互作用数据库,整合了实验验证的蛋白质相互作用数据。它提供了蛋白质相互作用的注释和网络可视化工具,用于研究蛋白质相互作用网络和功能模块。
IntAct: https://www.ebi.ac.uk/intact/
㉙Reactome:Reactome是一个代谢通路和信号通路数据库,提供了多个物种的生物过程和分子互作的信息。它提供了详细的代谢通路和信号通路的注释和可视化工具,用于研究生物过程和疾病机制。
Reactome: https://reactome.org/
㉚NCBI CDD(Conserved Domain Database)是一个蛋白质保守结构域数据库,有识别蛋白质序列中的保守结构域和功能模块,并提供相应的注释和预测。
NCBI CDD (Conserved Domain Database): https://www.ncbi.nlm.nih.gov/cdd/
蛋白质数据库在生物学研究、蛋白质功能预测、蛋白质结构预测、药物开发等领域具有重要的作用。通过利用蛋白质数据库,研究人员可以获取蛋白质的基本信息、相互作用关系、结构域注释、功能预测等,从而深入理解蛋白质的生物学功能和机制。