图片来源:RICHARD JONES/SCIENCE PHOTO LIBRARY/GETTY IMAGES
当我们谈论广阔且未被充分探索的领域时,往往会想到宇宙和地球的深海。然而,就在我们自身的人体内,仍有许多未知领域等待我们去探索。"Unknome",这个新的数据集,代表着人类尚未被发现的基因和蛋白质。
这个开放的数据库根据我们对蛋白质组的理解程度对其进行排序,以帮助科学家确定作为研究目标的蛋白质,这些蛋白质可能用于治疗疾病或药物研发。2023年8月8日,《PLOS Biology》(2022影响因子=9.8)发表了一项研究,该研究利用unkome数据库挖掘了可用于疾病治疗和药物研发的蛋白质。
细胞生物学家Sean Munro和他的团队编译了这个名为"Unknome"的数据库(该词是由"unknown"和"genome"组合而成的)。Unknome用于鉴定那些研究不足但可能重要的蛋白质和其对应的蛋白质编码基因。(SN: 2/9/22)。
具有共同祖先的蛋白质通常被划分为一个家族。Unknome数据库包含了所有的蛋白质家族,其中至少有一种蛋白质是由人类基因组编码的,或者是由其他11种常见生物的基因组编码的。数据库中包含了超过13000个家族,近200万种蛋白质。
Unknome根据我们对每个蛋白质组相关基因的理解程度,为每个蛋白质组分配了一个"已知性"的得分。在大约3000个类群中,有805个类群含有至少一种"已知性"得分为0的人类蛋白质,这意味着在人类基因组中,还有许多未知信息等待我们去发掘。(SN:3/31/22)。
Munro及其团队利用这个数据库研究了果蝇和人类之间共享的260个基因,这些基因的"已知性"得分较低。研究人员发现,当在果蝇中降低每个蛋白质编码基因的活性后,大约有60个基因对生命的维持起着至关重要的作用。其他基因则对生殖、生长、运动和抵抗压力等方面具有重要影响。
"即使在像果蝇这样被广泛研究的模型生物中,仍然有新的信息等待我们去发现,"英国剑桥医学研究委员会分子生物学实验室的Munro说。
然而,这些基因中的部分或全部是否对人类具有类似的影响,我们目前还无法知道。但是,这个数据库能够帮助研究人员快速筛选出在易于研究的生物(如果蝇)中的类似蛋白质,以确定重要的人类蛋白质。圣地亚哥药物研发公司Expert Systems Inc.的数据科学家Tudor Oprea表示,他并未参与这项研究。
Munro说,他的团队将与类似的研究项目(如“未被研究的蛋白质计划”,Understudied Proteins Initiative)开展合作,对神秘蛋白质进行大规模研究。
人类基因组编码大约20000种蛋白质,其中许多仍未表征。显然,科学研究倾向于聚焦那些经过深入研究的蛋白质,这引发人们对那些知之甚少的基因是否被过度忽视的担忧。为了解决这个问题,我们开发了一个可公开访问且可实现定制的“Unknome数据库”, 该数据库通过对不同蛋白质的了解程度进行排序,以协助深入研究未知基因。我们利用RNA干扰(RNAi)技术,对在果蝇与人类之间具有保守性的260个未知基因进行了沉默操作。研究结果表明,某些基因的沉默会导致果蝇失去生存能力,而其他基因则涉及生育、发育、运动、蛋白质质量控制以及应对压力等诸多关键生物过程。此外,我们采用CRISPR/Cas9基因敲除实验,验证了一个与Notch信号传导有关的组成部分,以及两个对男性生殖能力具有助益的基因。这些发现强调了那些鲜为人知的基因在细胞信号传导和生殖过程中的重要性。我们的研究揭示了那些鲜为人知基因的重要作用,为未来的研究提供了有价值的资源,同时也强调了对数据库信息的审查与整理的必要性。通过数据审编,我们可以确保错误的注释不会削弱我们对知识空缺的理解。这一工作对于拓展我们对基因功能的认知,以及推动相关领域的进一步探索,具有积极的影响。
阅读原文内容:
https://www.sciencenews.org/article/unknome-catalog-genome-protein-mysterious
查看原文信息:
https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3002222
数据库链接:
http://unknome.org
往期精品(点击图片直达文字对应教程)
机器学习