生信碱移
Rummagene数据库
Rummagene 从 PubMed Central (PMC) 出版物提取了超70万个基因集,用于各类基因功能关联注释。
组学技术的引入逐渐将生物和生物医学研究从研究单个基因和蛋白质转向研究基因集、基因簇、分子复合物和基因表达模块。许多生物医学和生物研究产生并发布基因和蛋白质集。例如,来自转录组学和蛋白质组学检测的差异表达基因和蛋白质、被确定为与表型相关的基因组变异相关的基因、通过ChIP-seq实验确定的转录因子靶基因、差异磷酸化蛋白质组学中识别的蛋白质、来自CRISPR筛选的与细胞表型相关的基因。这些研究生成基因集非常有价值,但并不常被重复使用。这种缺乏重复使用的情况部分是因为在出版物中提交基因集没有标准,并且没有明确的数据库用于存放这些基因和蛋白质集。因此,关于基因集功能注释的潜在有用信息被埋藏在以PDF、Excel、CSV或Word文件格式存储的支持材料表格中。
▲ 上图展示了PMC数据库索引的大量基因集相关文献。
为此,来自美国西奈山伊坎医学院的研究学者开发了一个数据库Rummagene,于今年4月份发表于Communications Biology[IF:5.6],可以从PubMed Central (PMC) 的学术出版物中批量提取超十万个基因集。Rummagene包含一个软机器人,可以扫描PMC上所列出版物的辅助材料,并且不断更新资源。通过爬取PMC中的5,448,589篇文章,Rummagene服务器目前提供了对数十万个哺乳动物基因集的访问。这些被埋没的基因集,可用于富集分析、自由文本和表格标题搜索。通过研究Rummagene数据库中的统计模式,作者证明Rummagene可以用于转录因子和激酶富集分析,以及基因功能预测。
▲ DOI: 10.1038/s42003-024-06177-7
Rummagene数据库提供了多种基因集检索/富集功能,小编接下来会做一个简单的介绍,感兴趣的铁子可以进入官网试试:
-
https://rummagene.com/
功能一: 基因集搜索
点进Rummagene主页显示的便是Gene set search
模块,下图中可以看到该数据库目前一共收录了748,657个基因集,左下的白框中输入自己的基因集即可富集与之相关的功能。
▲ 直接输入自己的基因集进行检索,不需要指定物种,会自行检索与之相交的基因集。
▲ 小编的检索结果如上,可以看到显著富集了一万多个基因集,其中附上了每个基因集的来源文献。确实够猛,这些文献估计也是重量级(与感兴趣基因集相关的研究)。
功能二: PMC搜索
PMC search
模块下,输入任意关键词检索PMC数据库中文献,并从返回的文献中提取相关的基因集文件。
▲ 检索与Ⅱ型糖尿病相关的基因集。
▲ 检索结果如上,可以看到展示了282个Ⅱ型糖尿病相关的文章。点击
符号后出现VIEW GENE SET
选项,提示该文章提供了11个相关基因。
▲ 点击上一张图显示的VIEW GENE SET
选项,即可看到每个基因的详细介绍。
功能三: 基因集名称检索
Table title search
模块下,输入任意关键词,在基因集名称中进行匹配以查找相关基因集。
▲ 这里检索与CRISPR相关的基因集。
▲ 检索结果如上,其实与上一个功能的区别不大,只不过是限定标题检索(看红线)。
功能四: 基因集的下载
Download
模块下,可以下载以gmt格式提供的所有基因集文件,用于大批量基因集分析。
▲ 作者对可供下载的基因集集合进行了分类。latest.gmt 是汇总的文件,包含 748,657 个基因集,提供了最新的通用注释。Rummagene_transcription_factors.gmt.gz 和 Rummagene_kinases.gmt.gz 分别是转录因子和激酶相关的基因集,适用于研究基因调控和信号转导。random50k_co-occurrence.f.gz 包含基因相关性分析的数据,可以用于揭示基因间的关联。更多的介绍信息可以看看发表这个数据库发表的文章。
感觉还是蛮有意义的
作为网药、疾病相关基因的备用数据库;
筛选自己研究潜在的相关文献;
找小众的疾病基因集;
看多个疾病的基因关联;
头脑风暴一下还有很多应用