生信分析软件在生物信息学研究中可以帮助研究人员处理、分析和解释生物学数据,从而揭示生物学系统的结构和功能。如数据处理和格式转换、序列比对和测序数据分析、基因组注释和功能预测、基因表达分析、变异检测和遗传分析、数据可视化等软件功能都可以提高研究效率和数据解读的准确性。
目前生信分析软件有很多种,笔者总结了部分生信分析软件的主要功能及作用,帮助大家更好的选用目标分析软件,排名部分先后:
①BioXFinder国内第一个也是一个生物信息数据库,集成了BLAST、生存分析、基因ID转换等生信分析工具。汇集了核酸、蛋白、蛋白结构、代谢通路和信号通路信息,可高效的搜寻到自己想要的信息(中英双文),并且在无代码的情况下完成生信分析。
举例工具Ⅰ:生存分析图
生存分析图功能说明
研究某癌症类型中患者的生存情况
研究biomarker在癌症中的预后效果
研究不同分组之间患者的生存是否存在差异
数据输入说明
支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,以及Excel的xls格式。输入的数据共三列:
第1列(生存时间列):如总生存期、无病生存期、无进展生存期等等,数 值为生存天数。第2列(终点事件列):为二分类变量0或1,1对应终点事件结局(如患者死亡,疾病痊愈等)。第3列(分组信息列):分类型数据,如男/女、抽烟/不抽烟。若想要探究的数据为连续型变量,如年龄、基因表达量、风险评分等等,需自行划分分组,如根据中位数将目标基因表达量拆分为高表达、低表达两组,将风险评分拆为高风险、低风险两组,将年龄拆分为幼年、青年、中年、老年等。
参数说明
根据自身需求选择是否需要在生存分析主图中显示风险表、删失表、置信区间、P值和中位生存时间线; 每个表中的参数可根据需求选择相对应的值。
运行结果说明
横轴表示时间轴,纵轴表示生存概率。不同曲线的颜色,对应相应分组的生存曲线。经过 logrank 检验后发现 P 值 = 0.0001 < 0.05,表明不同分组的患者生存状况的差异不能用抽样误差来解释,分组因素才是导致两条曲线生存率出现差异的原因。风险表统计在不同时间段生存数量关系。删失表说明不同组在不同时间段出现死亡的数量。
输出格式说明
支持pdf、svg、jpeg、png、tif、bmp格式图像的输出。
运行任务列表说明
列出了过去7天内的任务日志,可保存7天的任务数据和任务运行结果。运行工具任务时,您可以到其他页面浏览信息,不影响后台执行任务,任务状态到完成后将在导航栏—任务列表处收到通知。
例举工具Ⅱ:基因ID转换
功能说明
帮助用户解决常见研究物种的基因ID在不同数据库之间的ID转换,并且提供基因的常见注释信息,为用户研究基因提供方便。
输入说明
文件格式:一行一个基因ID,支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式、旧版Excel的xls(Excel 97-2003 )格式。
示例:A1BG NAT1 SERPINA3
参数说明
转换物种类型:拟南芥、疟蚊、牛、秀丽线虫、狗、果蝇、斑马鱼、大肠杆菌K12菌株、大肠杆菌SaKai菌株、鸡、人、小鼠、恒河猴、黄黏球菌、黑猩猩、大鼠、酵母、猪、非洲爪蟾
输入ID类型:选择要转换的ID类型,默认可读取4种类型之一,分别是ENSEMBL(Ensembl gene ID) / SYMBOL(Gene Symbol) / ENTREZID(NCBI Entrez Gene ID) / ALIAS(Commonly used gene symbols)
注:4种ID类型的示例文件,可点击“导入示例文件”选择菜单中相应ID类型查看
是否识别列名:输入文件是否有列名
输出ID类型:可选择输出多种ID类型,可选择输出多种ID类型,下面列出所有可选的列名称。
图片来源:BioXFinder
②BLAST(Basic Local Alignment Search Tool):用于比对和识别生物序列的工具,广泛用于序列相似性搜索和注释。
③Bowtie/Bowtie2:用于高效地比对高通量测序数据的工具,特别适用于短读长的测序数据。
④BWA(Burrows-Wheeler Aligner):用于比对测序数据的工具,支持短读长和长读长的测序数据。
⑤SAMtools:用于处理和分析比对结果的工具,可以进行排序、过滤、索引和转换等操作。
⑥GATK(Genome Analysis Toolkit):用于分析高通量测序数据的工具,包括变异检测、拼接变异检测、RNA-seq分析等功能。
⑦Picard:用于处理和分析测序数据的工具集,包括去重复、排序、格式转换等功能。
⑧Trinity:用于转录组数据的组装和注释工具,可用于从RNA-seq数据中重建转录本和定量表达。
⑨Cufflinks:用于RNA-seq数据的转录本组装和定量分析工具,可用于发现新的转录本和定量基因表达水平。
⑩DESeq2:用于差异表达分析的工具,可用于RNA-seq数据的差异表达基因筛选和定量。
⑪RSEM:用于RNA-seq数据的基因表达定量工具,可用于估计基因和转录本的表达水平。
以上只是笔者选择的一部分常用生信分析软件,还有很多其他工具和软件可根据具体的分析需求选择使用。