为应对2019年新型冠状病毒(2019-nCoV)爆发,中国科技巨头百度开源了其RNA(核糖核酸)预测算法LinearFold。该工具可以显著加快病毒RNA二级结构的预测时间,为一线研究人员提供在危机时期更好地了解病毒和开发靶向疫苗的机会。百度的AI科学家告诉Synced,他们已经将LinearFold应用于2019-nCoV,将预测时间从55分钟减少到27秒。
对于寻求RNA结构建模和深入了解相关功能机制的研究人员来说,RNA二级结构的知识变得至关重要。然而,从计算语言学借用并基于动态规划的当前算法面临着一个挑战:RNA长度的增加导致其运行时以立方方式扩展。当面对长RNA序列时,这可能会严重减慢这些算法的速度,并限制它们在全基因组应用中的使用。
在《LinearFold:线性时间通过5′-3′动态规划和波束搜索近似RNA折叠》一文中,百度研究人员提出LinearFold作为RNA折叠中的第一个近似算法,在不对输出结构施加碱基对距离等约束的情况下实现线性运行时和线性空间。LinearFold和以前的算法之间的一个显著区别是,它从左到右扫描序列,例如从5′到3′,而不是自下而上。这种方法的灵感来自计算语言学中上下文无关语法的增量解析,并使模型能够使用有效的波束修剪启发式。
百度的研究人员在一个不同的RNA序列数据集上评估了他们的设计,结果表明这种方法更有效,并且在所有家族中都具有更高的平均准确率。例如,对于大约10000个核苷酸的序列,如HIV基因组,LinearFold只需要8秒的运行时间,而基线需要大约4分钟。对于32775nt的序列,LinearFold需要26秒,而广泛使用的系统CONTRAfold和RNAfold分别需要2和1.7小时。
另一个值得注意的发现是,LinearFold在长程碱基对上更准确,这对大多数当前模型来说都是一个持续存在的问题。这一点很重要,因为2019年nVoV基因的总长度接近30000个碱基对,例如比2003年SARS冠状病毒的远房表亲更长。
LinearFold的发布将帮助基因检测机构、防疫中心等科研院所等机构,是机器学习研究界旨在解码2019-nCoV爆发背后的关键信息的最新举措。Synced正在密切关注此主题,并将在新信息可用时继续更新读者。
论文LinearFold: Linear-time Approx RNA Fold by 5′-to-3′ Dynamic Programming and Beam Search 可在Bioinformatics上找到,源代码可在GitHub上找到。