每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
最近,两篇关于人工智能/机器学习(AI/ML)在生物学领域影响的文章引发了广泛讨论。第一篇由Andrew Dunn撰写,标题为“现实检查:AI在Leash Bio的结合预测竞赛中表现令人失望:‘没人表现得很好’”,直指Leash的最近比赛结果,并总结称“这对这个热门的AI生物领域来说是一个清醒的现实检查。” 第二篇文章标题更简洁明了,是Ron Boger和Dennis Gong撰写的“反科技生物学”,其中指出“生物学并不是一个适合系统化的领域。”
那么,到底是哪种情况?生物机器学习(BioML)真的因为没有在Kaggle竞赛中表现出色的公开模型而未能达到预期?还是因为生物学和药物发现的复杂性、数据获取的难度,使得这些普遍的功能近似器难以产生实际影响?
深入研究Leash Bio的比赛结果可以发现,1950支参赛队伍中并未包括任何AI领域的重量级选手,特别是那些专注于小分子研究的计算密集型生物技术公司。Leash的Quigley还公开邀请那些自认为在这项任务上占有优势的团队前来展示他们的解决方案,体现出一种谦逊的态度。然而,这种比赛更多是反映了“你甚至都没理解问题的本质”,而零次绑定物生成或许可以更准确地归类为命中发现,这是药物发现最初期(也可能是最商品化)的阶段之一。
公共和内部的注意力往往聚集在那些容易理解且有吸引力的问题上。零次绑定设计很容易向了解基本药物作用机制的人解释和推销。这似乎是个难题,如果通过机器学习“解决”了它,那就成了这些技术“增值”的无可辩驳的证据。
然而,真正的药物猎人们则会迅速指出,即使解决了零次绑定设计,他们也不会在意,因为这并不是瓶颈。理解这一点后,才能提出更好、更细致的问题,但这需要大量努力去了解你所面对的竞争,不仅仅是在Kaggle竞赛中与其他机器学习方法竞争。
在光谱的另一端,“反科技生物学”论点认为,尽管技术的进步和内部数据壁垒的网络效应可以串联成一个持续生产药物的平台,现实却粉碎了这一理论。生物学并非一个适合系统化的领域。
因此,机器学习和计算在药物发现中的真正影响究竟在哪里?与其设计一个我们认为人们会感兴趣的问题,或者放弃所有希望,不如尝试使现有的、已被验证的药物发现过程更便宜、更快、更成功。要做到这一点,需要解决哪些具体问题?
一个有前景的方向是任务特定的决策。事实证明,在生物技术领域做决策确实非常困难。决策者们必须不断做出高风险的决策,这些决策可能导致数百万甚至数十亿的资金和资源被分配到某一方向上。科学家们每天都在做出从小到大的决定,最终引导出特定分子的诞生。许多决定在药物发现的早期就可能注定其失败,比如适应症、靶点和模式的优先级排序。项目在如此多的关键决策点上可能失败,以至于任何药物的成功都堪称奇迹。数据永远不够,信息永远不足,但你仍然不得不继续做出决定。
或许当前机器学习系统最重要的贡献在于自动化低级和中级决策。因为当5个以上高技能、高学历的科学家聚在一起时,他们会在讨论的前5分钟内榨干数据中的洞察力,而接下来的50分钟则在反复讨论。这种在不确定性下做决策的挑战性令人不安,大家更喜欢讨论未知和可能出错的地方。但当大量讨论发生时,却没有实际决策被做出或更新,这就是数据已经被最大限度利用的强烈信号。
为此,机器学习在药物发现中日益重要的角色是生成更多数据,并更好地将这些数据综合到决策中。例如,高通量筛选中的命中优先级排序、快速少次蛋白设计、生物制品的命中扩展和命中成熟、有效的化学逆合成路径预测、自动化管理模式生物的机器人,以及mRNA序列设计。这些ML辅助的任务大多集中在机械化流程中——这些重要但较低级的任务,尽管执行到位并不足以保证药物发现的成功,但确是必不可少的。
今天的机器学习模型似乎更适合在任务如命中发现和某些方面的先导优化中提供帮助,而不是在项目优先级排序等复杂的重大决策上发挥作用。如果你知道去哪里看,这些机器学习系统的好处已经显现。
可解释的、模型驱动的决策允许我们通过在构建机器学习系统时进行深思熟虑的过程,然后在实际操作中很少再考虑它们,从而实现许多事情的可重复性。当这些系统正常工作且你知道原因时,它会释放出更多的精力去处理边缘案例和新的奇异问题,使得药物发现既有影响力又充满乐趣。
要实现模型驱动的决策,需要以数据为中心,具备工程文化来构建(或重建)组织。对科技生物学的幻灭来自于一种错误的期望,即只要建立一个以数据为中心、工程为先的组织,药物就会随之而来。但这种因果关系是错误的。那些知道如何制造药物的组织早已存在,它们建立在数百年的科学知识和几十年在生物学、生物化学和生物物理学方面的经验之上。作为计算科学家和工程师,我们的任务是重新构想这个过程,解决低层次问题,使高层次问题成为新的低层次问题,并使之前难以解决的问题变得可以解决。
总结来说,当前的机器学习在生物学和药物发现中,尽管面临挑战,但正在某些特定领域展现出其价值。通过聚焦于实际问题并改进已有流程,而非追求过度简化或完全否定的极端论调,我们才能真正推动这一领域的发展。