如何利用人工智能加速临床试验

Matthew Hutson 著李升伟译

从研究设计到患者招募，研究人员正在研究如何运用AI技术加速临床试验过程。

几十年来，计算能力遵循摩尔定律（Moore’s law），以可预测的速度前进。集成电路上的元件数量大约每两年就会增加一倍。2012 年，研究人员创造了“埃鲁姆定律”（Eroom定律）这一术语来描述药物开发的对比路径1。过去 60 年来，美国每 10 亿美元研发支出批准的药物数量每九年减少一半。现在，将一种新药物推向市场可能需要超过十亿美元的资金和十年的工作。其中，一半的时间和金钱花在临床试验上，这些试验规模越来越大、越来越复杂。进入一期试验的每七种药物中只有一种最终获得批准。

一些研究人员希望摩尔定律的成果能够帮助遏制埃鲁姆定律。人工智能 (AI) 已被用于在药物发现的早期阶段取得重大进展，协助寻找合适的疾病靶点和新分子设计。现在，科学家开始使用人工智能来管理临床试验，包括编写方案、招募患者和分析数据的任务。

Saama公司是一家位于加利福尼亚州坎贝尔市的软件公司，该公司利用人工智能帮助组织实现部分临床试验的自动化，其首席技术官兼首席产品官Lisa Moneymaker表示，改革临床研究是“业界感兴趣的一个大话题，就应用而言，就像孩子在糖果店里一样。”

设计试验

临床试验过程的第一步是试验设计。应该给予什么剂量的药物？给多少病人？应该收集哪些数据？伊利诺伊大学香槟分校计算机科学家 Jimeng Sun 的实验室开发了一种名为 HINT（分层交互网络）的算法，可以根据药物分子、目标疾病和患者资格标准来预测试验是否会成功。他们随后开发了一个名为 SPOT（临床试验结果的顺序预测模型）的系统，该系统还考虑了训练数据中试验的发生时间，并对最近的试验进行了更大的权衡。根据预测的结果，制药公司可能会决定改变试验设计，或尝试完全不同的药物。

伊利诺伊州罗斯蒙特市一家名为“智能医疗对象”的公司开发了SEETrials，这是一种提示 OpenAI公司大语言模型 GPT-4的方法从临床试验摘要中提取安全性和有效性信息，这使得试验设计者能够快速了解其他研究人员如何设计试验以及结果如何。加利福尼亚州斯坦福大学遗传学家 Michael Snyder的实验室去年开发了一种名为 CliniDigest 的工具，该工具可同时汇总来自美国主要医学试验注册处 ClinicalTrials.gov 的数十条记录，并添加对统一摘要的引用。他们用它来总结临床研究人员如何使用智能手表、睡眠追踪器和血糖监测仪等可穿戴设备来收集患者数据。“我与许多从业者进行了交谈，他们在试验中看到了可穿戴设备的潜力，但不知道如何利用它们来发挥最大的影响，”Snyder实验室的一名计算机科学专业的学生Alexander Rosenberg Johansen说道：“由于该领域发展如此之快，最佳实践做法还不存在。”

最符合资格

临床试验中最耗时的部分是招募患者，占研究时间的三分之一。五分之一的试验甚至没有招募到所需的人数，而且几乎所有试验都超出了预期的招募时间表。一些研究人员希望在保持安全的同时放宽一些资格标准来加速这一进程。由生物医学数据科学家 James Zou 领导的斯坦福大学团队开发了一个名为 Trial Pathfinder 的系统，该系统可以分析一组已完成的临床试验，并评估调整参与标准（例如血压和淋巴细胞计数的阈值）如何影响风险比，或患者中严重疾病或死亡等负面事件的发生率。在一项研究中2，他们将其应用于一种肺癌的药物试验。他们发现，按照 Trial Pathfinder 的建议调整标准将使符合条件的患者数量增加一倍，而不会增加风险比。研究表明，该系统也适用于其他类型的癌症，并且实际上减少了有害结果，因为它使病情较重的人（他们可以从药物中获益更多）有资格接受治疗。

人工智能可以消除优化资格标准时的一些猜测和体力劳动。邹说，有时即使是在同一家公司工作并研究同一疾病的团队也会提出不同的试验标准。但现在包括罗氏、基因泰克和阿斯利康在内的几家公司正在使用 Trial Pathfinder。Sun位于伊利诺伊州的实验室最近的工作已经开发出 AutoTrial，这是一种训练大型语言模型的方法，以便用户可以提供试验描述并要求其生成适当的标准范围，例如体重指数。

一旦研究人员确定了资格标准，他们就必须找到符合条件的患者。纽约哥伦比亚大学生物医学信息学家 Chunhua Weng 的实验室（他也致力于优化资格标准）开发了 Criteria2Query。通过基于网络的界面，用户可以用自然语言输入纳入和排除标准，或输入试验的识别号，程序将资格标准转换为正式的数据库查询，以在患者数据库中查找匹配的候选者。

Weng 还开发了帮助患者寻找试验的方法。一个称为 DQueST 的系统由两部分组成。第一部分使用 Criteria2Query 从试验描述中提取标准。第二部分为患者提出相关问题，以帮助缩小搜索范围。Sun 实验室与美国国立卫生研究院合作开发的另一个系统 TrialGPT 是一种提示大型语言模型为患者找到合适试验的方法。根据患者和临床试验的描述，它首先确定患者是否符合试验中的每个标准并提供解释。然后，它将这些评估汇总为试验级分数。它对许多试验都这样做，并为患者对它们进行排名。

帮助研究人员和患者找到彼此不仅可以加快临床研究的速度，它还使其更加坚固。试验常常不必要地排除儿童、老年人或孕妇等人群，但人工智能可以找到方法将他们纳入其中。患有晚期癌症和患有罕见疾病的人尤其很难找到可以参加的试验。“在努力寻找试验机会方面，这些患者有时比临床医生做更多的工作，”Weng说。人工智能可以帮助他们与相关项目匹配。

人工智能还可以减少试验所需的患者数量。位于加利福尼亚州旧金山的一家名为 Unlearn 的初创公司在临床试验中为患者创建数字孪生体（digital twins）。根据试验开始时实验患者的数据，研究人员可以使用孪生体来预测同一患者在对照组中的进展情况并比较结果。Unlearn 的创始人兼首席执行官 Charles Fisher 表示，这种方法通常可以将所需的对照患者数量减少 20% 到 50%。该公司与多家小型和大型制药公司合作。Fisher表示，数字孪生体不仅有利于研究人员，也有利于参加试验的患者，因为他们接受安慰剂的机会较低。

病人维护

一旦患者入组，临床试验的障碍就不会结束。退出率很高。在对 95 项临床试验的分析中，近 40% 的患者在第一年停止服用处方药物。在最近的一篇评论文章3中，诺华公司的研究人员提到了人工智能可以提供帮助的方式。其中包括使用过去的数据来预测谁最有可能退出，以便临床医生进行干预，或者使用人工智能来分析患者服药的视频，以确保不会错过剂量。

无论是在研究期间还是在正常的临床实践中，聊天机器人都可以回答患者的问题。其中一项研究4从 Reddit 的 AskDocs 论坛获取问题和答案，并将问题提交给 ChatGPT。近 80% 的情况下，医疗保健专业人员更喜欢 ChatGPT 的答案而不是医生的答案。在另一项研究5中，研究人员通过对医患对话的大型语言模型（Meta公司的 LLaMA-7B）进行微调并使其实时访问在线资源，创建了一个名为 ChatDoctor 的工具。ChatDoctor 可以回答有关比 ChatGPT 训练数据更新的医疗信息的问题。

把它放在一起

人工智能可以帮助研究人员管理传入的临床试验数据。诺华公司研究人员报告称，它可以从非结构化报告中提取数据，并对图像或实验室结果进行注释，添加缺失的数据点（通过预测结果中的值）并识别人群中对治疗有独特反应的亚组。Zou 在斯坦福大学的团队开发了 PLIP，这是一种人工智能驱动的搜索引擎，可以让用户在大型医疗文档中查找相关文本或图像。Zou说，他们一直在与制药公司洽谈，希望用它来组织临床试验中的所有数据，包括笔记和病理照片。患者的数据可能以不同的格式存在，分散在不同的数据库中。Zou说他们还与保险公司合作，开发语言模型来从医疗记录中提取计费代码，这种技术还可以从诸如恢复结果、症状、副作用和不良事件之类的报告中提取重要的临床试验数据。

为了收集试验数据，研究人员有时必须制作 50 多个病例报告表。中国一家名为太美科技的公司正在使用人工智能根据试验方案自动生成这些数据。

一些公司正在开发将许多人工智能方法集成到一个系统中的平台。智能医疗对象公司生命科学部门负责人Xiaoyan Wang与人共同开发了 AutoCriteria，这是一种促使大型语言模型从临床试验描述中提取资格要求并将其格式化为表格的方法。这为软件套件中的其他人工智能模块提供信息，例如寻找理想试验地点、优化资格标准和预测试验结果的模块。Wang 表示，该公司很快将提供 ChatTrial，这是一个聊天机器人，研究人员可以通过它询问系统数据库中的试验情况，或者如果以某种方式调整假设的试验会发生什么。

该公司还帮助制药公司准备临床试验报告，提交给美国食品和药物管理局 (FDA)，该部门负责对药物在美国的使用进行最终批准。该公司所谓的智能系统文献综述从比较试验中提取数据。另一种工具在社交媒体上搜索人们对疾病和药物的看法，以证明社区中未满足的需求，特别是那些感觉服务不足的社区。研究人员可以将此信息添加到报告中。

伊利诺伊州 Sun 实验室的学生 Zifeng Wang 表示，他正在与 Sun 和另一位联合创始人 Benjamin Danek 一起为一家名为 Keiji AI 的初创公司筹集资金。一款名为 TrialMind 的产品将提供一个聊天机器人来回答有关试验设计的问题，类似于王晓燕的产品。它将完成通常需要数据科学家团队才能完成的任务，例如编写代码来分析数据或生成可视化效果。他说，人工智能在临床试验中“有很多机会”，“尤其是随着最近大型语言模型的兴起。”

在大流行开始时，Saama 公司与辉瑞 (Pfizer)公司合作进行了 COVID-19 疫苗试验。使用 Saama公司的人工智能技术 SDQ，他们在短时间内“清洗”了 30,000 多名患者的数据。Moneymaker 表示：“这是真正推动人工智能为该领域带来的影响的完美用例。” 该工具使用多种机器学习方法来标记异常或重复数据。专家可能需要两个月的时间才能手动发现数据集的任何问题，而此类软件可以在不到两天的时间内完成。

Saama公司开发的其他工具可以通过预测哪些患者需要推动来预测试验何时达到某些里程碑或降低退出率。它的工具还可以结合患者的所有数据——例如实验室测试、可穿戴设备的统计数据和笔记——来评估结果。“单个患者的情况变得如此复杂，以至于实际上不可能再进行手动分析，”Moneymaker 说。

Xiaoyan Wang指出，人工智能在临床试验中的部署存在一些伦理和实践挑战。人工智能模型可能存在偏差。他们的结果可能很难重现。它们需要大量的训练数据，这可能会侵犯患者隐私或造成安全风险。研究人员可能会变得过于依赖人工智能。算法可能太复杂而难以理解。“缺乏透明度在临床试验中可能会出现问题，因为了解决策的制定方式对于信任和验证至关重要，”她说。《国际外科杂志》最近发表的一篇评论文章6指出，在临床试验中使用人工智能系统“无法考虑到人类的能力，如常识、直觉和医学训练”。

Moneymaker 表示，设计和运行临床试验的流程往往变化缓慢，但他补充说，FDA 在过去几年中放宽了一些法规，导致“创新激增”：分散试验和远程监控由于大流行有所增加，为新型数据打开了大门。这恰逢生成式人工智能能力的爆炸式增长。“我认为我们甚至还没有触及生成式人工智能的应用性将带我们走向何方的表面，”她说。“有些问题我们三个月前无法解决，但现在可以解决。”

原文链接：doi: https://doi.org/10.1038/d41586-024-00753-x

参考文献：

1. Scannell, J. W., Blanckley, A., Boldon, H. & Warrington, B. Nature Rev. Drug. Discov. 11, 191–200 (2012).

2. Liu, R. et al. Nature 592, 629–633 (2021).

3. Blaschke, T. F., Osterberg, L., Vrijens, B. & Urquhart, J. Annu. Rev. Pharmacol. Toxicol. 52, 275–301 (2012).

4. Ayers, J. W. et al. JAMA Intern. Med. 183, 589–596 (2023).

5. Li, Y. et al. Cureus 15, e40895 (2023).

6. Chopra, H. et al. Int. J. Surg. 109, 4211–4220 (2023).