近日,求臻医学信息与人工智能团队研发的精准肿瘤学临床试验预筛选平台OncoCTMiner,在线发表于国际期刊Database: The Journal of Biological Databases and Curation (IF=5.8)。OncoCTMiner集成自然语言处理(NLP)和大型语言模型(LLM)等人工智能技术,通过挖掘46万余条临床试验数据,构建了一个全面的精准肿瘤学入排条件数据库,助力肿瘤患者精准筛选可入组的临床试验。
研究背景
随着对肿瘤患者肿瘤分子特征的不断深入研究,分子肿瘤学已经成为癌症治疗不可或缺的组成部分。这一研究方向有助于确定新的治疗靶点,推动精准医学治疗的广泛应用。基于遗传标记的个体化癌症治疗可以提高治疗反应率并延长无进展生存期。然而,尽管许多靶向治疗和免疫治疗处于临床试验阶段,但为了更好地推进癌症治疗,需要更多的参与者加入。虽然基因组分析的力度在不断增加,但令人遗憾的是,仅有约8%的癌症患者有机会参与临床试验。这主要是因为医生缺乏对可接受研究的了解,同时也受制于患者的状态、态度和经济状况等多重因素。
此外,将患者的基因数据与精准肿瘤学试验的入排条件相匹配也是一个挑战。在没有复杂试验匹配系统的情况下,医生必须手动浏览数百个不断更新的临床试验,以找到适合特定患者的临床实验。即使在顶级的癌症中心,肿瘤学家也会对他们的遗传专业知识表示质疑。
因此,为了解决患者-临床试验匹配的问题,我们自主研发了精准肿瘤学临床试验预筛选平台OncoCTMiner(图1),以期帮助肿瘤患者和临床医生快速高效地筛选潜在合适的临床试验,加速精准肿瘤学临床试验的进展,为患者带来新的希望。
图1. OncoCTMiner平台整体概览
研究设计
1)通过下载并解析ClinicalTrials.gov网站注册的临床试验,将其转化为便于后续NLP处理的BioC-JSON格式(图2)。全部过程利用脚本进行自动化处理,便于定期对数据库进行更新。
图2. OncoCTMiner 模块
2)将全部已解析的数据导入基于OncoPubMiner系统升级开发而来的临床试验数据标注平台OncoCTMiner(TaggingModule),经由生物医学专家对其中预筛选出来的与肿瘤精准诊疗相关的临床试验进行实体标注(图3)。多重审核后,构成了标准数据集,用于后续NLP模型的训练。
图3. OncoCTMiner临床试验数据标注与审核平台
3)基于标准数据集进行NLP模型训练,用于识别全部临床试验中涉及的各类生物医学实体(疾病/癌症、基因、变异、药物、生物标志物、治疗方案),及其所属的入排条件(NA<未知>、NC<非入排条件>、IN<入组条件>、EX<排除条件>)。
4)基于训练的实体识别及入排条件分类模型,对余下的临床试验进行自动化挖掘。通过挖掘结果构建数量庞大的精准肿瘤学临床试验入排条件数据库OncoCTMiner-DB。同时,提供检索功能丰富且界面友好的试验搜索引擎。
5)开发多组学变异注释流程OncoCTMiner-Anno,可以对VCF、Excel或文本格式的变异数据进行自动化分析注释。结合用户提供的临床诊断信息,一键式生成临床试验匹配报告,方便患者快捷、精准地匹配潜在合适的临床试验(图4)。
图4. OncoCTMiner临床试验匹配策略
研究结果
1.数据库
OncoCTMiner-DB数据库当前收录临床试验472,493条(数据库持续更新中,该数据为截至发稿时的数据,下同),128,976条为肿瘤相关临床试验,其中2,256条经过生物医学专家标注和多重审核。从这些临床试验中,识别出6大类共计8,152,420个生物医学实体,以及9,326,762对“实体-入排条件-临床试验”三元组(图5)。
图5. OncoCTMiner部分数据统计
2.搜索引擎
OncoCTMiner提供了功能丰富的精准肿瘤学临床试验搜索引擎,支持通过试验ID、癌种/疾病、基因、变异、药物、生物标志物(TMB、MSI等)、治疗方案等进行快速检索,并可以通过临床试验各种元数据(分期、性别、年龄、国别等)进行过滤。更重要的是,该搜索引擎支持通过实体所属的入排标准(入组条件/排除条件)进行精准搜索,这有助于过滤掉大量假阳性搜索结果,帮助用户快速筛选到符合条件的临床试验(图6)。
图6. OncoPubMiner临床试验搜索引擎
3.患者-试验匹配平台
图7. 患者-试验匹配功能及匹配报告
在患者-试验匹配(临床试验预筛选)任务提交页面,用户可以上传VCF格式变异(或者注释好的变异检测结果),选择癌种类型,设定各种有助于缩小筛选范围的参数(可选)后,即可提交注释任务。系统将在合理地时间内返回匹配结果报告。如果返回结果过多,用户还可利用试验过滤功能对结果列表进行过滤,直到得到最合适的试验匹配结果(更详细信息,可阅读OncoCTMiner论文,或者访问OncoCTMiner官网)。
研究总结
在本项目中,求臻医学成功研发了一套精准肿瘤学临床试验预筛选平台——OncoCTMiner。通过综合运用人工智能技术以及人工标注与审核,我们对超过46万条临床试验数据进行了深入挖掘,构建了一套全面的精准肿瘤学临床试验入排条件数据库。
基于这一创新平台,求臻医学实现了患者招募业务的自动化匹配,能够为肿瘤患者提供快速而精准的临床试验匹配服务,推动潜在高效肿瘤治疗方法的研发,为更多癌症患者带来福音。
在具体的临床实验匹配过程中,借助OncoCTMiner自动化临床试验预筛选平台,助力药企完成患者靶点与临床试验的高效初步匹配后,求臻医学药企合作部专业团队将与患者进行深度沟通,提供个性化、专业化的临床试验服务,助力更多癌症患者从创新药物治疗中获益。
未来,OncoCTMiner将整合至求臻医学自动化报告解读系统ChosenSmartReport,同步对肿瘤患者基因检测结果进行自动化分析和临床试验匹配,为检测患者提供免费、高质量且精准的试验匹配服务,为肿瘤患者带来更便捷、全面的医疗体验。