文章发表 | 求臻医学发布精准肿瘤学临床试验预筛选平台

news2024/11/20 16:24:38

caf621fa7a1dcb4338b596a2d7d732f1.jpeg

近日,求臻医学信息与人工智能团队研发的精准肿瘤学临床试验预筛选平台OncoCTMiner,在线发表于国际期刊Database: The Journal of Biological Databases and Curation (IF=5.8)。OncoCTMiner集成自然语言处理(NLP)和大型语言模型(LLM)等人工智能技术,通过挖掘46万余条临床试验数据,构建了一个全面的精准肿瘤学入排条件数据库,助力肿瘤患者精准筛选可入组的临床试验。

e32f67cf77a82e830c06d67e4997c05c.jpeg


研究背景

随着对肿瘤患者肿瘤分子特征的不断深入研究,分子肿瘤学已经成为癌症治疗不可或缺的组成部分。这一研究方向有助于确定新的治疗靶点,推动精准医学治疗的广泛应用。基于遗传标记的个体化癌症治疗可以提高治疗反应率并延长无进展生存期。然而,尽管许多靶向治疗和免疫治疗处于临床试验阶段,但为了更好地推进癌症治疗,需要更多的参与者加入。虽然基因组分析的力度在不断增加,但令人遗憾的是,仅有约8%的癌症患者有机会参与临床试验。这主要是因为医生缺乏对可接受研究的了解,同时也受制于患者的状态、态度和经济状况等多重因素。


此外,将患者的基因数据与精准肿瘤学试验的入排条件相匹配也是一个挑战。在没有复杂试验匹配系统的情况下,医生必须手动浏览数百个不断更新的临床试验,以找到适合特定患者的临床实验。即使在顶级的癌症中心,肿瘤学家也会对他们的遗传专业知识表示质疑。


因此,为了解决患者-临床试验匹配的问题,我们自主研发了精准肿瘤学临床试验预筛选平台OncoCTMiner(图1),以期帮助肿瘤患者和临床医生快速高效地筛选潜在合适的临床试验,加速精准肿瘤学临床试验的进展,为患者带来新的希望。

1461a593d562d0e48234234ae86adffc.jpeg

图1. OncoCTMiner平台整体概览


研究设计

1)通过下载并解析ClinicalTrials.gov网站注册的临床试验,将其转化为便于后续NLP处理的BioC-JSON格式(图2)。全部过程利用脚本进行自动化处理,便于定期对数据库进行更新。

222c1e33395bbcda6bb4b15a20a0dcc5.jpeg

图2. OncoCTMiner 模块


2)将全部已解析的数据导入基于OncoPubMiner系统升级开发而来的临床试验数据标注平台OncoCTMiner(TaggingModule),经由生物医学专家对其中预筛选出来的与肿瘤精准诊疗相关的临床试验进行实体标注(图3)。多重审核后,构成了标准数据集,用于后续NLP模型的训练。

377cb9c2f8a8ac1e29d2a6e6a29a0a2c.jpeg

图3. OncoCTMiner临床试验数据标注与审核平台


3)基于标准数据集进行NLP模型训练,用于识别全部临床试验中涉及的各类生物医学实体(疾病/癌症、基因、变异、药物、生物标志物、治疗方案),及其所属的入排条件(NA<未知>、NC<非入排条件>、IN<入组条件>、EX<排除条件>)。


4)基于训练的实体识别及入排条件分类模型,对余下的临床试验进行自动化挖掘。通过挖掘结果构建数量庞大的精准肿瘤学临床试验入排条件数据库OncoCTMiner-DB。同时,提供检索功能丰富且界面友好的试验搜索引擎。


5)开发多组学变异注释流程OncoCTMiner-Anno,可以对VCF、Excel或文本格式的变异数据进行自动化分析注释。结合用户提供的临床诊断信息,一键式生成临床试验匹配报告,方便患者快捷、精准地匹配潜在合适的临床试验(图4)。

0d6a417736d40fe984ce4748b6a97591.jpeg

图4. OncoCTMiner临床试验匹配策略


研究结果

1.数据库

OncoCTMiner-DB数据库当前收录临床试验472,493条(数据库持续更新中,该数据为截至发稿时的数据,下同),128,976条为肿瘤相关临床试验,其中2,256条经过生物医学专家标注和多重审核。从这些临床试验中,识别出6大类共计8,152,420个生物医学实体,以及9,326,762对“实体-入排条件-临床试验”三元组(图5)。

de954d3276d5144f8980806b5cc67171.jpeg

图5. OncoCTMiner部分数据统计


2.搜索引擎

OncoCTMiner提供了功能丰富的精准肿瘤学临床试验搜索引擎,支持通过试验ID、癌种/疾病、基因、变异、药物、生物标志物(TMB、MSI等)、治疗方案等进行快速检索,并可以通过临床试验各种元数据(分期、性别、年龄、国别等)进行过滤。更重要的是,该搜索引擎支持通过实体所属的入排标准(入组条件/排除条件)进行精准搜索,这有助于过滤掉大量假阳性搜索结果,帮助用户快速筛选到符合条件的临床试验(图6)。

727c91f34df1cc70e6dff8c26013d404.jpeg

图6. OncoPubMiner临床试验搜索引擎


3.患者-试验匹配平台

b1971f882a1f8c9d7963b6eb8032165d.jpeg

图7. 患者-试验匹配功能及匹配报告


在患者-试验匹配(临床试验预筛选)任务提交页面,用户可以上传VCF格式变异(或者注释好的变异检测结果),选择癌种类型,设定各种有助于缩小筛选范围的参数(可选)后,即可提交注释任务。系统将在合理地时间内返回匹配结果报告。如果返回结果过多,用户还可利用试验过滤功能对结果列表进行过滤,直到得到最合适的试验匹配结果(更详细信息,可阅读OncoCTMiner论文,或者访问OncoCTMiner官网)。


研究总结

在本项目中,求臻医学成功研发了一套精准肿瘤学临床试验预筛选平台——OncoCTMiner。通过综合运用人工智能技术以及人工标注与审核,我们对超过46万条临床试验数据进行了深入挖掘,构建了一套全面的精准肿瘤学临床试验入排条件数据库。


基于这一创新平台,求臻医学实现了患者招募业务的自动化匹配,能够为肿瘤患者提供快速而精准的临床试验匹配服务,推动潜在高效肿瘤治疗方法的研发,为更多癌症患者带来福音。


在具体的临床实验匹配过程中,借助OncoCTMiner自动化临床试验预筛选平台,助力药企完成患者靶点与临床试验的高效初步匹配后,求臻医学药企合作部专业团队将与患者进行深度沟通,提供个性化、专业化的临床试验服务,助力更多癌症患者从创新药物治疗中获益。


未来,OncoCTMiner将整合至求臻医学自动化报告解读系统ChosenSmartReport,同步对肿瘤患者基因检测结果进行自动化分析和临床试验匹配,为检测患者提供免费、高质量且精准的试验匹配服务,为肿瘤患者带来更便捷、全面的医疗体验。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1210112.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

caspp attacker lab

attacker lab phase2 advice phase 1 ctarget 会先调用test , test调用getbuf, getbuf调用Get。 任务目的是通过缓冲区注入攻击&#xff0c;将函数getbuf返回直接重定向到函数touch1。 0x28 是 40 比特&#xff0c; gdb ./ctarget getbuf 下一次执行的指令是401976, rsp对…

【Python】上市公司数据进行经典OLS回归实操

一、题目二、数据合并、清洗、描述性统计1、数据获取2、数据合并3、选择董监高薪酬作为解释变量的理论逻辑分析 三、多元回归模型的参数估计、结果展示与分析1、描述性统计分析2、剔除金融类上市公司3、对所有变量进行1%缩尾处理4、0-1标准化&#xff0c;所有解释变量5、绘制热…

计算机毕设 机器学习股票大数据量化分析与预测系统 - python 计算机毕设

文章目录 0 前言1 课题背景2 实现效果UI界面设计web预测界面RSRS选股界面 3 软件架构4 工具介绍Flask框架MySQL数据库LSTM 5 最后 0 前言 &#x1f525; 这两年开始毕业设计和毕业答辩的要求和难度不断提升&#xff0c;传统的毕设题目缺少创新和亮点&#xff0c;往往达不到毕业…

【数据结构】树与二叉树(十六):二叉树的基础操作:插入结点(算法Insert)

文章目录 5.2.1 二叉树二叉树性质引理5.1&#xff1a;二叉树中层数为i的结点至多有 2 i 2^i 2i个&#xff0c;其中 i ≥ 0 i \geq 0 i≥0。引理5.2&#xff1a;高度为k的二叉树中至多有 2 k 1 − 1 2^{k1}-1 2k1−1个结点&#xff0c;其中 k ≥ 0 k \geq 0 k≥0。引理5.3&…

【计算机网络笔记】CIDR与路由聚合

系列文章目录 什么是计算机网络&#xff1f; 什么是网络协议&#xff1f; 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能&#xff08;1&#xff09;——速率、带宽、延迟 计算机网络性能&#xff08;2&#xff09;…

nodejs+express重定向

前言&#xff1a; 本篇代码中需要安装的依赖包包括&#xff1a;request、express 1.常用重定向方法 nodejs中的重定向可以使用.redirect()方法&#xff0c;该方法中可以传两个参数&#xff1a;code和path&#xff0c;code指重定向时&#xff0c;当前访问的这个接口的返回码3…

20.2 设备树中的 platform 驱动编写

一、设备树下的 platform 驱动 platform 驱动框架分为总线、设备和驱动&#xff0c;总线不需要我们去管理&#xff0c;这个是 Linux 内核提供。在有了设备树的前提下&#xff0c;我们只需要实现 platform_driver 即可。 1. 修改 pinctrl-stm32.c 文件 先复习一下 pinctrl 子系…

C 语言多维数组

C 语言多维数组 在本教程中&#xff0c;您将借助示例学习使用多维数组&#xff08;二维和三维数组&#xff09;。 在C语言编程中&#xff0c;您可以创建一个数组数组。这些数组称为多维数组。例如&#xff0c; float x[3][4];这x是二维&#xff08;2d&#xff09;数组。该数…

14——1

这句话的意思是&#xff0c;如图中月份12天数23时&#xff0c;就是1223&#xff1b;当月份9天数2时&#xff0c;就是0902. 可以看到在上面给出的数组元素中&#xff0c;并没有连续挨在一起的2023数字元素——就有人可能输出答案0。 所以这里要看一下—— ——子序列的含义&…

网络运维Day16

文章目录 Docker简介什么是容器命名空间&#xff1a; Docker 的优缺点 Docker安装Docker镜像管理什么是镜像镜像管理 Docker容器管理运行容器容器启动、停止、重启拷贝文件进入容器容器与应用 DockerfileDockerfile 语法案例 总结 Docker简介 什么是容器 容器是用来装东西的&a…

诡异的bug之dlopen

序 本文给大家分享一个比较诡异的bug&#xff0c;是关于dlopen的&#xff0c;我大致罗列了我项目中使用代码方式及结构&#xff0c;更好的复现这个问题&#xff0c;也帮助大家进一步理解dlopen. 问题复现 以下是项目代码的文件结构&#xff1a; # tree . ├── file1 │ …

【大语言模型】Docker部署清华大学ChatGLM3教程

官方地址&#xff1a;https://github.com/THUDM/ChatGLM3 1 将代码保存至本地 方法1&#xff1a; git clone https://github.com/THUDM/ChatGLM3 方法2&#xff1a; https://github.com/THUDM/ChatGLM3/archive/refs/heads/main.zip 2 创建Docker文件 注&#xff1a;请先…

【分布式】CAP理论详解

一、CAP理论概述 在分布式系统中&#xff0c;CAP是指一组原则&#xff0c;它们描述了在网络分区&#xff08;Partition&#xff09;时&#xff0c;分布式系统能够提供的保证。CAP代表Consistency&#xff08;一致性&#xff09;、Availability&#xff08;可用性&#xff09;和…

CSS特效010:文字颜色渐变的流光效果

查看专栏目录 本专栏记录的是经常使用的CSS示例与技巧&#xff0c;主要包含CSS布局&#xff0c;CSS特效&#xff0c;CSS花边信息三部分内容。其中CSS布局主要是列出一些常用的CSS布局信息点&#xff0c;CSS特效主要是一些动画示例&#xff0c;CSS花边是描述了一些CSS相关的库、…

Python编程-----网络通信

一.统一资源定位器URL 专为标识Internet网上资源位置而设的一种编址方式 ,URL一般由以下几个部分组成&#xff1a; 传输协议://主机IP地址(或域名地址)[:端口号]/资源所在路径和文件名 •传输协议是指访问该资源所使用的访问协议&#xff1b; •主机IP地址&#xff08;或域名…

C/C++轻量级并发TCP服务器框架Zinx-框架开发002: 定义通道抽象类

文章目录 2 类图设计3 时序图数据输入处理&#xff1a;输出数据处理总流程 4 主要实现的功能4.1 kernel类&#xff1a;基于epoll调度所有通道4.2 通道抽象类&#xff1a;4.3 标准输入通道子类4.4 标准输出通道子类4.5 kernel和通道类的调用 5 代码设计5.1 框架头文件5.2 框架实…

MATLAB中Filter Designer的使用以及XILINX Coefficient(.coe)File的导出

文章目录 Filter Designer的打开滤波器参数设置生成matlab代码生成XILINX Coefficient(.COE) File实际浮点数的导出官方使用教程 Filter Designer的打开 打开Filter Designer&#xff1a; 方法一&#xff1a;命令行中输入Filter Designer&#xff0c;再回车打开。 方法二&…

夸克发布自研大模型 加速下一代搜索体验创新

国产大模型阵营再添新锐选手。11月14日&#xff0c;阿里巴巴智能信息事业群发布全栈自研、千亿级参数的夸克大模型&#xff0c;将应用于通用搜索、医疗健康、教育学习、职场办公等众多场景。夸克App将借助自研大模型全面升级&#xff0c;加速迈向年轻人工作、学习、生活的AI助手…

ORACLE数据库实验总集 实验一 Oracle数据库安装与配置

一、实验目的 &#xff08;1&#xff09;掌握 Oracle数据库服务器的安装与配置 &#xff08;2&#xff09;了解如何检查安装后的数据库服务器产品&#xff0c;验证安装是否成功。 &#xff08;3&#xff09;掌握 Oracle数据库服务器安装过程中出现的问题的解决方法。 二、实验…

2023亚太杯数学建模思路 - 复盘:人力资源安排的最优化模型

文章目录 0 赛题思路1 描述2 问题概括3 建模过程3.1 边界说明3.2 符号约定3.3 分析3.4 模型建立3.5 模型求解 4 模型评价与推广5 实现代码 建模资料 0 赛题思路 &#xff08;赛题出来以后第一时间在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 1 描述 …