用于胰腺癌自动化综述报告和可切除性分类的大型语言模型| 文献速递-基于深度学习的乳房、前列腺疾病诊断系统

news2025/1/23 10:23:43

Title

题目

Large Language Models for Automated Synoptic Reports and Resectability Categorization in Pancreatic Cancer

用于胰腺癌自动化综述报告和可切除性分类的大型语言模型

Background

背景

Structured radiology reports for pancreatic ductal adenocarcinoma (PDAC) improve surgical decision-making over free-text reports, but radiologist adoption is variable. Resectability criteria are applied inconsistently.

胰腺导管腺癌(PDAC)的结构化放射学报告比自由文本报告更能改善外科决策,但放射科医生的接受程度各不相同。可切除性标准的应用不一致。

Method

方法

In this institutional review board–approved retrospective study, 180 consecutive PDAC staging CT reports on patients referred to the authors’ European Society for Medical Oncology–designated cancer center from January to December 2018 were included. Reports were reviewed by two radiologists to establish the reference standard for 14 key findings and National Comprehensive Cancer Network (NCCN) resectability category. GPT-3.5 and GPT-4 (accessed September 18–29, 2023) were prompted to create synoptic reports from original reports with the same 14 features, and their performance was evaluated (recall, precision, F1 score). To categorize resectability, three prompting strategies (default knowledge, in-context knowledge, chain-of-thought) were used for both LLMs. Hepatopancreaticobiliary surgeons reviewed original and artificial intelligence (AI)–generated reports to determine resectability, with accuracy and review time compared. The McNemar test, t test, Wilcoxon signed-rank test, and mixed effects logistic regression models were used where appropriate.

在本机构审查委员会批准的回顾性研究中,纳入了2018年1月至12月期间在作者所在的欧洲肿瘤学会指定的癌症中心接受检查的180份连续胰腺导管腺癌(PDAC)分期CT报告。两位放射科医生审查了报告,以建立14个关键发现和国家综合癌症网络(NCCN)可切除性类别的参考标准。GPT-3.5和GPT-4(访问日期为2023年9月18日至29日)被提示从原始报告中创建包含相同14个特征的综合报告,并评估其表现(召回率、精确度、F1分数)。为了对可切除性进行分类,对两种大型语言模型使用了三种提示策略(默认知识、上下文知识、链式思维)。肝胰胆外科医生审查了原始报告和人工智能(AI)生成的报告,以确定可切除性,并比较了准确性和审查时间。根据适用情况,使用了McNemar检验、t检验、Wilcoxon符号秩检验和混合效应逻辑回归模型。

Conclusion

结论

GPT-4 created near-perfect PDAC synoptic reports from original reports. GPT-4 with chain-of-thought achieved high accuracy in categorizing resectability. Surgeons were more accurate and efficient using AI-generated reports.

PT-4从原始报告中创建了近乎完美的胰腺导管腺癌(PDAC)综合报告。使用链式思维提示策略的GPT-4在可切除性分类中达到了高准确性。外科医生使用AI生成的报告更准确且更高效。

Results

结果

GPT-4 outperformed GPT-3.5 in the creation of synoptic reports (F1 score: 0.997 vs 0.967, respectively). Compared with GPT-3.5, GPT-4 achieved equal or higher F1 scores for all 14 extracted features. GPT-4 had higher precision than GPT-3.5 for extracting superior mesenteric artery involvement (100% vs 88.8%, respectively). For categorizing resectability, GPT-4 outperformed GPT-3.5 for each prompting strategy. For GPT-4, chain-of-thought prompting was most accurate, outperforming in-context knowledge prompting (92% vs 83%, respectively; P = .002), which outperformed the default knowledge strategy (83% vs 67%, P* < .001). Surgeons were more accurate in categorizing resectability using AI-generated reports than original reports (83% vs 76%, respectively; P = .03), while spending less time on each report (58%; 95% CI: 0.53, 0.62).

GPT-4在创建综合报告方面表现优于GPT-3.5(F1分数分别为0.997对0.967)。与GPT-3.5相比,GPT-4在提取的所有14个特征上都获得了相同或更高的F1分数。特别是在提取肠系膜上动脉受累情况时,GPT-4的精确度高于GPT-3.5(分别为100%对88.8%)。在可切除性分类中,GPT-4在每种提示策略上都优于GPT-3.5。对于GPT-4,链式思维提示策略最为准确,优于上下文知识提示策略(分别为92%对83%;P = .002),而上下文知识提示策略又优于默认知识策略(分别为83%对67%;P < .001)。外科医生使用AI生成的报告在可切除性分类上的准确性高于使用原始报告(分别为83%对76%;P = .03),同时每份报告的审阅时间减少了(58%;95% CI: 0.53, 0.62)。

Figure

图片

Figure 1: Study flowchart. The resectability category reference standard was determined by independent review of original radiology reports by radiologists using National Comprehensive Cancer Network criteria. PDAC = pancreatic ductal adenocarcinoma.

图1: 研究流程图。可切除性类别的参考标准由放射科医生独立审查原始放射学报告并使用国家综合癌症网络(NCCN)标准确定。PDAC = 胰腺导管腺癌。

图片

Figure 2: Diagram shows prompting strategy for models tasked with extracting key findings to create synoptic pancreatic cancer staging reports from original reports. The provided template included key features related to the pancreatic mass, vascular involvement, and tumor spread. Two example reports with expected responses were included (few-shot learning). Identical prompts were used for both GPT-3.5 and GPT-4. Generated synoptic reports were later used to prompt a different set of models for categorizing tumor resectability. GDA = gastroduodenal artery, IVC = inferior vena cava.

图2: 图示显示了模型提取关键发现并从原始报告创建胰腺癌分期综合报告的提示策略。提供的模板包括与胰腺肿块、血管受累和肿瘤扩散相关的关键特征。包含了两个示例报告及预期响应(少样本学习)。GPT-3.5和GPT-4使用相同的提示。生成的综合报告随后用于提示另一组模型进行肿瘤可切除性分类。GDA = 胃十二指肠动脉,IVC = 下腔静脉。

图片

Figure 3: Diagram shows three prompting strategies for models tasked with categorizing tumor resectability. All three strategies were used for GPT-3.5 and GPT-4. The first strategy (“default knowledge”) relies on model pretraining by asking the model to categorize the tumor into resectable, borderline resectable, locally advanced, or metastatic based on National Comprehensive Cancer Network (NCCN) criteria. The second strategy (“in-context knowledge”) provides the model with explicit definitions of each resectability category. The final strategy (“chain-of-thought”) breaks down NCCN criteria on a per-feature basis and then provides a more stepwise approach to arriving at the final categorization that involves categorizing each vessel or feature and then assigning the highest category to the entire tumor.

图3: 图示显示了用于模型肿瘤可切除性分类的三种提示策略。所有三种策略均用于GPT-3.5和GPT-4。第一种策略(“默认知识”)依赖于模型的预训练,通过要求模型根据国家综合癌症网络(NCCN)标准将肿瘤分类为可切除、边缘可切除、局部晚期或转移性。第二种策略(“上下文知识”)为模型提供每个可切除性类别的明确定义。最后一种策略(“链式思维”)按每个特征分解NCCN标准,然后采用更逐步的方法,通过对每个血管或特征进行分类,再将最高类别分配给整个肿瘤来得出最终分类。

图片

Figure 4: Two example cases of pancreatic cancer, with truncated original reports, artificial intelligence–generated synoptic reports, and National Comprehensive Cancer Network (NCCN) resectability categorizations by GPT-4 using chain-of-thought (CoT) prompting. In the first example (top row), after creating an accurate synoptic report, GPT-4 with chain-of-thought prompting correctly categorized the tumor as resectable. In the second example (bottom row), the original report describes extensive vascular involvement including encasement of the celiac artery. Vascular involvement was correctly reflected in the synoptic report, and GPT-4 with chain-of-thought prompting correctly categorized the tumor as unresectable (locally advanced). Original and synoptic reports are shown in truncated form.artery involvement (100% vs 94%), common hepatic artery involvement (98.3% vs 95.2%), other arterial involvement (100% vs 97.2%), and major vein involvement (100% vs 97.5%). Forthe other five categories, both models achieved 100% precision (tumor size, pancreatic duct dilatation, aortic involvement, variant arterial anatomy, and other vein involvement).

图4: 胰腺癌的两个示例病例,包含截断的原始报告、人工智能生成的综合报告以及GPT-4使用链式思维(CoT)提示进行的国家综合癌症网络(NCCN)可切除性分类。在第一个示例(第一行)中,GPT-4在创建准确的综合报告后,使用链式思维提示正确地将肿瘤分类为可切除。在第二个示例(第二行)中,原始报告描述了包括腹腔动脉包绕在内的广泛血管受累。血管受累情况在综合报告中得到了正确反映,GPT-4使用链式思维提示正确地将肿瘤分类为不可切除(局部晚期)。原始报告和综合报告均以截断形式显示。

图片

Figure 5: Bar graphs show accuracy of models categorizing tumor resectability using National Comprehensive Cancer Network criteria. GPT-4 performed better than GPT-3.5 overall for each prompting strategy. Both GPT-3.5 and GPT-4 “default knowledge” models performed poorly overall, but “in-context knowledge” improved performance significantly. Chain-of-thought increased performance further. GPT-4 chainof-thought performed best in categorizing tumors (accuracy, 92%).

图5: 条形图显示了模型使用国家综合癌症网络(NCCN)标准对肿瘤可切除性进行分类的准确性。GPT-4在每种提示策略上的整体表现优于GPT-3.5。两种模型的“默认知识”策略整体表现较差,但“上下文知识”显著提高了性能。链式思维进一步提高了性能。GPT-4的链式思维提示在肿瘤分类中表现最佳(准确性为92%)。

Table

图片

Table 1: Key Features Extracted and Definition of a Positive Extractable Finding for Each Feature

表1:提取的关键特征及每个特征的阳性可提取发现的定义

图片

Table 2: Performance of Models Generating Pancreatic Cancer Synoptic Reports from Original Reports Overall and for Each of the 14 Features Evaluated

表2:模型从原始报告生成胰腺癌综合报告的整体表现及每个14个特征的评估

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1989004.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

condition字符串匹配问题

概述 freeswitch是一款简单好用的VOIP开源软交换平台。 fs使用dialplan配置文件执行业务流程&#xff0c;condition条件变量的配置是必然会使用的&#xff0c;这里记录一次配置过程中的错误示范。 环境 CentOS 7.9 freeswitch 1.10.7 问题描述 dialplan配置如下&#xf…

如何做到项目真实性优化?保姆级写简历指南第五弹!

大家好&#xff0c;我是程序员鱼皮。做知识分享这些年来&#xff0c;我看过太多简历、也帮忙修改过很多的简历&#xff0c;发现很多同学是完全不会写简历的、会犯很多常见的问题&#xff0c;不能把自己的优势充分展示出来&#xff0c;导致措施了很多面试机会&#xff0c;实在是…

pdf拆分需要怎么做?6个软件帮助你快速拆分pdf文件

pdf拆分需要怎么做&#xff1f;6个软件帮助你快速拆分pdf文件 拆分PDF文件可以让你更方便地处理和管理文档内容&#xff0c;无论是提取特定页面还是将文件分成更小的部分。以下是六款帮助你快速拆分PDF文件的软件&#xff0c;每款软件都有其独特的功能和优势&#xff0c;供你选…

4章4节:临床数据科学中如何用R来进行缺失值的处理

在临床科研中,由于失访、无应答或记录不清等各种原因,经常会遇到数据缺失的问题。本文将深入探讨医学科研中数据缺失的成因、分类、影响以及应对方法,结合R语言的实际应用,为医学研究人员提供全面的解决方案。 一、认识缺失数据 其实,很多医学的纵向研究因获取数据资料时…

铜山金杏·打响区域公用品牌,助力乡村振兴新征程

为进一步提升徐州市铜山区农业产业发展的重要战略布局&#xff0c;从而更好地助力乡村振兴&#xff0c;徐州市铜山区农业农村局借助“铜山金杏地理标志农产品保护工程项目”联合山东百仕达地标产业有限公司打造铜山农特产品区域公用品牌——“铜山金杏”&#xff0c;充分挖掘铜…

大搜罗2024年数据恢复软件TOP3,互联网人士的年度推荐!

不管是咱们普通人&#xff0c;还是大大小小的公司&#xff0c;都怕数据一去不复返。好在科技给力&#xff0c;现在数据恢复软件越来越牛&#xff0c;帮我们解决了这块心病。今儿个&#xff0c;就给大家聊聊几款2024年超火的数据恢复软件&#xff0c;如转转大师数据恢复软件等&a…

防盗、防泄露、防篡改,我们把 ZooKeeper 的这种认证模式玩明白了

作者&#xff1a;子葵 你的 ZooKeeper 安全吗&#xff1f; 在当下网络安全事件频发的背景下&#xff0c;安全防护的构建成为日常开发与运维工作中的重中之重。ZooKeeper 存储着系统敏感实例信息与配置数据&#xff0c;但传统的使用方式并未为 ZooKeeper 配备强制身份验证机制…

Ubuntu查看IP地址

Ubuntu查看IP地址 文章目录 Ubuntu查看IP地址查看IP地址的命令遇到的问题解决方案 查看IP地址的命令 1.使用ifconfig 2.使用hostname -I&#xff08;-之前一个空格&#xff09; 3.使用ip addr show 遇到的问题 1.使用ifconfig只显示一个127.0.0.1地址 2.使用hostname -I …

成功解决LabVIEW中加载 lvanlys.dll动态链接库(DLL)初始化例程失败

‍‍&#x1f3e1;博客主页&#xff1a; virobotics(仪酷智能)&#xff1a;LabVIEW深度学习、人工智能博主 &#x1f384;所属专栏&#xff1a;『奇怪问题及Bug解决』 &#x1f4d1;精选文章&#xff1a;LabVIEW人工智能深度学习指南 &#x1f37b;本文由virobotics(仪酷智能)原…

事务和索引(面试常问)

面试常问&#xff1a; 一、数据库隔离级别&#xff1f;事务隔离级别解决的问题&#xff1f; 答&#xff1a;1.数据库隔离级别&#xff1a; READ_UNCOMMITTED 读未提交 READ_COMMITTED 读提交&#xff08;不可重复读&#xff09; REPEATABLE_READ 可重复读 SERIALIZABLE 串行化…

Spring学习(三)-Bean的作用域和生命周期

Spring学习&#xff08;三&#xff09;-Bean的作用域和生命周期 –2020年06月25日 一、bean的作用域 概念&#xff1a; Spring 2.5之前的Bean 的作用域只有两种 Springleton&#xff1a;单例Bean Prototype &#xff1a; 原型Bean Spring 2.5 之后Bean的作用域有一下五种 …

C语言 Unix 时间戳 和 时间日期相互转换

Unix 时间戳&#xff08;也称为 POSIX 时间戳&#xff09;是一个表示从 1970 年 1 月 1 日 UTC 时刻开始所经过的秒数的数值。这个时间戳是与时间区域无关的&#xff0c;也就是说它在全球任何地方都表示同一个时刻。 如果你要将 Unix 时间戳转换为某个特定时区的时间&#xff…

封闭式蓝牙耳机推荐?4款更实用的开放式耳机推荐

封闭式耳机我想应该是头戴式耳机中的一种耳机类型吧&#xff0c;而开放式耳机则是一种范围比较大的耳机类型&#xff0c;这两种耳机类型确实有比较大的区别&#xff1a; 声音泄漏与隔音效果&#xff1a; 开放式耳机&#xff1a;由于其设计允许空气流通&#xff0c;因此声音会…

调用DXGI截图初始化失败,提示0xf 887a0004

&#x1f3c6;本文收录于《CSDN问答解惑-专业版》专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收…

09.FreeRTOS时间片调度与任务相关函数

文章目录 09. FreeRTOS时间片调度与任务相关函数1. FreeRTOS时间片调度2. 任务状态查询API函数3. 任务时间统计API函数 09. FreeRTOS时间片调度与任务相关函数 1. FreeRTOS时间片调度 时间片调度简介&#xff1a; 时间片调度实验流程&#xff1a; 核心代码&#xff1a; 开…

盲盒卡牌风靡市场,抽卡机小程序成为新的机遇

如今&#xff0c;在商场中都可以看到卡牌的身影&#xff0c;拆卡成为了当下年轻人休闲娱乐的新宠&#xff0c;卡牌市场逐渐升温。抽卡机小程序作为一个能够快速拆卡的新模式&#xff0c;已经逐渐成为了用户拆卡的重要渠道&#xff0c;也为卡牌市场的发展提供了重要方式。本文将…

数字化转型如何通过数据改变企业的运营流程?

不仅仅是技术层面的革新&#xff0c;更是企业运营理念、组织架构、文化氛围及市场策略的全面升级。数字化转型通过深度融合云计算、大数据、人工智能、物联网等前沿技术&#xff0c;优化企业运营流程&#xff0c;提升效率&#xff0c;增强竞争力&#xff0c;从而在快速变化的市…

RTOS(8)信号量和互斥量

1.信号量 信号量分为二值信号量和计数信号量 与队列相比&#xff1a;他不能传输数据&#xff0c;但同时他不需要传输数据&#xff0c;占用的空间也更小&#xff0c;运行更快&#xff1b; 2.互斥量 与二值信号量类似&#xff0c;是特殊的信号量&#xff0c;本身是想实现谁上锁…

【Harmony Next】在鸿蒙项目中一键添加卡片

【Harmony Next】在鸿蒙项目中一键添加卡片 1.下载鸿蒙编译器DevEco Studio的插件DevEco CodeGenie【下载链接】 在华为的编译器现在官网下面可以下载DevEco CodeGenie的压缩包&#xff0c;安装后可以使用DevEco CodeGenie进行智能问答、生成卡片、知识查询等操作 2.安装DevE…

MapStruct实体映射工具

一丶MapStruct是什么 MapStruct 是一个代码生成器,它基于配置方法的约定,极大地简化了 Java Bean 类型之间映射的实现,生成的映射代码使用普通方法调用,因此快速、类型安全且易于理解。 官方网站 MapStruct – Java bean mappings, the easy way! 二丶为什么需要MapStru…