利用大型语言模型协作提升甲状腺结节超声诊断的一致性和准确性| 文献速递-基于深度学习的癌症风险预测与疾病预后应用

news2024/9/21 2:48:36

Title

题目

Collaborative Enhancement of Consistency and  Accuracy in US Diagnosis of Thyroid Nodules Using  Large Language Models

利用大型语言模型协作提升甲状腺结节超声诊断的一致性和准确性

Background

背景

Large language models (LLMs) hold substantial promise for medical imaging interpretation. However, there is a lack of studies on their feasibility in handling reasoning questions associated with medical diagnosis.

大型语言模型(LLMs)在医学影像解读中具有巨大的潜力。然而,关于其在处理与医学诊断相关的推理问题方面的可行性研究尚不足够。

Method

方法

US images of thyroid nodules with pathologic results were retrospectively collected from a tertiary referral hospital between July 2022 and December 2022 and used to evaluate malignancy diagnoses generated by three LLMs—OpenAI’s ChatGPT 3.5, ChatGPT 4.0, and Google’s Bard. Inter- and intra-LLM agreement of diagnosis were evaluated. Then, diagnostic performance, including accuracy, sensitivity, specificity, and area under the receiver operating characteristic curve (AUC), was evaluated and compared for the LLMs and three interactive approaches: human reader combined with LLMs, image-to-text model combined with LLMs, and an end-to-end convolutional neural network model.

2022年7月至2022年12月期间,从一家三级转诊医院回顾性收集了具有病理结果的甲状腺结节超声图像,并用于评估由三个大型语言模型(LLMs)生成的恶性肿瘤诊断——OpenAI的ChatGPT 3.5、ChatGPT 4.0和Google的Bard。评估了诊断的一致性,包括模型之间和模型内部的一致性。随后对LLMs的诊断性能进行了评估和比较,包括准确性、敏感性、特异性和受试者工作特征曲线下面积(AUC),并比较了三种互动方法:人类读片者与LLMs结合,图像到文本模型与LLMs结合,以及端到端卷积神经网络模型。

Conclusion

结论

LLMs, particularly integrated with image-to-text approaches, show potential in enhancing diagnostic medical imaging. ChatGPT 4.0 was optimal for consistency and diagnostic accuracy when compared with Bard and ChatGPT 3.5.

大型语言模型(LLMs),特别是与图像到文本的方法相结合时,在提升医学影像诊断方面显示出潜力。与Bard和ChatGPT 3.5相比,ChatGPT 4.0在一致性和诊断准确性方面表现最佳。

Results

结果

A total of 1161 US images of thyroid nodules (498 benign, 663 malignant) from 725 patients (mean age, 42.2 years ± 14.1 [SD]; 516 women) were evaluated. ChatGPT 4.0 and Bard displayed substantial to almost perfect intra-LLM agreement (κ range, 0.65–0.86 [95% CI: 0.64, 0.86]), while ChatGPT 3.5 showed fair to substantial agreement (κ range, 0.36–0.68 [95% CI: 0.36, 0.68]). ChatGPT 4.0 had an accuracy of 78%–86% (95% CI: 76%, 88%) and sensitivity of 86%–95% (95% CI: 83%, 96%), compared with 74%–86% (95% CI: 71%, 88%) and 74%–91% (95% CI: 71%, 93%), respectively, for Bard. Moreover, with ChatGPT 4.0, the image-to-text–LLM strategy exhibited an AUC (0.83 [95% CI: 0.80, 0.85]) and accuracy (84% [95% CI: 82%, 86%]) comparable to those of the human-LLM interaction strategy with two senior readers and one junior reader and exceeding those of the human-LLM interaction strategy with one junior reader.

对725名患者(平均年龄42.2岁,标准差±14.1;其中516名女性)的1161张甲状腺结节超声图像(498个良性,663个恶性)进行了评估。ChatGPT 4.0和Bard在模型内部显示出高度至几乎完美的一致性(κ范围为0.65–0.86 [95% CI: 0.64, 0.86]),而ChatGPT 3.5显示出中等至高度一致性(κ范围为0.36–0.68 [95% CI: 0.36, 0.68])。ChatGPT 4.0的准确率为78%–86%(95% CI: 76%, 88%),敏感性为86%–95%(95% CI: 83%, 96%),而Bard的准确率和敏感性分别为74%–86%(95% CI: 71%, 88%)和74%–91%(95% CI: 71%, 93%)。此外,使用ChatGPT 4.0时,图像到文本与LLM结合的策略表现出与两名高级读片者和一名初级读片者的人机交互策略相当的AUC(0.83 [95% CI: 0.80, 0.85])和准确性(84% [95% CI: 82%, 86%]),并且超过了仅有一名初级读片者的人机交互策略的表现。

Figure

图片

Figure 1: Diagram of study profile. The top box depicts three distinct model deployment strategies: human–large language model (LLM) interaction, in which a human reader initially interprets the image and the LLM generates a diagnosis; image-to-text–LLM, which employs an image-to-text model followed by LLM diagnosis; and convolutional neural network (CNN), which uses an end-to-end CNN model for image analysis and diagnosis. The middle box illustrates the analysis of LLM agreement and diagnostic performance using American College of Radiology Thyroid Imaging Reporting and Data System criteria. The bottom box illustrates the comparison of the three strategies in distinguishing between benign and malignant thyroid nodules.

图1:研究概况示意图。顶部框显示了三种不同的模型部署策略:人类与大型语言模型(LLM)的互动,其中人类读片者首先解读图像,然后由LLM生成诊断结果;图像到文本与LLM结合的策略,先使用图像到文本模型,然后由LLM进行诊断;以及卷积神经网络(CNN)策略,使用端到端的CNN模型进行图像分析和诊断。中间框展示了使用美国放射学会甲状腺影像报告和数据系统标准分析LLM的一致性和诊断性能。底部框则展示了三种策略在区分良性和恶性甲状腺结节中的比较。

图片

Figure 2: Flowchart of inclusion and exclusion criteria for patients and US im ages. FNA = fine-needle aspiration.

图2:患者和超声图像的纳入和排除标准流程图。FNA = 细针穿刺。

图片

Figure 3: Screenshots show the input prompts used and responses generated by ChatGPT 3.5 (OpenAI; https://chat.openai.com/) based on a single thyroid nodule. This response was recorded as a diagnosis of malignant.

图3:截图显示了基于单个甲状腺结节使用ChatGPT 3.5(OpenAI;https://chat.openai.com/)的输入提示和生成的响应。此响应被记录为恶性诊断。

图片

Figure 4: Screenshots show the input prompts used and responses generated by ChatGPT 4.0 (OpenAI; https://chat.openai.com/) based on a single thyroid nodule. This response was recorded as a diagnosis of malignant.

图4:截图显示了基于单个甲状腺结节使用ChatGPT 4.0(OpenAI;https://chat.openai.com/)的输入提示和生成的响应。此响应被记录为恶性诊断。

图片

Figure 5: Screenshots show the input prompts used and responses generated by Bard (Google; https://bard.google.com/) based on a single thyroid nodule. This response was recorded as a diagnosis of malignant.

图5:截图显示了基于单个甲状腺结节使用Bard(Google;https://bard.google.com/)的输入提示和生成的响应。此响应被记录为恶性诊断。

Table

图片

Table 1: Demographic and Clinical Characteristics of  Patients

表1:患者的人口统计和临床特征

图片

Table 2: Intra-LLM and Inter-LLM Agreement in Predicting Benign versus Malignant Thyroid Nodules

表2:大型语言模型(LLM)内部及不同LLM之间在预测良性与恶性甲状腺结节方面的一致性分析

图片

Table 3: Performance of Google Bard and ChatGPT 4.0 in Predicting Benign versus Malignant Thyroid Nodules

表3:Google Bard 和 ChatGPT 4.0 在预测良性与恶性甲状腺结节中的表现

图片

Table 4: Performance of Image-to-Text–LLM, Human-LLM Interaction, and CNN Strategies in Predicting Benign versus Malignant Thyroid Nodules

表4:图像到文本-LLM、人类-LLM交互和CNN策略在预测良性与恶性甲状腺结节中的表现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2075339.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

git仓库删除某个历史提交

目录 问题情况1情况2 问题 如果我们在开发过程中,存在一些验证性的提交或者失误性的提交,那么这些提交我们不想要了,怎么办? 情况1 如果是想要删除某个commitid之后的所有提交 那么git reset 可以满足你 git reset --hard 你要…

2001-2023年上市公司数字化转型年报词频统计(吴非、赵宸宇、甄红线等300+个关键词)

2001-2023年上市公司数字化转型年报词频统计(吴非、赵宸宇、甄红线) 1、时间:2001-2023年 2、来源:上市公司年报 3、参考文献:企业数字化转型与资本市场表现——来自股票流动性的经验证据(吴非&#xff…

电脑浏览器打不开部分网页

电脑浏览器打不开部分网页 时间: 2024-08-25 问题描述: 电脑突然打不开部分网页 例如腾讯文档 夸克网盘 但其他网页能够正常打开 原因 可能为域名解析问题 更改DNS即可解决 解决办法 控制面板–> 网络和Internet—>网络连接—> WLAN----> 属性 —> Interne…

spring security怎么生成JWT返回前端,以及怎么自定义JWT认证过滤器

怎么生成JWT返回前端 1.先写一个类,里面含有jwt的生成解析验证过期时间的方法 package com.lzy.util;import io.jsonwebtoken.*; import lombok.Data; import org.springframework.boot.context.properties.ConfigurationProperties; import org.springframework.stereotype.…

7-6 分段函数2

计算分段函数&#xff0c;测试数据分别是-1、5、12。 输入格式: 输入一个数。 输出格式: 直接输出保留6位小数的结果&#xff0c;没有其它任何附加字符&#xff0c;没有宽度控制。 输入样例: 11输出样例: 0.999912输入样例: 7输出样例: 8.000000 #include <stdio.h…

单片机裸机程序——程序架构

目 录 程序架构等同于思想体系一、前后台顺序法二、时间片轮询法 程序架构等同于思想体系 建一栋楼房&#xff0c;地基要先设计好&#xff0c;而不是马上砌砖&#xff0c;地基和布局都合理&#xff0c;房子就住得舒服&#xff0c;也不会闹心。 写一段程序也一样&#xff0c;程…

c++,python实现网络爬虫

前言&#xff1a; 社交网络中用户生成的海量数据&#xff0c;社交网络数据的多样性和复杂性 如何高效地从海量的数据中获取和处理我们需要的信息资源&#xff1f; 该微博爬虫能够从社交网络平台中地提取文本、图片和用户之间的转发关系&#xff0c;并将这些数据结构化存储到…

Python的Windows GUI自动化之Pywinauto(四)

引言&#xff1a; 我们上章节中打开了一个应用程序后&#xff0c;并打印了所有的控件信息&#xff0c;这些对于工具无法定位到的控件有很好的协助作用&#xff08;当然这个可以作为主要的查找控件的用法&#xff0c;也可以辅助使用&#xff0c;我一般是把这个作为辅助使用&…

【C++】初识C++模板与STL

C语法相关知识点可以通过点击以下链接进行学习一起加油&#xff01;命名空间缺省参数与函数重载C相关特性类和对象-上篇类和对象-中篇类和对象-下篇日期类C/C内存管理 本章将简单分享C模板与STL相关知识&#xff0c;与之相关更多知识将留到下次更详细地来分享给大家 &#x1f3…

MySQL与ES数据实时同步,双写一致

一、简介 在项目的开发与运维过程中&#xff0c;MySQL 是业务数据库的核心角色&#xff0c;以其强大的事务处理能力和数据完整性保障&#xff0c;支撑着系统的稳定运行。随着数据量的急剧增长和查询复杂度的不断提升&#xff0c;单一依赖 MySQL 进行高效的数据检索显得日益吃力…

centos安装软件

1.centos 安装 unrar 提示找不到 使用EPEL仓库&#xff1a; 首先&#xff0c;你需要安装EPEL仓库&#xff1a; yum install epel-release 然后&#xff0c;尝试再次安装unrar&#xff1a; yum install unrar 编译安装&#xff1a; 下载源代码&#xff1a;wget http://www.rarla…

对耳朵伤害最小的耳机类型是哪种?五款口碑绝佳机型安利!

​目前来说&#xff0c;开放式耳机应该算是对耳朵伤害最小的耳机了。当今耳机市场上&#xff0c;开放式耳机以其舒适的佩戴和创新的非入耳设计赢得了众多消费者的喜爱。这种耳机让你在聆听音乐的同时&#xff0c;还能清晰地感知周围环境的声音&#xff0c;便于与人交流&#xf…

clickhouse 原理详解

1、MPP数据库简介 1.1、什么是OLTP与OLAP&#xff1f; 1.1.1、OLTP(OnLine Transaction Processing ) 联机事务处理 系统&#xff0c;例如mysql。擅长事务处理&#xff0c;在数据操作中保持着很强的一致性和原子性 &#xff0c;能够很好的支持频繁的数据插入和修改 &#x…

Java使用Tesseract进行OCR图片文字识别

前言 在当前的文字识别技术应用中&#xff0c;除了采用现有的API服务之外&#xff0c;常见的解决方案包括利用Tessdata、Canvas或OCRAD等工具。以下是对几种技术的简要分析&#xff1a; 百度API的使用体验表明&#xff0c;虽然其识别率令人满意&#xff0c;但并非完美无误。此…

一个月狂撸5.8W,利用AI制作宝宝走秀视频,让宝宝“出海”捞美刀

今天给大家分享的项目是**AI宝宝走秀视频玩法&#xff0c;**在项目拆解之前&#xff0c;先看一下这个账号。这个账号是在Tiktok上的&#xff0c;也就是海外版的抖音。 基本上都是几千万的播放&#xff0c;按照海外版抖音的激励计划&#xff0c;每播放一万次&#xff0c;就能赚8…

紧跟大模型技术趋势,为更大更通用的大模型提供底层支撑!关于智能计算系统:从深度学习到大模型,全新版本,发布!

文章目录 &#x1f4cb;前言&#x1f3af; 关于智能计算系统&#x1f3af; 内容简介&#x1f3af; 作者简介&#x1f3af; 专家推荐&#x1f3af; 目录大纲&#x1f525; 参与方式 &#x1f4cb;前言 “只要你想把大模型做得更好、做得更大、做得更快、做得更省电&#xff0c;…

翻译软件 Fastrans 开发日志 #01

目录 预览前言功能技术待办 预览 Github 仓库链接&#xff1a;https://github.com/YaoqxCN/Fastrans Gitee 仓库链接&#xff1a;https://gitee.com/yaoqx/Fastrans 求求给我点个 star 叭 qaq 现在才是 v1.0.0&#xff0c;给我个 star 鼓励我继续开发下去&#xff01; 我相信…

AI如何帮助普通人实现自我成长和副业变现

前言 最近有没有发现身边的一切都变得越来越"智能"了&#xff1f;连家里的空调都学会了自己调整温度&#xff0c;害得我每天起床都觉得它比我聪明。这不禁让我想到&#xff0c;既然连空调都在进化&#xff0c;我们这些普通人是不是也该搭上AI的快车&#xff0c;来个华…

找出所有子集异或和的和 全排列2

1863.找出所有子集异或和的和 解释&#xff1a;做本题没思路的话&#xff0c;强烈建议看本专栏上一篇博文 class Solution { public:int sum 0;int path 0;int subsetXORSum(vector<int>& nums) {dfs(nums, 0);return sum;}void dfs(vector<int>& nums,…

大模型分布式训练技术(DP、DDP和FSDP)

目录 数据并行&#xff08;PyTorch DP&#xff09; 分布式数据并行&#xff08;PyTorch DDP&#xff09; DP 与 DDP 的区别 补充说明&#xff1a;DP与DDP数据传输过程 完全分片数据并行(PyTorch FSDP) 补充说明&#xff1a;ZeRO FSDP DDP 与 FSDP 的区别 DP、DDP和FSD…