文献速递:非专业任务医生在审查X光片时受益于正确的可解释人工智能建议

news2024/11/14 2:11:48

非专业任务医生在审查X光片时受益于正确的可解释人工智能建议

01****文献速递介绍

本文主要探讨了人工智能(AI)在放射学中的应用,特别是在胸部X光片的诊断中AI临床决策支持系统(AI-CDSS)的作用。研究发现,尽管AI模型在放射学任务中表现出色,但关于这些产品在实际临床环境中的影响(如医生的诊断性能和患者结果)的研究却很少。研究还指出,用户如何解释和应用AI生成的建议的研究也有限。

为了深入研究,本研究探讨了使AI模型的内部工作和决策标准更透明的方法,比如通过在X光片上提供视觉注释,这可能有助于减轻过度依赖并鼓励适当的信任。此外,研究还比较了在使用AI支持和不使用AI支持的情况下检查图像时的诊断性能。

研究结果表明,对于非专业的IM/EM医生,提供带注释的建议可以提高他们的诊断准确率,而专业的放射科医生则表现得更好。研究还发现,接受AI建议的医生在诊断准确性上表现更好。然而,对于建议的质量评价,无论是AI生成的建议还是来自同事的建议,其影响都不显著。

此外,该研究还探讨了建议的解释性(带注释与不带注释)和建议的来源(AI与人类)对医生信心的影响。结果显示,接收到AI建议的放射科医生在最终诊断上的信心更高,尽管这种信心并没有在诊断准确性上表现出显著差异。

最后,研究指出,AI-CDSS在放射学领域及更广泛的应用中具有潜力,尤其是对于非放射科专家在审查医学图像和做出及时临床决策时,AI-CDSS的应用可能对改善工作流程、临床结果和患者安全具有重要意义。

Title

题目

CheckList for EvaluAtion of Radiomics*

research (CLEAR): a step-by-step reporting

guideline for authors and reviewers endorsed

by ESR and EuSoMII

审阅X光片时,非任务专家的医生从准确可解释的人工智能建议中获益。

Results Analysis.

结果 分析

We calculated three mixed-efects regression models, one for each dependent variable:

(1) diagnostic accuracy, (2) advice quality ratings, and (3) confdence in the diagnosis. Te equations corresponding to the statistical model outputs can be found in the online supplements (https://osf.io/h7aj3/). Te diagnostic accuracy was assessed using a logistic regression model because it was measured as a binary variable (accurate/inaccurate). Linear regression models were applied for the advice quality and the confdence ratings. Each dependent variable was regressed on the explainability of the advice (annotated vs. non-annotated), the source of the advice (AI vs. human), the task expertise (radiologists vs. IM/EM physicians), the interaction between explainability (annotated vs. non-annotated) and source (AI vs. human), and the control variables (professional identifcation, belief in professional autonomy, self-reported AI knowledge, attitude toward AI technology, and years of professional experience). All models included fxed efects for all variables mentioned above and a random efect for the participants to account for non-independence of observations and diferences in their skills, as well as a random efect for the patient cases to account for their diferent difculty levels. Further, we chose mixed-efects regression models because they are particularly useful for analyzing experiments with a repeated measures design. One of the eight cases, which had been taken from the previous study without changes, had no clinical abnormalities (diagnosis: normal) and, consequently, no annotations on the image. A second case was shown without annotations due to a technical issue. Tese two cases had to be excluded from the analysis because the explainability condition could not be unambiguously assigned.

我们计算了三个混合效应回归模型,每个依赖变量一个:

(1)诊断准确性,(2)建议质量评级,(3)对诊断的信心。相应的统计模型输出的方程式可以在在线补充材料中找到(https://osf.io/h7aj3/)。诊断准确性使用逻辑回归模型进行评估,因为它被测量为二元变量(准确/不准确)。对建议质量和信心评级使用线性回归模型。每个依赖变量根据建议的可解释性(带注释vs不带注释)、建议来源(AI vs人类)、任务专业水平(放射科医生vs内科/急诊医生)、可解释性(带注释vs不带注释)和来源(AI vs人类)的交互作用,以及控制变量(专业认同、对专业自主性的信念、自报的AI知识、对AI技术的态度和职业经验年数)进行回归。所有模型都包括上述所有变量的固定效应,以及为了考虑观察结果的非独立性和参与者技能差异而设置的参与者随机效应,以及为了考虑患者病例不同难度水平而设置的病例随机效应。此外,我们选择混合效应回归模型是因为它们特别适用于分析重复测量设计的实验。八个病例中的一个,之前的研究未做更改地采用,没有临床异常(诊断:正常),因此图像上没有注释。由于技术问题,第二个病例未显示注释。由于无法明确分配可解释性条件,这两个病例必须从分析中排除。

Figure

图片

Figure 1. Exponential increase in artificial intelligence (AI)-related publications in healthcare.34 A real-time dashboard using natural language pFigure 1. Experimental setup. Every participant reviewed all eight cases. Each case consisted of a brief patient vignette, a chest X-ray, and diagnostic advice (radiologic fndings and primary diagnoses). Te advice came either with or without annotations on the X-ray. Additionally, the advice was labeled as coming either from an AI system or an experienced radiologist. Physicians were asked to give a fnal diagnosis, rate the quality of the advice, and judge how confdent they were with their diagnosis.

图1. 实验设置。每位参与者都审查了所有八个病例。每个病例包括一个简短的病人小结、一张胸部X光片和诊断建议(放射学发现和初步诊断)。建议要么附有X光片上的注释,要么没有。此外,建议被标记为来自AI系统或经验丰富的放射科医生。医生被要求给出最终诊断,评估建议的质量,并判断他们对自己的诊断有多自信。

图片

*Figure 2. Dependent variables across the advice manipulations. Te plots show how the advice manipulations afected non-task experts (i.e., IM/EM physicians) and task experts (i.e., radiologists). Plot (a) shows that explainable advice helped non-task experts to be more accurate on average (p(pIM/EM =0.042, pRadiology=0.120). Chart (b) indicates that the source of advice had only statistically non-signifcant efects on diagnostic accuracy (p(pIM/EM =0.129, pRadiology=0.155). Plot © displays that non-task experts rated the quality of annotated advice higher than non-annotated advice (p(pIM/EM =0.011, pRadiology=0.195). In (d), it is shown that there was no evidence that the source of advice had an efect on the quality rating (p(pIM/EM =0.645, pRadiology=0.812).Plot(e) indicates that explainability had little efect on the confdence ratings (p(pIM/EM =0.280, pRadiology=0.202). Finally, (f) f) shows that task experts reported higher confdence in their decision when receiving AI advice while non-task experts’ confdence was unafected by the source (p(pIM/EM =0.497, pRadiology<0.0001). Te boxplots show 25th to 75th percentiles and the median as the central line; the whiskers extend to a maximum of 1.5×interquartile range. Te error bars represent standarderrors.*p≤0.05,**p≤0.01,***p≤0.001,***p≤0.0001,nsstatistically nonsignifcant.

图2. 建议操纵对依赖变量的影响。这些图表展示了建议操纵如何影响非任务专家(即内科/急诊医生)和任务专家(即放射科医生)。图表(a)显示,可解释的建议帮助非任务专家平均更准确(p内科/急诊 = 0.042,p放射科 = 0.120)。图表(b)表明,建议来源对诊断准确性仅有统计上不显著的影响(p内科/急诊 = 0.129,p放射科 = 0.155)。图表(c)显示,非任务专家对带注释建议的质量评级高于不带注释的建议(p内科/急诊 = 0.011,p放射科 = 0.195)。在图表(d)中,显示没有证据表明建议来源对质量评级有影响(p内科/急诊 = 0.645,p放射科 = 0.812)。图表(e)表明,可解释性对信心评级的影响不大(p内科/急诊 = 0.280,p放射科 = 0.202)。最后,图表(f)显示,当接收AI建议时,任务专家在决策中报告更高的信心,而非任务专家的信心不受来源影响(p内科/急诊 = 0.497,p放射科 < 0.0001)。箱形图展示了25至75百分位数,中间线为中位数;胡须最多延伸至1.5×四分位距。误差条表示标准误差。*p ≤ 0.05,**p ≤ 0.01,***p ≤ 0.001,****p ≤ 0.0001,ns 统计上不显著。

图片

Figure 3. Diagnostic accuracy by clinical case. Case-dependent performance amongst non-task experts (i.e.,IM/EM physicians) and task experts (i.e., radiologists) across the two advice manipulations (a) explainability ofthe advice and (b) source of the advice. Te x-axis labels are the case ID numbers (see online supplements pages2–4 for further information about the cases). Te error bars represent standard errors.

图3. 按临床案例的诊断准确性。非任务专家(即内科/急诊医生)和任务专家(即放射科医生)在两种建议操作(a)建议的可解释性和(b)建议的来源之间的案例依赖性表现。x轴标签是案例ID号(有关案例的更多信息,请参见在线补充材料第2-4页)。误差线代表标准误差。

Table

图片

Table 1. Logistic mixed multilevel regression models for participants’ diagnostic accuracy. Random efects: σ2=3.29, τ00 ID =0.60, τ00 PATIENTID =1.10, ICC=0.34, NINID =222, NPNPATIENTID =6, observations=1332, marginal R2=0.086/conditional R2=0.397; OR>1 variable associated with higher odds for correct diagnosis; OR<1 variable associated with lower odds for correct diagnosis, OR=1 variable does not afect odds of outcome. Te intercept indicates that the probability of an accurate diagnosis was 0.85 when all predictors are zero. Predictors without a natural zero point (i.e., professional identifcation, beliefs about professional autonomy, self-reported AI-knowledge, attitude toward AI) were mean-centered. SEstandard error, pprobability of committing a type I error. Statistically signifcant values are in bold.

表1. 参与者诊断准确性的逻辑混合多层回归模型。随机效应:σ2 = 3.29,τ00 ID = 0.60,τ00 PATIENTID = 1.10,ICC = 0.34,NID = 222,NPATIENTID = 6,观察次数 = 1332,边际R2 = 0.086/条件R2 = 0.397;OR > 1的变量与更高的正确诊断概率相关;OR < 1的变量与较低的正确诊断概率相关,OR = 1的变量不影响结果的概率。截距指出,当所有预测因子为零时,准确诊断的概率为0.85。

没有自然零点的预测因子(即专业认同、关于专业自主性的信念、自我报告的AI知识、对AI的态度)进行了均值中心化处理。SE标准误差,p为犯一类错误的概率。统计上显著的值以粗体表示。

图片

Table 2. Linear mixed multilevel regression models for advice quality rating. Random efects: σ2=0.79, τ00 ID =0.42, τ00 PATIENTID =0.16, ICC=0.42, NINID =222, NPNPATIENTID =6, observations=1332, marginal R2=0.042/conditional R2=0.449. Te regression estimate indicates how much the mean quality rating changes given a one-unit shif in the predictor while holding other predictors in the model constant. Te intercept represents the mean value of the advice quality rating when all predictor variables are zero. Predictors without a natural zero point (i.e., professional identifcation, beliefs about professional autonomy, self-reported AI-knowledge, attitude toward AI) were mean-centered. SEstandard error, pprobability of committing a type I error. Statistically signifcant values are in bold.

表2. 建议质量评级的线性混合多层回归模型。随机效应:σ2 = 0.79,τ00 ID = 0.42,τ00 PATIENTID = 0.16,ICC = 0.42,NID = 222,NPATIENTID = 6,观察次数 = 1332,边际R2 = 0.042/条件R2 = 0.449。回归估计值表示在其他预测因子保持不变的情况下,预测因子每变化一个单位时,平均质量评级的变化量。截距代表了所有预测变量为零时建议质量评级的平均值。没有自然零点的预测因子(即专业认同、关于专业自主性的信念、自我报告的AI知识、对AI的态度)进行了均值中心化处理。SE标准误差,p为犯一类错误的概率。统计上显著的值以粗体表示。

图片

Table 3. Linear mixed multilevel regression models for confdence in the diagnosis. Random efects: σ2=0.85, τ00 ID =0.27, τ00 PATIENTID =0.16, ICC=0.34, N ID =222, N PATIENTID =6, observations=1332, marginal R2=0.130/conditional R2=0.424. Te regression estimate indicates how much the mean confdence rating changes given a one-unit shif in the predictor while holding other predictors in the model constant. Te intercept represents the mean value of the confdence in the diagnosis when all predictor variables are zero. Predictors without a natural zero point (i.e., professional identifcation, beliefs about professional autonomy, self-reported AI-knowledge, attitude toward AI) were mean-centered. SEstandard error, pprobability of committing a type I error. Statistically signifcant values are in bold.

表3. 诊断信心的线性混合多层回归模型。随机效应:σ² = 0.85,τ00 ID = 0.27,τ00 PATIENTID = 0.16,ICC = 0.34,N ID = 222,N PATIENTID = 6,观察数 = 1332,边际 R² = 0.130 / 条件 R² = 0.424。回归估计指出在控制模型中其他预测变量不变的情况下,每增加一个单位预测变量,平均信心评分的变化量。截距表示当所有预测变量为零时,对诊断信心的平均值。没有自然零点的预测变量(例如,专业认同、对专业自主性的看法、自报的人工智能知识、对人工智能的态度)进行了均值中心化。SE 指标准误差,p 指犯第一类错误的概率。统计上显著的数值以粗体显示。

图片

Table4. Participant demographics. IMinternal medicine, EMemergency medicine, Nnumbers of participants.

Table4. Participant demographics. IMinternal medicine, EMemergency medicine, Nnumbers of participants.

表4. 参与者人口统计数据。IM内科,EM急诊医学,N参与者人数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1248996.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Websocket “未完成操作“与真机报错 问题

关于弱小又无助的小前端开发工程师的经历分享&#xff1a; 在用uniapp开发微信小程序的过程中&#xff0c;需要使用websocket进行数据的传输&#xff0c;在开发过程中没有任何的问题&#xff0c;但是进入生产环境时&#xff0c;真的是三路十八弯&#xff0c;让小前端尝遍了微信…

起动电流小,工作频率 可达500kHz的Dc-Dc开关电源芯片B3842芯片描述

B3842/43/44是专为脱线和Dc-Dc开关电源应用设计的恒频电流型Pwd控制器内部包含温度补偿精密基准、供精密占空比调节用的可调振荡器、高增益混放大器、电流传感比较器和适合作功率MOST驱动用的大电流推挽输出颇以及单周期徊滞式限流欠压锁定、死区可调、单脉冲计数拴锁等保护电路…

JAVA序列化和反序列化

JAVA序列化和反序列化 文章目录 JAVA序列化和反序列化序列化什么是序列化&#xff1f;为什么要进行序列化?如何将对线进行序列化具体实现过程 完整代码 序列化 什么是序列化&#xff1f; 就是将对象转化为字节的过程 为什么要进行序列化? 让数据更高效的传输让数据更好的…

“AI就绪”新计划,亚马逊云科技到2025年向200万人提供免费AI技能培训

AI就绪&#xff08;AI Ready&#xff09;计划 到2025年为全球200万人提供 免费人工智能&#xff08;AI&#xff09;技能培训和教育资源 亚马逊云科技宣布启动“AI就绪&#xff08;AI Ready&#xff09;”计划&#xff0c;旨在到2025年为全球200万人提供免费人工智能&#xff08…

自动化测试中几种常见验证码的处理方式及如何实现?

UI自动化测试时&#xff0c;需要对验证码进行识别处理&#xff0c;有很多方式&#xff0c;每种方式都有自己的特点&#xff0c;以下是一些常用处理方法&#xff0c;仅供参考。 1 去掉验证码 从自动化的本质上来讲&#xff0c;主要是提升测试效率等&#xff0c;但是为了去研究验…

新手如何买卖可转债,可转债投资基础入门

一、教程描述 什么是可转债&#xff1f;可转债是可转换债券的二次简称&#xff0c;原始全称是可转换公司债券&#xff0c;这是一种可以在特定时间、按特定条件&#xff0c;转换为普通股票的特殊企业债券&#xff0c;可转换债券兼具债权和股权的特征&#xff0c;其英文为conver…

AMESim|Make failed:Unable to create an excutable for the system

最近在AMESIM与MATLAB进行联合仿真的时候遇到如下问题&#xff1a; Make failed:Unable to create an excutable for the system. 看了网上的解决办法如下 配置环境变量重装AMESIM&#xff0c;有顺序要求&#xff0c;首先是VS&#xff0c;然后是AMESIM与MATLAB。在AMESIM安装…

PDF 批量处理软件BatchOutput PDF mac中文版介绍

BatchOutput PDF mac是一款适用于 Mac 的 PDF 批量处理软件。它可以帮助用户将多个 PDF 文件进行异步处理&#xff0c;提高工作效率。 BatchOutput PDF 可以自动化执行许多任务&#xff0c;包括 PDF 文件的打印、转换、分割、压缩、加密、重命名等&#xff0c;而且它还可以将自…

5-11一个球从100米自由落下

#include<stdio.h> int main(){double down100;double back down/2;int n;//次数for(n2;n<10;n){downdownback*2;backback/2; }printf("第10次落地经过%f米\n",down);printf("第10次反弹%f米\n",back);return 0;}

视频直播美颜SDK对比测评,技术深度剖析

美颜滤镜作为直播体验的关键一环&#xff0c;成为直播平台竞争的焦点。在美颜滤镜的背后&#xff0c;不同的视频直播美颜SDK各有千秋&#xff0c;下文&#xff0c;小编将对几个主要的视频直播美颜SDK进行对比测评&#xff0c;并深度剖析其技术特点。 一、美颜SDK简介 首先&a…

做嵌入式(/单片机/ARM)底层开发普遍待遇是怎样的?

做嵌入式&#xff08;/单片机/ARM&#xff09;底层开发普遍待遇是怎样的&#xff1f;北京&#xff0c;成都待遇分别怎样&#xff1f; 嵌入式系统方向的工作就是设计嵌入式设备的集成和配套&#xff0c;包括硬件设备和运行其上的控制软件&#xff0c;硬件设备就包括如单片机、MC…

IIC驱动OLED(SSD1306) HAL库+CubeMX

一.IIC传输数据的格式 1.写操作 2.读操作 3.IIC信号 二. IIC底层驱动 1.重新初始化配置延时单元 //软件延时 void I2C_Delay(uint32_t t) {volatile uint32_t tmp t;while(tmp--); }void I2C_GPIO_ReInit(void) {/* 1. 使用结构体定义硬件GPIO对象 */GPIO_InitTypeDef GPIO…

python+pytest接口自动化-requests发送post请求

简介 在HTTP协议中&#xff0c;与get请求把请求参数直接放在url中不同&#xff0c;post请求的请求数据需通过消息主体(request body)中传递。 且协议中并没有规定post请求的请求数据必须使用什么样的编码方式&#xff0c;所以其请求数据可以有不同的编码方式&#xff0c;服务…

Linux的基本指令(3)

16.cal指令 cal命令可以用来显示公历&#xff08;阳历&#xff09;日历。公历是现在国际通用的历法&#xff0c;又称格列历&#xff0c;通称阳历。“阳历”又名“太阳历”&#xff0c;系以地球绕行太阳一周为一年&#xff0c;为西方各国所通用&#xff0c;故又名“西历”。 命…

手动创建映像及在OpenStack云计算平台的镜像应用

目录 一、下载 rhel7.6 安装ISO 二、在VMware 的虚拟机内创建虚拟机 三、更改一些设置 1、使用httpd暴露&#xff08;在外部虚拟机&#xff09; 2、添加软件仓库 3、 安装 ACPI 服务 4、使用 cloud-init 获取公钥 5、安装 cloud-utils-growpart 以允许调整分区大小 6、…

H5游戏和小程序游戏的区别是什么,分别有什么优势?

H5游戏和小程序游戏都是基于互联网的游戏形式&#xff0c;但它们在技术实现、发布平台和用户体验等方面存在一些区别。 技术实现&#xff1a; H5游戏&#xff1a; 使用HTML5、CSS3、JavaScript等Web技术进行开发。这意味着玩家可以通过任何支持Web浏览器的设备访问游戏&#…

CAD随机多面体_圆柱试件3D插件

插件介绍 CAD随机多面体_圆柱试件3D插件可用于在AutoCAD软件内生成随机三维多面体及外侧圆柱体试件。插件可确保多面体之间不发生干涉&#xff0c;且多面体与外侧圆柱体试件之间保持适配关系&#xff0c;确保生成的模型导入有限元软件后几何合理有效。本插件主要可应用于三维混…

对 .NET程序2G虚拟地址紧张崩溃 的最后一次反思

一&#xff1a;背景 1. 讲故事 最近接连遇到了几起 2G 虚拟地址紧张 导致的程序崩溃&#xff0c;基本上 90% 都集中在医疗行业&#xff0c;真的很无语&#xff0c;他们用的都是一些上古的 XP&#xff0c;Windows7 x86&#xff0c;我也知道技术人很难也基本无法推动硬件系统和…

XG916Ⅱ轮式装载机后驱动桥设计机械设计CAD

wx供重浩&#xff1a;创享日记 对话框发送&#xff1a;装载机 获取完整论文报告工程源文件 本次设计内容为XG916Ⅱ装载机后驱动桥设计&#xff0c;大致上分为主传动的设计&#xff0c;差速器的设计&#xff0c;半轴的设计&#xff0c;最终传动的设计四大部分。其中主传动锥齿轮…

读懂搜狐财报里的“生长密码”

自然界中各种植物的生长&#xff0c;在某些方面都合乎一定的数学规律。比如&#xff0c;斐波那契数列&#xff1a;树木各个年份对应的枝丫数、不同花朵的花瓣数量都对应着“1&#xff0c;1&#xff0c;2&#xff0c;3&#xff0c;5……”的数字。 科学家们认为&#xff0c;斐波…