预测模型的Meta分析
人工智能(AI)是计算机科学的一个重要分支,其主要目标是让算法执行通常由人类完成的任务。机器学习是指一组允许算法从数据中学习并自我优化的技术,而无需明确编程。深度学习这一术语常与机器学习互换使用,但它特指通过多个处理层从输入数据中提取高级信息的算法。一些文献提到的放射图像分类已被确定为人工智能能够显著简化的重要领域,涵盖了分诊或筛查服务、决策辅助以及作为放射科医生的第二读者支持等应用。
本期我们将深入解读一篇关于人工智能在骨折检测应用的元分析文章,标题为《Artificial Intelligence in Fracture Detection: A Systematic Review and Meta-Analysis》。
题目:Artificial Intelligence in Fracture Detection: A Systematic Review and Meta-Analysis
杂志:RADIOLOGY
影响因子:IF=12.1
中科院分区:医学一区
发表时间:2022年7月
想要快速发表自己的第一篇 SCI,应该是很多科研学者朝思暮想的事情,但是,如何去实现呢?
全优统计™ 在这里为您提供了解决方案!锁定时间,抓住机会,一跃成为科研领域的佼佼者。
PART·1 研究背景
骨折的发生率在每10万人年中为733到4017。在2019至2020财年,英国急诊科接待了120万名急性骨折或脱位患者,同比增长23%。骨折在X光片上的漏诊或误诊率为3%到10%,经验丰富的医生通常误诊率较低,但获得专家意见的机会有限。影像学检查需求增长快于放射科医生招聘,导致误诊问题突出。
人工智能(AI)在骨折检测中表现出高准确率,深度学习技术尤其有效。近期研究显示AI在骨折检测中的准确率高达93%到99%。本研究对42项相关研究进行了系统评价和荟萃分析,比较了AI和临床医生在骨折检测中的表现,并评估了研究方法和偏倚风险。
PART·2 方法学
文献检索
数据库:Ovid Medline, Ovid Embase, EBSCO CINAHL, Web of Science, Cochrane CENTRAL, IEEE Xplore, ACM Digital Library
检索时间:从2018年1月至2021年6月
检索关键词:包括但不限于“artificial intelligence” and “diagnostic imaging”。
纳入标准
1. 主要研究开发和/或验证了一种深度学习算法的文献;
2. 涉及任何用户独立的影像学方式,语言为英语,且研究对象为人类。
排除标准
1. 会议摘要、致编辑的信件、综述文章,以及仅进行分割任务或放射组学分析的研究;
质量评价
使用了透明多变量预测模型报告指南(TRIPOD)清单来评估研究的报告遵守情况,该清单包含22项建议,用于帮助透明报告开发和/或验证预测模型的研究。
作者通过检索预印本服务器和手动检查纳入研究的参考文献列表来最小化出版偏倚的影响。还通过使用诊断对数几率比的回归分析,并测试不对称性,进行了正式的出版偏倚评估。
统计分析
作者通过对提供内部和外部验证的研究进行荟萃分析,估计了深度学习算法和临床医生的诊断性能。计划在至少有五项研究符合纳入条件时进行荟萃分析,并推荐使用随机效应模型。作者使用应急表来构建层次总结接收操作特征曲线,并计算汇总的敏感性和特异性,预计会有较高的异质性。通过在层次总结接收操作特征曲线中使用95%的预测区间,构建了研究之间异质性的可视化表示。为了识别研究之间异质性的来源,作者进行了元回归分析,引入了偏倚水平、研究和骨折类型、参考标准、同行评审状态,以及算法是否使用了单一或多个放射学视图、数据增强或迁移学习等变量。统计显著性定义为P值小于0.05。所有计算均使用统计软件(Stata版本14.2,Midas和Metandi模块;StataCorp)进行。
从统计部分我们了解到,作者对模型的内部和外部数据进行了提取,并使用Stata软件进行了数据分析,最终进行了元回归分析。可以发现,即便是看似复杂的深度学习预测模型的荟萃分析,其实在方法上仍然借鉴了传统诊断试验的荟萃分析方法(至少在当前阶段是这样)。
PART·3 分析结果
文献检索结果
初步筛选了8783篇经过同行评审的研究,其中1981篇为重复文献。通过预印本服务器和引用检索,进一步识别出149篇研究。经过全文筛选,共纳入了42篇研究,其中35篇为同行评审的出版物,7篇为预印本出版物。
质量评价结果
对多变量预测模型个体预后或诊断的透明报告标准(TRIPOD)的遵循程度存在差异(图2)。有四个项目报告较差(<50% 遵循率):研究标题和摘要的清晰度(分别为19%和17%)、样本量计算(2.4%)、讨论和尝试改善模型解释性(43%),以及关于附加代码或数据可用性的声明(19%)。预测模型研究偏倚评估工具(PROBAST)将两项研究评定为高偏倚风险和适用性问题(图3)。主要因素包括未进行外部验证或在小样本量下进行内部验证的研究。15(36%)项研究被评为高偏倚风险,18(43%)项因参与者选择的纳入和排除标准被评为高适用性问题。总体而言,研究在结果指定和分析方面的偏倚(六项;14% 高关注)和适用性(九项;21% 高关注)问题较少。
Meta分析结果
从32项研究中提取了115个列联表(共55061幅图像),这些研究提供了足够的信息以计算用于二元骨折检测的列联表。针对内部验证报告的算法性能,作者从26项研究中提取了37个列联表;从7项研究中提取了15个列联表用于外部验证。针对相同内部验证测试集的人类性能,作者从12项研究中提取了36个列联表;从7项研究中提取了23个列联表用于相同的外部验证测试集。作者从4项研究中提取了4个列联表,评估人类在AI辅助下的表现。评估AI与临床医生在内部验证测试集表现的分层总结接收操作特征曲线见于图4。
AI的汇总敏感性为92%(95% CI: 88, 94),临床医生为91%(95% CI: 85, 95)。AI的汇总特异性为91%(95% CI: 88, 93),临床医生为92%(95% CI: 89, 95)。在外部验证中,AI的汇总敏感性为91%(95% CI: 84, 95),临床医生为94%(95% CI: 90, 96),均为匹配测试集(图5)。AI的汇总特异性为91%(95% CI: 82, 96),临床医生为94%(95% CI: 91, 95)。当临床医生得到AI辅助时,汇总敏感性和特异性分别为97%(95% CI: 83, 99)和92%(95% CI: 88, 95)。
所有研究的元回归分析显示,较低的模型特异性与较低的偏倚风险相关(89%;95% CI: 87, 91;P < .01),与数据增强的使用相关(92%;95% CI: 90, 93;P < .01),以及迁移学习(91%;95% CI: 90, 93;P < .01)。较高的模型敏感性则与关注下肢骨折的算法相关(95%;95% CI: 93, 97;P < .01)以及使用重采样方法(97%;95% CI: 94, 100;P < .01)。作者还进行了敏感性分析,单独评估了偏倚风险较低的研究。团队发现所有性能指标均较低,尽管仅在评估算法外部验证性能的研究中,曲线下面积的降低达到了统计显著性(96%;95% CI: 94, 98;P < .01;见表4,图6)。
发表偏倚检验
作者通过回归分析评估了发表偏倚,以量化漏斗图的不对称性。结果显示,斜率系数为25.4(95% CI: -13.7, 2.77;P = .19),这表明发表偏倚的风险较低。
PART·4 讨论
越来越多的研究探讨人工智能(AI)在骨折诊断中的潜力。作者团队系统评估了深度学习在骨折检测中的方法、结果和质量,并进行了元分析,比较了内部和外部验证结果与临床医生表现。研究发现,AI的诊断准确性高,敏感性和特异性均为91%;在外部验证中,AI与临床医生表现相当,AI辅助还进一步提升了临床表现并缩短了诊断时间。然而,研究方法存在显著缺陷,可能低估临床医生表现,且多数研究在计算机上进行,缺乏实际临床验证。此外,研究之间存在高异质性,尤其在方法选择上,且样本量计算不足。以往综述显示AI准确性广泛,但在图像分类中,准确性作为结果指标可能误导。该团队的分析进一步细化了内部(敏感性92%,特异性91%)和外部(敏感性91%,特异性91%)验证的结果。
局限性
1. 仅纳入了2018年后发布的英文研究,排除了其他潜在合格的研究;
2. 只能从32项研究中提取列联表;
3. 许多研究存在方法学缺陷,其中一半被评为高度关注偏倚和适用性,这限制了元分析得出的结论,因为高偏倚风险的研究往往会高估算法性能;
4. 尽管对TRIPOD条款的遵循总体上较好,但许多稿件遗漏了重要信息,例如训练集、调优集和测试集的大小。
PART·5 小编总结
这项元分析表明,人工智能(AI)在骨折检测的诊断性能上与临床医生相当,展现了作为诊断工具的潜力。然而,许多研究因方法缺陷或数据集不具代表性而限制了其实际应用。未来研究应优先考虑务实的算法开发,确保数据反映目标人群特征,并客观评估样本量充分性。此外,鼓励跨中心共享数据和代码,以提高研究的可重复性和透明度。AI旨在作为诊断辅助工具,改善工作流程并提高诊断确定性,但不能替代临床工作,临床医生需理解其性能并进行判断。通过解决这些问题,深度学习有潜力安全、可持续地简化骨折诊断。
Meta 分析火了十年了,还流行么?还好发么?
小编使用“meta-analysis”作为检索词进行文献调研,发现仅在2024年就发表了超过两万篇Meta分析,像JAMA、Lancet等顶级期刊仍在持续发表Meta分析!
从趋势上看,Meta分析的热度依然高涨。同时,与总体发文量相比,中国学者发表的文章超过1万篇,位居首位。
Meta分析作为循证医学金字塔的顶尖,具有不可动摇的重要地位和价值。在循证医学中,证据质量至关重要,而Meta分析能够整合和分析多个研究结果,从而提供更加可靠和全面的证据。
「他山之石,可以攻玉」,写 Meta 就是那么简单
Meta分析是一种利用他人高质量研究成果来撰写SCI文章的有效方法。进行Meta分析并不复杂,无需进行实验或收集数据。只要具备文献检索能力,就能轻松完成这一过程。