软组织和骨骼肿瘤(Soft-tissue and bone tumours,STBT)是人体中较为罕见的肿瘤,包括良性和恶性病变。恶性STBT,约占所有肿瘤的1%。这些肿瘤可以发生在任何年龄和几乎所有解剖部位,起源于包括肌肉、脂肪、血管、软骨和骨骼在内的结缔组织细胞。STBT的罕见性以及它们的亚型多样性和不同的临床表现,为准确诊断和预后带来了巨大挑战。
放射学成像(包括核医学)在评估和监测STBT中至关重要。成像技术的进步导致了数据量的大幅增加,同时也增加了对解读这些数据所需的专业知识。随着放射学成像使用的增加和分析的复杂性,放射科医生的工作量也随之增加。因此,开发智能计算机辅助系统和算法以实现自动化图像分析,从而快速准确地得出结果是至关重要的。对于STBT,智能系统可能帮助非专业放射科医生更有效地诊断罕见癌症。此外,随着病例量的增加,解释错误的可能性也更高,这可以通过计算机辅助诊断工具来避免。
人工智能在医学图像分析中的使用日益普及。在过去7年中,FDA批准的放射学成像AI产品数量大幅增加。然而,尽管STBT领域的医学成像AI研究也大幅增加,但在FDA批准的名单中并没有针对STBT的产品。因此,研究应该更多地集中在与未满足的临床需求相一致的领域,而不仅仅是开发新的技术解决方案。
本文目的是使用放射学成像对STBT进行诊断和预后的AI研究,根据两个最佳实践指南——CLAIM和FUTURE-AI——进行评估,可以全面覆盖AI研究的不同方面,讨论了未来研究的机会,以弥合AI研究和STBT临床使用之间已识别的差距。
1 方法
本研究纳入了截至 2023 年 9 月 27 日发表在同行评审期刊上的原始研究,重点关注基于放射学的 AI 方法,用于诊断或预测原发性 STBT。
关于软组织和骨骼肿瘤(STBT)的AI方法研究的数量
PRISMA流程图
1.1 文献检索和筛选
- 数据库检索: 本研究系统地检索了 Medline、Embase、Web of Science 核心集、Google Scholar 和 Cochrane 中央对照试验注册库,涵盖了所有可用的相关研究文献。
- 检索策略: 检索策略根据不同的数据库进行了定制,以确保全面检索相关文献。
- 纳入标准: 纳入标准包括:发表在同行评审期刊上的原始研究。重点关注基于放射学的 AI 或放射组学特征,用于诊断或预测原发性 STBT
- 排除标准:动物、尸体或实验室研究及非英语文献
- 文献筛选: 文献筛选过程由三位独立评审员进行,包括标题和摘要筛选以及全文审查。
1.2 数据提取
对于纳入的研究,提取了以下信息:
- 发表年份和期刊
- 研究类型 (软组织肿瘤、骨肿瘤、GIST)
- 研究设计 (回顾性、前瞻性)
- 预测结果 (诊断、预后、两者)
- 成像模态
- 数据来源 (公开、单中心、多中心)
- 数据和 AI 模型源代码的可用性
1.3 文献评估
- CLAIM 指南: 使用 CLAIM 指南评估纳入研究的质量。CLAIM 指南由美国放射学会 (RSNA) 推荐使用,涵盖了 44 个项目,涉及标题、摘要、引言、方法、结果、讨论和其他信息。
- FUTURE-AI 指南: 使用 FUTURE-AI 指南评估纳入研究的质量。FUTURE-AI 指南提出了确保 AI 工具值得信赖、可部署和可应用的国际共识指南,涵盖了 30 个项目,根据六个原则进行划分:公平性、普遍性、可追溯性、可用性、鲁棒性和可解释性。
- 评分标准: 对于每个项目,评分范围为 0 到 1,0 表示未解决,0.5 表示部分解决(FUTURE-AI 中适用),1 表示完全解决。
- 评分一致性: 为了确保评分的一致性,对一部分研究进行了三位评审员的独立评分,并进行了一致性分析。
1.4 数据分析
- 描述性统计分析: 对每个项目、每个部分/原则以及指南符合率的描述性统计进行了计算,包括均值、标准差、最大值、最小值以及均值和标准差。
- 可视化和交互式图表: 纳入研究的评分结果以交互式图表的形式呈现,方便读者查看和分析。
2 结果
2.1 研究数量和质量
搜索发现了 15,015 篇摘要,其中 325 篇文章被纳入评估。大多数研究在 CLAIM 指南下表现一般,平均得分为 28.9 (满分 53),但在 FUTURE-AI 指南下表现较差,平均得分为 5.1 (满分 30)。
2.2 研究特征
- 纳入的研究主要使用手工特征与机器学习 (68%) 或模型学习特征 (19%) 进行 AI 分析。
- 研究疾病类型包括软组织肿瘤 (38.5%)、骨肿瘤 (35.1%) 和 GIST (25.2%)。
- 大多数研究为回顾性研究 (83.7%),少数为前瞻性研究 (11.7%)。
- 研究主要关注预测诊断 (63.4%),其次是预后评估 (33.5%)。
- 研究使用的成像技术包括 MRI、CT、超声、X 光、PET-CT、PET-MRI 和放射性核素成像等。
- 数据来源多为单中心数据 (58.5%),少数使用多中心数据 (28.6%)。
- 大多数研究没有公开数据集和 AI 模型代码。
2.3 与指南的符合程度
纳入的研究在 CLAIM 指南下表现较好,但仍有改进空间,例如:
- 在设计阶段明确研究假设 (13.8%)。
- 明确数据脱敏方法 (3.4%)。
- 处理缺失数据的方法 (8.2%)。
- 明确目标样本量和确定方法 (4%)。
- 进行稳健性或敏感性分析 (13.8%)。
- 解释性或可解释性方法 (12.9%)。
纳入的研究在 FUTURE-AI 指南下表现较差,但趋势有所改善:
- 明确潜在偏差来源 (37%)。
- 收集并报告个人属性 (83.1%)。
- 使用社区定义的标准 (56%)。
- 定义使用和用户需求 (85.2%)。
- 吸引跨学科利益相关者 (86.2%)。
- 实施数据隐私和安全措施 (85.2%)。
- 定义充分的评估计划 (67.7%)。
3 建议
3.1 设计阶段
- 明确临床需求、AI 的预期用途、临床设置和用户需求。
- 早期识别潜在的偏差来源。
3.2 开发阶段
- 使用反映真实世界数据的数据集进行训练。
- 开发可解释的 AI 方法。
- 建立在现有研究的基础上,并进行验证或改进。
- 确保 AI 工具易于使用。
3.3 评估阶段
- 使用独立的外部测试数据评估 AI 工具。
- 将 AI 工具与最佳实践进行比较。
- 进行错误分类案例的失败分析。
- 研究数据、模型和偏差的鲁棒性。
3.4 可重复性
- 公开代码,并确保其可读性、可用性和可追溯性。
- 全面描述方法,包括数据预处理、真值获取、AI 方法描述和训练过程。
3.5 数据可用性
- 在临床实践中引入结构化和标准化的报告。
- 三级肉瘤中心收集标注数据并公开,保护患者隐私。
- 使用联邦学习保护患者隐私并促进数据共享。