AI在医学领域:联邦学习 (FL) 在肿瘤学的应用综述

news2024/11/15 23:30:53

关键词:联邦学习 (Federated Learning, FL)、机器学习 (Machine Learning, ML)、肿瘤学 (Oncology)、数据隐私 (Data Privacy)、精准医疗 (Precision Medicine)、多模态 (Multi-modal)

      肿瘤学正在经历快速的变革,这得益于机器学习(ML)的整合,ML能够丰富大规模数据集中的临床证据,超越了传统的分析方法。然而,到目前为止,ML模型大多是在数据孤岛中集中化的。虽然集中化的ML模型在癌症研究中取得了显著进展,但临床数据的指数级增长和多样化,例如影像学、健康记录和分子特征,现在带来了相当大的挑战。数据量的激增,加上国际合作和标准化数据集的趋势,凸显了局限于本地数据获取实践和人口统计学的单中心研究的局限性。多中心研究,从不同的地区获取数据,提供了一种更全面的ML建模方法。然而,集中化的模型难以有效利用这种日益复杂的数据格局,可能影响ML的泛化能力、性能、全球适用性和可信度。虽然将来自不同来源的数据聚合到集中的数据湖中可能提供了一种替代方案,但它容易受到隐私泄露、复杂的数据共享协议和数据传输法律限制的影响。

     联邦学习(FL)作为这些局限性的潜在解决方案应运而生。使用FL,ML算法可以在本地数据集上同时训练,而无需数据离开其环境。这种去中心化的方法允许医院和研究机构控制自己的数据,解决隐私问题和监管限制,同时从集体洞察中受益。FL在肿瘤学中特别有前景,因为数据涉及敏感的患者信息,及时的协作分析可以对患者的结果产生重大影响。然而,FL的采用并非没有挑战。在不影响数据内容的情况下平衡有效的模型训练和可以增加计算开销并可能影响数据内容的患者隐私技术,确保多个中心的数据质量和一致性,以及保持稳健的模型性能和可信度,都是紧迫的问题。

1 概述

1.1 集中式ML的局限性

  • 数据孤岛: 集中式模型难以有效利用多中心数据,导致模型泛化能力受限。
  • 隐私问题: 集中式模型需要将数据集中存储,容易引发隐私泄露和安全问题。
  • 数据异质性: 不同中心的数据收集方式和人口统计学特征不同,导致数据异质性,影响模型性能和可信度。

1.2 联邦学习的优势

  • 数据分散: 联邦学习允许在本地数据集上同时训练ML模型,无需数据迁移,有效保护隐私。
  • 模型共享: 不同中心的模型可以进行共享和整合,利用集体智慧提高模型性能和泛化能力。
  • 协同分析: 联邦学习可以促进多中心协同分析,加速研究进展,改善患者预后。

1.3 联邦学习的挑战

  • 模型训练与隐私保护的平衡: 需要开发有效的隐私保护技术,同时保证模型训练效果。
  • 数据质量和一致性: 需要确保不同中心数据的质量和一致性,以保证模型性能和可信度。
  • 模型性能和可信度: 需要开发评估方法,确保联邦学习模型的性能和可信度。

2 方法

2.1 文献回顾策略

2.1.1 文献检索策略

  • 时间范围: 2020 年 1 月 1 日至 2023 年 9 月 1 日
  • 数据库: PubMed, Scopus, Web of Science
  • 关键词: 涵盖肿瘤学、联邦学习和机器学习的多个关键词和 MeSH 术语

2.1.2 筛选流程

初步筛选出5,766篇文献,经过逐步筛选,最终纳入25篇符合标准的期刊文章进行分析。

PRISMA流程图

阶段1 - 识别:在数据库搜索和其它来源中识别出的所有潜在相关的研究文献。

阶段2 - 筛选:基于标题和摘要的初步筛选,去除那些明显不相关的文献。

阶段3 - 排除:在初步筛选后,进一步通过阅读全文来排除那些不符合纳入标准的文献。

阶段4 - 纳入:最终纳入综述的文献数量。

2.2 评估标准

  • 联邦学习方法的类型: 模型中心化和数据中心化。
  • 聚合策略: 用于整合参与设备更新或模型参数的方法,例如联邦平均和共识模型集成。
  • 设备类型: 跨设备和跨数据孤岛。
  • 数据类型: 医学影像、电子健康记录等。
  • 隐私方法: 例如差分隐私和加密。
  • 评估指标: 用于评估联邦学习模型性能的指标,例如准确率、召回率和F1分数。
  • 联邦学习范围: 包括模型泛化能力、预测精度、数据隐私、疾病理解、领域适应和训练时间减少等。

2.3 研究重点

  • 临床应用: 包括疾病类型区分、肿瘤识别、治疗反应预测、严重程度评估、副作用预测、生存分析和肿瘤复发评估等。
  • ML模型类型: 包括经典机器学习模型、卷积神经网络、预训练模型和生成对抗网络等。
  • 数据多样性: 评估不同研究中的患者规模和数据规模。

2.4 评估联邦学习方法的严谨性

  • 比较框架: 是否将联邦学习方法与集中式机器学习模型进行比较。
  • 性能比较: 联邦学习方法是否优于或与集中式模型具有可比性。

3 结论

3.1 研究趋势

机器学习(ML)相关的出版物随时间的变化趋势

与FL(联邦学习)相关的出版物随时间的变化趋势

(a)条形/线条:代表每年针对特定临床应用发表的论文数量,不同颜色或样式可能代表不同的临床应用,如肿瘤识别、疾病类型区分、严重程度评估、治疗反应预测、生存分析等。

(b)条形/线条:代表每年针对特定FL范围发表的论文数量,不同颜色或样式可能代表不同的FL目标,如数据隐私、ML预测改进、疾病理解改进、模型泛化能力提升等。

  • 增长趋势: 联邦学习在肿瘤学领域的应用呈上升趋势,从2020年的0篇增加到2023年的13篇。
  • ML技术: 研究涵盖了多种机器学习技术,包括大型预训练模型、UNet、CNN、经典机器学习模型和生成对抗网络等。
  • 临床应用: 研究主要集中在肿瘤识别和疾病类型区分,其次是严重程度评估、治疗反应预测、生存分析和肿瘤复发评估。
  • 联邦学习范围: 研究主要集中在提高模型泛化能力和预测精度,其次是数据隐私和疾病理解。

3.2 联邦学习分析

  • 数据类型: 大型预训练模型主要用于医学影像数据,UNet主要用于MRI、CT、PET-CT和X光数据,CNN用于分析多种数据类型,经典机器学习模型主要用于EHR和影像特征提取,生成对抗网络主要用于MRI和CT数据。
  • 任务类型: 大多数研究关注分类任务,其次是分割和检测任务。
  • 临床应用: 肿瘤识别和疾病类型区分是主要的应用领域,其次是严重程度评估、治疗反应预测、生存分析和肿瘤复发评估。

3.3 数据多样性

  • 患者规模: 研究中的患者规模差异较大,大多数研究集中在100-1,500名患者,但也有研究涉及超过10,000名患者。
  • 数据规模: 数据规模差异也较大,大多数研究集中在1-5,000个图像或样本,但也有研究涉及超过100万个图像或样本。
  • 数据类型: 大多数研究使用公开数据集,但也有研究使用私有数据集或混合数据集。

3.4 联邦学习实施细节

  • 联邦学习方法: 大多数研究没有明确说明所使用的联邦学习方法,其中横向联邦学习最为常见
  • 聚合策略: 大多数研究没有报告聚合策略,少数研究使用了联邦平均和共识模型集成。
  • 设备类型: 大多数研究没有说明设备类型,少数研究提到了跨数据孤岛联邦学习。
  • 隐私方法: 只有少数研究明确说明了所使用的隐私方法,例如差分隐私、安全聚合、安全多方计算和同态加密。

3.5 评估联邦学习范围的严谨性

  • 模型泛化能力: 大多数研究证明了联邦学习可以增强模型泛化能力,例如通过整合来自不同中心的数据。
  • 预测精度: 大多数研究证明了联邦学习可以改善模型预测精度,例如通过减少数据偏差和学习复杂模式。
  • 数据隐私: 一些研究证明了联邦学习可以保护数据隐私,例如通过使用差分隐私和加密技术。
  • 疾病理解: 一些研究证明了联邦学习可以改善疾病理解,例如通过分析来自不同中心的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2038529.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

tinymce字体为48px后再设置numlist数字列表导致前面的序号字体不对--【已解决】

问题描述: tinymce选择完大号字体,如48px,再选择数字列表,会导致数字列表的序号字体不对。 解决: 演示效果

【C语言篇】C语言常考及易错题整理DAY3

文章目录 选择题整形提升与算术转换左移右移操作符操作符优先级与结合性后置指针变量基本知识 编程题最大连续1的个数完全数计算单词倒排面试题.珠玑妙算两数之和 选择题 整形提升与算术转换 声明以下变量,则表达式: ch/i (f*d – i) 的结果类型为( &…

Fal.ai Flux 1-Pro/Viva.ai/哩布哩布AI:AI绘图部分免费工具+原图提示词Prompt

目录 #1 找软件 #2 懂提示词 #3 更难的一步,会英文 我个人认为,想要玩文生图,你要会3个步骤: #1 找软件 主流文生图软件:Midjourney、Stable Diffusion、Dall-E 3 巧了,我用的都是小众、免费的画笔工…

Linux 错误码

目录 一、概述二、含义三、错误处理函数1、IS_ERR2、strerr、perror 一、概述 在 Linux 系统中,错误码是用来表示操作系统运行过程中发生的错误的数字代码。错误码通常由负数表示,0 表示成功,正数表示警告或其他非致命错误。 为了开发者更好…

查询大数据信用需要收费吗?哪个平台好一点?

随着大数据技术被运用到金融行业,不少申贷人都开始了解自己的大数据信用,在查询大数据信用的时候,查询大数据信用需要钱吗?哪个平台好一点?等问题是很多人都比较关心的问题,下面本文就详细为大家详解一下,希望对你了…

基于python的百度迁徙迁入、迁出数据分析(九)

副标题:从百度迁徙数据看——人口虹吸效应 人口虹吸效应:人口虹吸效应是指大城市或中心城市因其经济、文化、教育、医疗等资源的优势,吸引周边地区的人口、资本和其他资源向其集中的一种现象。这种效应在城市化进程中尤其明显,通…

公司起诉员工泄密难吗?如何搜寻有力的证据?专业审计软件助力,追责之路其实不难!

在企业管理中,员工泄密是一个严重的问题,不仅可能损害企业的商业利益,还可能对企业的声誉造成不可挽回的影响。然而,公司起诉员工泄密并非易事,需要满足严格的法律条件和程序,并面临证据收集与举证、法律程…

10款好用的文件加密软件排行榜,2024企业常用的文件加密软件

在数据安全日益受到重视的今天,文件加密软件已成为保护企业敏感信息的重要工具。以下是2024年企业常用的10款好用的文件加密软件排行榜,帮助你选择适合的工具来保护你的文件和数据。 1. 安秉加密软件 安秉加密软件提供用户友好的界面和强大的加密功能。…

使用 nginx 搭建代理服务器(正向代理 https 网站)指南

简介 正向代理 简介 在企业开发环境中,局域网内的设备通常需要通过正向代理服务器访问互联网。正向代理服务器充当中介,帮助客户端请求外部资源并返回结果。局域网内也就是俗称的内网,局域网外的互联网就是外网,在一些特殊场景内…

unity 画线写字

效果 1.界面设置 2.涉及两个脚本UIDraw.cs和UIDrawLine.cs UIDraw.cs using System; using System.Collections.Generic; using UnityEngine; using UnityEngine.EventSystems; using UnityEngine.UI;public class UIDraw : MonoBehaviour, IPointerEnterHandler, IPointerEx…

【大数据】什么是数据架构?

目录 一、什么是数据架构? 二、数据架构的发展历程 1. 早期阶段(1960年代-1970年代) 2. 关系数据库的兴起(1970年代-1980年代) 3. 数据仓库和数据挖掘(1980年代-1990年代) 4. 大数据和NoSQL&…

计算机基础|数据溢出

一、概念 在类似C这样的非高级语言存在数值溢出问题&#xff0c;简单概括&#xff1a;高位数据丢失被低位数据占据位置。 二、举例 2.1 以C语言 for循环为例 /*int8_t value range from -128 to 127*/int8_t input;for (input 124; input < 130; input) {printf("%…

《Unity3D网络游戏实战》深入了解TCP

从TCP到铜线 应用层 应用层功能是应用程序&#xff08;游戏程序&#xff09;提供的功能。在给客户端发送“hello”的例子中&#xff0c;程序把“hello”转化成二进制流传递给传输层&#xff08;传送给send方&#xff09;​。操作系统会对二进制数据做一系列加工&#xff0c;使…

嵌入式八股文-网络编程、多线程和进程

网络编程 1. TCP头部结构 TCP固定头部结构 每个TCP报文段都包含着此报文段的TCP头部信息,用于指定源端端口、目的端端口以及管理TCP连接等。完整的TCP头部结构可分为固定头部结构和头部选项两个部分。 32位端口号:包括了16位源端口号和16位目的端口号。32位序号:假设第一次…

Linux驱动开发基础(Hello驱动)

所学内容来自百问网 目录 1. 文件在内核中的表示 2. 打开字符设备节点时&#xff0c;内核中也有对应的struct file 3. 编写驱动程序步骤 4. 相关知识点 4.1 涉及函数解析 4.2 module_init/module_exit的实现 4.3 register_chrdev的内部实现 4.4 class_destroy/device_…

(Jmeter、Fiddler)脚本转换Loadrunner脚本

背景:公司政治任务、各种体系文档要留档,但有些不在体系内的工具生成的脚本需要转化到体系内以备留档。 一、Loadrunner代理设置 开始录制配置: Record->Remote Application via LoadRunner Proxy LoadRrunner Proxy listens on port-> 8889 (系统建立出入站规则…

解析防蠕动交叉导轨的防蠕动机制

随着工业自动化的不断发展&#xff0c;对机械导轨系统的精度和稳定性要求越来越高。防蠕动交叉导轨作为一种新型导轨系统&#xff0c;能够有效提高设备的运行精度和稳定性&#xff0c;降低维护成本。 蠕动现象通常发生在导轨负载超出其额定范围、表面粗糙度不足或润滑不良等情况…

Python 实现 Excel 文件操作的技术性详解

目录 一、引言 二、Excel 文件格式及库的选择 2.1 Excel 文件格式 2.2 库的选择 三、安装必要的库 四、使用 openpyxl 读取 Excel 文件 4.1 基本步骤 4.2 实战案例 五、使用 pandas 读取 Excel 文件 5.1 基本步骤 5.2 实战案例 六、写入 Excel 文件 6.1 使用 …

【每日刷题】Day100

【每日刷题】Day100 &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;每日刷题&#x1f34d; &#x1f33c;文章目录&#x1f33c; 1. 【模板】堆_牛客题霸_牛客网 (nowcoder.com) 2. 【模板】链表_牛客题霸_牛客网 (nowcoder.com) 3…

Linux系统移植——开发板烧写

目录&#xff1a; 目录&#xff1a; 一、什么是EMMC分区&#xff1f; 1.1 eMMC分区 1.2 分区的管理 二、相关命令介绍&#xff1a; 2.1 mmc 2.1.1 主要功能 2.1.2 示例用法 2.2 fdisk 2.2.1 基本功能 2.2.2 交互模式常用命令 2.2.3 注意事项 三、U-BOOT烧写 3.1 mmc命令 3.2 f…