多器官疾病因其对多个器官系统的同时影响而带来了显著的挑战,这需要复杂和适应性的治疗策略。尽管在人工智能驱动的医疗决策支持系统方面取得了最新进展,但现有的解决方案通常限于单个器官系统。它们往往忽视了器官系统之间复杂的相互依赖性,因而未能提供在实际应用中有用的全面治疗建议。例如,COVID-19这种疾病,虽然主要影响呼吸系统,但也可能引起免疫系统、神经系统和消化系统的功能障碍。另一种例子是脓毒症,这是一种严重的状况,由身体对感染的反应失调触发。脓毒症可能导致广泛的炎症、凝血异常和代谢紊乱,进而演变为多器官功能障碍,这需要全面和适应性的治疗策略。
本文提出HMARL框架,通过为每个器官系统分配专门的智能体,并模拟智能体间的动态交互,实现跨器官的协调治疗策略。
其他类似文章:
AI在医学领域:GluFormer一种可泛化的连续血糖监测数据分析基础模型
MMII 的多模态医学图像交互框架:更直观地理解人体解剖结构和疾病
1 方法
分层的多智能体强化学习(HMARL)系统
- 根智能体(MRt):负责选择五种主要行动之一,包括无治疗(A0 Rt)、仅神经(ANeu Rt)、仅心血管(ACar Rt)、仅肾脏(ARen Rt)或器官混合(AOMix Rt)。
- 神经特定智能体(MNeu):当选择神经特定行动时,会调用此智能体。它从四种可能的行动中选择:仅S1(AS1 Neu)、仅S2(AS2 Neu)、仅S3(AS3 Neu)或它们的混合(AMix Neu)。
- 心血管特定智能体(MCar):当选择心血管特定行动时,会调用此智能体。它从三种可能的行动中选择:仅IV(AIV Car)、仅Vaso(AV A Car)或IV和Vaso的混合(AMix Car)。
- 肾脏特定智能体(MRen):当选择肾脏特定行动时,会调用此智能体。它直接从四种利尿剂水平或透析中选择。
- 器官混合智能体(MOMix):当推荐复杂的多器官治疗时,会调用此智能体。它通过与其他器官特定智能体(MNeu、MCar、MRen)进行器官间通信来访问它们的剂量建议。
- 内部器官通信:在同一器官系统内,当推荐单一器官的剂量混合时,相关的子智能体会进行通信,以便混合智能体可以整合来自各自子智能体的见解。
- 器官间通信:在推荐复杂的多器官治疗时,MOMix智能体会与其他器官特定智能体进行通信,以获取它们的治疗建议。
1.1 层次化分解
将复杂的多器官治疗推荐任务分解为可管理的子任务,每个子任务由专门的子智能体处理。
- 根智能体:选择主要行动,包括不治疗、仅神经治疗、仅心血管治疗、仅肾脏治疗或器官混合治疗。
- 器官特异性智能体:根据根智能体的选择,推荐特定器官的治疗方案,例如神经系统的麻醉、镇痛和镇静,心血管系统的静脉输液和血管加压药,肾脏系统的利尿剂和透析。
- 混合智能体:当需要推荐复杂的多器官治疗方案时,混合智能体通过跨器官通信与器官特异性智能体协作,整合来自不同器官的信息,并选择合适的治疗方案组合。
-
1.2 强化学习组件
1.2.1 状态
- 统一状态表示:在根智能体级别,学习统一的特征表示,提取患者健康状况的广泛指标及其动态变化,为后续更细致的推荐奠定基础。
- 目标状态表示:在器官级别,对统一状态表示进行微调,学习与特定器官相关的特征表示,例如心脏功能指标或肾功能指标。
1.2.2 行动
每个智能体操作在自身局部状态和行动空间内,选择合适的治疗方案或治疗方案组合。
1.2.3 奖励
混合奖励系统,包括基于死亡率的终端奖励和基于临床指导的间歇奖励,确保智能体能够学习到有效的治疗策略。
1.3 Q学习
- 使用选项框架和半马尔可夫决策过程进行学习,允许智能体执行单步或多步行动,并根据行动的执行情况更新 Q 值。
- 根智能体的 Q值更新依赖于其选择的行动和器官特异性智能体的 Q 值。
- 器官特异性智能体的 Q 值更新依赖于其选择的行动和接收到的奖励。
- 混合智能体使用 QMix 架构进行训练,将子智能体的 Q 值合并为一个统一的 Q值,并通过单调性约束确保一致性决策。
-
1.4 训练过程
- 第一阶段:训练根智能体,学习统一的特征表示。
- 第二阶段:使用训练好的根智能体学习到的特征表示,训练器官特异性智能体和混合智能体。
2 实验
HMARL 框架在管理脓毒症(一种复杂的多器官疾病)方面进行了广泛的实验评估。
2.1 数据集
- 使用 MIMIC-IV 数据库中 30,440 名符合 Sepsis-3 诊断标准的患者数据。
- 数据范围从诊断前 24 小时到诊断后 48 小时,形成最多 72 小时/患者的窗口。
- 患者状态数据包括 48 个生理测量值,如生命体征、实验室检测结果、严重程度评分和人口统计数据。
- 数据被分为 75% 的训练集和 25% 的测试集。
2.2 基线模型
- Clinician: 从测试集中记录的临床医生行动轨迹中提取的策略。
- Single D3QN (D3QN-S): 使用 Dueling DQN 的单智能体模型,预测所有动作组合。
- Single SoftAC (SoftAC-S): 使用 Soft Actor-Critic 的单智能体模型,预测所有动作组合。
- Organ-specific D3QN (D3QN-O): 三个独立的 D3QN 智能体,分别对应神经、心血管和肾脏系统。
- Treatment-specific D3QN (D3QN-T): 六个独立的 D3QN 智能体,分别对应 S1、S2、S3、IV、血管加压素和利尿剂/透析。
- Organ-coordinated QMix (QMix-O): 使用 QMix 混合网络的三智能体合作模型,每个智能体对应一个器官系统。
- Treatment-coordinated QMix (QMix-T): 使用 QMix 混合网络的六智能体合作模型,每个智能体对应一个治疗水平。
2.3 评估指标
2.3.1 平均回报 (Average Returns)
使用 VCWPDIS指标评估学习到的策略的平均回报,该指标考虑了学习策略和临床医生策略之间的共同子轨迹。
2.3.2 死亡率 (Mortality Rate)
使用临床医生策略中死亡率和预期回报之间的关系来估计学习策略的死亡率。
2.3.3 死亡率与预期回报的关系 (Mortality vs. Expected Return)分析死亡率与预期回报之间的相关性,有效策略应显示强负相关性。
(a) D3QN-S(单智能体Dueling DQN)
(b) SoftAC-S(单智能体Soft Actor-Critic)
(c) QMix-O(器官协调QMix)
(d) QMix-T(治疗协调QMix)
(e) 提出的方法(本研究提出的HMARL模型)
2.3.4 死亡率与推荐剂量差异的关系 (Mortality vs. Difference in Recommended Dosage)
分析死亡率与临床医生和学习策略之间推荐剂量差异的关系,有效策略应与导致低死亡率的临床医生剂量一致,并偏离导致高死亡率的剂量。
2.4 结果
- HMARL 模型在平均回报、死亡率、死亡率与预期回报的关系以及死亡率与推荐剂量差异的关系方面均优于所有基线模型,包括临床医生策略。
- HMARL 模型的个体智能体也表现出有效的局部策略,进一步增强了整体策略的可靠性。
- HMARL 模型的策略与临床医生策略在多器官治疗决策方面存在一定的一致性,尤其是在与患者生存相关的决策上。
- HMARL 模型的双层状态表示和跨智能体通信机制对处理任务复杂性至关重要。