SHAP值加持医学独立危险因素鉴定分析
医学独立危险因素鉴定是医学数据分析中的重要形式,旨在从众多临床因素中识别出对临床结局产生重大影响的因素,并通过干预这些因素来改善临床结果。例如,通过识别吸烟是肺癌的危险因素,倡导戒烟来降低肺癌的发病率。
SHAP值(SHapley Additive exPlanations)是一种解释机器学习模型预测结果的工具,能够量化每个特征对模型预测的影响并将其分解为各个特征的边际贡献。SHAP分析中的全局性分析功能可以用于识别重要特征、理解模型决策过程以及发现特征之间的交互作用,因此备受关注。
本文归纳总结了之前对SHAP值分析的一些认识,将介绍将SHAP值融入医学独立危险因素鉴定,形成以SHAP值为核心的分析思路,具体步骤如下:
-
描述性分析
描述性分析用于描述变量的离散趋势和集中趋势,与传统的统计分析方法相同,采用单平均值、中位数或计数来描述变量,或采用组间的单因素统计分析来描述组间的差异。 -
SHAP值为指标的变量筛选
确定结局变量(y),并使用SHAP值筛选与结局变量相关的预测变量(X),并将筛选出的预测变量作为后续分析的重点。传统的分析方法也采用变量筛选,例如条件筛选法、Lasso回归、Boruta算法等。最近,基于Boruta等分析,发展出以SHAP值为指标的变量筛选方法,例如python中的arfs包中的Leshy算法可以设置参数为shap值,能够更好地与后续的SHAP分析协调。 -
SHAP分析提示变量间的关系
利用SHAP分析中的全局性分析功能,发现各个相关预测变量与结局变量之间的相关性(散点图)和交互作用(交互作用图),有助于快速发现变量间的关系,为后续阐明变量间的关系奠定基础。传统的分析方法缺乏这种批量发现变量间关系的功能。 -
限制性立方样条去曲线拟合
由于SHAP分析的功能有限,无法定量描述变量间的关系,因此引入限制性立方样条去曲线拟合变量及其SHAP值的关系,借此找出关键点。常见的一种关键点是y(也就是SHAP)为0时对应的X值(特征值),在这个点之外,特征值对于结局的贡献可能是正向的,也可能是负向的。另一种关键点是曲线的拐点,意味着拐点前后OR(RR或HR)值不同。 -
亚组分析
进行亚组分析,分为两种情况:以单个变量内的关键点分割数据,进行多因素回归分析,定量描述变量间关系(OR、RR和HR)并进行统计学检验。在发现有交互作用的情况下,以交互作用变量分割数据集来进行多因素回归描述定量描述变量间关系(OR、RR和HR)并进行统计学检验。 如果上述两种情况同时存在,则将第一种和第二种分割数据集的方法进行合并。
结论
SHAP值加持的医学独立危险因素鉴定分析提高了分析的效率,为医学研究提供了新的思路和方法。但是这种分析方法是不是提供了比传统分析方法更好的分析效果还有待于实践的检验。