本文参考Metabolomic machine learning predictor for diagnosis and prognosis of gastric cancer撰写。
使用随机森林算法和LASSO特征选择构建了一种胃癌(GC)诊断预测模型。参与者(队列1,n=426)通过随机分层抽样分为发现数据集(n=284)和测试集(n=142)。接下来,在发现数据集上执行LASSO回归,以选择能够识别胃癌患者的较少数量的特征。我们将L1约束的系数设置为0.01,并根据10,000次随机交叉验证的平均误分类误差选择了十个非零系数的特征。在发现数据集上使用引导聚合方法训练了包含十个选定代谢物的随机森林模型。最终模型包括了一百个分类器树,这些树是使用基尼不纯度作为分裂标准构建的。对于每个引导样本,学习算法为训练单个决策树而抽取特征的随机子集。决策树学习采用分而治之的策略,通过进行贪婪搜索来识别树内的最佳分裂点。这种分裂过程以自顶向下、递归的方式重复进行,直到所有或大多数记录被分类到特定的类别标签下。一种称为引导聚合的集成方法结合了所有单个决策树的预测,以比单个模型做出更准确的预测。之后,将诊断模型应用于测试集。胃癌诊断的预测值计算为森林中所有树的平均预测概率。单个树的类别概率是同一类别样本在叶节点中的分数。最终预测通过投票机制确定,模型为每个人预测一个值(介于0和1之间),量化了模型在预测中的不确定性。预测值大于0.5的个体将被模型识别为胃癌患者,反之则被视为非胃癌(NGC)。