一、引言
前文回顾:
【Python机器学习系列】建立决策树模型预测心脏疾病(完整实现过程)
【Python机器学习系列】建立支持向量机模型预测心脏疾病(完整实现过程)
【Python机器学习系列】建立逻辑回归模型预测心脏疾病(完整实现过程)
【Python机器学习系列】建立KNN模型预测心脏疾病(完整实现过程)
【Python机器学习系列】建立随机森林模型预测心脏疾病(完整实现过程)
【Python机器学习系列】建立梯度提升模型预测心脏疾病(完整实现过程)
【Python机器学习系列】建立XGBoost模型预测心脏疾病(完整实现过程)
【Python机器学习系列】建立LightGBM模型预测心脏疾病(完整实现过程)
【Python机器学习系列】建立AdaBoost模型预测心脏疾病(完整实现过程)
【Python机器学习系列】建立朴素贝叶斯模型预测心脏疾病(完整实现过程)
对于表格数据,一套完整的机器学习建模流程如下:
针对不同的数据集,有些步骤不适用即不需要做,其中橘红色框为必要步骤,由于数据质量较高,本文有些步骤跳过了,跳过的步骤将单独出文章总结!同时欢迎大家关注翻看我之前的一些相关文章。
多层感知机(Multilayer Perceptron,简称 MLP)是一种基于人工神经网络的分类和回归模型。它由多个神经网络层组成,包括输入层、隐藏层和输出层。每个层都由多个神经元(也称为节点)组成,神经元之间通过连接权重进行信息传递。
MLP 的基本结构是一个前馈神经网络,每个神经元接收来自上一层神经元的输入,并将其加权求和,然后通过激活函数进行非线性变换,最终输出到下一层的神经元。训练过程通常使用反向传播算法(Backpropagation)来更新连接权重,以最小化预测输出与实际输出之间的误差。反向传播通过计算误差梯度并将其向后传递,逐层调整连接权重。
MLP 在机器学习领域广泛应用于分类和回归任务。它可以处理非线性关系,并且具有一定的拟合能力。然而,MLP 模型的性能和泛化能力高度依赖于网络结构的设计、激活函数的选择、正则化方法的使用以及训练数据的质量等因素。
本文利用scikit-learn(一个常用的机器学习库)实现了基于心脏疾病数据集建立多层感知机模型对心脏疾病患者进行分类预测的完整过程。
二、实现过程
1、准备数据
data = pd.read_csv(r'Dataset.csv')
df = pd.DataFrame(data)
df:
数据基本信息:
print(df.head())
print(df.info())
print(df.shape)
print(df.columns)
print(df.dtypes)
cat_cols = [col for col in df.columns if df[col].dtype == "object"] # 类别型变量名
num_cols = [col for col in df.columns if df[col].dtype != "object"] # 数值型变量名
2、提取特征变量和目标变量
target = 'target'
features = df.columns.drop(target)
print(data["target"].value_counts()) # 顺便查看一下样本是否平衡
3、数据集划分
# df = shuffle(df)
X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=0.2, random_state=0)
4、归一化
# 归一化
mm1 = MinMaxScaler() # 特征进行归一化
X_train_m = mm1.fit_transform(X_train)
mm2 = MinMaxScaler() # 标签进行归一化
y_train_m = mm2.fit_transform(y_train)
5、模型的构建与训练
# 模型的构建与训练
model = MLPClassifier()
model.fit(X_train_m, y_train_m)
6、模型的推理与评价
# 模型推理与评价
# 对测试集特征进行相同规则mm1的归一化处理,然后输入到模型进行预测
X_test_m = mm1.transform(X_test) #注意fit_transform() 和 transform()的区别
y_pred_m = model.predict(X_test_m)
y_scores = model.predict_proba(X_test_m)
y_pred = mm2.inverse_transform(np.reshape(y_pred_m, (-1, 1)))
acc = accuracy_score(y_test, y_pred) # 准确率acc
cm = confusion_matrix(y_test, y_pred) # 混淆矩阵
cr = classification_report(y_test, y_pred) # 分类报告
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:, 1], pos_label=1) # 计算ROC曲线和AUC值,绘制ROC曲线
roc_auc = auc(fpr, tpr)
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()
cm:
cr:
ROC:
作者简介:
读研期间发表6篇SCI数据挖掘相关论文,现在某研究院从事数据算法相关科研工作,结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创,以最简单的方式理解和学习,关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信。