基于机器学习的糖尿病数据分析与风险评估系统

news2024/9/20 18:26:21

B站视频及代码下载:基于机器学习的糖尿病数据分析与风险评估系统_哔哩哔哩_bilibili

1. 项目简介

        糖尿病,作为一种在全球范围内广泛流行的慢性疾病,已经影响了数以百万计的人们的生活,给全球公共健康带来了严重的挑战。因此,糖尿病的预防和控制成为了全球公共卫生领域的一项重要任务。准确预测糖尿病的发病风险对于早期干预和预防至关重要。

        本项目通过可视化分析对数据进行初步探索,再通过斯皮尔曼相关性检验探究患糖尿病的影响因素,通过建立Xgboost模型对是否患有糖尿病就行建模和训练,在不知道临床测量结果的前提下,去预测某人是否会患有糖尿病,测试集预测 AUC 达到 94.2%。通过机器学习模型分析影响糖尿病的主要因素,可以帮助医疗从业者更好地了解病因和风险因素,从而制定有效的预防和治疗策略。

基于机器学习的糖尿病数据分析与风险评估系统

2. 糖尿病数据探索式可视化分析

2.1 数据集读取与预处理

        数据集包含了患者的各项健康指标及其是否患有糖尿病的标签。数据集的主要目标是通过机器学习模型预测糖尿病的发病风险,并分析影响糖尿病的主要健康因素。该数据集包含1879名患者的全面健康数据,唯一标识的ID范围为6000至7878。这些数据包括人口统计细节、生活方式因素、病史、临床测量、药物使用、症状、生活质量评分、环境暴露和健康行为。每位患者都有一名负责的保密医生,确保隐私和保密性。该数据集非常适合研究人员和数据科学家探索与糖尿病相关的因素、开发预测模型和进行统计分析。

data = pd.read_csv('diabetes_data.csv')
data.shape

# 删除患者ID列和主管医生列
data.drop(['PatientID','DoctorInCharge'],axis=1,inplace=True)

# 查看数据信息
data.info()

# 查看重复值
data.duplicated().sum()

 2.2 患者基本信息统计分布

  • 年龄:共有1879条记录,年龄从20岁到90岁不等,平均年龄约为55.04岁。
  • 性别:共有2个不同的性别分类,其中男性(0)和女性(1)均有记录,男性占52.51%,女性占47.49%。
  • 种族:共有4个不同的种族分类,其中最常见的种族是白种人(0),有1175人。
  • 社会经济地位:共有3个不同的社会经济地位分类,社会经济地位中等(1)最常见,有751人。
  • 教育水平分布:共有4个不同的教育水平分类,学士学位(2)最常见,有1116人。
  • BMI:体质指数范围从15.03到39.99,平均值约为27.69。

2.3 吸烟饮酒等生活习惯统计分布 

  • 吸烟:共有2个分类,吸烟者(1)和非吸烟者(0),非吸烟者占71.85%。
  • 饮酒量:饮酒量从0.000928到19.996231不等,平均饮酒量约为10.10。
  • 每周体育活动时间:每周体育活动时间从0.004089小时到9.993893小时不等,平均每周体育活动时间为5.20小时。
  • 饮食质量:饮食质量评分从0.000885到9.998677,平均值约为4.90。
  • 睡眠质量:数据缺乏具体描述,但睡眠质量评分预计为正态分布。
  • 生活质量:生活质量评分从0.00239到99.7885,平均值约为48.51。    
# Compute the correlation matrix
corr = data.corr()

# Generate a mask for the upper triangle
mask = np.triu(np.ones_like(corr, dtype=bool))

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

plt.show()

        类似维度的统计分析,还包括其他疾病患病情况、临床检查结果、药物使用情况、症状情况、生活及工作环境、健康状况等维度,此处篇幅限制暂省略,具体可参考演示视频和源代码。

3. 糖尿病发病风险的影响因素分析

        通过计算特征与预测目标之间的斯皮尔曼相关性,并绘制相关性热力分布图。

# Compute the correlation matrix
corr = data.corr()

# Generate a mask for the upper triangle
mask = np.triu(np.ones_like(corr, dtype=bool))

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

plt.show()

        个人统计信息与患糖尿病之间的相关性分析:

        类似维度的统计分析,还包括其他疾病患病情况、临床检查结果、药物使用情况、症状情况、生活及工作环境、健康状况等维度,此处篇幅限制暂省略,具体可参考演示视频和源代码。 

4. 机器学习建模预测糖尿患病情况

4.1 数据集切分

import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import auc, roc_curve
from sklearn.metrics import accuracy_score, precision_score, recall_score

y_train_all = data['Diagnosis']
X_train_all = data.drop(columns=['Diagnosis'])

X_train, X_valid, y_train, y_valid = train_test_split(X_train_all, y_train_all, test_size=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.1, random_state=42)

print('train: {}, valid: {}, test: {}'.format(X_train.shape[0], X_valid.shape[0], X_test.shape[0]))

4.2 梯度提升决策树 Xgboost 模型 

df_columns = X_train.columns.values
print('===> feature count: {}'.format(len(df_columns)))

xgb_params = {
    'eta': 0.05,
    'min_child_weight': 8,
    'colsample_bytree': 0.5,
    'max_depth': 4,
    'subsample': 0.9,
    'lambda': 2.0,
    'eval_metric': 'auc',
    'objective': 'binary:logistic',
    'nthread': -1,
    'silent': 1,
    'booster': 'gbtree'
}

dtrain = xgb.DMatrix(X_train, y_train, feature_names=df_columns)
dvalid = xgb.DMatrix(X_valid, y_valid, feature_names=df_columns)

watchlist = [(dtrain, 'train'), (dvalid, 'valid')]

4.3 模型训练

model = xgb.train(dict(xgb_params),
                      dtrain,
                      evals=watchlist,
                      verbose_eval=10,
                      early_stopping_rounds=100,
                      num_boost_round=4000)

        训练日志:

[0]	train-auc:0.64543	valid-auc:0.54761
[10]	train-auc:0.97141	valid-auc:0.95499
[20]	train-auc:0.97530	valid-auc:0.95752
[30]	train-auc:0.97728	valid-auc:0.95941
[40]	train-auc:0.97865	valid-auc:0.95917
[50]	train-auc:0.98003	valid-auc:0.96248
[60]	train-auc:0.98180	valid-auc:0.96389
[70]	train-auc:0.98345	valid-auc:0.96614
[80]	train-auc:0.98446	valid-auc:0.96791
[90]	train-auc:0.98518	valid-auc:0.96684
[100]	train-auc:0.98612	valid-auc:0.96625
[110]	train-auc:0.98665	valid-auc:0.96743
[120]	train-auc:0.98709	valid-auc:0.96743
[130]	train-auc:0.98756	valid-auc:0.96791
[140]	train-auc:0.98839	valid-auc:0.96661
[150]	train-auc:0.98915	valid-auc:0.96637
[160]	train-auc:0.98975	valid-auc:0.96649
[170]	train-auc:0.99045	valid-auc:0.96661
[178]	train-auc:0.99088	valid-auc:0.96625

4.4 特征重要程度分布

        可以看出,HbA1c 糖化血红蛋白 的特征对于预测是否患病的重要程度最高,进一步的,分析该特征对于是否患有糖尿病的分布区别:

plt.figure(figsize=(15, 10))

# 定期体检频率
plt.subplot(2, 2, 1)
sns.distplot(data[data['Diagnosis'] == 1]['HbA1c'], bins=50, label='患糖尿病')
sns.distplot(data[data['Diagnosis'] == 0]['HbA1c'], bins=50, label='未患糖尿病')
plt.title('糖化血红蛋白分布')
plt.xlabel('定期体检频率')
plt.legend()
plt.ylabel('频数')
plt.show()

        可以看出,该特征的确具有非常明显的区分效果。 

4.5 模型性能评估

4.5.1 AUC 指标评估

        使用已经训练好的模型对训练集、验证集和测试集进行预测,并计算每个数据集的预测结果的AUC(Area Under the Curve)得分

# predict train
predict_train = model.predict(dtrain)
train_auc = evaluate_score(predict_train, y_train)

# predict validate
predict_valid = model.predict(dvalid)
valid_auc = evaluate_score(predict_valid, y_valid)

# predict test
dtest = xgb.DMatrix(X_test, feature_names=df_columns)
predict_test = model.predict(dtest)
test_auc = evaluate_score(predict_test, y_test)

print('训练集 auc = {:.7f} , 验证集 auc = {:.7f} , 测试集 auc = {:.7f}\n'.format(train_auc, valid_auc, test_auc))
训练集 auc = 0.9908796 , 验证集 auc = 0.9662537 , 测试集 auc = 0.9422857

4.5.2 测试集预测 ROC 曲线

fpr, tpr, _ = roc_curve(y_test, predict_test)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(8,8))
plt.plot(fpr, tpr, color='darkorange',
         lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([-0.02, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC curve')
plt.legend(loc="lower right")
plt.show()

4.5.3 测试集预测结果混淆矩阵计算 

5. 基于机器学习的糖尿病数据分析与风险评估系统

5.1 系统首页

5.2 糖尿病风险评估实时预测

        在Flask 应用程序中的路由处理函数 submit_and_predict,它负责接收通过 HTTP POST 方法提交的测试文件,并使用预训练好的模型来预测糖尿病的发生概率。

@app.route('/submit_and_predict', methods=['POST'])
def submit_and_predict():
    """
    糖尿病在线预测
    """
    test_file = request.files['file']
    filename = test_file.filename

    # 保存上传的文件
    test_file_path = './static/predict_test/{}'.format(filename)
    test_file.save(test_file_path)

    test_data = pd.read_csv(test_file_path)
    ......

    dtest = xgb.DMatrix(test_data, feature_names=df_columns)
    preds = model.predict(dtest)
    pred_labels = (preds > 0.5).astype(int)

    ......

    return jsonify({
        'success': True,
        'header': header,
        'rows': rows
    })

6. 结论

        本项目通过可视化分析对数据进行初步探索,再通过斯皮尔曼相关性检验探究患糖尿病的影响因素,通过建立Xgboost模型对是否患有糖尿病就行建模和训练,在不知道临床测量结果的前提下,去预测某人是否会患有糖尿病,测试集预测 AUC 达到 94.2%。通过机器学习模型分析影响糖尿病的主要因素,可以帮助医疗从业者更好地了解病因和风险因素,从而制定有效的预防和治疗策略。 

 B站视频及代码下载:基于机器学习的糖尿病数据分析与风险评估系统_哔哩哔哩_bilibili

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。技术交流、源码获取认准下方 CSDN 官方提供的学长 QQ 名片 :)

精彩专栏推荐订阅:

1. Python数据挖掘精品实战案例

2. 计算机视觉 CV 精品实战案例

3. 自然语言处理 NLP 精品实战案例

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2070347.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uni-app的示例项目--简单的登陆页面及列表页面

uni-app的示例项目--简单的登陆页面及列表页面 文章说明核心代码效果展示源码下载 文章说明 随着移动端使用占比升高,手机端的App、小程序也成了一些场景下的首选;采用uni-pp开发此类应用具有很多优势,它可以直接使用vue3进行开发&#xff0c…

集合论与位运算之间的转换

集合可以用二进制表示,二进制从低到高第 i 位为 1 表示 i 在集合中,为 0 表示 i 不在集合中。例如集合 {0,2,3} 可以用二进制数 1101(2)​ 表示;反过来,二进制数 1101(2)​ 就对应着集合 {0,2,3}。 例如集合 {0,2,3} 可以压缩成 …

干货|软件测试简历的编写以及注意事项

一、个人信息 1.年龄超过30岁的,就不体现年龄; 2.学历是本科的,以及专业是计算机的可以加上学历、专业2个标签,大专的则可以不体现; 3.英语过了四六级的可以加1个英语的标签; 4.如果你的户籍和面试城市…

Python入门级 序列全集 [ 继上篇 进阶版 持续更新中哞哞哞!!! ]例题较多

本文主要结合例题介绍了序列【常用函数、可迭代对象】,字典【函数、写法、定义、视图对象】,集合【常用函数】,运算符优先级。这几种数据集合在Python中也是蛮重要的,对于新手比较友好。 本文例题大多来自哔站up主鱼C-小甲鱼【Pyt…

系统编程 网络 http协议

http协议------应用层的协议 万维网&#xff1a;http解决万维网之间互联互通 计算机web端网络只能看到文字 1.如何在万维网中表示一个资源&#xff1f; url <协议>&#xff1a;//<主机>&#xff1a;<端口>/<路径> ------------------------------…

Adobe After Effects的插件--------CC Ball Action

CC Ball Action是粒子效果器,其将2D图层变为一个个由3D小球构成的图层。它是AE内置的3D插件。 使用条件 使用该插件的图层需是2D图层。 我们以一张图片素材为例: 给图片图层添加CC Ball Action效果控件,然后新建一个摄像机(利用摄像机旋转、平移、推拉工具,方便在各个角…

【LeetCode面试150】——36有效的数独

博客昵称&#xff1a;沈小农学编程 作者简介&#xff1a;一名在读硕士&#xff0c;定期更新相关算法面试题&#xff0c;欢迎关注小弟&#xff01; PS&#xff1a;哈喽&#xff01;各位CSDN的uu们&#xff0c;我是你的小弟沈小农&#xff0c;希望我的文章能帮助到你。欢迎大家在…

微服务基础与Spring Cloud框架

一、系统架构的演变 1.1单体应⽤架构 Web应⽤程序发展的早期&#xff0c;⼤部分web⼯程(包含前端⻚⾯,web层代码,service层代码,dao层代码)是将 所 有的功能模块,打包到⼀起并放在⼀个web容器中运⾏。 1.2 垂直应⽤架构 当访问量逐渐增⼤&#xff0c;单⼀应⽤增加机器带来的…

【Unity3D小技巧】Unity3D中实现FPS数值显示功能实现

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址QQ群&#xff1a;398291828 大家好&#xff0c;我是佛系工程师☆恬静的小魔龙☆&#xff0c;不定时更新Unity开发技巧&#xff0c;觉得有用记得一键三连哦。 一、前言 很简单也很使用的小技巧&#xff0c;就是在Unity…

PHP酒店宾馆民宿预订系统小程序源码

酒店宾馆民宿预订系统&#xff1a;一键解锁完美旅行住宿新体验 &#x1f31f; 开篇&#xff1a;告别繁琐&#xff0c;拥抱便捷预订新时代 在这个快节奏的时代&#xff0c;每一次旅行的规划都希望能尽可能高效与省心。想象一下&#xff0c;在规划一场说走就走的旅行时&#xf…

Nature | 小麦D基因组的起源和演化,野生近缘种对作物抗病改良具有重要潜力

image-20240815151428804 2024年8月14日沙特阿卜杜拉国王科技大学Brande B. H. Wulff 和 Simon G. Krattinger团队在Natue发表Origin and evolution of the bread wheat D genome研究论文&#xff0c;通过研究粗山羊草&#xff08;Aegilops tauschii&#xff0c;也被称为节节麦…

Ant-Design-Vue快速上手指南+排坑,操作详细步骤

Ant-Design-Vue是一款基于Vue.js的UI组件库&#xff0c;它不仅提供了丰富的高质量组件&#xff0c;还支持灵活的配置选项&#xff0c;使得开发者能够快速构建出既美观又功能强大的前端应用。下面将详细介绍Ant-Design-Vue的快速上手指南和排坑操作&#xff0c;帮助开发者顺利使…

Springboot整合mongodb和mysql两个数据库,mysql无法连接

一、问题 在日常开发中&#xff0c;难免需要用到mongodb和mysql数据库 当我在mongodb正常连接使用的时候&#xff0c;切换回mysql&#xff0c;发现无法连接 二、原因分析 1、端口查看被占用 winr打开命令提示符&#xff08;cmd&#xff09;&#xff0c;可以使用以下命令&…

html标签大合集一文入门

一、文档结构标签 <html>&#xff1a;网页的根标签 &#xff0c;嵌套包含所有标签。 <head>&#xff1a;头标签&#xff0c;包含文档的元数据用于编写网页的修饰内容&#xff0c;附加信息。 <body>&#xff1a;身体标签&#xff0c;用于编写展示内容&…

HTML5休闲小游戏《城市争夺战》源码,引流、刷广告利器

HTML5休闲小游戏《城市争夺战》源码&#xff0c;直接把源码上传到服务器就能使用了&#xff01; 下载链接&#xff1a;https://www.huzhan.com/code/goods468820.html

TCP Analysis Flags 之 TCP ACKed unseen segment

前言 默认情况下&#xff0c;Wireshark 的 TCP 解析器会跟踪每个 TCP 会话的状态&#xff0c;并在检测到问题或潜在问题时提供额外的信息。在第一次打开捕获文件时&#xff0c;会对每个 TCP 数据包进行一次分析&#xff0c;数据包按照它们在数据包列表中出现的顺序进行处理。可…

Java---面向对象

一.面向对象 1.概念 1.1面向过程 C 吃饭&#xff1a;动作为核心 起身--》开门--》大量的逻辑判断 1.2面向对象 C/Java/Python/Go 目标&#xff1a;吃饭 人&#xff08;忽略&#xff09;吃饭 站在人类的角度思考问题 2.什么是对象&#xff1f; Object-->东西(万事万物皆…

【数据结构2】哈希表、哈希表的应用(集合与字典、md5算法和文件的哈希值)

1 哈希表 哈希表一个通过哈希函数来计算数据存 储位置的数据结构&#xff0c;通常支持如下操作: 插入(键&#xff0c;值):插入键值对(键&#xff0c;值) Get(key):如果存在键为键的键值对则返回其值&#xff0c;否则返回空值 删除(键):删除键为键的键值对哈希表(Hash Table&am…

开发者学习类网站

目录 **1、CodeProject****2、simplilearn****3、VisuAlgo****4、Google AI****5、CodeWars****6、SourceForge****7、GeeksforGeeks****8、StackOverflow** 1、CodeProject 网址&#xff1a;https://www.codeproject.com/ CodeProject是一个免费公开自己写的代码与程序的优秀…

稀土阻燃协效剂在木质地板中的应用

木质地板作为一种天然材料&#xff0c;非常容易燃烧&#xff0c;因此需要采取措施来增强其阻燃性能。稀土阻燃协效剂基于稀土4f电子层结构带来的特有属性&#xff0c;在聚合物材料燃烧时可催化酯化成炭,迅速在高分子表面形成致密连续的碳层,隔绝聚合物材料内部的可燃性气体与氧…