【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】

news2024/11/27 22:44:39

请添加图片描述


👉博__主👈:米码收割机
👉技__能👈:C++/Python语言
👉公众号👈:测试开发自动化【获取源码+商业合作】
👉荣__誉👈:阿里云博客专家博主、51CTO技术博主
👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。


【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】


目录

  • 【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
  • 一、设计要求
  • 二、设计思路
  • 三、模型预测
    • 绘制审计风险总数的分布


一、设计要求

要求完成以下功能:
1.能够导入包,能够读取数据集文件audit_risk和customer上运用决策树算法进行分类预测。
2.能够将指定的信息从文件中删除。
3.能够可视化数据并将结果显示在屏幕上。
4.能够数据预处理。
5.能够数据划分、模型训练、效果评估。
6.能够进行预测病显示预测结果。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


二、设计思路

  1. 导入所需的库和读取数据
    首先,导入需要使用的Python库,包括pandas、numpy、scikit-learn、matplotlib和seaborn。接着,使用pandas读取客户信息数据集(customer.csv)和审计风险数据集(audit_risk.csv),并将其加载到数据框中。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

   import pandas as pd
   import numpy as np
   from sklearn.model_selection import train_test_split
   from sklearn.tree import DecisionTreeClassifier
   from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
   import matplotlib.pyplot as plt
   import seaborn as sns
   customer_df = pd.read_csv('customer.csv')
   audit_risk_df = pd.read_csv('audit_risk.csv')

数据预处理
数据预处理是数据分析和机器学习中非常关键的一步。首先,检查数据集中是否存在缺失值,并使用前向填充法填充缺失值,以保证数据的完整性。接着,将客户数据中的婚姻状况和性别字段转换为数值型,以便模型能够正确处理这些分类变量。最后,确保审计风险数据集中所有特征均为数值类型,填充转换后的缺失值。

   # 检查缺失值
   print("客户数据缺失值:\n", customer_df.isnull().sum())
   print("审计风险数据缺失值:\n", audit_risk_df.isnull().sum())
   # 填充缺失值()
   customer_df.fillna(method='ffill', inplace=True)
   # 将分类变量转换为数值变量
   customer_df['marital_status'] = customer_df['marital_status'].map({'M': 1, 'S': 0})
   # 确保所有数据都是数值类型
   for column in audit_risk_df.columns:
       # 略。。。。 略。。。。
       # 略。。。。 略。。。。
       # 略。。。。 略。。。。
       # 略。。。。 略。。。。
   # 填充转换后的缺失值
   audit_risk_df.fillna(method='ffill', inplace=True)

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

  1. 数据划分和模型训练
    将审计风险数据集分为特征和标签两部分。特征包括除“Risk”外的所有列,标签为“Risk”列。然后,将数据集划分为训练集和测试集,以70%的数据作为训练集,30%的数据作为测试集。使用决策树分类算法对训练集数据进行模型训练。
   # 选择特征和标签
   features = audit_risk_df.drop(columns=['Risk'])
   labels = audit_risk_df['Risk']
   # 数据划分
   X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3, random_state=42)
   # 构建决策树模型
   # 略。。。。 略。。。。
   # 预测
   y_pred = clf.predict(X_test)

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

  1. 效果评估
    使用测试集数据对训练好的模型进行预测,并生成混淆矩阵、分类报告和准确率等评估指标。通过这些评估指标,可以了解模型的预测效果和性能。
   # 显示评估结果
   print("混淆矩阵:\n", confusion_matrix(y_test, y_pred))
   print("分类报告:\n", classification_report(y_test, y_pred))
   print("准确率:", accuracy_score(y_test, y_pred))

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


三、模型预测

对数据和模型结果进行可视化展示,包括特征重要性图、混淆矩阵热图和审计风险总数分布图。这些图表可以帮助我们更直观地了解数据和模型的表现。

   # 绘制特征重要性
   plt.figure(figsize=(12, 8))
   feature_importances = pd.Series(clf.feature_importances_, index=features.columns)
   feature_importances.nlargest(10).plot(kind='barh')
   plt.title('特征重要性')
   plt.show()

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

   # 绘制混淆矩阵
   plt.figure(figsize=(8, 6))
   conf_matrix = confusion_matrix(y_test, y_pred)
   sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
   plt.title('混淆矩阵')
   plt.xlabel('预测值')
   plt.ylabel('实际值')
   plt.show()

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

绘制审计风险总数的分布

在这里插入图片描述

根据用户指定的条件删除数据中的特定记录,并保存修改后的数据。以下示例代码删除年收入在$10K以下的客户,并将修改后的数据保存到新的文件中。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

   # 删除指定信息
   def delete_info(df, condition):
       return df.drop(df[condition].index)

   # 删除年收入在$10K以下的客户
   customer_df = delete_info(customer_df, customer_df['yearly_income'] == '$10K - $30K')
   # 略。。。。 略。。。。
	
   # 保存修改后的数据
   customer_df.to_csv('customer_modified.csv', index=False)

预测新数据
对新数据进行预测,并展示预测结果。以下代码使用测试集的前五行数据作为新数据示例,进行预测并展示预测结果。预测结果被保存到文件中,以便用户查看和分析。

   # 进行预测并显示预测结果
   new_data = X_test.iloc[:5]  # 这里使用测试集的前5行数据作为新数据示例
   predictions = clf.predict(new_data)
   print("新数据的预测结果:\n", predictions)

   # 将结果保存到文件
   result_df = pd.DataFrame(new_data)
   result_df['Prediction'] = predictions
   # 略。。。。 略。。。。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1903200.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

unity3d:Shader知识点,矩阵,函数,坐标转换,Tags,半透明,阴影,深度,亮度,优化

基本结构 Shader "MyShaderName" {Properties {// 属性}SubShader {// 针对显卡A的SubShaderPass {// 设置渲染状态和标签Tags { "LightMode""ForwardBase" }// 开始Cg代码片段CGPROGRAM// 该代码片段的编译指令,例如:#p…

浪潮信息元脑服务器支持英特尔®至强®6能效核处理器 展现强劲性能

如今,服务器作为数字经济的核心基础设施,正面临着前所未有的挑战和机遇。作为服务器领域的领军企业,浪潮信息始终站在行业前沿,不断推陈出新,以满足客户日益增长的需求。近日,浪潮信息再次展现技术实力&…

Java学习十四—Java8特性之Lambda表达式

一、简介 Java 8 引入了 Lambda 表达式,它是一种更简洁、更便于使用的函数式编程特性。Lambda 表达式允许将函数作为方法的参数(函数式接口的实例)传递给某个方法,或者将代码像数据一样进行传递。 ‍ lambda是一个匿名函数&#…

Kubernetes分享

幂等性(Idempotency) 介绍 简单来说,幂等性幂等性(Idempotency)是计算机科学中的一个重要概念,特别是在分布式系统和网络应用中。指的是某个操作可以重复执行多次,但其结果是相同的,不会因为多次执行而改变系统的状态。 https://…

解决后端限制导致前端配置跨域仍请求失败报504的问题

文章目录 问题一、通过配置跨域方式二、直接真实接口请求三、解决方式四、后端这样做的原因 总结 问题 前端项目设置跨域proxy处理,接口请求不会报跨域,但是接口请求报了504,这种情况如何处理呢,后端又为何要这么做,下…

2007-2022年中国各企业数字化转型与供应链效率

企业数字化转型与供应链效率是现代企业管理和发展的两个关键方面。以下是对中国各企业数字化转型与供应链效率数据的介绍: 数据简介 企业数字化转型:指企业通过采用数字技术与创新方法,改造业务流程、组织结构和产品服务,以提升…

U盘非安全拔出后的格式化危机与数据拯救策略

在数字化时代,U盘作为便捷的数据携带工具,其重要性不言而喻。然而,许多用户在日常使用中往往忽视了安全退出的重要性,直接拔出U盘后再插入时可能会遭遇“需要格式化”的提示,这一状况不仅令人措手不及,更可…

STM32+ESP8266(ESP32)+MQTT+阿里云物联网平台

1、阿里云物联网平台 - 阿里云物联网平台配置 产品-设备-编辑物模型-设备端开发-查看上报数据 在产品上添加物模型,然后设备是继承自产品的,因此也具有物模型 添加产品、添加设备、产品上添加物模型 - 使用IOT Studio 绘制界面显示温度、湿度、灯开…

pdf怎么转换成图片格式文件,pdf文档怎么转换成图片格式

在数字化时代,pdf文件转换成图片格式是一种常见的操作,无论是在工作还是日常生活中,我们总会遇到需要将pdf文件转换为图片的需求。这可能是因为图片格式更易于分享、展示或编辑。那么,如何高效地将pdf转换成图片呢?本文…

CSRF靶场通关合集

目录 前言 CSRF漏洞总结 1.PiKachu靶场 1.1CSRF(get) 1.2 CSRF(post)请求 1.3 CSRF Token 2.DVWA靶场 难度低 难度中 难度高 前言 最近系统的将从web渗透到内网渗透的知识点做一个回顾,同时结合一些实战的案例来演示,下面是对刚开始学习时对靶场的一个总结. CSRF漏洞…

快速搭建发卡独立站(完全免费)

本文介绍如何使用开源项目,零成本,无需服务器的方式搭建一套自己的数字商品/发卡独立站,不需要任何开发能力,即便是小白用户也能搭建。 感兴趣可直接查看开源项目地址👉 https://github.com/iDataRiver/theme-basic …

sqlite 数据库 介绍

文章目录 前言一、什么是 SQLite ?二、语法三、SQLite 场景四、磁盘文件 前言 下载 目前已经出到了, Version 3.46.0 SQLite,是一款轻型的数据库,是遵守ACID的关系型数据库管理系统,它包含在一个相对小的C库中。它是…

Node 中基于 Koa 框架的 Web 服务搭建实战

前言 在《Node之Web服务 - 掘金 (juejin.cn)》一文中,我们使用 HTTP 模块构建了后端接口,从而实现了后端服务的开发。可以对此进行进一步优化 http模块代码回顾 const http require("http");const server http.createServer((req, res) > {if (reqUrl.pathna…

Simulated Annealing

模拟退火最大值算法: 初始化起始解 x 0 x_0 x0​ 、温度 t 0 t_0 t0​ 以及迭代次数 steps,计算初始值 y 0 y_0 y0​扰动产生新解 x 1 x_1 x1​, 计算对应函数值 y 1 y_1 y1​依据 Δ y y 1 − y 0 \Delta y y_1 - y_0 Δyy1​−y0​ 决策是否接…

element-ui输入框如何实现回显的多选样式?

废话不多说直接上效果&#x1f9d0; 效果图 <template><div><el-form:model"params"ref"queryForm"size"small":inline"true"label-width"68px"><el-form-item label"标签" prop"tag&q…

CurrentHashMap巧妙利用位运算获取数组指定下标元素

先来了解一下数组对象在堆中的存储形式【数组长度&#xff0c;数组元素类型信息等】 【存放元素对象的空间】 Ma 基础信息实例数据内存填充Mark Word,ClassPointer,数组长度第一个元素第二个元素固定的填充内容 所以我们想要获取某个下标的元素首先要获取这个元素的起始位置…

UEC++ 虚幻5第三人称射击游戏(二)

UEC++ 虚幻5第三人称射击游戏(二) 派生榴弹类武器 新建一个继承自Weapon的子类作为派生榴弹类武器 将Weapon类中的Fire函数添加virtual关键字变为虚函数让榴弹类继承重写 在ProjectileWeapon中重写Fire函数,新建生成投射物的模版变量 Fire函数重写逻辑 代码//生成的投射物U…

使用Spring Boot和自定义缓存注解优化应用性能

在现代应用开发中&#xff0c;缓存是提高系统性能和响应速度的关键技术之一。Spring Boot提供了强大的缓存支持&#xff0c;但有时我们需要更灵活的缓存控制。本文将介绍如何使用Spring Boot和自定义缓存注解来优化应用性能。 1. 为什么需要自定义缓存注解&#xff1f; Sprin…

CH12_函数和事件

第12章&#xff1a;Javascript的函数和事件 本章目标 函数的概念掌握常用的系统函数掌握类型转换掌握Javascript的常用事件 课程回顾 Javascript中的循环有那些&#xff1f;Javascript中的各个循环特点是什么&#xff1f;Javascript中的各个循环语法分别是什么&#xff1f;…

Android仿今日头条新闻(一)

新建一个侧边栏的文件&#xff0c;创建成功后直接运行。可以看到带滑动的侧边栏功能如图所示&#xff1a; 主体UI&#xff1a; 新闻UI的实现: 侧边栏&#xff1a; 更换一下颜色&#xff1a; 学习参考-浩宇开发