基于XGBoost和数据预处理的电动汽车车型预测

news2024/11/18 9:42:49

在这里插入图片描述

基于XGBoost和数据预处理的电动汽车车型预测

文章目录

  • 基于XGBoost和数据预处理的电动汽车车型预测
  • 1、前言
  • 2、导入数据
  • 3、各县电动汽车采用情况条形图
  • 4、电动车类型饼图
  • 5、前5最欢迎的电动车制造商
  • 6、XGBoost模型
    • 6.1 字符串列的标识
    • 6.2 删除不相关的列
    • 6.3 编码分类变量
    • 6.4 电动车类型热编码
    • 6.5 将数据划分训练集和测试集
    • 6.6 为训练集和测试集创建DMatrix
    • 6.7 XGBoot模型
    • 6.8 预测和计算准确值

作者:i阿极

作者简介:数据分析领域优质创作者、多项比赛获奖者:博主个人首页

😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍

📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪


大家好,我i阿极。喜欢本专栏的小伙伴,请多多支持

专栏案例:机器学习案例
机器学习(一):线性回归之最小二乘法
机器学习(二):线性回归之梯度下降法
机器学习(三):基于线性回归对波士顿房价预测
机器学习(四):基于KNN算法对鸢尾花类别进行分类预测
机器学习(五):基于KNN模型对高炉发电量进行回归预测分析
机器学习(六):基于高斯贝叶斯对面部皮肤进行预测分析
机器学习(七):基于多项式贝叶斯对蘑菇毒性分类预测分析
机器学习(八):基于PCA对人脸识别数据降维并建立KNN模型检验
机器学习(十四):基于逻辑回归对超市销售活动预测分析
机器学习(十五):基于神经网络对用户评论情感分析预测
机器学习(十六):线性回归分析女性身高与体重之间的关系
机器学习(十七):基于支持向量机(SVM)进行人脸识别预测
机器学习(十八):基于逻辑回归对优惠券使用情况预测分析
机器学习(十九):基于逻辑回归对某银行客户违约预测分析
机器学习(二十):LightGBM算法原理(附案例实战)
机器学习(二十一):基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测
机器学习(二十二):基于逻辑回归(Logistic Regression)对股票客户流失预测分析


1、前言

这组代码片段对通过华盛顿州许可部注册的纯电动汽车(BEV)和插电式混合动力汽车(PHEV)的数据集进行了各种分析。这些代码产生了一些见解,如按城市划分的电动续航里程统计数据、CAFV资格计数、电动汽车制造商的受欢迎程度、续航里程统计(最大、最小、平均)、电动汽车类型分布、按车型年份划分的采用趋势以及按县划分的采用情况。结果保存在CSV文件中,并通过条形图、折线图和饼图进行可视化。这些分析为华盛顿州的电动汽车前景和采用模式提供了宝贵的见解。

2、导入数据

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

data = pd.read_csv("./us_car_data.csv")

3、各县电动汽车采用情况条形图

count_by_county = data["County"].value_counts()
plt.figure(figsize=(10, 6))
count_by_county.plot(kind='bar', color=colors)
plt.xlabel("County")
plt.ylabel("Count")
plt.title("Electric Vehicle Adoption by County")
plt.show()

此代码创建了一个条形图,显示每个县采用电动汽车的情况。每个小节代表一个县,小节的高度代表该县的电动汽车数量。x轴标记为“县”,y轴标记为为“计数”,图表标题为“各县电动汽车采用情况”。
运行结果如下:
在这里插入图片描述

4、电动车类型饼图

vehicle_types = data["Electric Vehicle Type"].value_counts()
plt.figure(figsize=(8, 8))
vehicle_types.plot(kind='pie', autopct='%1.1f%%')
plt.title("Distribution of Electric Vehicle Types")
plt.show()

此代码创建一个饼图,显示不同类型电动汽车的分布情况。饼图的每一部分都代表一种特定的车辆类型,每种类型的百分比如图所示。图表的标题是“电动汽车类型的分布”。
运行结果如下:
在这里插入图片描述

5、前5最欢迎的电动车制造商

popular_makes = data["Make"].value_counts().head(5)
plt.figure(figsize=(10, 6))
popular_makes.plot(kind='bar', color=colors)
plt.xlabel("Make")
plt.ylabel("Count")
plt.title("Popular Electric Vehicle Manufacturers")
plt.show()
#结果:
#TESLA        61650
#NISSAN       13138
#CHEVROLET    11417
#FORD          6876
#BMW           5881

此代码创建一个条形图,显示受欢迎制造商的电动汽车数量。显示图表时,x轴标记为“Make”表示制造商,y轴标记为为“Count”表示车辆数量。图表的标题是“受欢迎的电动汽车制造商”
运行结果如下:
在这里插入图片描述

6、XGBoost模型

使用XGBoost和数据预处理的电动汽车类型预测此代码使用XGBooster算法基于给定特征执行电动汽车类型的预测。该代码包括数据预处理步骤,如识别字符串列、删除不相关列、编码分类变量和一次热编码。然后,它将数据拆分为训练集和测试集,为XGBoost创建DMatrix对象,定义XGBoost模型参数,训练模型,并对测试数据进行预测。最后,它计算了模型预测的准确性。

6.1 字符串列的标识

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.metrics import accuracy_score

string_columns = data.select_dtypes(include=['object']).columns
print("Colonnes contenant des chaînes de caractères :")
for column in string_columns:
    print(column)

运行结果如下:
在这里插入图片描述

6.2 删除不相关的列

columns_to_drop = ['County', 'Electric Utility']
data = data.drop(columns_to_drop, axis=1)

6.3 编码分类变量

label_encoder = LabelEncoder()
categorical_columns = ['City', 'State', 'Make', 'Model', 'Electric Vehicle Type']
for column in categorical_columns:
    data[column] = label_encoder.fit_transform(data[column])

6.4 电动车类型热编码

one_hot_encoded = pd.get_dummies(data['Electric Vehicle Type'], prefix='EVType')
data = pd.concat([data, one_hot_encoded], axis=1)
print(data.head())

6.5 将数据划分训练集和测试集

features = ['Model Year', 'Make', 'Model']
target = 'Electric Vehicle Type'
train_data, test_data, train_target, test_target = train_test_split(data[features], data[target], test_size=0.2, random_state=42)

6.6 为训练集和测试集创建DMatrix

此代码使用xgb为训练和测试数据创建DMatrix对象。XGBoost库中的DMatrix函数。它使用训练数据(train_data)及其相应的目标(train_target)来创建dtrain。类似地,它使用测试数据(test_data)及其目标(test_target)创建dtest。DMatrix是XGBoost用于高效训练和预测的数据结构。

dtrain = xgb.DMatrix(train_data, label=train_target)
dtest = xgb.DMatrix(test_data, label=test_target)

6.7 XGBoot模型

params = {
    'objective': 'multi:softmax',
    'num_class': len(data[target].unique()), 
    'eta': 0.1,
    'max_depth': 6,
    'min_child_weight': 1,
    'gamma': 0.1,
    'subsample': 0.8,
    'colsample_bytree': 0.8,
    'eval_metric': 'merror'
}
model = xgb.train(params, dtrain, num_boost_round=100)

6.8 预测和计算准确值

predictions = model.predict(dtest)
predictions = [int(round(pred)) for pred in predictions]
accuracy = accuracy_score(test_target, predictions)
print("Exactitude : {:.2f}%".format(accuracy * 100))

运行结果如下:

Exactitude : 99.00%

ps:这是部分代码

📢文章下方有交流学习区!一起学习进步!💪💪💪
📢首发CSDN博客,创作不易,如果觉得文章不错,可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1548162.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【机器学习之---数学】统计学基础概念

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?typeblog 0. 前言 统计学基础 1. 频率派 频率学派(传统学派)认为样本信息来自总体,通过对样本信息的研究可以合理地推断和估计总体信息…

探究 HTTPS 的工作过程

目录 1. HTTPS 协议原理 1.1. 为什么要有HTTPS协议 1.2. 如何理解安全 1.3. HTTPS 协议是什么 2. HTTPS 的前置概念 2.1. 什么是加密 && 解密 2.2. 为什么要加密 2.3. 常见的加密方式 2.3.1. 对称加密 2.3.2. 非对称加密 2.4. 数据摘要 && 数据指纹…

Linux系统------------MySQL备份与恢复

目录 一、数据备份的重要性 二、数据库备份的分类 2.1从物理与逻辑的角度,备份可分为物理备份与逻辑备份 2.2从数据库的备份策略角度:备份可分为完全备份、差异备份、 增量备份 2.2.1完全备份 2.2.2差异备份 2.2.3增量备份 2.2.4备份方式比较 三…

白酒:生产过程的能耗分析与节能减排措施

在当今的绿色环保时代,节能减排已经成为各行各业关注的焦点。作为传统的白酒生产企业,云仓酒庄深知环境保护的重要性,并积极采取措施降低生产过程中的能耗,为可持续发展贡献力量。 在豪迈白酒的生产过程中,能耗主要来自…

【剑指offr--C/C++】JZ23 链表中环的入口结点 与哈希表

一、哈希表(unordered_set)知识点 unordered_set是一种无序的数据集合容器,元素和键同时存在,元素没有按任何特定的顺序排序,而是根据它们的散列(hash)值组织成桶,以允许直接通过值…

不花一分钱,10分钟搭建自己的网站

不花一分钱,10分钟搭建自己的网站 文章目录 不花一分钱,10分钟搭建自己的网站效果展示第1步 账号注册与登录第2步 新建仓库第3步 新建文件夹及文件第4步 网站发布部署大功告成 效果展示 课程效果展示 进阶效果展示 第1步 账号注册与登录 点击这里 https://gitee.com/&…

韶音、南卡、Oladance开放式耳机值得买吗?多维度测评实力最强品牌

​近期,不少朋友向我咨询关于开放式耳机的选购建议,他们反映市面上的开放式耳机在音质和佩戴舒适度方面表现参差不齐。面对众多品牌,消费者往往感到无从选择。针对这一问题,我将对市面上热门的韶音、南卡和Oladance三款开放式耳机…

linux将未分配空间分配到指定挂载点

lsblk命令查看硬盘,空间有200G,子分区加起来才100个G,有100个G未使用 lsblk给硬盘分配盘符 fidisk /dev/vda n 回车 回车 w将所有未分配的空间分区,这里有100个GB 查看分配的分区 /dev/vda4 fidisk -lpvcreate /dev/vda4查看…

武汉星起航:亚马逊跨境电商市场蓬勃发展,竞争日趋激烈

近年来,跨境电商行业如日中天,成为国际贸易的新宠。作为全球电商的领头羊,亚马逊凭借其卓越的物流、支付和售后服务体系,稳坐跨境电商领域的头把交椅。然而,在激烈的市场竞争与不断变化的消费者需求面前,亚…

Deepin中定义 ll 文件查看命令

Deepin中定义 ll 文件查看命令 一、概述1. 在终端中使用2. 配置本用户使用 一、概述 在Ubuntu中习惯使用 ll 命令作为查看文件系统数据,在Deepin中无法使用此命令。我们可以用ls命令去组装一个ll命令。 1. 在终端中使用 我们如果只使用一次,我们可以用…

Halcon与C#联合开发——1.读取图片、图像二值化

在vs中引入halcon控件 修改目标平台为 x64 拖出三个控件 代码展示 using System; using System.Windows.Forms; //引用支持halcon的命名空间 using HalconDotNet;namespace _1.HalconDisplay {public partial class Form1 : Form {// HObject 是Halcon库中表示图像和其他图形…

Mac系统微信小程序的保存位置和缓存清除

Mac系统微信小程序的保存位置和缓存清除 1.小程序的保存位置2.小程序的缓存清除 1.小程序的保存位置 /Users/<UserName>/Library/Containers/com.tencent.xinWeChat/Data/.wxapplet/packages进入该目录后可以看到有很多以AppID命名的文件夹 最后再使用手机查看该小程序的…

白酒:新型包装材料的选择与应用对产品形象的提升

随着消费者对产品包装的关注度不断提高&#xff0c;包装在提升产品形象和品牌价值方面发挥着越来越重要的作用。云仓酒庄深知包装的重要性&#xff0c;并积极探索和应用新型包装材料&#xff0c;以提升豪迈白酒的产品形象。 新型包装材料的选择与应用对于产品形象的提升具有显著…

springboot swagger 接口文档分组展示

例如将 controller 分成四类&#xff0c;分别放到四个包下&#xff1a; xxx.xxx.xxx.controller.manage xxx.xxx.xxx.controller.client xxx.xxx.xxx.controller.authority xxx.xxx.xxx.controller.common SwaggerConfig.java&#xff1a; import io.swagger.annotations.Api…

java ssh 电影院购票管理系统eclipse开发mysql数据库MVC模式java编程网页设计

一、源码特点 JSP ssh 电影院购票管理系统是一套完善的web设计系统&#xff08;系统采用ssh框架进行设计开发&#xff09;&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用 B/S模式开发。开发环境为TOMCAT…

集成学习 | 集成学习思想:Stacking思想

目录 一. Stacking 思想 一. Stacking 思想 Stacking(或stacked generalization)&#xff0c;是指训练一个模型用于组合(combine)其他各个模型 Stacking有两层第一层是不同的基学习器&#xff08;classifiers/regressors&#xff09;第二层是用于组合基学习器的元学习&#xf…

全选和取消全选

html <table><thead><tr><th><el-checkbox change"check" v-model"checkAll">全选/取消</el-checkbox></th></tr></thead><tbody><tr v-for"(item, index) in tableData" :ke…

最新的Flutter3.x版本获取应用包名的方法

以前的flutter项目可以在 AndroidManifest.xml 中获取应用包名&#xff0c; 最新的Flutter3.x版本要获取应用包名可以找到build.gradle 更多内容参考&#xff1a;最新的Flutter3.x版本如何获取应用包名

Git学习笔记之基础

本笔记是阅读《git pro》所写&#xff0c;仅供参考。 《git pro》网址https://git-scm.com/book/en/v2 git官网 https://git-scm.com/ 一、git起步 1.1、检查配置信息 git config --list查看所有的配置以及它们所在的文件 git config --list --show-origin可能有重复的变量名…

HarmonyOS(鸿蒙开发)入门篇

如果需要学习鸿蒙开发可以查看以下学习资源链接 OpenAtom OpenHarmony Develop applications - HUAWEI HarmonyOS APP 转载请注明出处HarmonyOS(鸿蒙开发&#xff09;入门篇-CSDN博客&#xff0c;谢谢&#xff01;