基于回归模型(贝叶斯岭回归、XGB、SVR等)销售额预测

news2024/12/23 23:18:02

博主在之前也写过较多的预测模型的文章,主要是基于LSTM,见下:
使用 Conv1D-LSTM 进行时间序列预测:预测多个未来时间步【优化】
使用 Conv1D-LSTM 进行时间序列预测:预测多个未来时间步
LSTM-理解 Part-1(RNN:循环神经网络)
Python LSTM时序数据的预测(一些数据处理的方法)
机器学习 Pytorch实现案例 LSTM案例(航班人数预测)
接下来主要是依据回归模型对销售进行预测,见下:

导入库

import pandas as pd
import numpy as np
from sklearn.linear_model import BayesianRidge, ElasticNet 
from sklearn.svm import SVR 
from xgboost import XGBRegressor
from sklearn.ensemble import GradientBoostingRegressor 
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import explained_variance_score, mean_absolute_error, \
mean_squared_error, r2_score 
import matplotlib.pyplot as plt 
from sklearn.model_selection import GridSearchCV 

这段代码是Python中常见的用于机器学习和数据分析的库的导入。机器学习的库有(BayesianRidge和ElasticNet线性回归模型类,SVR支持向量回归模型,XGBRegressor类,GradientBoostingRegressor类),具体解释如下:

  • import pandas as pd: 导入Pandas库并用别名pd表示,Pandas是一个用于数据分析的Python库,提供了数据结构和数据分析工具。
  • import numpy as np: 导入NumPy库并用别名np表示,NumPy是一个Python科学计算库,提供了用于数组处理、线性代数、傅里叶变换等方面的函数和工具。
  • from sklearn.linear_model import BayesianRidge, ElasticNet: 从Scikit-learn库中导入BayesianRidge和ElasticNet线性回归模型类,Scikit-learn是一个Python机器学习库,提供了各种监督学习和非监督学习算法的实现。
  • from sklearn.svm import SVR: 从Scikit-learn库中导入SVR支持向量回归模型类,支持向量机是一种常见的分类和回归算法。
  • from xgboost import XGBRegressor: 从XGBoost库中导入XGBRegressor类,XGBoost是一个流行的梯度提升框架,用于解决分类和回归问题。
  • from sklearn.ensemble import GradientBoostingRegressor: 从Scikit-learn库中导入GradientBoostingRegressor类,梯度提升回归是一种常见的集成学习算法。
  • from sklearn.preprocessing import StandardScaler: 从Scikit-learn库中导入StandardScaler类,StandardScaler是一种数据标准化方法。
  • from sklearn.metrics import explained_variance_score, mean_absolute_error, mean_squared_error, r2_score: 从Scikit-learn库中导入解释方差得分、平均绝对误差、均方误差和R平方得分四种回归模型评估指标。
  • import matplotlib.pyplot as plt: 导入Matplotlib库并用别名plt表示,Matplotlib是一个用于绘图的Python库。
  • from sklearn.model_selection import GridSearchCV: 从Scikit-learn库中导入GridSearchCV类,用于进行网格搜索,以找到最优的模型超参数组合。

读取数据

这里的数据可私信给作者获取。

raw_data = pd.read_csv('./data/regression.txt', delimiter=' ', header=None)  # 读取数据文件
raw_data.head()

在这里插入图片描述

特征工程

# 拆分因变量
X_raw,y = raw_data.iloc[:, :-1],raw_data.iloc[:, -1]  # 分割自变量,因变量

# 数据标准化
model_ss = StandardScaler()
X = model_ss.fit_transform(X_raw)
X = pd.DataFrame(X, columns=raw_data.columns[:-1])

这段代码主要是进行数据预处理,包括拆分因变量和数据标准化两部分,具体解释如下:

  • X_raw,y = raw_data.iloc[:, :-1],raw_data.iloc[:, -1]: 通过iloc函数从原始数据raw_data中分割出自变量X_raw和因变量y:, :-1表示选取所有行和除了最后一列之外的所有列作为自变量,[:, -1]表示选取所有行和最后一列作为因变量。这里假设数据的最后一列是因变量列。
  • model_ss = StandardScaler(): 创建一个StandardScaler对象model_ss,用于进行数据标准化。
  • X = model_ss.fit_transform(X_raw): 使用fit_transform()方法对自变量X_raw进行数据标准化,即对每个特征进行均值为0,方差为1的标准化处理。
  • X = pd.DataFrame(X, columns=raw_data.columns[:-1]): 将标准化后的自变量X转换为DataFrame对象,并将列名设置为原始数据中除了因变量列之外的列名,即raw_data.columns[:-1]。这里的目的是保持自变量的列名不变,以便于后续的数据分析和建模。
# 样本拆分
num = int(X.shape[0]*0.7)
X_train,X_test = X.iloc[:num,:],X.iloc[num:,:] # 拆分训练集和测试集
y_train,y_test = y[:num],y[num:] # 拆分训练集和测试集

训练集是70%;测试集是30%

数据建模

模型构建

# 初选回归模型
model_names = ['BayesianRidge', 'XGBR', 'ElasticNet', 'SVR', 'GBR']  # 不同模型的名称列表
model_br = BayesianRidge()  # 贝叶斯岭回归
model_xgbr = XGBRegressor(random_state=0)  # XGBR
model_etc = ElasticNet(random_state=0)  # 弹性网络回归
model_svr = SVR(gamma='scale')  # 支持向量机回归
model_gbr = GradientBoostingRegressor(random_state=0)  # 梯度增强回归
model_list = [model_br, model_xgbr, model_etc,model_svr, model_gbr]
pre_y_list = [model.fit(X_train, y_train).predict(X_test) for model in model_list]  # 各个回归模型预测的y值列表

这段代码主要是对几个常用的回归模型进行初步筛选,包括:

  • model_names = ['BayesianRidge', 'XGBR', 'ElasticNet', 'SVR', 'GBR']: 定义一个列表,包含不同模型的名称。
  • model_br = BayesianRidge(): 创建一个贝叶斯岭回归对象model_br
  • model_xgbr = XGBRegressor(random_state=0): 创建一个XGBoost回归对象model_xgbr,并指定随机数种子random_state为0。
  • model_etc = ElasticNet(random_state=0): 创建一个弹性网络回归对象model_etc,并指定随机数种子random_state为0。
  • model_svr = SVR(gamma='scale'): 创建一个支持向量机回归对象model_svr,并指定gamma='scale'表示使用默认的Gamma参数。
  • model_gbr = GradientBoostingRegressor(random_state=0): 创建一个梯度增强回归对象model_gbr,并指定随机数种子random_state为0。
  • model_list = [model_br, model_xgbr, model_etc,model_svr, model_gbr]: 将上述5个回归模型对象存放到列表model_list中。
  • pre_y_list = [model.fit(X_train, y_train).predict(X_test) for model in model_list]: 针对每个回归模型对象,利用fit()方法对训练集进行拟合,然后使用predict()方法对测试集进行预测,最终将预测结果存储在列表pre_y_list中。这里假设已经将原始数据集分成了训练集和测试集,分别为X_trainX_testy_trainy_test

模型评估

# 模型效果评估
n_samples, n_features = X.shape  # 总样本量,总特征数
model_metrics_functions = [explained_variance_score, mean_absolute_error, mean_squared_error,r2_score]  # 回归评估指标对象集
model_metrics_list = [[m(y_test, pre_y_list[i]) for m in model_metrics_functions] for i in range(len(model_list))]  # 回归评估指标列表
regresstion_score = pd.DataFrame(model_metrics_list, index=model_names,
                   columns=['explained_variance', 'mae', 'mse', 'r2'])  # 建立回归指标的数据框
print('all samples: %d \t features: %d' % (n_samples, n_features),'\n','-'*60)  # 打印输出样本量和特征数量
regresstion_score  # 模型回归指标

在这里插入图片描述

结果可视化

# 模型效果可视化
plt.figure(figsize=(10, 10)) 
for i, pre_y in enumerate(pre_y_list):  
    plt.subplot(len(pre_y_list)+1,1,i+1) # 子图6行*1列
    plt.plot(np.arange(len(y_test)), y_test, color='k', label='true y')  
    plt.plot(np.arange(len(y_test)), pre_y_list[i], 'g--', label=model_names[i])  
    plt.title('True and {} result comparison'.format(model_names[i])) 
    plt.legend(loc='upper right')  
    plt.grid()
    plt.tight_layout() # 自动调整子图间隔

plt.savefig(fname="./demo_1.png", dpi=300)
plt.show()

在这里插入图片描述

模型优化

上述初始模型XGBR与GBR表现较优。这里以XGBR为例进行网格搜索+交叉验证

clf = XGBRegressor(random_state=0)  # 建立GradientBoostingRegressor回归对象,该模型较好处理特征量纲与共线性问题
parameters = {
              'n_estimators': [10, 50, 100, 500],
              'learning_rate': [0.05, 0.1, 0.3, 0.5],
              'max_depth': [5, 6, 7, 10]}  # 定义要优化的参数信息
model_gs = GridSearchCV(estimator=clf,
                        param_grid=parameters, cv=5, scoring='r2', n_jobs=-1)  # 建立交叉检验模型对象
model_gs.fit(X_train, y_train)  # 训练交叉检验模型
print('Best score is:', model_gs.best_score_)  # 获得交叉检验模型得出的最优得分
print('Best parameter is:', model_gs.best_params_)  # 获得交叉检验模型得出的最优参数

在这里插入图片描述

用最佳训练模型预测数据

model_xgbr = model_gs.best_estimator_  # 获得交叉检验模型得出的最优模型对象
pre_y = model_xgbr.predict(X_test)

评估模型效果,结果是优于上次的

model_metrics_list = [[m(y_test, pre_y) for m in model_metrics_functions]]  # 回归评估指标列表
regresstion_score = pd.DataFrame(model_metrics_list, index=['model_xgbr'],
                   columns=['explained_variance', 'mae', 'mse', 'r2'])  # 建立回归指标的数据框
regresstion_score  # 模型回归指标

在这里插入图片描述

模型结果可视化:

plt.figure(figsize=(10, 2))  # 创建画布
plt.plot(np.arange(len(y_test)), y_test, color='k', label='true y')  # 画出原始值的曲线
plt.plot(np.arange(len(y_test)), pre_y, 'g--', label='XGBR')  # 画出每条预测结果线
plt.title('True and {} result comparison'.format('XGBR'))  # 标题
plt.legend(loc='upper right')  # 图例位置
plt.tight_layout() # 自动调整子图间隔

在这里插入图片描述

PASS:一些可视化的优化,第二张图可添加未改良之前的线。见下:
在这里插入图片描述

总结:机器学习中用于回归的算法也较多,而且不难发现XGBoost在回归预测中也具有较好的表现,因此在日常业务中,碰到挖掘任务可首选XGBoost~

Reference

基于回归模型的销售预测

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/535471.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux kernel 释出3.18.48,或将是3.18最后一版

Linux 稳定版内核维护者 Greg Kroah-Hartman 出人意料的宣布释出 Linux kernel 3.18 LTS的新版本,而 3.18 LTS 原计划于今年1月终止支持。Kroah-Hartman 释出了 3.18.48,修正了 3.18.47 和 3.18.27 的一个bug,他希望这个版本将是 3.18 分支的…

如何停止一个线程?

文章目录 停止线程的场景强制停止线程优雅停止线程使用标志位使用interrupt()方法 总结 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 如何停止一个线程?这是本人面试中遇到…

Git之GitFlow工作流 | Gitflow Workflow(万字整理,已是最详)

目录 🩸 写在前面 一、 GitFlow 介绍 1.1 什么是 GitFlow 1.2 GitFlow 常用分支说明 1.3 Git flow中的分支介绍 1.3.1 主要分支(Master) 1.3.2 开发分支(Develop) 1.3.3 功能分支(Feature&#xff…

百度发布2023年Q1财报:营收311亿元,净利润大幅增长48%

北京时间5月16日,百度(NASDAQ:BIDU,HKEX:9888)发布了截至2023年3月31日的第一季度未经审计的财务报告。第一季度,百度实现营收311亿元,同比增长10%;归属百度的净利润&…

C++数据结构:哈希桶 -- 通过开散列的方法解决哈希冲突

目录 一. 什么是哈希桶 二. 哈希桶的实现 2.1 哈希表节点数据 2.2 特定Key值的查找find 2.3 哈希桶的扩容 2.4 数据插入操作insert 2.5 数据删除操作erase 2.6 哈希桶的析构函数 附录:哈希桶的实现完整版代码 一. 什么是哈希桶 之前的博客中我提到过&…

手机突然被停机了,那你可能‘摊上’这些问题了!

最近总是有小伙伴私信小编,手机明明有话费,但是不能用流量也不能打电话。小编一通分析,信号好,未欠费,八成是手机被停机了。结论一出,小伙伴更懵逼了,手机还可以被停机?今天这个视频…

一.手把手教你部署项目-VMware安装Centos

前言 市场内卷,只会写代码的程序员可没那么吃香了,在企业中很多时候会要求后端程序写前端,甚至做运维,因为小公司为了解决成本是不会请专门的运维人员的。所以对于后端程序原来说,会一些运维只是必不可少的&#xff0…

TCP协议/UDP协议(三次握手/四次挥手)

TCP协议 保证传输过程的三个关键的步骤,分别为三次握手、传输确认、四次挥手。 三次握手 三次握手是建立连接的过程,当客户端向服务端发起连接时,会先发一包连接请求数据,过去询问一下,能否与你建立连接,…

IPv4和IPv6协议

IPv4和IPv6报文比较 IPv4报文格式 IP Packet(IP数据包),其包头主要内容如下: Version:4 bit,4:表示为IPv4;6:表示为IPv6。 Header Length:4 bit,首部长度,如果不带Option字段,则为20,最长为60。 Type

找回 Windows 映射网络驱动器密码

随着越来越多的人使用 NAS(网络云硬盘),各种网络映射驱动器的问题也随之出现。最近有个客户要换电脑。换电脑之后就无法访问 NAS 了,因为他记不得他 NAS 里边设置的用户名密码。还好他之前的电脑有保存这些密码记录。 第一次链接 …

【算法学习系列】02 - 你真的有好好使用过 Math.random() 函数吗?

文章目录 说明验证函数等概率返回功能验证 [0, 8)上也是等概率返回一个数的功能验证等概率返回[0, K - 1]中的一个整数实现:任意x,x属于[0, 1),[0, x)范围上的数出现概率由原来的x调整成x平方 说明 获取随机数大家应该都有用到过 Math.random…

PMP课堂模拟题目及解析(第10期)

91. 在项目执行阶段,一名项目干系人要求项目经理加入一个新过程的优化。项目经理应该怎么做? A. 执行实施整体变更控制过程。 B. 与过程专家一起审查项目。 C. 将优化项目分配给团队。 D. 拒绝范围蔓延企图。 92. 项目经理要求团队提供对项目应急计…

【LeetCode】415. 字符串相加

415. 字符串相加(简单) 方法一 思路 这道题很简单,我们知道,如果对两个数相加,那么需要对位相加,为了方便对位,我们可以对长度较小的字符串前面补 0,使得 num1 和 num2 长度相等。…

美团Java开发一面凉经

目录 1.HashMap底层数据结构2.列举几个常见的线程安全容器3.HashMap线程问题4.concurrentHashMap5.ConcurrentModificationException6.Spring AOP、IOC、DI介绍下7.不使用依赖注入,使用传统方式的声明会有什么问题8.最左前缀原则9.TCP三次握手、四次挥手 1.HashMap底…

EasyExcel读取EXcel文件内容

目录 一 官方文档介绍 二 读取文件内容 1.根据文档内容建立读对象 2.创建读监听器 3.测试类代码 一 官方文档介绍 Java解析、生成Excel比较有名的框架有Apache poi、jxl。但他们都存在一个严重的问题就是非常的耗内存,poi有一套SAX模式的API可以一定程度的解决…

(二十三)数据结构-哈希表

1 哈希表的基本介绍 1.1 用于存储的数据结构 在计算机中,数组和链表都可以用于数据的存储,既然有数据存储,那么必然要有数据的查询,因此我们在将数据存储进数组和链表中之后,必然要对它们进行查询操作。一个链表的查…

java+springboot+jsp农产品商城农场信息化系统多用户

系统功能包括前台:首页、商品信息、新闻资讯、我的、跳转到后台、购物车,管理员:个人中心、用户管理、员工管理、技术专家管理、部门信息管理、资金统计管理、农资信息管理、商品分类管理、商品信息管理、入库记录管理、出库记录管理、销售统…

如何调用api接口获取其中的数据

part1.API接口可以运用到的场景,主要包括以下几个方面: 1. 应用程序集成:API可以使不同的应用程序相互之间进行集成,比如将某个应用程序的数据传递给另一个应用程序,或者调用另一个应用程序的功能。 2. 数据共享&#…

cocos2dx游戏项目,集成到其他安卓项目工程之中!

背景 公司,想优化掉,在app中,以webview方式,加载游戏的方式。以安卓项目为例,改成:游戏项目导出安卓工程,可直接使用的aar资源。 第一步:cocos项目,构建安卓工程 安装…

icmp协议

1、icmp协议 2、工具之ping -c (设置ping的次数,默认无限次,可选) -i (设置ping的时间间隔,默认1秒,可选) -W (设置ping的超时时间,单位秒,可选) ping -c 3 -i 0.1 -W 0.1 www.baidu.com-i 自定义时间间…