【Sklearn驯化-回归指标】一文搞懂机器学习中回归算法评估指标:mae、rmse等

news2024/11/15 15:26:55

【Sklearn驯化-回归指标】一文搞懂机器学习中回归算法评估指标:mae、rmse等
 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 免费获取相关内容文档关注:微信公众号,发送 pandas 即可获取
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

🌵文章目录🌵

    • 🎯 1. 基本介绍
    • 💡 2. 指标介绍
      • 2.1 MAE:平均绝对误差
      • 2.2 MSE:均方误差
      • 2.2 RMSE:均方误差
      • 2.3 MAPE:平均绝对百分比误差
      • 2.4 SMAPE:平均绝对百分比误差
      • 2.5 WMAPE:加权的百分比误差
      • 2.6 决定系数(R-squared, R²)
    • 🔍 3. 代码实践
      • 3.1 导入库和准备数据
      • 3.2 训练回归模型
      • 3.2 指标计算
    • 🔍 4. 注意事项
    • 🔍 5. 总结

下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 1. 基本介绍

  回归分析是统计学中用于估计变量之间关系的一种方法。在机器学习中,回归模型用于预测连续的输出值。scikit-learn(简称sklearn)提供了多种回归指标来评估模型的预测性能。

💡 2. 指标介绍

2.1 MAE:平均绝对误差

  mae是回归模型中常用的评估指标之一。它用于衡量模型预测结果与真实值之间的平均绝对差异程度,即平均预测误差的绝对值。计算MAE的公式如下:
L = 1 m ∑ i = 1 m ∣ y i − y ^ i ∣ L=\frac{1}{m}\sum_{i=1}^{m}|y_i - \hat{y}_i| L=m1i=1myiy^i
  MAE的值越小,表示模型的预测能力越好。它具有对异常值不敏感的特点,适用于对预测结果的平均误差情况进行评估。在sklearn中,可以使用mean_absolute_error函数来计算MAE。

2.2 MSE:均方误差

  它用于衡量模型预测结果与真实值之间的均方差,即平均预测误差的平方
L = 1 m ∑ i = 1 m ( y i − y ^ ) 2 L=\frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y})^2 L=m1i=1m(yiy^)2
   该方法会放大预测值偏大的,对异常值比较敏感,MSE的值越小,表示模型的预测能力越好。它在某些情况下比均绝对误差(MAE)更敏感,因为它对预测值与真实值之间的较大误差进行了平方处理。但是MSE的值的量纲是原始数据平方,可能不易于直观理解。

2.2 RMSE:均方误差

  均方根误差是MSE的平方根,它与原始数据具有相同的单位。
L = 1 m ∑ i = 1 m ( y i − y ^ ) 2 L=\sqrt{\frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y})^2} L=m1i=1m(yiy^)2
  因为使用的是平均误差,而平均误差对异常点较敏感,如果回归器对某个点的回归值很不合理,那么它的误差则比较大,从而会对RMSE的值有较大影响,即平均值是非鲁棒的。

2.3 MAPE:平均绝对百分比误差

  
L = 1 n ∑ i = 1 m ∣ y i − y ^ i y i ∣ L=\frac{1}{n}\sum_{i=1}^{m}|\frac{y_i-\hat{y}_i}{y_i}| L=n1i=1myiyiy^i

评价的是相对于真实值的误差比例,但是有一个问题就是,如果真实值为0的话,该评价指标无效
如果预测值小于真实值(低估),如果大于(高估)
低估: 此时, 即上界为100;
高估: 此时, 即上界为无穷大.
由于高估会带来较大惩罚, 为了最小化MAPE值, 算法会倾向低估, 从而导致预测的销量偏低.

2.4 SMAPE:平均绝对百分比误差

  该方法可以处理掉真实值为0的情况,但是如果预测值也为0的话就会有问题
L = 1 n ∑ i = 1 m ∣ y i − y ^ i ∣ ∣ y i ∣ + ∣ y i ^ ∣ L=\frac{1}{n}\sum_{i=1}^{m}\frac{|y_i-\hat{y}_i|}{|y_i|+|\hat{y_i}|} L=n1i=1myi+yi^yiy^i

在实际的销量预测中, 由于销量的上界通常是有限的(通过经验可以预估), 因而即使出现"高估"的情形, 预测销量一般不会超过实际销量的常数倍(例如不超过10倍). 从这个角度来看, 高估时误差的上界一般低于低估时对应的上界. 换句话说, 低估带来的惩罚比高估大. 因此如果使用SMAPE作为误差指标, 其预测销量一般会高于实际销量.

2.5 WMAPE:加权的百分比误差

  该方法的好处就是可以处理mape这个问题:例如一件卖了10件的商品预测值在5-15之间和卖了5000件的商品预测在4955-5005的贡献的mape是一样的,但显然两个预测的准确度差异巨大。该方法给销量的商品更大的权重。
L = ∑ n ∣ y i − y ^ i ∣ ∑ n y i L=\frac{\sum_{n}|y_i - \hat{y}_i|}{\sum_{n}y_i} L=nyinyiy^i

2.6 决定系数(R-squared, R²)

  决定系数衡量模型捕捉数据可变性的程度。具体的公式如下所示:
r 2 = ∑ i = 1 n ( y i − y i ′ ) 2 ∑ i = 1 n ( y i − y 平均 ) 2 r^2=\frac{\sum_{i=1}^{n}(y_i-y'_i)^2}{\sum_{i=1}^{n}(y_i-y平均)^2} r2=i=1n(yiy平均)2i=1n(yiyi)2

🔍 3. 代码实践

3.1 导入库和准备数据

   下面我们对相关的公式进行构造数据,并通过代码对其进行实践操作,具体的代码如下所示:

from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression

# 生成模拟回归数据
X, y = make_regression(n_samples=100, n_features=1, noise=0.4, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

3.2 训练回归模型

   为了能够更加清晰的看出来各个指标的效果,我们训练一个回归模型然后来看各个指标之间的差异性,具体的代码如下所示:

# 创建线性回归模型并训练
model = LinearRegression()
model.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = model.predict(X_test)

3.2 指标计算

   下面我们根据预测和真实值之间的差异性来计算回归模型的指标,具体的代码如下所示:

# 计算MSE和RMSE
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5

print(f"均方误差: {mse:.2f}")
print(f"均方根误差: {rmse:.2f}")

# 计算R-squared
r2 = r2_score(y_test, y_pred)
print(f"决定系数: {r2:.2f}")

  

🔍 4. 注意事项

  • 回归指标的选择应基于模型的目标和数据的特性。
  • MSE和RMSE对异常值敏感,如果数据中包含异常值,可能需要考虑使用其他指标。
  • R-squared虽然直观,但增加变量时可能会产生误导,考虑使用调整R-squared。

🔍 5. 总结

  回归指标是评估回归模型预测性能的重要工具。scikit-learn提供了多种指标,包括MSE、RMSE和R-squared,帮助我们量化模型的准确性和有效性。通过本博客的代码示例,我们学习了这些指标的计算方法和实际应用。希望这篇博客能够帮助你更好地理解sklearn中的回归指标,并将其应用于实际的回归分析中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1868760.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Web渗透-命令执行漏洞及常见靶场探测实战

一、概述 命令执行(RCE):应用有时需要调用一些执行系统命令的函数,如php中的system,exec,shell exec,passthru,popen,proc popen等,当用户能控制这些函数的参数时,就可以将恶意系统命令拼接到正常命令中&a…

Open AI不能用了,国产大模型疯狂整活

行业开启新一轮竞争。 国产大模型公司集体出手 来活了,国内AI大模型市场又要热闹一阵了。 近日,市场消息称,Open AI在其官方邮件表示,**从7月9日开始,将采取额外措施阻止来自非支持国家和地区的API(应用程…

SyntaxError: Unexpected token ‘<‘ (at chunk-vendors.fb93d34e.js:1:1)打包后页面白屏vue

本地运行一切正常,打包到线上,页面一篇空白。我确定输入路径正确。。。 控制台报错,我就开始百度,有的说清空缓存就行了,但我清空了还是这样。。。 然后我就去排查原因。看到页面请求js,但是请求的好像有点…

气膜体育馆对高度的要求—轻空间

在现代体育场馆的建设中,气膜体育馆以其独特的优势,逐渐成为人们关注的焦点。不同于传统的钢筋混凝土结构,气膜体育馆以其轻盈、灵活、环保的特点,为人们带来了全新的体育体验。在设计与建设气膜体育馆时,高度是一个关…

AI数据分析007:根据Excel表格数据绘制柱形图

文章目录 一、介绍二、输入内容三、输出内容一、介绍 将Excel文件中2013年至2019年间线上图书的销售额,以条形图的形式呈现,每个条形的高度代表相应年份的销售额,同时在每个条形上方标注具体的销售额数值 二、输入内容 在deepseek中输入提示词: 你是一个Python编程专家,…

线性代数|机器学习-P16矩阵A的导数

文章目录 1. 概述2. 求 d A − 1 ( t ) d t \frac{\mathrm{d}A^{-1}(t)}{\mathrm{d}t} dtdA−1(t)​3. 求 d λ ( t ) d t \frac{\mathrm{d}\lambda(t)}{\mathrm{d}t} dtdλ(t)​3.1 A 和 A T A^T AT有相同的特征值3.2 特征向量单位化3.3 求 λ ( t ) \lambda(t) λ(t) 4. 交替…

手持小风扇哪个牌子比较好?五大手持小风扇品牌推荐

随着夏季的到来,气温日益升高。除了空调,各式各样的小风扇成为当下年轻人的热门宠儿。但是市面上的种类比较多,很多人都不知道该怎么选择,因为我也是买过很多产品了,收获了一些经验,接下来就把我觉得比较好…

大模型们拿着锤子找钉钉

今年的大模型赛道,看不见硝烟,却是一个白热化的战场。 这背后是对更大场景、更大规模用户入口和先发优势的争夺。在AGI尚未到来的当下,行业有一个共识:真实场景中的大规模应用,是大模型价值验证和通往AGI的必由之路。…

WPS-Word文档表格分页

一、问题描述 这种情况不好描述 就是像这种表格内容,但是会有离奇的分页的情况。这种情况以前的错误解决办法就是不断地调整表格的内容以及间隔显得很乱,于是今天去查了解决办法,现在学会了记录一下避免以后忘记了。 二、解决办法 首先记…

一键系统重装教程:电脑重装系统,5个方法轻松恢复电脑

在日常使用电脑的过程中,难免会遇到系统故障、运行缓慢或者病毒感染等问题,重装系统成为解决这些问题的有效途径。然而,对于许多小伙伴来说,电脑重装系统似乎是一项复杂且耗时的任务。其实,只要掌握了正确的方法&#…

什么是港股通?港股通碎股如何进行交易佣金最低万0.8?

港股通是一种投资渠道,它允许符合条件的内地投资者通过内地的证券账户,间接地买卖在香港联合交易所上市的股票。这一机制是沪港通和深港通计划的一部分,旨在促进内地与香港资本市场的互联互通。 ### 港股通的特点包括: - 交易范…

AI大模型会有意识的出千吗?

1. 引言 1.1 研究背景,AI系统中的规范游戏问题 在人工智能(AI)系统的发展过程中,规范游戏(specification gaming)一直是一个令研究者们头疼的问题。规范游戏指的是AI系统学习到一些意想不到的行为,这些行为虽然能够获得高奖励,但…

上班族真的有必要买智能猫砂盆吗?解放双手刻不容缓!

养猫家庭真是出不了一点远门,但凡外出的时间久了,家里的猫屎就堆积成山,不及时铲掉的话,回来一进门就能在猫砂盆中挖出满满当当的“宝藏”,仔细一闻还能闻到空气中散发的阵阵“清香”。忍无可忍的我最后借助科技的力量…

浅谈逻辑控制器之随机控制器

浅谈逻辑控制器之随机控制器 随机控制器(Random Controller)是众多逻辑控制器中的一种,它为测试脚本引入了随机性,提高了模拟真实用户行为的灵活性。 随机控制器的功能 随机控制器的作用在于从其直接子元素(通常是采样器)中随机…

“ONLYOFFICE 8.1版本评测:功能更强大,用户体验更佳”

最新版本的在线编辑器已经发布 ONLYOFFICE在线编辑器的最新版本8.1已经发布,整个套件带来了30多个新功能和432个bug修复。这个强大的文档编辑器支持处理文本文档、电子表格、演示文稿、可填写的表单和PDF,并允许多人在线协作,同时支持AI集成…

火山引擎ByteHouse:新一代云数仓必不可少的五大核心能力

从数据库领域的发展历程来看,分析型数据库已有 40 多年的发展历史,与数据库基本同时代。从OLTP 和 OLAP 的分支来看,分析型数据库支持了海量数据规模下的聚合性分析。尤其是随着移动互联网甚至 AI 等领域的发展,用户画像行为分析的…

C#校园在线投票系统-计算机毕业设计源码10577

摘 要 随着互联网大趋势的到来,社会的方方面面,各行各业都在考虑利用互联网作为媒介将自己的信息更及时有效地推广出去,而其中最好的方式就是建立网络管理系统,并对其进行信息管理。由于现在网络的发达,校园投票通过网…

AI产品经理如何快速接手一个新产品?

我们到一家新的公司,往往都有现成的产品需要你熟悉,这个对你来说就是一个新产品。 又或者说,公司要搭建一个新的项目,让你负责,需要你从0开始去接手,最终去上线,去推广,去盈利&…

项目实训-vue(八)

项目实训-vue(八) 文章目录 项目实训-vue(八)1.概述2.医院动态图像轮播3.页面背景板4.总结 1.概述 除了系统首页的轮播图展示之外,还需要在医院的首页展示医院动态部分的信息,展示医院动态是为了确保患者、…

pdf压缩,pdf压缩在线,pdf压缩在线网页版

当我们遇到PDF文件过大,需要压缩其容量大小时,通常是为了更方便地传输、存储或分享这些文件。PDF文件的大小可能因其包含的图像、字体等元素的数量和质量而有所不同。下面,我们将详细介绍压缩PDF容量大小的方法,帮助您轻松实现文件…