【机器学习300问】43、回归模型预测效果明明很好,为什么均方根误差很大?

news2024/9/22 21:36:08

一、案例描述        

        假设我们正在构建一个房地产价格预测模型,目标是预测某个城市各类住宅的售价。模型基于大量房屋的各种特征(如面积、地段、房龄、楼层等)进行训练。 回归模型在大部分情况下对于住宅价格预测非常精准,用户反馈也非常好,模型的实际预测能力在业界得到了认可。但RMSE指标却依旧很高这是为什么?

二、原因分析

        均方根误差(Root Mean Square Error, RMSE)是机器学习中广泛使用的衡量预测模型准确度的标准之一。它通过计算预测值与真实值之间差异的平方平均值的平方根来量化模型预测的平均偏差。通常情况下,较低的RMSE意味着模型有更好的预测性能。下面是他的计算公式:

RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}

符号解释
n真实值的总数
y_ii个真实值
\hat{y}_ii个预测值
(y_i - \hat{y}_i)^2i个真实值与预测值之间的误差的平方,用来消除误差的正负号影响
\sum_{i=1}^{n} (y_i - \hat{y}_i)^2所有残差平方的总和

        案例原因:大多数房屋的价格都在一个合理的区间内变动,但如果有少数几个极其昂贵或极其便宜的离群点(例如,异常低价的房源或超级豪宅),模型很可能对这些点的预测误差极大。将这些误差平方后纳入总误差的计算中,会明显增大总的误差平方和,而开平方是在计算完平方和之后才进行的,所以这会显著提高均方根误差。

三、解决方案 

 (1)离群值检测与处理

        可以采用诸如Z-score、IQR(四分位数范围)等方法检测离群值,并根据具体情况选择删除、替换(如使用邻近值填充、插值等方法)离群点或者保留(如果离群值是有意义的真实信息)。

(2)选择更合适的评估指标

        对于存在大量离群点且其重要性不如其他大部分数据的情况,可考虑使用MAPE(平均绝对百分比误差)等对离群值不那么敏感的评价指标。

MAPE = \frac{1}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\%

符号解释
n真实值的总数
y_ii个真实值
\hat{y}_ii个预测值
|y_i - \hat{y}_i|i个真实值与预测值之间的误差的绝对值
\left| \frac{y_i - \hat{y}_i}{y_i} \right|计算每个点的百分比误差
\frac{1}{n} \sum计算所有百分比误差的平均值

【注】MAPE 的结果是一个百分比数值,它表示预测误差占实际值的比例平均值。MAPE 越小,说明预测精度越高。然而,需要注意的是,MAPE 对于真实值接近零的情况非常敏感,当有少量实际值接近或等于零时,会导致 MAPE 计算结果异常增大,引入一个小的常数以避免零分母的情况。

(3)分层建模

        根据数据特点,可以考虑为不同类型的房源(如普通住宅和豪华别墅)分别建立模型,或者在同一个模型中引入类别变量来调整对不同类型的响应。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1536644.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Deep Graph Representation Learning and Optimization for Influence Maximization

Abstract 影响力最大化(IM)被表述为从社交网络中选择一组初始用户,以最大化受影响用户的预期数量。研究人员在设计各种传统方法方面取得了巨大进展,其理论设计和性能增益已接近极限。在过去的几年里,基于学习的IM方法的…

面试算法-81-旋转链表

题目 给你一个链表的头节点 head ,旋转链表,将链表每个节点向右移动 k 个位置。 示例 1: 输入:head [1,2,3,4,5], k 2 输出:[4,5,1,2,3] 解 class Solution {public ListNode rotateRight(ListNode head, int …

语音神经科学—05. Human cortical encoding of pitch in tonal and non-tonal languages

Human cortical encoding of pitch in tonal and non-tonal languages(在音调语音和非音调语言中人类大脑皮层的音高编码) 专业术语 tonal language 音调语言 pitch 音高 lexical tone 词汇音调 anatomical properties 解刨学特性 temporal lobe 颞叶 s…

【蓝桥杯】第15届蓝桥杯青少组stema选拔赛C++中高级真题答案(20240310)

一、选择题 第 1 题 第 2 题 表达式1000/3的结果是( A )。 A.333 B.333.3 C.334 D.333.0 第 3 题 下列选项中,判断a等于1并且b等于1正确的表达式是( B )。 A.!((a!1)&&(b!1)) B.!((a!1)||(b!1)) C.!(a1)&&(b1) D.(a1)&&(b1) 【解析】 A…

论文笔记:Contrastive Multi-Modal Knowledge GraphRepresentation Learning

论文来源:IEEE Transactions on Knowledge and Data Engineering 2023 论文地址:Contrastive Multi-Modal Knowledge Graph Representation Learning | IEEE Journals & Magazine | IEEE Xplorehttps://ieeexplore.ieee.org/abstract/document/9942…

上海晋名室外暂存柜助力新技术皮革制品生产行业安全

本周上海晋名又有一台室外危化品暂存柜项目通过验收,此次项目主要用于新技术皮革制品生产行业油桶、化学品等物资的室外暂存安全。 用户单位创立于2004年,是一家从事新技术皮革制品加工、生产的外资企业。 上海晋名作为一家专注工业安全防护领域&#…

mysql索引(explain 执行计划)

关键词 执行计划 EXPLAIN 语句查看mysql 优化后的语句 show warnings;EXPLAIN 执行后,各列的含义 要点: select_type 如何查询 表type 如何查询 行key 如何使用 索引key_len 索引 使用多少rows 行 预计使用多少extra 表 的额外信息 1.id id列的编…

20240316-1-向量化搜索

向量化搜索 在高维空间内快速搜索最近邻(Approximate Nearest Neighbor)。召回中,Embedding向量的搜索。 FAISS、kd-tree、局部敏感哈希、【Amnoy、HNSW】 FAISS faiss是Facebook的AI团队开源的一套用于做聚类或者相似性搜索的软件库&…

【JSON2WEB】10 基于 Amis 做个登录页面login.html

【JSON2WEB】01 WEB管理信息系统架构设计 【JSON2WEB】02 JSON2WEB初步UI设计 【JSON2WEB】03 go的模板包html/template的使用 【JSON2WEB】04 amis低代码前端框架介绍 【JSON2WEB】05 前端开发三件套 HTML CSS JavaScript 速成 【JSON2WEB】06 JSON2WEB前端框架搭建 【J…

linux系统----------MySQL索引浅探索

目录 一、数据库索引介绍 二、索引的作用 索引的副作用 (缺点) 三、创建索引的原则依据 四、索引的分类和创建 4.1普通索引 4.1.1直接创建索引 4.1.2修改表方式创建 4.1.3创建表的时候指定索引 4.2唯一索引 4.2.1直接创建唯一索引 4.2.2修改表方式创建 4.2.3创建表…

Linux——du, df命令查看磁盘空间使用情况

一、实现原理: df 命令的全称是Disk Free ,显而易见它是统计磁盘中空闲的空间,也即空闲的磁盘块数。它是通过文件系统磁盘块分配图进行计算出的。 du 命令的全称是 Disk Used ,统计磁盘有已经使用的空间。它是直接统计各文件各目…

Qt QGraphicsView移动、缩放

原链接 首先需要明白,view在整个视图框架中的角色是用于显示scene的,所以决定了如何展示scene,包括scale()函数,用于放大缩小所展示的scene;centerOn()函数,决定scene的中心在何方。所有的操作&#xff0c…

移动app测试的好处简析,有必要选择第三方软件测试机构吗?

移动app测试是指对移动应用程序进行全面、系统和深入的检查和验证,以确保其功能、性能和稳定性达到预期要求。在移动应用市场日益竞争激烈的今天,进行移动app测试是至关重要的。 一、移动app测试的好处:   1、具有确保应用质量的作用。通过…

集简云新增“AI图像生成与识别”功能:实现智能图像识别与理解场景

自OpenAI发布GPT-4V以来,也掀起了各大企业对于多模态大模型的研究热潮。和以往的生图模型相比,多模态模型已突破文本限制,图像理解和识别能力尤为突出。 本周,集简云上线AI图像识别与问答功能,集成OpenAI和Anthropic两…

复制浏览器请求到Postman

目录 1.复制链接 2.导入到Postman 1.复制链接 F12打开开发者模式 2.导入到Postman 如上图所示,参数及cookie等信息都被导入进来。

VUE自己项目做的时候遇到的疑惑问题

晚上还在疑惑为什么下面还有一个一模一样的 早上起来,神清气爽,想了一下。原来是我用了两个路由出口

C语言复杂度(个人笔记)

时间复杂度主要衡量一个算法的运行快慢. 空间复杂度主要衡量一个算法运行所需要的额外空间. 时间复杂度 算法中的基本操作的执行次数,为算法的时间复杂度. 只需要大概执行次数,我们使用大O的渐进表示法。(看谁对数学表达式的影响最大) 空间复杂度 是…

学习C++是否有必要学习Boost库?

C作为一门强大且灵活的编程语言,在软件开发领域有着广泛的应用。而在C的学习过程中,Boost库是一个经常被提及的重要资源。那么,对于C的学习者而言,是否有必要投入精力去学习Boost库呢?本文将就此问题展开详尽讨论。 一…

LVGL:拓展部件——键盘 lv_keyboard

一、概述 此控件特点: 特殊Button矩阵:lv_keyboard 本质上是一个经过定制的按钮矩阵控件。每个按钮都可以独立触发事件或响应。预定义的键映射:lv_keyboard 自带了一套预设的按键布局和对应的字符映射表,开发者可以根据需要选择…

js实现hash路由原理

一、简单的上下布局&#xff0c;点击左侧导航&#xff0c;中间内容跟对变化&#xff0c;主要技术使用js检测路由的onhashchange事件 效果图 二、话不多说&#xff0c;直接上代码 <!DOCTYPE html> <html lang"zh"><head><meta charset"…