【漫话机器学习系列】133.决定系数(R²:Coefficient of Determination)

news2025/3/16 19:41:47

决定系数(R^2)详解

决定系数(R^2)是回归分析中用于评估模型拟合优度的一个重要统计指标。它表示自变量(特征变量)能够解释因变量(目标变量)变异的程度,取值范围为 [0,1] 或 (−∞,1](取决于模型情况)。在本篇文章中,我们将详细解析 R^2 的数学公式、直观理解、计算方法及其在回归分析中的应用。


1. R^2 的数学定义

决定系数的公式如下:

R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}

其中:

  • y_i :真实值(True Y)
  • \hat{y}_i​ :模型预测值(Predicted Y)
  • \bar{y}:真实值的均值(Mean True Y)
  • \sum (y_i - \hat{y}_i)^2残差平方和(Residual Sum of Squares, RSS),衡量模型预测值与真实值之间的误差。
  • \sum (y_i - \bar{y})^2总平方和(Total Sum of Squares, TSS),衡量目标变量本身的方差。

(1)分子:残差平方和 RSS

RSS = \sum (y_i - \hat{y}_i)^2

这一项表示模型预测值与真实值之间的误差。误差越大,模型拟合效果越差。

(2)分母:总平方和 TSS

TSS = \sum (y_i - \bar{y})^2

它表示目标变量本身的方差,即目标变量 Y 的离散程度。总平方和衡量的是如果我们用 均值 \bar{y} 作为预测值,而不使用任何回归模型时的误差。

(3)决定系数 R^2 的直观意义

R2R^2R2 可以理解为:

  • 模型解释了多少目标变量的变化。如果 R^2 = 0.8,意味着模型可以解释 80% 的目标变量变异。
  • 模型的拟合优度R^2 越接近 1,说明模型的预测能力越强;越接近 0,说明模型几乎没有预测能力。

2. R^2 的取值范围及解读

(1)R^2 = 1

如果 R^2 = 1,则:

\sum (y_i - \hat{y}_i)^2 = 0

即所有预测值完全等于真实值,说明模型完美拟合数据。但这种情况在现实中极少出现,通常发生在过拟合时。

(2)R^2 = 0

如果 R^2 = 0,则:

\sum (y_i - \hat{y}_i)^2 = \sum (y_i - \bar{y})^2

表示模型预测的误差与直接使用均值预测的误差相同,说明模型没有任何预测能力。

(3)R^2 < 0

理论上 R^2 不会小于 0,但在某些情况下(如使用不适合的数据或非线性模型时),可能出现 R^2 < 0。这表示模型比简单均值预测还要差,说明模型完全不适用于该数据集。


3. R^2 的直观解释

在图中:

  • 分子(蓝色部分)表示预测值与真实值之间的误差平方和(RSS)。
  • 分母(绿色部分)表示真实值与均值之间的误差平方和(TSS)。
  • 公式的意义
    • 当预测误差较小时,RSS 较小,使得 R^2 趋近于 1,表示模型较好。
    • 当预测误差较大时,RSS 接近或超过 TSS,导致 R^2 接近 0 或负值,说明模型较差。

4. R^2 的计算示例

假设我们有以下数据:

真实值 y_i预测值 \hat{y}_i
32.8
55.2
76.9
99.1
  1. 计算均值:

    \bar{y} = \frac{3 + 5 + 7 + 9}{4} = 6
  2. 计算总平方和 TSS:

    TSS = (3 - 6)^2 + (5 - 6)^2 + (7 - 6)^2 + (9 - 6)^2= 9 + 1 + 1 + 9 = 20
  3. 计算残差平方和 RSS:

    RSS = (3 - 2.8)^2 + (5 - 5.2)^2 + (7 - 6.9)^2 + (9 - 9.1)^2= 0.04 + 0.04 + 0.01 + 0.01 = 0.1
  4. 计算 R^2

    R^2 = 1 - \frac{0.1}{20} = 0.995

    说明模型的拟合效果非常好。


5. R^2 的局限性

虽然 R^2 是一个重要的评估指标,但它也有一些局限性:

  1. 不能直接判断模型是否合适

    • R^2 可能是由于过拟合,即模型学到了训练数据的噪声而不是数据的真实模式。
    • R^2 并不一定代表模型无效,有时目标变量本身就具有很大随机性。
  2. 不能用于非线性关系

    • R^2 主要用于线性回归模型,如果数据具有非线性关系,即使模型有效,R2R^2R2 也可能较低。
  3. 不能解释因果关系

    • R^2 仅表明自变量和因变量之间的相关性,但不能说明自变量是否真正导致因变量的变化。

6. 结论

  • 决定系数 R^2 衡量模型对目标变量的解释能力,范围通常在 [0,1] 之间
  • R^2 = 1 代表完美拟合,R^2 = 0 代表模型无效,R^2 < 0 代表模型比随机预测还差
  • 尽管 R^2 是重要的评价指标,但在评估回归模型时,应该结合其他指标(如均方误差 MSE、调整 R^2)来全面分析模型性能

这篇文章结合了数学公式、直观理解、示例计算和实际应用,希望能帮助你深入理解决定系数(R^2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2316226.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Machine Learning: 十大基本机器学习算法

机器学习算法分类&#xff1a;监督学习、无监督学习、强化学习 基本的机器学习算法&#xff1a; 线性回归、支持向量机(SVM)、最近邻居(KNN)、逻辑回归、决策树、k平均、随机森林、朴素贝叶斯、降维、梯度增强。 机器学习算法大致可以分为三类&#xff1a; 监督学习算法 (Sup…

【八股文】ArrayList和LinkedList的区别

先讲讲两者是如何实现的 ArrayList public class ArrayList<E> extends AbstractList<E>implements List<E>, RandomAccess, Cloneable, java.io.Serializable {transient Object[] elementData; private int size; } 通过源码可以看出&#xff0c;ArrayLis…

汇编语言 | 王爽 | 学习笔记

汇编语言 | 王爽 | 学习笔记 文章目录 汇编语言 | 王爽 | 学习笔记一、基础知识1、指令2、存储器3、总线1、总线2、CPU对存储器的读写3、CPU对外设的控制 4、内存地址空间 二、寄存器1、寄存器2、通用寄存器3、8086CPU给出物理地址的方法4、段寄存器1、CS和IP2、DS 和 [address…

JumpServer基础功能介绍演示

堡垒机可以让运维人员通过统一的平台对设备进行维护&#xff0c;集中的进行权限的管理&#xff0c;同时也会对每个操作进行记录&#xff0c;方便后期的溯源和审查&#xff0c;JumpServer是由飞致云推出的开源堡垒机&#xff0c;通过简单的安装配置即可投入使用&#xff0c;本文…

EDID读取学习

简介 Video BIOS可以被认为是一个具有独立硬件抽象层的操作系统。它不会阻止或监视操作系统、应用程序或设备驱动程序对硬件的直接访问。虽然不推荐,但一些DOS应用程序确实可以改变基本的硬件设置,而根本不需要通过视频BIOS。大多数现代应用程序和操作系统都避免直接使用硬件…

【笔记】深度学习模型训练的 GPU 内存优化之旅:综述篇

开设此专题&#xff0c;目的一是梳理文献&#xff0c;目的二是分享知识。因为笔者读研期间的研究方向是单卡上的显存优化&#xff0c;所以最初思考的专题名称是“显存突围&#xff1a;深度学习模型训练的 GPU 内存优化之旅”&#xff0c;英文缩写是 “MLSys_GPU_Memory_Opt”。…

2024山东大学计算机复试上机真题

2024山东大学计算机复试上机真题 2024山东大学计算机复试机试真题 历年山东大学计算机复试上机真题 历年山东大学计算机复试机试真题 在线评测&#xff1a;传动门&#xff1a;pgcode.cn 最长递减子序列 题目描述 输入数字 n&#xff0c;和 n 个整数&#xff0c;输出该数字…

Vue 计算属性与 Data 属性同名问题深度解析

文章目录 1. 问题背景与核心概念1.1 Vue 响应式系统架构1.2 核心概念定义 2. 同名问题的技术分析2.1 同名场景示例2.2 问题发生机制 3. 底层原理剖析3.1 Vue 初始化流程3.2 响应式系统关键代码 4. 问题解决方案4.1 最佳实践建议4.2 错误处理机制 5. 性能影响分析5.1 递归调用性…

[文献阅读] 可变形卷积DCN - Deformable Convolutional Networks

**文献信息&#xff1a;**Deformable Convolutional Networks arxiv.org/abs/1703.06211 发表于ICCV 2017&#xff0c;提出了可变形卷积DCN&#xff08;Deformable ConvNets&#xff09; 摘要 卷积神经网络&#xff08;CNN&#xff09;由于其构建模块固定的几何结构天然地局限…

【统计学相关笔记】2. 多元正态的Cochran定理

fisher 引理 如何说明一个线性变换和二次型独立&#xff1a; 二次型矩阵和线性变换阵乘积0即可。

蓝桥杯刷题——第十五届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组

一、0握手问题 - 蓝桥云课 算法代码&#xff1a; #include <iostream> using namespace std; int main() {int sum0;for(int i49;i>7;i--)sumi;cout<<sum<<endl;return 0; } 直接暴力&#xff0c;题意很清晰&#xff0c;累加即可。 二、0小球反弹 - 蓝…

Canoe Panel常用控件

文章目录 一、Panel 中控件分类1. 指示类控件2. 功能类控件3. 信号值交互类控件4. 其他类控件 二、控件使用方法1. Group Box 控件2. Input/Output Box控件3. Static Text控件4. Button控件5. Switch/Indicator 控件 提示&#xff1a;Button 和 Switch 的区别参考 一、Panel 中…

【软考-架构】11.3、设计模式-新

✨资料&文章更新✨ GitHub地址&#xff1a;https://github.com/tyronczt/system_architect 文章目录 项目中的应用设计模式创建型设计模式结构型设计模式行为型设计模式 &#x1f4af;考试真题题外话 项目中的应用 在实际项目中&#xff0c;我应用过多种设计模式来解决不同…

【大模型(LLMs)RAG 检索增强生成 面经】

1 RAG 基础面 1.1 为什么大模型需要外挂 (向量) 知识库? 如何将外部知识注入大模型,最直接的方法:利用外部知识对大模型进行微调。 思路: 构建几十万量级的数据,然后利用这些数据 对大模型进行微调,以将 额外知识注入大模型 优点: 简单粗暴 缺点: 这几十万量级的数据…

Centos 7 安装达梦数据库

一、环境准备 1. 确认操作系统的版本和数据库的版本是否一致 cat /etc/redhat-release 2. 关闭防火墙 查看防火墙状态 firewall-cmd --state 停止firewall systemctl stop firewalld.service 禁止firewall开机启动 systemctl disable firewalld.service 3. 修改文件l…

@Autowired 注解在构造器上的使用规则(字段注入也挺好的)

背景 在看Spring Framework官方文档时&#xff0c;看到这样一段描述&#xff1a; As of Spring Framework 4.3, an Autowired​ annotation on such a constructor is no longer necessary if the target bean defines only one constructor to begin with. However, if seve…

深度学习视觉2D检测算法综述

目录 一、两阶段目标检测算法 1.1 R-CNN&#xff08;Region-based CNN&#xff0c;2014&#xff09; 1.2 Fast R-CNN&#xff08;Fast Region-based CNN&#xff0c;2015&#xff09; 1.3 Faster R-CNN&#xff08;Faster Region-based CNN&#xff0c;2016&#xff09; 1…

复试不难,西电马克思主义学院—考研录取情况

01、马克思主义学院各个方向 02、24马克思主义学院近三年复试分数线对比 PS&#xff1a;马院24年院线相对于23年院线增加15分&#xff0c;反映了大家对于马克思主义理论学习与研究的热情高涨&#xff0c;也彰显了学院在人才培养、学科建设及学术研究等方面的不断进步与成就。 6…

【A2DP】深入解读A2DP中通用访问配置文件(GAP)的互操作性要求

目录 一、模式支持要求 1.1 发现模式 1.2 连接模式 1.3 绑定模式 1.4 模式间依赖关系总结 1.5 注意事项 1.6 协议设计深层逻辑 二、安全机制&#xff08;Security Aspects&#xff09; 三、空闲模式操作&#xff08;Idle Mode Procedures&#xff09; 3.1 支持要求 …

分享一个免费的CKA认证学习资料

关于CKA考试 CKA&#xff08;Certified Kubernetes Administrator&#xff09;是CNCF基金会&#xff08;Cloud Native Computing Foundation&#xff09;官方推出的Kubernetes管理员认证计划&#xff0c;用于证明持有人有履行Kubernetes管理的知识&#xff0c;技能等相关的能力…