【小白学机器学习9】自己纯手动计算验证,EXCEL的一元线性回归的各种参数值

news2024/9/25 9:39:30

目录

0 目标

1 构造模型 

1.1 构造模型的思路

1.2 具体模型构造的EXCEL公式和过程

2 直接用EXCEL画图,然后生成趋势线的方式进行回归分析

2.1 先选择“观测值Y”的数据,用散点图或者折线图作图

2.2  然后添加趋势线和设置趋势线格式

2.3  生成趋势线

3 使用EXCEL的 数据/数据分析/回归功能

3.1 功能入口:数据/数据分析/回归功能

3.2 进行回归时,需要注意2个点

3.3 回归分析的结果

4 逐个手动重算“回归统计”里的几个指标

4.1 相关系数

4.1.1 公式

4.1.2  以下是详细计算过程

4.2  先求 SSE SSR SST 以及OLS,再求R2

 4.3 决定系数R**2

4.3.1 公式

4.3.2  R2具体计算

4.4 调整后的R2

4.5 标准误差  SEE

4.6 观测值

5  逐个手动重算“方差分析”里的几个指标

5.1 自由度 DF

5.2 关于SS离差的3个类型 SSR, SSE ,SST

5.3  均方MS

5.3.1 定义

5.3.2  公式

6 RESIDUAL OUTPUT

6.1 残差= y=y^= 观测值-预测值

7 多个模拟直线比较

8 未完成的部分 F检验的显著度 和 T检验的P值 (需要学习F检验,T检验的知识!)

9 未解决的问题

10 python 模拟实操,缺!


0 目标

  • 目标:用EXCEL做一元线性回归的各种参数,手动计算验证EXCEL计算的各个参数的值,自己重新算一遍,了解具体的公式计算过程。
  • 为什么要这么做
    • 看了这么多讲指标运算公式的,大多数都是推导。但很少见到有自己手动,完全验证一遍这些指标计算公式实操的,我自己试试。
  • 目的2个:
    • 还能验证自己整理的公式的对错。
    • 可以加深对公式的理解

1 构造模型 

1.1 构造模型的思路

  • 正常思路:(先有我们大脑里的理想值,也就是假设)→先有观测值 →再回归模型→预测值
  • 我的构造思路: 先作假一个理想数据(公式生成)→生造观测值(加rand扰动)→再回归模型→预测值
  • 为什么要这么搞?
  • 这样我自己相当于,先掌握了理想数据=“正确答案”,然后可以比较到底什么样的模拟更接近我这个预设的正确答案。

1.2 具体模型构造的EXCEL公式和过程

  • 理想数据
    • X:1,2 ...15
    • Y: Y=2x+3
  • 观测值
    • y=y~real+RANDBETWEEN(-3,3)

2 直接用EXCEL画图,然后生成趋势线的方式进行回归分析

见下图

2.1 先选择“观测值Y”的数据,用散点图或者折线图作图

作图格式

  • 可以选择连线的散点图,或者折线图

2.2  然后添加趋势线和设置趋势线格式

  • 因为做的是一元线性回归,这里记得选择直线

 

2.3  生成趋势线

生成一个一元函数的趋势线: 直线

  • 其中 y=ax+b,具体为y=2.33306x
  • a=2.33306
  • b=0
  • R**2=0.9749

3 使用EXCEL的 数据/数据分析/回归功能

  • 基本内容如下

3.1 功能入口:数据/数据分析/回归功能

3.2 进行回归时,需要注意2个点

  • 1 注意回归面板上,Y值在上面,X值在下面。容易选错
  • 2 下面哪些勾选项,做简单回归分析可以不勾
  • 3 详细的回归可以都勾选

 

3.3 回归分析的结果

4 逐个手动重算“回归统计”里的几个指标

4.1 相关系数

4.1.1 公式

4.1.2  以下是详细计算过程

  • 手动计算的和回归分析的R相等
  • 求和不要犯低级错误 Σ(x-ave(x))*(y-ave(y)) !=Σ(x-ave(x))*Σ(y-ave(y))
  • R=Σ((x-ave(x))*(y-ave(y))) /SQRT(Σ(x-ave(x))^2*Σ(y-ave(y))^2)

4.2  先求 SSE SSR SST 以及OLS,再求R2

  • SSE: 残差平方和, Σ(y-y^'')^2  
  • SSR:回归平方和 ,Σ(y^''-ave(y))^2  
  • SST:离差平方和,总体平方和, Σ(y-ave(y))^2
  • OLS最小二乘法的=SS=SSE=残差平方和

 4.3 决定系数R**2

4.3.1 公式

4.3.2  R2具体计算

4.4 调整后的R2

  • 修正的R2确实不适合一元线性回归
  • K=变量个数
  • 只有1个变量是,修正的R2会变小
  • 修正的R2看起来确实只适合多元线性回归

4.5 标准误差  SEE

  • 标准误差SEE
  • SEE = sqrt(Σ(y - y^'')^² / (n - k - 1))    
  • SEE = sqrt(SSE / (n - k - 1))
  • 并不是 /n

4.6 观测值

观测值=样本数量=15,没什么好说的。

5  逐个手动重算“方差分析”里的几个指标

  • df:degree of freedom  自由度
  • ss:离均差平方和
  • ms :均方

5.1 自由度 DF

详细内容看上次的关于自由度的文章

【小白学机器学习8】统计里的自由度DF=degree of freedom, 以及关于df=n-k, df=n-k-1, df=n-1 等自由度公式-CSDN博客文章浏览阅读698次,点赞13次,收藏12次。自由度通常用于抽样分布中。统计学中:在统计模型中,自由度指样本中可以自由变动的独立不相关的变量的个数,当有约束条件时,自由度减少。样本中独立或能自由变化的数据的个数,称为该统计量的自由度。自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。https://blog.csdn.net/xuemanqianshan/article/details/136643151?spm=1001.2014.3001.5502

  • 回归分析的df,y=a+bx,因为只有1个自变量,所以df=1
  • 残差SSE的df
    • 这里面需要确定a 和b两个参数,其中a是截距,而b 是x的参数。
    •  因为自由度=n-k, 而SSE=Σ(y-y^'')^2 = Σ(y-(a+bx))^2  ,所以df=n-k=n-2=15-2=13
    • 或者用多元线性回归的公式 df=n-k-1=15-1-1=13
  • 总计的df=方程的df+样本的df=1+13=14

5.2 关于SS离差的3个类型 SSR, SSE ,SST

见上面的分析

5.3  均方MS

5.3.1 定义


MS是均方
方差分析中的MS是均方(离差平方和除以自由度)
在这里具体是 均方误差

5.3.2  公式

  • Mean Square Error 均方误差
  • MSE = Σ(y - ŷ)²/n    这里n是自由度
  • MSE =  Σ(y - ŷ)²/df

6 RESIDUAL OUTPUT

6.1 残差= y=y^= 观测值-预测值

7 多个模拟直线比较

  • 暂时看略有差别,差别不大

8 未完成的部分 F检验的显著度 和 T检验的P值 (需要学习F检验,T检验的知识!)

  • Significance F:越小说明拟合越好
  • T检验的P-value:越小说明拟合越好

9 未解决的问题

比如一元线性回归模型中,关于y=ax+b,这里面a  和 b 的标准误差是怎么求出来的?

网上也有人提出了这样的问题,暂时我没看明白,留着

一元回归结果当中,斜率的标准误差是怎么计算出来的? - 知乎回归系数不是一个确定的值,相反它是一个随机变量,也就是说你不同样本回归得到的回归系数是不一样的,举…icon-default.png?t=N7T8https://www.zhihu.com/question/297956772/answer/1032593129?utm_id=0

一元回归结果当中,斜率的标准误差是怎么计算出来的? - 知乎深夜吃西瓜碰到回答一下!!首先,记住因为误差项的存在,所以参数的方差才不等于0,只要理解了回归的含…icon-default.png?t=N7T8https://www.zhihu.com/question/297956772/answer/1302721483

其他

RM

回归模型(regression model)对统计关系进行定量描述的一种数学模型。如多元线性回归的数学模型可以表示为y=β0+β1*x+εi,式中,β0,β1,…,βp是p+1个待估计的参数,εi是相互独立且服从同一正态分布N(0,σ2)的随机变量,y是随机变量;x可以是随机变量,也可以是非随机变量,βi称为回归系数,表征自变量对因变量影响的程度。

OLS,是 普通最小二乘回归模型

ols 全称ordinary least squares,是回归分析(regression analysis)最根本的一个形式

10 python 模拟实操,缺!


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1517629.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IP代理技术革新:探索数据采集的新路径

引言: 随着全球化进程不断加深,网络数据采集在企业决策和市场分析中扮演着愈发重要的角色。然而,地域限制和IP封锁等问题常常给数据采集工作带来了巨大挑战。亿牛云代理服务凭借其强大的网络覆盖和真实住宅IP资源,成为解决这些问…

C++ //练习 10.37 给定一个包含10个元素的vector,将位置3到7之间的元素按逆序拷贝到一个list中。

C Primer(第5版) 练习 10.37 练习 10.37 给定一个包含10个元素的vector,将位置3到7之间的元素按逆序拷贝到一个list中。 环境:Linux Ubuntu(云服务器) 工具:vim 代码块 /******************…

ChatGPT赋能遥感研究:精准分析处理遥感影像数据,推动科研新突破

遥感技术主要通过卫星和飞机从远处观察和测量我们的环境,是理解和监测地球物理、化学和生物系统的基石。ChatGPT是由OpenAI开发的最先进的语言模型,在理解和生成人类语言方面表现出了非凡的能力。重点介绍ChatGPT在遥感中的应用,人工智能在解…

就业班 2401--3.13 走进网络

走进网络 长风破浪会有时,直挂云帆济沧海。 1.认识计算机 1.计算机网络是由计算机和通讯构成的,网络研究的是“通信”。 ------1946 世界上第一台计算机 2.终端:只有输入和输出功能,没有计算和处理功能。 3.数据:一串…

【Linux】Ubuntu使用Netplan配置静态/动态IP

1、说明 Ubuntu 18.04开始,Ubuntu和Debian移除了以前的ifup/ifdown命令和/etc/network/interfaces配置文件,转而使用ip link set或者/etc/netplan/01-netcfg.yaml模板和sudo netplan apply命令实现网络管理。 Netplan 是抽象网络配置描述器,用于配置Linux网络。 通过netpla…

command failed: npm install --loglevel error --legacy-peer-deps

在使用vue create xxx创建vue3项目的时候报错。 解决方法,之前使用的https://registry.npm.taobao.org 证书过期更换镜像地址即可 操作如下: 1.cd ~2.执行rm .npmrc3. sudo npm install -g cnpm --registryhttp://registry.npmmirror.com…

雅特力车规级MCU-AT32A403A开发板评测 06 GC9A01 SPI-LCD 1.28圆形屏幕

雅特力车规级MCU-AT32A403A开发板评测 06 GC9A01 SPI-LCD 1.28圆形屏幕 硬件平台 AT32A403A Board开发板 1.28寸圆形彩色TFT显示屏高清IPS 模块240X240 SPI接口GC9A01 产品介绍 推荐一个屏幕资料参考网站 http://www.lcdwiki.com/1.28inch_IPS_Module 1.28寸圆形IPS彩屏&…

2024年云服务器ECS价格表出炉——阿里云

2024年阿里云服务器租用费用,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元,ECS u1服务器2核4G5M固定带宽199元一年,2核4G4M带宽轻量服务器一年165元12个月,2核4G服务…

基于MATLAB的直流无刷电机速度控制

作品简介 基于MATLAB的直流无刷电机速度控制 仿真平台:Matlab 仿真结果为:

【总结】服务器无法连接外网,设置http代理解决

问题 某天想要在服务器上下载编译github上某开源项目,结果发现访问不了外网。 于是找运维,运维给了个http代理服务器地址。简单操作后,就可以访问外网了。 解决 在需要访问外网的机器上,执行以下命令:http_proxyhtt…

Python Web开发记录 Day8:Django part2 部门管理

名人说:莫道桑榆晚,为霞尚满天。——刘禹锡(刘梦得,诗豪) 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 1、部门列表2、模板的继承3、添加部门4、编辑部…

下载chromedrive,使用自动化

1、先看一下自己浏览器的版本 2、访问 https://googlechromelabs.github.io/chrome-for-testing/

java中Volatile关键字的原理

Volitile的主要作用就是保持内存可见性和防止指令重排序。我分别说一下这两个作用的实现原理 1.保持内存可见性的实现原理 volatile内存可见性主要通过lock前缀指令实现的,它会锁定当前内存区域的缓存,并且立即将当前缓存的数据写入到主内存&#xff0…

【Linux】linuxCNC+Qt+Opencascade+kdl+hal 实时6轴机器人控制器

CNC机器人 程序框架 机器人模型 笔记: debian重启后 无法打开共享目录 最新版搜狗输入法安装后不支持中文,需要安装旧版本的 sogoupinyin_4.0.1.2800_x86_64.deb可用 数控机器人在哪些领域应用有优势 数控机器人在多个领域都展现出了显著的优势&#xff…

IAB视频广告标准《数字视频和有线电视广告格式指南》之 概述- IAB受众和技术标准 - 我为什么要翻译介绍美国人工智能科技公司IAB系列(2)

第二篇 - 概述- IAB受众和技术标准 本文目录 一、IAB技术实验室简介 二、概述及IAB受众 三、资源- IAB倡导的相关视频广告技术标准 四、案例分享-介绍一家数字化营销服务公司 - SproutSocial 五、数字营销工兵观察 六、资料来源及推荐阅读 一、IAB技术实验室简介 随着近…

高频面试必备(Java研发岗),一线互联网架构师设计思想解读开源框架

BeanFactory 和 ApplicationContext 有什么区别? 如何用基于 XML 配置的方式配置 Spring? 如何用基于 Java 配置的方式配置 Spring? 请解释 Spring Bean 的生命周期? Tomcat Tomcat 的缺省端口是多少,怎么修改&…

C++学习随笔(5)——类和对象的深窥

本章我们来学习一下更深入了解一下类和对象! 目录 1.类的6个默认成员函数 2. 构造函数 2.1 概念 2.2 特性 3.析构函数 3.1 概念 3.2 特性 4. 拷贝构造函数 4.1 概念 4.2 特征 5.赋值运算符重载 5.1 运算符重载 5.2 赋值运算符重载 5.3 前置和后置重载…

Sui技术帮助Studio Mirai成功实现创意愿景

Brian和Ben Li兄弟对艺术充满热情,通过共同创立的研发工作室Studio Mirai,他们正在探索Web3技术与创意产业的交集。 Studio Mirai的第一个头像类项目(profile picture,PFP)Tamashi存在于Nozomi World中,这…

2024-3-13,14(CSS)

1.复合选择器 有两个或者多个基础选择器,通过不同的方式组合而成。 目的是更加准确高效的选择目标元素(标签) 分类: 后代选择器:选中某个元素的所有后代元素 写法:父选择器 子选择器 {CSS属性}&#x…