【小白学机器学习8】统计里的自由度DF=degree of freedom, 以及关于df=n-k, df=n-k-1, df=n-1 等自由度公式

news2024/11/20 2:24:36

目录

1 自由度 /degree of freedom / df

1.1 物理学的自由度

1.2 数学里的自由度

1.2.1 数学里的自由度

1.2.2 用线性代数来理解自由度(需要补充)

1.2.3 统计里的自由度

1.3 统计学里自由度的定义

2 不同对象的自由度

2.1 纯公式的自由度:纯公式,没采样无样本时

2.2 抽样分析时:纯样本的自由度

2.3 公式里某个特定变量的自由度

3 自由度的公式

3.1 自由度的基础公式 df=n-k

3.2 ESS 残差平方和的误差 df=n-k-1

3.3  回归方程的自由度,  df=n-k-1=n-1

3.3.1 一元线性回归

3.3.2 多元线性回归

4 参考

5 其他(未完成)


1 自由度 /degree of freedom / df

1.1 物理学的自由度

理论力学:(下面这段摘自网上)

  • 确定物体的位置所需要的独立坐标数称作物体的自由度,当物体受到某些限制时——自由度减少。
  • 一个质点在空间自由运动,它的位置由三个独立坐标就可以确定,所以质点的运动有三个自由度。
  • 假如将质点限制在一个平面或一个曲面上运动,它有两个自由度。
  • 假如将质点限制在一条直线或一条曲线上运动,它只有一个自由度。
  • 刚体在空间的运动既有平动也有转动,其自由度有六个,即三个平动自由度x、y、z和三个转动自由度a、b、q。如果刚体运动存在某些限制条件,自由度会相应减少。

1.2 数学里的自由度

1.2.1 数学里的自由度

  • 数学上,自由度是一个随机向量的维度数
  • 也就是一个向量能被完整描述所需的最少单位向量数

1.2.2 用线性代数来理解自由度需要补充

  • 从线性代数的角度理解
  • 自由度就是向量/矩阵/张量的维度,秩。最少需要用几个维度来现实就是自由度.

1.2.3 统计里的自由度

  • 样本容量越大,自由度就越高,就越趋近于正态分布,实验就更加合理
  • 下图时转载的,文章链接附在最后

1.3 统计学里自由度的定义

自由度通常用于抽样分布中。

统计学中:在统计模型中,自由度指样本中可以自由变动的独立不相关的变量的个数,当有约束条件时,自由度减少。

  • 样本中独立或能自由变化的数据的个数,称为该统计量的自由度。
  • 自由度指的是计算某一统计量时,取值不受限制的变量个数。

2 不同对象的自由度

  • 通用的自由度公式,都是n-k。但是不同对象下的DF的意义不同
    • 如果讲的是公式的自由度,是自变量的个数  df=n
    • 如果讲的是样本的自由度,是样本的数量减去约束条件个数,df=n-k
    • 如果讲的是某个公式里某个特定变量的自由度,是样本的数量减去约束条件个数,df=n-k

2.1 纯公式的自由度:纯公式,没采样无样本时

  • 抽象的公式的自由度:不受约束自变量的个数
  • 不受约束的自变量个数就是公式的自由度。

举例:

  • 一元线性回归:y=ax+b
    • x是自变量,自由度1
    • y是因变量,没有自由度
    • 总自由度1
  • 多元线性回归:y=a1X1+a2X2+......anXn
    • x是自变量,自由度n
    • y是因变量,没有自由度
    • 总自由度n

2.2 抽样分析时:纯样本的自由度

  • 样本的自由度=n-k
  • 样本数量n
  • 关于样本的约束条件k,比如用到了样本的均值,就少1个自由度

举例

  • a+b=1,其中a,b都是变量,那么总自由度为1,因为若a为变量,b会受到1-a的约束,所以不自由。自由度=2个自变量-1被限制的自变量=1
  • 总体平均数,u=average(x)。因为总体内,每个样本都是独立的,所以自由度就是总体的容量n
  • 样本平均数,average(xi) ,假设有10个样本,平均数=1,那只有前9个数可以自由取值,第10个数,一定得受到平均值得约束,因此自由度=n-1=10-1=9
  •  总体方差,公式为
  • 样本方差,公式为,因为本身是一个样本的约束,所以自由度=n-1

2.3 公式里某个特定变量的自由度

  • 如果讲的是公式里某个特定变量的自由度,是样本的数量减去约束条件个数,df=n-k
  • 通用的公式都是这个,df=n-k
  • 但是还可以细分,下面详细展开

3 自由度的公式

3.1 自由度的基础公式 df=n-k

自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)

  • df=n-k。
  • 自由度df:
    • 不受限制的变量个数 
    • 不受限制的样本个数
  • n:
    • 自变量个数 
    • 样本数量
  • k:
    • 被限制的条件数或变量个数
    • 或计算某一统计量时用到其它独立统计量的个数。
    • 这些变量之间的有公式关系等形成的约束个数(应该要减掉一些线性相关的约束)

3.2 ESS 残差平方和的误差 df=n-k-1 (比n-k多出的-1是指那个截距参数)

  • 需要考虑2方面
  • 模型中自变量的个数,+自由度
  • 模型中有几个未知数就要消耗几个自由度,-自由度

举例

  • 观测值y
  • 预测值y^
  • 一元线性回归模型 y=b0+b1X+ε,因为每个y^都是用这个模型估算出来的
  • y^-y的误差就是残差,也就是ε
  • b0 常数,截距
  • b1 自变量x的参数,未知,需要求
  • ε   残差,残差的均值=0

  • 另外,我们心中有一个理想模型y=b0+b1X (虽然不一定存在,不能能找到),但是我们相信我们的观测值符合一个这样的理想直线模型(否则我们也不会用线性回归,而是用曲线或者其他了^ ^)
  • y^观测值,记录下来
  • 理想模型的y观测值:y=b0+b1X 
  • ESS=Σ(y^-y)**2 =Σ(y^-b0+b1X)**2

  • 残差平方和  ESS 的自由度 
  • 残差平方和  ESS=Σ(y^-y)**2,因为因为每个y^=b0+b1X,包含2个参数b0,b1 因此需要确定这2个参数,就需要2个约束才能算出来
  • 为什么2个参数需要2个约束:因为解方程的需要,而且这2个约束还不能是线性相关的才行。因此有几个未知参数就消耗几个自由度
  • 所以:
    • 一元线性回归的ESS的自由度df = n-k-1=n-1-1=n-2
    • 多元线性回归的ESS的自由度 df =n-k-1
    • 其中k 是变量个数,1是截距常量个数。

3.3  回归方程的自由度,  df=n-k-1=n-1

3.3.1 一元线性回归

  • 回归方程 y=b0+b1X
  • 其中自变量X,只有1个,自由度+1
  • 而参数是2个,也就是2个未知数,b0 和b1,自由度-2
  • 如果有n个样本
  • 那么回归方程的自由度= n-2+1=n-1

3.3.2 多元线性回归

  • 回归方程 y=b0+b1X+b2X+....+bkX,
  • 其中自变量X,有k个自变量,自由度+k
  • 而参数是k+1个,所有x的参数,还一个一个截距。这些都是未知数。
  • 如果有n个样本
  • 那么回归方程的自由度= n+k-(k+1)=n-1


4 参考

【弱鸡版】什么回归中自由度(degrees of freedom),就是这么简单! - 知乎自由度是什么?我们先来百度一下: “自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。 其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/607458488

一元线性回归模型中残差平方和的自由度为什么是n-2 - 爱问频道 - 经管之家(原人大经济论坛)一元线性回归模型中残差平方和的自由度为什么是n-2,一元线性回归模型中残差平方和的自由度为什么是n-2?,经管之家(原人大经济论坛)icon-default.png?t=N7T8https://bbs.pinggu.org/thread-640905-1-1.html

下面这个解释了多种DF的定义,可惜我还没仔细看~~ 

统计学“自由度”详解 - 知乎本文皆为个人看法,才疏学浅,如果有不妥不准确的对方,还请指正。有些数学推导可能显得不严谨,主要是为了数学基础薄弱的同学能看懂。 “自由度”是统计学中一个很不好懂的概念,因为它的定义有好几个,而每个定…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/81099139

5 其他(未完成)

当想知道适不适合用回归分析时,最简单的方法是做散点图,对于方差分析则做箱线图或是条形图。

均方差:标准差SD

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1521039.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

报Invalid value type for attribute ‘factoryBeanObjectType‘: java.lang.String错误

在springboot中使用Mybatis出现Invalid value type for attribute factoryBeanObjectType: java.lang.String 1、没有使用mybatis 检查pom文件里面的mybatis 可能是缺少这个依赖&#xff0c;或者版本过低 重新导入依赖 <dependency><groupId>org.mybatis.spri…

华为数通方向HCIP-DataCom H12-821题库(多选题:141-160)

第141题 以下关于802.1X认证的触发机制,描述正确的有? A、802.1X认证不能由认证设备(如802.1交换机)发起 B、802.1X客户端可以组播或广播方式触发认证 C、认证设备可以以组播或单播方式触发认证 D、802.1X认证只能由客户端主动发起 【参考答案】BC 【答案解析】 第142题 以…

集合系列(二) -List接口详解

一、List简介 List 的数据结构就是一个序列&#xff0c;存储内容时直接在内存中开辟一块连续的空间&#xff0c;然后将空间地址与索引对应。 以下是List集合简易架构图 由图中的继承关系&#xff0c;可以知道&#xff0c;ArrayList、LinkedList、Vector、Stack都是List的四个…

B3620 x 进制转 10 进制(详解)

题目 思路 八进制数567怎么转化为十进制数。首先八进制就是逢八进一&#xff0c;也就是说这里面最大的数也就7&#xff0c;没有≥8的数。下面我们就讲一下567怎么转化为十进制&#xff1a;首先7是个位&#xff0c;可以直接写成十进制的7&#xff0c;6是十位&#xff0c;它是通…

springboot基于java的畅销图书推荐系统

摘 要 二十一世纪我们的社会进入了信息时代&#xff0c;信息管理系统的建立&#xff0c;大大提高了人们信息化水平。传统的管理方式对时间、地点的限制太多&#xff0c;而在线管理系统刚好能满足这些需求&#xff0c;在线管理系统突破了传统管理方式的局限性。于是本文针对这一…

AI_寻路系统_修改寻路网格体

学习笔记&#xff0c;仅供参考&#xff01; 一、完成创建关卡和AI代理的初步步骤&#xff0c;以演示可以修改导航系统的不同方法。 创建简单关卡&#xff0c;并通过在关卡中放入导航网格体边界体积Actor来添加导航。 将ThirdPersonCharacter蓝图修改为使用导航系统在关卡中四…

vuepress-theme-vdoing博客搭建教程

搭建流程 前言 这是笔者搭建个人博客所经历的流程&#xff0c;特附上笔记 笔者个人博客地址&#xff1a;沉梦听雨的编程指南 一、主题介绍 本博客使用的主题为&#xff1a;vuepress-theme-vdoing&#xff0c;相关介绍和使用方法可以参考该主题的官方文档 官方文档快速上手…

力扣趣味题:找不同

经典面向样例编程 char findTheDifference(char* s, char* t) {if(sNULL){return t[0];}for(int x0;x<strlen(s);x){for(int y0;y<strlen(t);y){if(s[x]t[y]){t[y]1;break;}}}for(int x0;x<strlen(t);x){if(t[x]!1){return t[x];}}return NULL; }

银发经济@315:消费、陷阱与孤独的老人

【潮汐商业评论/文】 又是一年315。 这一天&#xff0c;从品牌到消费者&#xff0c;从线下到网络&#xff0c;都不约而同地将目光锁定在大众消费生活和与其相伴的消费“陷阱”上。 这其中&#xff0c;作为“有闲又有钱”且与社会经济发展速度相对有一定“代沟”的老年消费者群…

新加坡大带宽服务器托管优势

在数字化快速发展的今天&#xff0c;服务器托管成为企业拓展业务、提高服务质量的关键环节。而新加坡作为一个国际性的金融、贸易和科技创新中心&#xff0c;其大带宽服务器托管服务在全球范围内享有盛誉。本文将为您科普新加坡大带宽服务器托管的诸多优势。 首先&#xff0c;新…

AXI CANFD MicroBlaze 测试笔记

文章目录 前言测试用的硬件连接Vivado 配置Vitis MicroBlaze CANFD 代码测试代码测试截图Github Link 前言 官网: CAN with Flexible Data Rate (CAN FD) (xilinx.com) 特征: 支持8Mb/s的CANFD多达 3 个数据位发送器延迟补偿(TDC, transmitter delay compensation)32-deep T…

VS Code上,QT基于cmake,qmake的构建方法(非常详细)

VS Code上,QT基于cmake&#xff0c;qmake的构建方法 1 前言2 QT基于cmake的构建方法2.1 VS Code关键插件安装2.2 系统环境变量配置2.3 VS Code中&#xff0c;环境变量配置2.4 Cmake新建一个新的Porject 3 QT基于qmake的构建方法 1 前言 最近&#xff0c;由于认证了github的学生…

RabbitMQ学习总结-延迟消息

1.死信交换机 一致不被消费的信息/过期的信息/被标记nack/reject的信息&#xff0c;这些消息都可以进入死信交换机&#xff0c;但是首先要配置的有私信交换机。私信交换机可以再RabbitMQ的客户端上选定配置-dead-letter-exchange。 2.延迟消息 像我们买车票&#xff0c;外卖…

PHP 生成图片

1.先确认是否有GD库 echo phpinfo(); // 创建一个真彩色图像 $image imagecreatetruecolor(120, 50);// 分配颜色 $bgColor imagecolorallocate($image, 255, 255, 255); // 白色背景 $textColor imagecolorallocate($image, 230, 230, 230); // 黑色文字// 填充背景 image…

MyFileServer

靶场下载地址 https://download.vulnhub.com/myfileserver/My_file_server_1.ova 信息收集 # nmap -sn 192.168.56.0/24 -oN live.nmap Starting Nmap 7.94 ( https://nmap.org ) at 2024-02-24 22:07 CST Nmap scan report for 192.168.56.2 (192.168.56.2) Host is up (0.…

Java学习笔记(13)

阶段项目 拼图小游戏 JFrame JMenuBar JMenu JMenuItem 用add方法添加到不同的对象中 添加图片 先创建一个图片ImageIcon的对象&#xff0c;写入图片的路径 再创建JLabel管理容器对象&#xff0c;把图片放到这个容器中&#xff0c;再把容器添加到界面 界面坐标位置 改变图…

nmcli --help(nmcli -h)nmcli文档、nmcli手册

文章目录 nmcli --helpOPTION解释OBJECT解释1. g[eneral]&#xff1a;查看NetworkManager的状态2. n[etworking]&#xff1a;启用或禁用网络3. r[adio]&#xff1a;查看无线电状态&#xff08;例如&#xff0c;Wi-Fi&#xff09;4. c[onnection]&#xff1a;列出所有的网络连接…

openwrt下部署clouddrive2

在启动项上增加启动参数 在exit 0前面增加 mount --make-shared /mnt/data480g注意&#xff0c;后面的/mnt/data480g要替换成你设置的共享映射券。 拉取镜像 docker pull cloudnas/clouddrive2启动镜像 一定要用ssh在后台用docker run命令启动&#xff0c;因为openwrt前台…

AI技术崛起:数据可视化之路更近

在当今AI技术蓬勃发展的时代&#xff0c;数据可视化作为信息传达的重要手段&#xff0c;其门槛逐渐降低。然而&#xff0c;这并不意味着我们可以忽视学习数据可视化的重要性。即使不需要深入专业技术&#xff0c;对数据可视化的基础知识的了解也是至关重要的。那么&#xff0c;…

恢复u盘数据时可以关机吗?深入解析与操作建议

随着科技的飞速发展&#xff0c;U盘已成为我们日常生活中不可或缺的数据存储设备。然而&#xff0c;当U盘中的数据遭遇丢失或损坏时&#xff0c;如何安全有效地恢复数据成为了一个重要的问题。在这个过程中&#xff0c;许多用户可能会疑惑&#xff1a;恢复u盘数据时可以关机吗&…