首先我们要了解自由度是什么
自由度在本科教学中一般都不会过度涉及,因为它给老师和学生都带来了很大的困扰,它本身也有一些历史遗留问题,有很多人给出了很多不同的出发点和解释,比如1946年“自由度就是二次型的秩”,1967年“自由度就是一种和尼曼皮尔森维尔克斯自然比或最大自然比的概念”,1973年“自由度就是参数空间维度的差值”,2015年“自由度就是在估计一个信息时其他独立信息的总量”,
now“自由度就是在估计中,可自由变换值的数量”
首先我们举个例子:我们大家都想实现财富自由,这里的财富自由主要指的就是能够自由支配的财产,也就是你在银行里流入的资金减去你消耗的支出的资金,剩下来你存进银行里的就是你的自由支配资金
同样在统计学中,数据是我们最重视的东西,所以,当我们获取到10个数据的时候,我们此时不需要用这些数据做任何事,这10个数据是可以随时等待我们去支配的,这个数据的自由度就是10
再举个例子:我们现在购买了10个灯泡,自由度为10,现在我们需要检测出这批灯泡的平均寿命,那么测出这个平均值μ之后,我们的自由度就减一,变成了9
那为什么会变成9呢?
因为我们检测出平均值μ之后,这个μ就相当于给这10个灯泡的平均值定了一个约束,原本这10个灯泡每个的寿命我们都是未知的,每个数据的自由度都为1,就像我们的每个1元硬币都是一样的,都是面值为1,这些数据在我们眼里的利用价值都是一样的,当我们知道9个灯泡的寿命数值时,最后一个灯泡我们可以根据平均值μ把它算出来,然而这个时候,这个数据已经失去了它的自由度了,也就是我们不能再去利用它(虽然比较抽象看起来也不太恰当的例子,但很好记),所以自由度为10-1=9
那么,我们再重新举一个特例:
高中生的学习成绩和状态我们设为W,成绩和状态是与你的睡眠质量息息相关的,所以我们把这个截距式设为W=a*t+b
我们想要得到这个式子(模型),我们就要知道斜率a和截距b的值
此时我们在学生中搜集到了相关的数据,如果此时,我们只用一个数据,是得不出a和b的值的,起码要有两个数据才能得到a和b的值,此时也就是消耗两个自由度,剩下100-2=98的自由度,但是,我们用两个数据得出来的模型,虽然已经有了,但这个模型的实用价值和真实性我们是不敢笃定的,所以我们剩下的98个自由度的作用,就是可以用来检测并货比三家,看哪个模型(即a和b取什么样的值)才是最贴合事实数据的。
而我们的方差检验的自由度也是n-1,因为计算方差的时候,我们需要先给出数据的平均值,也就是上面我所说的,消耗一个自由度
希望能帮到你,有什么疑惑和错误请指出