参考资料:生物统计学
1、协变量与试验因素的区别
如果把协方差分析资料中的协变量看作多因素方差分析资料中的一个因素,则两类资料有相似之处,但两类资料有本质的不同。在方差分析中,各因素的水平时人为控制的,即使是随机因素也是认为选定的;而在协方差分析中,协变量不能人为控制。
例如,当考虑动物窝别对增重的影响时,一般可以把窝别当作随机因素,将不同窝看作不同水平,进行随机区组设计,同一窝的几只动物分别接受另一因素不同水平的处理,数据做方差分析。
又如,如果考虑试验开始前动物初始体重的影响,以初始体重为一个因素,不同初始体重作为不同水平,进行随机区组设计,初始体重相同的动物为一组,分别接受另一因素不同水平的处理,数据方差分析也无问题。
但是如果客供试验的动物很少,初始体重又有明显差异,无法选到足够相同或近似体重的动物,就只好对不同初始体重的动物进行不同饲料配方的处理,此时应当认为初始体重x与增重y有回归关系,采用协方差分析的方法排除初始体重的影响,然后再来比较其他因素对增重的影响。
消除初始体重影响的另一种方法是对最终体重与初始体重的差值即y-x进行统计分析,但这种方法与协方差分析的生物学意义是不同的。对差值进行分析时假设初始体重对以后的体重增量没有任何影响,而协方差分析则是假设最终体重中包含初始体重的影响,这种影响的大小与初始体重成正比,即协方差分析是假设初始体重在以后的生长过程中也发挥作用,而对差值进行方差分析时假设初始体重以后不再发挥作用。
协方差分析过程包含对协变量影响是否存在及其大小等一系列统计检验和估计,它显然比对差值进行分析等方法有更广泛的适用范围,因此除非有明显证据说明对差值进行分析的生物学假设是正确的,一般情况下应采用协方差分析的方法。
两种生物学假设显然不同,对于一种统计方法,不仅要注意它与其他方法在算法上的不同,更要注意算法背后的生物学假设有什么不同,这种深层次的理解有助于工作中选取正确的统计方法。
2、协方差分析的作用
协方差分析有3个方面的作用:一是对试验进行统计控制;二是对协方差组分进行估计(分析不同变异源的相关关系);三是对缺失数据进行估计。
(1)对试验进行统计控制
为了提高试验的精确性和准确性,对处理以外的一切条件都需要采取有效措施严加控制,使它们在各处理间尽量一致,这称为试验控制(experimental control)。但在有些情况下,难以实现实验控制,需要辅助统计控制,经过统计学上的矫正,使试验误差减小,对试验处理效应的估计更为准确。
如果y的变异主要由x的不同造成(处理没有显著效应),则矫正后的y'间将没有显著差异(但原y间的差异可能是显著的)。如果y的变异除去x不同的影响外,上存在不同处理的显著效应,则可期望各y'间将有显著差异(但原y间差异可能不显著)。此外,校正后的y'和原y的大小次序也常不一致。因此,处理平均数的回归矫正和矫正平均数的显著性检验,能够提高试验的准确性和精确性,从而更真实地反映试验处理的效应。
(2)估计协方差组分
将相关系数公式右边的分子、分母同除以自由度(n-1),得到
其中,、分别为x、y的均方MSx、MSy。类似地,将称为均积,记为MPxy,即
于是,相关系数r可表示为:
均方MSx、MSy对应的参数为总体方差、,均积MP_xy对应的参数称为总体协方差(covariance),记为或。统计学上可证明,均积MP_xy是协方差的无偏估计量。均积和均方具有相似的形式,也有相似的性质。
在方差分析中,一个变量的总平方和与自由度可按变异源进行剖析,从而求得相应的均方。统计学已证明:两个变量的总体乘积和预自由度也可按变异源进行分解而获得相应的均积。这种把两个变量的总乘积和与自由度按变异源进行剖析并获得相应均积的方法也称为协方差分析。
在随机模型的方差分析中,根据均方MS和期望均方的关系,可以得到不同变异源的方差组分的估计值。同样,在随机模型的协方差分析中,根据均积MP和期望均积的关系,可得到不同变异源的协方差组分的估计值。有了这些估计值,就可以进行相应的总体相关分析。
(3)对缺失数据进行估计
利用方差分析对缺失数据进行估计,需以误差平方和最小为基础,会出现处理平方和向上偏倚的结果。如果利用协方差分析对缺失数据进行估计,既可保证误差平方和最小,又可避免处理平方和的偏倚。