《R语言与农业数据统计分析及建模》—

《R语言与农业数据统计分析及建模》——多重共线性和逐步回归

news2026/2/14 21:34:11

一、多重共线性

多重共线性：在多元线性回归时，多个自变量之间存在高度相关关系，时模型估计失真或难以估计准确的情况。

一般地，多元线性回归中自变量间应尽量相互独立。常规模型诊断方法难以检测多重共线性。

1、案例解释

作物产量与生育期内气象条件密切相关，现有某地区10年的作物产量和太阳辐射、温度、降雨的统计数据，据此建立回归模型。

# 产量、生育期内平均温度、平均辐射量的数据集
df<-data.frame(
  yield=c(2151,2073,2073,2888,2638,2150,2092,2645,2894,2849),
  radn=c(21.0,20.7,23.7,28.8,26.0,22.1,20.8,27.2,28.9,27.4),
  temp=c(16.2,15.1,18.2,22.7,21.6,17.8,18.6,22.7,23.9,22.4),
  rain=c(218,231,257,278,248,237,201,274,285,290)
)
# 初步探索因变量自变量间关系
library(ggplot2)
library(gridExtra)
# 太阳辐射与产量的关系
p1<-ggplot(data=df,aes(x=radn,y=yield))+geom_point(color="black",shape=3,size=4)
# 温度和产量的关系
p2<-ggplot(data=df,aes(x=temp,y=yield))+geom_point(color="black",shape=3,size=4)
# 降雨和产量的关系
p3<-ggplot(data=df,aes(x=rain,y=yield))+geom_point(color="black",shape=3,size=4)

# 拼接p1、p2、p3
grid.arrange(p1,p2,p3,ncol=3)

# 计算yield与各自变量之间的相关关系
cor(df$yield,df$radn)
cor(df$yield,df$temp)
cor(df$yield,df$rain)

由上图可知：yield变量与radn、temp、rain三个变量具有较高的相关关系。

# 拟合线性回归模型
fit<-lm(yield~radn+temp+rain,data=df)
summary(fit)

结果：F检验显示回归方程显著存在，且方程的可解释变异达88%；但回归系数t检验则显示3个变量的回归系数均不显著；而且结合前面自变量与因变量的关系图可知3个自变量与因变量是正相关关系，但temp的回归系数却是负的。

这就是多重共线性造成的问题。

2、多重共线性的检验方法

方差扩大因子（variance inflation factor）也成方差膨胀因子，简称VIF。是表征自变量观察值之间复共线性程度的数值。VIF>5表明存在严重的共线性。

# 方差膨胀因子VIF检测多重共线性
fit1<-lm(radn~temp+rain,data=df) # 检验radn的共线性
summary(fit1)
r2<-0.9741
VIF<-1/(1-r2)
VIF

VIF显示radn变量与temp和rain变量存在严重的共线性

也可以使用car包中的vif函数，对拟合的模型进行VIF的计算：

二、逐步回归

逐步回归用于筛选最重要的变量，来建立回归分析的预测或者解释模型。可以解决：当因变量受到大量因素的影响时，建立回归模型，将不可能也没必要考虑的所有影响因素排除在外。

逐步回归实现方法

逐步回归分析是一种AIC信息统计量为准则，通过选择最小的AIC信息统计量，来达到删除或增加变量的目的。

R语言中用于逐步回归分析的是step()函数。

# 产量、生育期内平均温度、平均辐射量的数据集
df<-data.frame(
  yield=c(2151,2073,2573,2888,2638,2150,2092,2645,2894,2849),
  radn=c(21.0,20.7,23.7,28.8,26.0,22.1,20.8,27.2,28.9,27.4),
  temp=c(16.2,15.1,18.2,22.7,21.6,17.8,18.6,22.7,23.9,22.8),
  rain=c(218,211,257,288,268,217,201,274,285,290)
)
# 拟合线性回归模型
fit<-lm(yield~radn+temp+rain,data=df)
summary(fit)

# 查看step()函数的帮助文档
?step
# 逐步回归
fit_new<-step(fit)
summary(fit_new)

# 检验两个模型是否存在显著差异
anova(fit,fit_new)