引言
线性回归是一种广泛应用于统计分析、经济预测、机器学习等领域的建模方法。它旨在通过自变量(解释变量)来预测因变量(响应变量)的值
文章目录
- 引言
- 一、线性回归的概念
- 1.1 线性回归的基本概念
- 1.2 最小二乘法
- 1.2.1 最小二乘法的数学表达式
- 1.2.2 正规方程
- 1.2.3 最小二乘法如何推导正规方程
- 1.3 线性回归的类型
- 1.3.1 简单线性回归
- 1.3.2 多元线性回归
- 1.4 线性回归的假设
- 1.5 线性回归的估计和推断
- 1.5.1 参数估计
- 1.5.2 置信区间和假设检验
- 1.6 线性回归的局限性
- 1.7 线性回归的改进
- 1.8 实际应用案例
- 薪资预测
- 1.9 模型评估和诊断
- 1.9.1模型评估
- 1.9.2 模型诊断
- 1.10 结论
一、线性回归的概念
1.1 线性回归的基本概念
线性回归模型基于一个简单的假设:因变量与自变量之间存在线性关系。这种关系可以用一条直线来描述,即通过自变量的线性组合来预测因变量的值。线性回归模型的一般形式如下:
Y
=
β
0
+
β
1
X
1
+
β
2
X
2
+
.
.
.
+
β
n
X
n
+
ϵ
Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + \epsilon
Y=β0+β1X1+β2X2+...+βnXn+ϵ
- Y Y Y是因变量
- X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn是自变量
- β 0 \beta_0 β0是截距项
- β 1 , β 2 , . . . , β n \beta_1, \beta_2, ..., \beta_n β1,β2,...,βn是斜率系数
- ϵ \epsilon ϵ是误差项,表示模型未能解释的随机变异
1.2 最小二乘法
最小二乘法是求解线性回归模型参数的一种常用方法
它的目标是找到一组参数,使得模型预测值与实际观测值之间的残差平方和最小。残差是实际观测值与模型预测值之间的差异,记为 ϵ i = y i − y ^ i \epsilon_i = y_i - \hat{y}_i ϵi=yi−y^i,其中 y i y_i yi是实际观测值, y ^ i \hat{y}_i y^i是模型预测值
1.2.1 最小二乘法的数学表达式
S = ∑ i = 1 n ϵ i 2 = ∑ i = 1 n ( y i − y ^ i ) 2 S = \sum_{i=1}^{n} \epsilon_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 S=i=1∑nϵi2=i=1∑n(yi−y^i)2
1.2.2 正规方程
为了找到最小化
S
S
S的
β
\beta
β值,我们需要对每个
β
\beta
β求偏导,并令其等于零。这样我们可以得到正规方程:
β
=
(
X
T
X
)
−
1
X
T
Y
\beta = (X^TX)^{-1}X^TY
β=(XTX)−1XTY
- X X X是设计矩阵,包含了所有自变量的值
1.2.3 最小二乘法如何推导正规方程
正规方程是线性回归中用于求解回归系数的一种方法
假设我们有以下线性回归模型:
Y
=
β
0
+
β
1
X
1
+
β
2
X
2
+
.
.
.
+
β
n
X
n
+
ϵ
Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + \epsilon
Y=β0+β1X1+β2X2+...+βnXn+ϵ
- Y Y Y是因变量
- X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn是自变量
- β 0 , β 1 , . . . , β n \beta_0, \beta_1, ..., \beta_n β0,β1,...,βn是回归系数
-
ϵ
\epsilon
ϵ是误差项
为了求解 ( \beta ) 的最佳估计值,我们使用最小二乘法,目的是最小化残差平方和 S S S:
S = ∑ i = 1 n ϵ i 2 = ∑ i = 1 n ( y i − y ^ i ) 2 S = \sum_{i=1}^{n} \epsilon_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 S=i=1∑nϵi2=i=1∑n(yi−y^i)2 - ϵ i = y i − y ^ i \epsilon_i = y_i - \hat{y}_i ϵi=yi−y^i
-
y
^
i
\hat{y}_i
y^i是模型对第
i
i
i个观测的预测值
我们可以将 S S S表达为:
S = ∑ i = 1 n ( y i − ( β 0 + β 1 x i 1 + β 2 x i 2 + . . . + β n x i n ) ) 2 S = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in}))^2 S=i=1∑n(yi−(β0+β1xi1+β2xi2+...+βnxin))2
为了找到最小化 S S S的 β \beta β值,我们需要对 S S S分别对 β 0 , β 1 , . . . , β n \beta_0, \beta_1, ..., \beta_n β0,β1,...,βn求偏导,并令这些偏导数等于零
对 β j \beta_j βj求偏导,得到:
∂ S ∂ β j = − 2 ∑ i = 1 n x i j ( y i − ( β 0 + β 1 x i 1 + β 2 x i 2 + . . . + β n x i n ) ) \frac{\partial S}{\partial \beta_j} = -2 \sum_{i=1}^{n} x_{ij} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})) ∂βj∂S=−2i=1∑nxij(yi−(β0+β1xi1+β2xi2+...+βnxin))
将上式等于零,得到:
∑ i = 1 n x i j ( y i − ( β 0 + β 1 x i 1 + β 2 x i 2 + . . . + β n x i n ) ) = 0 \sum_{i=1}^{n} x_{ij} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})) = 0 i=1∑nxij(yi−(β0+β1xi1+β2xi2+...+βnxin))=0
对于 j = 0 , 1 , . . . , n j = 0, 1, ..., n j=0,1,...,n,我们得到以下方程组:
∑ i = 1 n ( y i − ( β 0 + β 1 x i 1 + β 2 x i 2 + . . . + β n x i n ) ) = 0 ∑ i = 1 n x i 1 ( y i − ( β 0 + β 1 x i 1 + β 2 x i 2 + . . . + β n x i n ) ) = 0 . . . ∑ i = 1 n x i n ( y i − ( β 0 + β 1 x i 1 + β 2 x i 2 + . . . + β n x i n ) ) = 0 \begin{align*} \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})) &= 0 \\ \sum_{i=1}^{n} x_{i1} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})) &= 0 \\ ... \\ \sum_{i=1}^{n} x_{in} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})) &= 0 \\ \end{align*} i=1∑n(yi−(β0+β1xi1+β2xi2+...+βnxin))i=1∑nxi1(yi−(β0+β1xi1+β2xi2+...+βnxin))...i=1∑nxin(yi−(β0+β1xi1+β2xi2+...+βnxin))=0=0=0
我们可以将这些方程重写为矩阵形式:
∑ i = 1 n y i = n β 0 + β 1 ∑ i = 1 n x i 1 + . . . + β n ∑ i = 1 n x i n ∑ i = 1 n x i 1 y i = β 0 ∑ i = 1 n x i 1 + β 1 ∑ i = 1 n x i 1 2 + . . . + β n ∑ i = 1 n x i 1 x i n . . . ∑ i = 1 n x i n y i = β 0 ∑ i = 1 n x i n + β 1 ∑ i = 1 n x i 1 x i n + . . . + β n ∑ i = 1 n x i n 2 \begin{align*} \sum_{i=1}^{n} y_i &= n\beta_0 + \beta_1\sum_{i=1}^{n} x_{i1} + ... + \beta_n\sum_{i=1}^{n} x_{in} \\ \sum_{i=1}^{n} x_{i1}y_i &= \beta_0\sum_{i=1}^{n} x_{i1} + \beta_1\sum_{i=1}^{n} x_{i1}^2 + ... + \beta_n\sum_{i=1}^{n} x_{i1}x_{in} \\ ... \\ \sum_{i=1}^{n} x_{in}y_i &= \beta_0\sum_{i=1}^{n} x_{in} + \beta_1\sum_{i=1}^{n} x_{i1}x_{in} + ... + \beta_n\sum_{i=1}^{n} x_{in}^2 \\ \end{align*} i=1∑nyii=1∑nxi1yi...i=1∑nxinyi=nβ0+β1i=1∑nxi1+...+βni=1∑nxin=β0i=1∑nxi1+β1i=1∑nxi12+...+βni=1∑nxi1xin=β0i=1∑nxin+β1i=1∑nxi1xin+...+βni=1∑nxin2
将这些方程表示为矩阵形式 X T X Y = X T Y X^TXY = X^TY XTXY=XTY,其中 X X X是设计矩阵,包含所有自变量 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn的值(包括一个全为1的列来表示截距项)
我们将上述方程组转换为矩阵形式。首先,定义以下矩阵和向量:
- X X X是一个 n × ( k + 1 ) n \times (k+1) n×(k+1)的设计矩阵,其中 n n n是样本数量, k k k是自变量的数量(不包括截距项)。设计矩阵的第一列是全1的列,用于表示截距项 β 0 \beta_0 β0,其余列对应于自变量 X 1 , X 2 , . . . , X k X_1, X_2, ..., X_k X1,X2,...,Xk
- Y Y Y是一个 n × 1 n \times 1 n×1的向量,包含因变量的观测值
- β \beta β是一个 ( k + 1 ) × 1 (k+1) \times 1 (k+1)×1的向量,包含回归系数 β 0 , β 1 , . . . , β k \beta_0, \beta_1, ..., \beta_k β0,β1,...,βk
-
ϵ
\epsilon
ϵ是一个
n
×
1
n \times 1
n×1的向量,包含误差项
设计矩阵 X X X和向量 Y Y Y可以表示为:
X = [ 1 x 11 x 12 ⋯ x 1 k 1 x 21 x 22 ⋯ x 2 k ⋮ ⋮ ⋮ ⋱ ⋮ 1 x n 1 x n 2 ⋯ x n k ] , Y = [ y 1 y 2 ⋮ y n ] X = \begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1k} \\ 1 & x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{nk} \end{bmatrix}, \quad Y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} X= 11⋮1x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1kx2k⋮xnk ,Y= y1y2⋮yn
现在,我们可以将残差平方和 S S S表示为:
S = ( Y − X β ) T ( Y − X β ) S = (Y - X\beta)^T(Y - X\beta) S=(Y−Xβ)T(Y−Xβ)
为了最小化 S S S,我们对 β \beta β求导并令其等于零:
∂ S ∂ β = − 2 X T ( Y − X β ) = 0 \frac{\partial S}{\partial \beta} = -2X^T(Y - X\beta) = 0 ∂β∂S=−2XT(Y−Xβ)=0
解这个方程,我们得到正规方程:
X T X β = X T Y X^TX\beta = X^TY XTXβ=XTY
这是一个 ( k + 1 ) × 1 (k+1) \times 1 (k+1)×1的方程组,我们可以解出 β \beta β:
β = ( X T X ) − 1 X T Y \beta = (X^TX)^{-1}X^TY β=(XTX)−1XTY
这里, ( X T X ) − 1 (X^TX)^{-1} (XTX)−1是 X T X X^TX XTX的逆矩阵,如果 X T X X^TX XTX是可逆的。这个方程给出了回归系数 β \beta β 的最佳线性无偏估计(BLUE)
总结:正规方程的推导过程包括以下几个步骤
- 建立线性回归模型
- 定义残差平方和 S S S
- 对 S S S关于回归系数 β \beta β求偏导
- 将得到的偏导数等于零,形成方程组
- 将方程组转换为矩阵形式 X T X β = X T Y X^TX\beta = X^TY XTXβ=XTY
- 解矩阵方程得到 β \beta β的估计值
在实际应用中,当设计矩阵 X X X的列是线性独立的,即 X T X X^TX XTX是可逆的,正规方程提供了一个直接的方法来计算回归系数
如果 X T X X^TX XTX不可逆,可能需要使用其他方法,如岭回归或主成分回归
1.3 线性回归的类型
1.3.1 简单线性回归
简单线性回归是只有一个自变量的线性回归模型。它的形式为:
Y
=
β
0
+
β
1
X
+
ϵ
Y = \beta_0 + \beta_1X + \epsilon
Y=β0+β1X+ϵ
简单线性回归易于理解和实现,但它的应用范围有限,因为它只能处理单一自变量的问题
1.3.2 多元线性回归
多元线性回归包含多个自变量,其形式为:
Y
=
β
0
+
β
1
X
1
+
β
2
X
2
+
.
.
.
+
β
n
X
n
+
ϵ
Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + \epsilon
Y=β0+β1X1+β2X2+...+βnXn+ϵ
多元线性回归在实际应用中更为常见,因为它能够处理更复杂的问题
1.4 线性回归的假设
线性回归的分析和解释依赖于以下假设:
- 线性关系:自变量与因变量之间存在线性关系
- 独立性:自变量之间相互独立,不存在多重共线性
- 同方差性:所有观测值的误差都有相同的方差
- 正态分布:误差项服从正态分布,均值为零
如果这些假设不成立,线性回归模型的预测能力可能会受到影响
1.5 线性回归的估计和推断
1.5.1 参数估计
线性回归模型的参数估计通常使用最小二乘法。然而,当数据违反某些假设时,可能需要使用其他方法,如加权最小二乘法或岭回归
1.5.2 置信区间和假设检验
在得到参数的估计值后,我们通常希望对它们进行推断。这包括计算参数的置信区间和进行假设检验。置信区间给出了参数估计值的可能范围,而假设检验则用于判断参数是否显著不为零
1.6 线性回归的局限性
线性回归虽然强大,但它也有局限性:
- 它假设自变量与因变量之间存在线性关系,这在现实中不一定成立
- 它对异常值敏感,异常值可能会对模型产生较大影响
- 当自变量之间存在多重共线性时,模型的稳定性会受到影响
1.7 线性回归的改进
为了克服线性回归的局限性,有多种改进方法:
- 岭回归和Lasso回归:用于处理多重共线性问题
- 非线性回归:用于处理自变量与因变量之间的非线性关系
- 稳健回归方法:如最小绝对偏差回归,对异常值不敏感
1.8 实际应用案例
薪资预测
假设我们想要预测一个人的薪资(因变量),我们可能考虑以下自变量:工作经验、教育水平、职位级别和所在城市的生活成本
以下是如何使用Python和scikit-learn库来构建薪资预测模型的步骤:
# 假设我们有一个名为salary_data.csv的数据文件,包含以下列:
# 'Experience' (年), 'Education' (教育水平, 量化为数值), 'Position' (职位级别, 量化为数值), 'Cost_of_Living' (生活成本指数), 'Salary' (薪资)
# 加载数据
df = pd.read_csv('salary_data.csv')
# 特征和目标变量
X = df[['Experience', 'Education', 'Position', 'Cost_of_Living']]
y = df['Salary']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建线性回归模型
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
# 预测测试集
y_pred = model.predict(X_test)
# 评估模型
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean Squared Error (MSE): {mse}")
print(f"R-squared (R2): {r2}")
# 输出系数和截距
print(f"Coefficients: {model.coef_}")
print(f"Intercept: {model.intercept_}")
# 使用模型进行预测
# 假设我们有一个新的数据点
new_data = pd.DataFrame({
'Experience': [5],
'Education': [4],
'Position': [3],
'Cost_of_Living': [150]
})
predicted_salary = model.predict(new_data)
print(f"Predicted Salary: {predicted_salary[0]}")
- 首先加载了包含薪资数据的CSV文件
- 然后定义了特征变量和目标变量
- 将数据集划分为训练集和测试集
- 创建了一个线性回归模型,并用训练集数据来训练它
- 使用测试集数据来评估模型的性能
- 打印出模型的系数和截距
- 使用训练好的模型来预测一个新数据点的薪资
1.9 模型评估和诊断
在构建了线性回归模型之后,我们需要对其进行评估和诊断,以确保其可靠性和预测能力
1.9.1模型评估
- 均方误差(MSE)和均方根误差(RMSE)是常用的评估指标,它们衡量了模型预测值与实际值之间的差异
- R-squared(R2)指标表示模型解释的变异性的比例,其值越接近1,模型的解释能力越强
1.9.2 模型诊断
- 残差分析:通过残差(实际值与预测值之差)来检查模型的假设是否得到满足
- 正态Q-Q图:检查残差是否服从正态分布
- 杠杆值和影响点:识别对模型有较大影响的观测值
1.10 结论
线性回归是一个强大的统计工具,用于预测和分析变量之间的关系。尽管它有局限性,但通过适当的改进和诊断,它可以成为解决实际问题的有效工具。在实际应用中,理解线性回归的假设、评估模型性能以及进行模型诊断是至关重要的步骤