回归分析学习

news2025/4/4 22:18:35

回归分析

什么是回归分析
简单线性回归
- 线性回归（linear regression）
- 线性假设
- 如何拟合数据
- 线性回归的基本假设
损失函数(loss function)
- 最小二乘法(Least Square, LS)
- 梯度下降法（Gradient Descent，GD）
多元线性回归(multiple Linear Regression)
- 多元线性回归参数估计的推导(法二）
- 实例：家庭花销预测
- 以“误差平方和”为损失函数的优缺点
相关系数与决定系数
- 线性回归的相关系数
- 线性回归的决定系数(coefficient of determination)
总结

什么是回归分析

Regression
回归分析是描述变量间关系的一种统计分析方法
例：在线教育场景
- 因变量Y：在线学习课程满意度
- 自变量X：平台交互性、教学资源、课程设计
前面提到过西洋跳棋系统目标函数的设计也是一个回归问题
预测性的建模技术，通常用于预测分析
预测的结果多为连续值（但也可以是离散值，甚至是二值）

简单线性回归

线性回归（linear regression）

因变量和自变量之间是线性关系，就可以用线性回归来建模

在这里插入图片描述

线性回归的目的即找到最能匹配（解释）数据的截距和斜率

线性假设

线性：有些变量间的线性关系是确定性的
线性：然而通常情况下，变量间是近似的线性关系

如何拟合数据

假设只有一个因变量和自变量，每个训练样例表示 $x_i, y_i)$
用 $\hat y_i$ 表示根据拟合直线和 $x_i$ 对 $y_i$ 的预测值
$\hat y_i= b_1 + b_2 x_i$
定义 $e_i = y_i - \hat y_i$ 为误差项

在这里插入图片描述

目标：得到一条直线使得对于所有训练样例的误差项尽可能小

线性回归的基本假设

自变量与因变量间存在线性关系;
数据点之间独立;
自变量之间无共线性，相互独立;
残差独立,等方差,且符合正态分布。

损失函数(loss function)

多种损失函数都是可行的，凭直觉就可以想到：
- 所有误差项的加和 $\sum_{i=1}^{n} e_i = \sum_{i=1}^{n}(y_i-\hat y_i)$
- 所有误差项绝对值的加和 $\sum_{i=1}^{n}|e_i| = \sum_{i=1}^{n}|(y_i - \hat y_i)|$
考虑到优化等问题，最常用的是基于误差平方和的损失函数
$\underset{b_1,b_2}{min}: \sum_{i=1}^{n} e^2_i = \sum_{i=1}^{n}(y_i-\hat y_i)^2 = \sum_{i=1}^{n}(y_i-b_1-b_2x_i)^2$

最小二乘法(Least Square, LS)

为了求解最优的截距和斜率，可以转化为一个针对损失函数的
凸优化问题，称为最小二乘法
$\frac{\partial \sum_{i=1}^{n} e^2_i}{\partial b_1} = -2\sum_{i=1}^{n}(y_i-b_1-b_2x_i) = 0\ \ \ \ \ \ \ (1)$
$\frac{\partial \sum_{i=1}^{n} e^2_i}{\partial b_2} = -2\sum_{i=1}^{n}x_i(y_i-b_1-b_2x_i) = 0\ \ \ (2)$
求解得到：
$b_2 = \frac{\sum_{i=1}^{n}(x_i-\overline x)(y_i-\overline y)}{\sum_{i=1}^{n}(x_i-\overline x)^2}$
$b_1 = \overline y - b_2\overline x$
$\overline x和\overline y$ 分别表示自变量和因变量的均值

梯度下降法（Gradient Descent，GD）

除了最小二乘法，还可以用基于梯度的方法迭代更新截距和斜率
• 梯度下降法
- 初始化 $b_1,b_2$
- 重复：
  - $b_1 = b_1 − \alpha$
  - $b_2 = b_2 − \alpha$
    对比LS：
  - $\frac{\partial \sum_{i=1}^{n} e^2_i}{\partial b_1}$
  - $\frac{\partial \sum_{i=1}^{n} e^2_i}{\partial b_2}$

回忆西洋跳棋系统设计：
$w_i \leftarrow w_i + c * f_i * error(b)$

多元线性回归(multiple Linear Regression)

• 当因变量有多个时，我们可以用矩阵方式表达
此时的误差项 $\begin{bmatrix} e_1\\ e_2 \\ \vdots\\ e_n \end{bmatrix} =y-X\beta$
损失函数 $\sum_{i=1}^{n} e^2_i = e'e\ \ \ \ \ \ e'表示转置$
求解 $\frac{\partial e'e}{\partial \beta} = -2X'Y + 2X'X\beta$
得到 $\beta = (X'X)^{-1}X'Y$

多元线性回归参数估计的推导(法二）

$\sum_{i=1}^{n} e^2_i = \sum_{i=1}^{n}(y_i - \beta_0 - \beta_1x_{x1} - ... - \beta_px_{ik})^2$
对每一个需要估计的参数 $\beta_i$ 求偏导:
$\sum(y_i - \beta_0 - \beta_1x_{x1} - ... - \beta_kx_{ik}) = 0$
$\sum(y_i - \beta_0 - \beta_1x_{x1} - ... - \beta_kx_{ik}) x_{i1}= 0$
…
$\sum(y_i - \beta_0 - \beta_1x_{x1} - ... - \beta_kx_{ik}) x_{ik}= 0$

$(y-X\beta)^TX = 0$
$y^TX = \beta^TX^TX \ \ \ \ \ \rightarrow \ \ \ \ \ X^Ty = X^TX\beta\ \ \ \ \ \rightarrow \ \ \ \ beta=(X^TX)^{-1}X^Ty$

实例：家庭花销预测

记录了 25 个家庭每年在快销品和日常服务上
- 总开销（𝑌）
- 每年固定收入（ 𝑋₂）、持有的流动资产（ 𝑋₃）
可以构建如下线性回归模型
$y_i = \beta_1 + \beta_2x_{i2} + \beta_3x_{i3} + \epsilon_i; \ \ \ \ \ i=1,...,25$

在这里插入图片描述

最终的预测模型为
$\hat y_i = 36.79 + 0.3318x{i2} + 0.1258x_{i3}$
如果一个家庭每年固定收入为 50K$、持有流动资产 100K$，则
预计一年将会花费
$\hat y_i = 36.79 + 0.3318(50) + 0.1258(100) = 65.96K$ $

以“误差平方和”为损失函数的优缺点

用误差平方和作为损失函数有很多优点
- 损失函数是严格的凸函数，有唯一解
- 求解过程简单且容易计算
同时也伴随着一些缺点
- 结果对数据中的“离群点”(outlier)非常敏感
  - 解决方法：提前检测离群点并去除
- 损失函数对于超过和低于真实值的预测是等价的
  - 但有些真实情况下二者带来的影响是不同的