最小二乘线性回归

news2025/7/14 1:45:31

线性回归（linear regression）：试图学得一个线性模型以尽可能准确地预测实际值的输出。

以一个例子来说明线性回归，假设银行贷款会根据年龄和工资来评估可放款的额度。即：

数据：工资和年龄（2个特征）

目标：预测银行放款额度（标签）

参数：考虑工资和年龄分别对放款额度的影响程度

可以写成这样： $Y=X_1\theta_1+X_2\theta_2$ ，这里 $X_1、X_2 就是特征，Y$ 就是银行最终放款额度。

找到最合适的一个平面来拟合数据点：
在这里插入图片描述

拟合的平面方程： $h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2$ ，这里 $\theta_0$ 是偏置项。整合该方程可以写成如下形式：
$h_{\theta}(x)=\sum_{i=0}^n \theta_ix_i=\theta^\top x$
注意这里 $x_0=1$ ，添加一个全为1的特征，方便表示。

真实值和预测值之间肯定存在误差，用 $\epsilon$ 来表示误差。对于每个样本：
$y_i = \theta^\top x_i + \epsilon_i$
这里 $y_i$ 为真实值， $\theta^\top x_i$ 为预测值， $\epsilon_i$ 为误差项

对于误差的理解：误差 $\epsilon_i$ 是独立同分布的，且服从均值为0方差为 $\theta^2$ 的高斯分布

独立：每个样本 $x_i$ 是没有关系的（张三李四一起放款，他俩没关系）
同分布：每个 $x_i$ 都是对于同一个问题的（他俩都是来同一家银行）
高斯分布：误差可大可小，但是绝大多数情况下这个浮动不会太大，极小情况下浮动会比较大，符合正常情况。

由于误差服从高斯分布：
$p(\epsilon_i) = \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{\epsilon_i}{\sigma}\right)^2}$
将预测值和误差带入上式得：
$y_i = \theta^\top x_i + \epsilon_i \\ 带入\ \ p(\epsilon_i) = \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{\epsilon_i}{\sigma}\right)^2}：\\ p(y_i|x_i;\theta)=\frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{y_i-\theta^\top x_i}{\sigma}\right)^2}$
上式的似然函数如下：
$L(\theta) = \prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{y_i-\theta^\top x_i}{\sigma}\right)^2}$
对似然函数的解释：

什么样的参数跟我们的数据组合后恰好是真实值

对数似然：
$L(\theta) =log \prod_{i=1}^mp(y_i|x_i;\theta)=log \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{y_i-\theta^\top x_i}{\sigma}\right)^2}\\=mlog\frac{1}{\sqrt{2 \pi}\sigma}-\frac{1}{\sigma ^2}*\frac12*\sum_{i=1}^m(y_i-\theta^\top x_i)^2$
目标是让似然函数（对数变换之后）越大越好：
$\ log L(\theta)\\ →min \ J(\theta)=\frac12 \sum_{i=1}^m(y_i-\theta^\top x_i)^2（最小二乘法）$
$J(\theta)=\frac12 \sum_{i=1}^m(y_i-\theta^\top x_i)^2$ 即为最小二乘法。

将目标函数写为矩阵形式：
$J(\theta)=\frac12 \sum_{i=1}^m(y_i-\theta^\top x_i)^2= \frac12(X\theta-y)^\top (X\theta-y)\\ 对\theta 求偏导:\\ \nabla_\theta J(\theta)=X^\top X\theta-X^\top y\\ 令\nabla_\theta J(\theta)=0得:\\ \theta=(X^\top X)^{-1}X^\top y$
采用微分和迹的关系 $tr((\frac{\partial f}{\partial X})^\top dX)$ 进行求导，求导过程如下：
$dJ(\theta)= tr(dJ(\theta))=d[\frac12(X\theta-y)^\top (X\theta-y)]\\ =tr[d(\frac12(\theta^\top X^\top X\theta-2y^\top X\theta+y^\top y))]\\ =tr[d(\frac12\theta^\top X^\top X\theta)]-tr(d(2y^\top X\theta))+tr(d(y^\top y))\\ =tr(\frac12d\theta^\top X^\top X\theta)+tr(\frac12\theta^\top X^\top Xd\theta)-tr(2y^\top Xd\theta)+0\\ =tr(\frac12\theta^\top X^\top Xd\theta)+tr(\frac12\theta^\top X^\top Xd\theta)-tr(2y^\top Xd\theta)\\ =tr(\theta^\top X^\top Xd\theta-2y^\top Xd\theta)=tr((\theta^\top X^\top X-2y^\top X)d\theta)\\ =tr(( X^\top X\theta - 2X^\top y)^\top d\theta)\\ 故：\\ \frac{\partial J(\theta)}{\partial \theta}=X^\top X\theta - 2X^\top y\\$
当 $X^\top X$ 为满秩矩阵或者正定矩阵时，令偏导数 $\frac{\partial J(\theta)}{\partial \theta}=X^\top X\theta - 2X^\top y=0$ 得到：
$\theta=(X^\top X)^{-1}X^\top y$

其中 $(X^\top X)^{-1}$ 是矩阵 $X^\top X$ 的逆矩阵。但是现实任务中， $X^\top X$ 通常不是满秩矩阵，例如在许多任务中会遇到大量的变量，其数目甚至超过样例数，导致X的列数多于行数， $X^\top X$ ， $X^\top X$ 显然不满秩。此时可以解出多个 $\theta$ ，他们都能使均方差最小化。选择哪一个解作为输出，将由机器学习算法的归纳偏好决定，常见的做法是引入正则化项。