回归分析简明教程【Regression Analysis】

为了理解回归背后的动机，让我们考虑以下简单的例子。下面的散点图显示了2001年至2012年美国大学毕业生的数量。

在这里插入图片描述

现在根据现有的数据，如果有人问你2018年有多少名大学毕业生获得硕士学位呢？可以看出，具有硕士学位的大学毕业生数量几乎与年份呈线性增长。因此，通过简单的视觉分析，我们可以粗略估计该数字在 200万到 210 万之间。我们来看看实际数字。下图绘制了从 2001 年到 2018 年的同一变量。可以看出，我们的预测数字与实际值大致相符。

在这里插入图片描述

由于这是一个比较简单的问题（将一条线拟合到数据），我们的大脑很容易就能做到这一点。这种将函数拟合到一组数据点的过程称为回归分析（regression analysis）。

1、什么是回归分析？

回归分析是估计因变量和自变量之间关系的过程。简而言之，这意味着将选定函数族中的函数拟合到某个误差函数下的采样数据。回归分析是机器学习领域用于预测的最基本工具之一。使用回归，你可以在可用数据上拟合函数，并尝试预测未来或保留数据点的结果。这种功能拟合有两个目的。

可以估计数据范围内的缺失数据（插值）
可以估计数据范围之外的未来数据（外推法）

回归分析的一些现实示例包括根据房屋特征预测房屋价格、预测 SAT/GRE 分数对大学录取的影响、根据输入参数预测销售、预测天气等。

让我们考虑一下前面大学毕业生的例子。

插值（interpolation）：假设我们可以访问一些稀疏的数据，其中我们知道每 4 年大学毕业生的数量，如下面的散点图所示。

我们想要估计其间所有缺失年份的大学毕业生人数。我们可以通过将一条线拟合到有限的可用数据点来做到这一点。这个过程称为插值（interpolation）。

在这里插入图片描述

外推（extrapolation）：假设我们只能获取 2001 年到 2012 年的有限数据，并且我们想要预测 2013 年到 2018 年的大学毕业生人数。

可以看出，具有硕士学位的大学毕业生数量几乎与年份呈线性增长。因此，将一条线拟合到数据集中是有意义的。用这12个点拟合一条线，然后在未来6个点上测试这条线的预测，可以看出预测非常接近。
在这里插入图片描述

用数学语言定义回归分析，就是用指定的数据点在一定的损失函数约束下估计某个函数的参数：
在这里插入图片描述

2、回归分析的类型

现在我们来谈谈进行回归的不同方法。根据函数族 (f_beta) 和使用的损失函数 (l)，我们可以将回归分为以下几类。

线性回归
多项式回归
岭回归
Lasso回归
ElasticNet回归
贝叶斯回归
逻辑回归

3、线性回归

在线性回归中，目标是通过最小化每个数据点的均方误差之和来拟合超平面（二维数据点的线）。

从数学上来说，线性回归解决了以下问题：
在这里插入图片描述

因此，我们需要找到 2 个用 beta 表示的变量来参数化线性函数 f(.)。线性回归的示例如上图 4 所示，其中 P=5。该图还显示了 beta_0 = -90.798 和 beta_1 = 0.046 的拟合线性函数

4、多项式回归

线性回归假设因变量 (y) 和自变量 (x) 之间的关系是线性的。当数据点之间的关系不是线性时，它无法拟合数据点。多项式回归通过将 m 次多项式拟合到数据点来扩展线性回归的拟合能力。所考虑的函数越丰富，（一般来说）其拟合能力就越好。从数学上来说，多项式回归解决了以下问题。
在这里插入图片描述

因此我们需要找到 (m+1) 个用 beta_0, …,beta_m 表示的变量。可见，线性回归是2次多项式回归的特例。

考虑以下绘制为散点图的数据点集。如果我们使用线性回归，我们得到的拟合显然无法估计数据点。但如果我们使用 6 次多项式回归，我们会得到更好的拟合，如下所示：

在这里插入图片描述

[左] 数据散点图 — [中] 线性回归 — [右] 6 次多项式回归

由于数据点在因变量和自变量之间不存在线性关系，因此线性回归无法估计良好的拟合函数。另一方面，多项式回归能够捕捉非线性关系。

5、岭回归

岭回归（Ridge Regression）解决了回归分析中的过度拟合问题。要理解这一点，请考虑与上面相同的示例。当25次多项式对10个训练点的数据进行拟合时，可以看到它完美地拟合了红色数据点（下中图）。但这样做会损害中间的其他点（最后两个数据点之间的峰值）。这可以从下图中看出。岭回归试图解决这个问题。它试图通过破坏训练点的拟合来最小化泛化误差。

在这里插入图片描述

[左] 数据散点图 — [中] 25 次多项式回归 — [右] 25 次多项式岭回归

从数学上来说，岭回归通过修改损失函数来解决以下问题：
在这里插入图片描述

函数 f(x) 可以是线性函数或多项式函数。在没有岭回归的情况下，当函数过度拟合数据点时，学习到的权重往往会相当高。岭回归通过在损失函数中引入权重 (beta) 的缩放 L2 范数来限制所学习的权重范数，从而避免过度拟合。

因此，训练模型在完美拟合数据点（学习权重的大范数）和限制权重范数之间进行权衡。缩放常数 alpha>0 用于控制这种权衡。较小的 alpha 值将导致较高的范数权重并过度拟合训练数据点。另一方面，较大的 alpha 值将导致函数与训练数据点拟合较差，但权重范数非常小。仔细选择 alpha 值将产生最佳权衡。