机器学习——线性回归（sklearn）

一、认识线性回归

1. 介绍

2. 多元线性回归的基本原理（LinearRegression）

二、多重共线性

1. 介绍

2. 多重共线性详细解释

三、岭回归（解决多重共线性问题）

1. 模型推导

2. 选取最佳的正则化参数取值

四、Lasso（解决多重共线性问题）

五、多项式回归（解决非线性问题）

六、回归类的模型评估指标

1. 是否预测到了正确的数值

（1）均方误差

（2）绝对均值误差

2. 是否拟合到了足够的信息

七、sklearn中的线性回归（自查）

一、认识线性回归

1. 介绍

回归是一种应用广泛的预测建模技术，这种技术的核心在于 预测的结果是连续型变量。理解线性回归可以有两种角度：矩阵的角度和代数的角度。

2. 多元线性回归的基本原理（LinearRegression）

多元线性回归 指的是一个样本有多个特征的线性回归问题。对于一个有 n 个特征的样本 i 而言，它的回归结果可以写作方程：

w 被统称为模型的参数，其中 w0 被称为截距（intercept），w1~wn 被称为回归系数（regression coefficient）。这个表达式和 y=az+b 是同样的性质。其中 y 是目标变量，也就是标签。xi1~xin 是样本 i 上的特征不同特征。如果考虑有 m 个样本，则回归结果可以被写作：

其中 $~{y}$ 是包含了 m 个全部的样本的回归结果的列向量。

注：通常使用粗体的小写字母来表示列向量，粗体的大写字母表示矩阵或者行列式。

进一步的，可以 使用矩阵来表示这个方程，其中 w 可以被看做是一个结构为（n+1, 1）的列矩阵，X 是一个结构为（m, n+1）的特征矩阵，则有：

线性回归的任务，就是构造一个预测函数来映射输入的特征矩阵 X 和标签值 y 的线性关系。这个预测函数的本质就是需要构建的模型，而构造预测函数的核心就是找出模型的参数向量 $w$ 。

在逻辑回归和 SVM 中，都是先定义了损失函数，然后通过最小化损失函数或损失函数的某种变化来将求解参数向量，以此将单纯的求解问题转化为一个最优化问题。在多元线性回归中，损失函数如下定义：

其中 $~{y_i}$ 是样本 i 对应的真实标签， $\hat{y_i}$ 也就是 $~{X_iw}$ 是样本 i 在一组参数 $w$ 下的预测标签。

现在只实现了向量上每个点对应相乘后的平方和，开没有开平方，所以 损失函数是 L2 范式，即欧式距离的平方结果。这个损失函数实在的计算了真实标签和预测值之间的距离。因此，我们认为这个损失函数衡量了构造的模型的预测结果和真实标签的差异，因此我们希望预测结果和真实值差异越小越好。经转换的求解目标：

其中右下角的 2 表示向量 $y-Xw$ 的 L2 范式，也就是损失函数所代表的含义。在 L2 范式上开平方，就是损失函数。我们往往称呼这个式子为 SSE （Sum of Sqaured Error，误差平方和）或者RSS （Residual Sum of Squares 残差平方和）。在 sklearn 所有官方文档和网页上，都称之为 RSS残差平方和。

现在问题转换成了求解让 RSS 最小化的参数向量 w，这种通过最小化真实值和预测值之间的 RSS 来求解参数的方法叫做 最小二乘法。现在残差平方和 RSS 上对参数向量 w 求导。

在这里，逆矩阵存在的充分必要条件是特征矩阵不存在多重共线性。假设矩阵的逆是存在的，此时我们的 w 就是参数的最优解。求解出这个参数向量，就解出了我们的 $Xw$ ，也就能够计算出我们的预测值了。

class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None)

参数	含义
fit_intercept	布尔值，可不填，默认为 True 是否计算此模型的截距。如果设置为 False ，则不会计算截距
normalize	布尔值，可不填，默认为 False 设置为 False 时，将忽略此参数。如果为 True ，则特征矩阵 X 在进入回归之前将会被减去均值（中心化）并除以 L2 范式（缩放）。如果希望进行标准化，请在 fit 数据之前使用 preprocessing 模块中的标准化专用类 StandardScaler
copy_X	布尔值，可不填，默认为 True 如果为真，将在 X.copy() 上进行操作，否则的话原本的特征矩阵 X 可能被线性回归影响并覆盖
n_jobs	整数或者 None ，可不填，默认为 None 用于计算的作业数。只在多标签的回归和数据量足够大的时候才生效。除非 None 在 joblib.parallel_backend上下文中，否则 None 统一表示为 1 。如果输入 -1 ，则表示使用全部的CPU 来进行计算。

属性	含义
coef_	数组，形状为 (n_features, ) 或者 (n_targets, n_features) 线性回归方程中估计出的系数。如果在fit 中传递多个标签（当 y 为二维或以上的时候），则返回的系数是形状为（n_targets ， n_features ）的二维数组，而如果仅传递一个标签，则返回的系数是长度为 n_features 的一维数组。
intercept_	数组，线性回归中的截距项。

二、多重共线性

1. 介绍

多重共线性是一种统计现象，是 指线性模型中的特征（解释变量）之间由于存在精确相关关系或高度相关关系，多重共线性的存在会使模型无法建立，或者估计失真。

2. 多重共线性详细解释

在最后一步中需要左乘 $X^TX$ 的逆矩阵，而逆矩阵存在的充分必要条件是特征矩阵不存在多重共线性。

首先需要先理解 逆矩阵存在与否的意义和影响。逆矩阵的计算公式：

位于分母的变量不能为 0，一旦为 0 则无法计算出逆矩阵。因此逆矩阵存在的充分必要条件是：矩阵的行列式不能为 0，对于线性回归而言，即是说 $|X^TX|$ 不能为 0。这是使用最小二乘法来求解线性回归的核心条件之一。

假设特征矩阵 $X$ 结构为（m,n），则 $X^TX$ 就是结构为（n,m）的矩阵乘以结构为（m,n）的矩阵，从而得到结果为（n,n）的方阵。

在线性代数中，可以通过行列式的计算将一个行列式整合成一个梯形的行列式：

梯形的行列式表现为，所有的数字都被整合到对角线的上方或下方（通常是上方），虽然具体的数字发生了变化，但是行列式的大小在初等行变换 / 列变换的过程中是不变的。

矩阵满秩（即转换为梯形矩阵后对角线上没有 0）是矩阵的行列式不为 0 的充分必要条件。

假设：

对于上述矩阵进行变换：

矩阵 A 明显不是满秩的，它有全零行所以行列式会为 0。而矩阵 B 和 C 没有全零行所以满秩。而矩阵 A 和矩阵 B 的区别在于，A 中存在着完全具有线性关系的两行（1，1，2）和（2，2，4），而 B 和 C 中则没有这样的两行。而矩阵 B 虽然对角线上每个元素都不为 0，但具有非常接近于 0 的元素 0.02，而矩阵 C 的对角线上没有任何元素特别接近于 0。

矩阵 A 中第一行和第三行的关系，被称为 “精确相关关系”，即完全相关，一行可使另一行为 0。在这种精确相关关系下，矩阵 A 的行列式为 0，则矩阵 A 的逆不可能存在。在我们的最小二乘法中，如果矩阵 $X^TX$ 中存在这种精确相关关系，则逆不存在，最小二乘法完全无法使用，线性回归会无法求出结果。

矩阵 B 中第一行和第三行的关系不太一样，他们之间非常接近于 “精确相关关系” ，但又不是完全相关，一行不能使另一行为 0，这种关系被称为 “高度相关关系”。在这种高度相关关系下，矩阵的行列式不为 0，但是一个非常接近 0 的数，矩阵 A 的逆存在，不过接近于无限大。在这种情况下，最小二乘法可以使用，不过得到的逆会很大，直接影响我们对参数向量 w 的求解：

这样求解出来的参数向量 w 会很大，因此会影响建模的结果，造成模型有偏差或者不可用。精确相关关系和高度相关关系并称为 “多重共线性”。在多重共线性下，模型无法建立，或者模型不可用。

相对的，矩阵 C 的行之间结果相互独立，梯形矩阵看起来非常正常，它的对角线上没有任何元素特别接近于 0，因此其行列式也就不会接近 0 或者为 0，因此矩阵 C 得出的参数向量 w就不会有太大偏差，对于我们拟合而言是比较理想的。

所以，一个矩阵如果要满秩，则要求矩阵中每个向量之间不能存在多重共线性，这也构成了线性回归算法对于特征矩阵的要求。

三、岭回归（解决多重共线性问题）

1. 模型推导

岭回归，又称为吉洪诺夫正则化（Tikhonov regularization）。岭回归在多元线性回归的损失函数上加上了正则项，表达为系数 w 的 L2范式（即系数w的平方项）乘以正则化系数 a。

依然使用最小二乘法来求解。假设特征矩阵结构为（m,n），系数 w 的结构是（1, n），则可以有：

正则化系数 a 避免了 “精确相关关系” 带来的影响。当 a 越大，模型越不容易受到共线性的影响。

最小二乘法一定有解，并且这个解可以通过 a 来进行调节，以确保不会偏离太多。当然 a 挤占了 w 中由原始的特征矩阵贡献的空间，因此 a 如果太大，也会导致 w 的估计出现较大的偏移，无法正确拟合数据的真实面貌。

# 在sklearn中，岭回归由线性模型库中的Ridge类来调用

class sklearn.Linear_model.Ridge(alpha=1.0, fit_intercept=True, normalize=False, copy_X=True, max_iter=None, tol=0.001, solver=‘auto’, random_ state=None)

2. 选取最佳的正则化参数取值

这一个以正则化参数为横坐标，线性模型求解的系数 w 为纵坐标的图像，其中每一条彩色的线都是一个系数 w。其目标是建立正则化参数与系数 w 之间的直接关系，以此来观察正则化参数的变化如何影响了系数 w 的拟合。

岭迹图认为，线条交叉越多，则说明特征之间的多重共线性越高。应该选择系数较为平稳的喇叭口所对应的 a 取值作为最佳的正则化参数的取值。

# 使用交叉验证来选择最佳的正则化系数

class sklearn.linear_model.RidgeCV(alphas=(0.1, 1.0, 10.0), fit_intercept=True, normalize=False, scoring=None，cv=None, gcv_mode=None, store_cv_values=False)

重要参数	含义
alphas	需要测试的正则化参数的取值的元祖
scoring	用来进行交叉验证的模型评估指标，默认是 R²，可自行调整
store_cv_values	是否保存每次交叉验证的结果，默认False
cv	交叉验证的模式，默认是 None ，表示默认进行留一交叉验证可以输入 Kfold 对象和 StratifiedKFold 对象来进行交叉验证注：仅仅当为 None 时，每次交叉验证的结果才可以被保存下来当 cv 有值存在（不是 None ）时， store_cv_values 无法被设定为 True
重要属性	含义
alpha_	查看交叉验证选中的alpha
cv_values_	调用所有交叉验证的结果，只有当 store_cv_values=True 的时候才能够调用，因此返回的结构是(n_samples, n_alphas)
重要接口	含义
score	调用Ridge类不进行交叉验证的情况下返回的R平方

四、Lasso（解决多重共线性问题）

Lasso 全称最小绝对收缩和选择算子（least absolute shrinkageand selection operator）。和岭回归一样，Lasso 是被创造来作用于多重共线性问题的算法，Lasso 使用的是系数 w 的 L1范式（L1范式则是系数w的绝对值）乘以正则化系数 a，所以 Lasso 的损失函数表达式为：

使用最小二乘法来求解 Lasso 中的参数 w，对损失函数进行求导：

Lasso 无法解决特征之间 “精确相关” 的问题。当使用最小二乘法求解线性回归时，如果线性回归无解或者报除零错误，换 Lasso 不能解决任何问题。

幸运的是，在现实中会比较少遇到 “精确相关” 的多重共线性问题，大部分多重共线性问题应该是 “高度相关”，而如果我们假设方阵 $X^TX$ 的逆是一定存在的，那可以有：

通过增大 a，可以为 w 的计算增加一个负项，从而限制参数估计中 w 的大小，而防止多重共线性引起的参数 w 被估计过大导致模型失准的问题。Lasso 不是从根本上解决多重共线性问题，而是 限制多重共线性带来的影响。

class sklearn.linear_model.Lasso(alpha=1.0, fit_intercept=True, normalize=False, precompute=False， copy_X=True, max_iter=1000, tol=0.0001, warm_start=False, positive=False, random_ state=None, selection=‘cyclic’)

比起岭回归，Lasso 所带的 L1 正则项对于系数的惩罚要重得多，并且它会将系数压缩至 0，因此可以被用来做特征选择。也因此，往往让 Lasso 的正则化系数 a 在很小的空间中变动，以此来寻找最佳的正则化系数。

# 使用交叉验证的Lasso类

class sklearn.linear_model.LassoCV (eps=0.001, n_alphas=100, alphas=None,  fit_intercept=True, normalize=False, precompute=’auto’, max_iter=1000, tol=0.0001, copy_X=True, cv=’warn’, verbose=False, n_jobs=None, positive=False, random_state=None, selection=’cyclic’)

参数	含义
eps	正则化路径的长度，默认0.001
n_alphas	正则化路径中的个数，默认100
alphas	需要测试的正则化参数的取值的元祖，默认 None 。当不输入的时候，自动使用 eps 和 n_alphas 来自动生成带入交叉验证的正则化参数
cv	交叉验证的次数

属性	含义
alpha_	调用交叉验证选出来的最佳正则化参数
alphas_	使用正则化路径的长度和路径中的个数来自动生成的，用来进行交叉验证的正则化参数
mse_path	返回所以交叉验证的结果细节
coef_	调用最佳正则化参数下建立的模型的系数

五、多项式回归（解决非线性问题）

非线性模型能够拟合或处理线性数据。线性数据对于非线性模型来说太过简单，很容易就把训练集上的 $R^2$ 训练得很高。

线性模型若用来拟合非线性数据或者对非线性可分的数据进行分类，那通常都会表现糟糕。改善线性模型在非线性数据上的效果的方法之一时进行分箱，并且从下图来看分箱的效果非常好，甚至高过一些非线性模型。

	线性模型	非线性模型
代表模型	线性回归，逻辑回归，弹性网，感知机	决策树，树的集成模型，使用高斯核的SVM
模型特点	模型简单，运行速度快	模型复杂，效果好，但速度慢
数学特征：回归	自变量是一次项	自变量不都是一次项
分类	决策边界上的自变量都是一次项	决策边界上的自变量不都是一次项
可视化：回归	拟合出的图像是一条直线	拟合出的图像不是一条直线
分类	决策边界在二维平面是一条直线	决策边界在二维平面不是一条直线
擅长数据类型	主要是线性数据，线性可分数据	所有数据

补充：

当获得数据时，往往希望使用线性模型来对数据进行最初的拟合（线性回归用于回归，逻辑回归用于分类），如果线性模型表现良好，则说明数据本身很可能是线性的或者线性可分的，如果线性模型表现糟糕，那毫无疑问我们会投入决策树，随机森林这些模型的怀抱，就不必浪费时间在线性模型上了。

除了分箱之外，另一种更普遍的 用于解决 “线性回归只能处理线性数据” 问题的手段，就是使用多项式回归对线性回归进行改进。这样的手法是机器学习研究者们从支持向量机中获得的：支持向量机通过升维可以将非线性可分数据转化为线性可分，然后使用核函数在低维空间中进行计算，这是一种 “高维呈现，低维解释” 的思维。我们也可以让线性回归使用类似于升维的转换，将数据由非线性转换为线性，从而为线性回归赋予处理非线性数据的能力。

多项式变化：这是一种通过增加自变量上的次数，而将数据映射到高维空间的方法，只要设定一个自变量上的次数（大于 1），就可以相应地获得数据投影在高次方的空间中的结果。

当原始特征为二维的时候，多项式的二次变化突然将特征增加到了六维，其中一维是常量（截距）。当继续适用线性回归去拟合的时候，我们会得到的方程如下：

当进行多项式转换的时候，多项式会产出到最高次数为止的所有低高次项。如果太过分的共线性还是会影响到模型的拟合。因此 sklearn 中存在着控制是否要生成平方和立方项的参数 interaction_only，默认为 False，以减少共线性（只生成交互项）。

随着原特征矩阵的维度上升，随着我们规定的最高次数的上升，数据会变得越来越复杂，维度越来越多，并且这种维度的增加并不能用太简单的数学公式表达出来。因此，多项式回归没有固定的模型表达式，多项式回归的模型最终长什么样子是由数据和最高次数决定的。

class sklearn.preprocessing.PolynomialFeatures(degree=2, interaction_only=False, include_ bias=True)

参数	含义
degree	多项式中的次数，默认为 2
interaction_only	布尔值是否只产生交互项，默认为 False
include_bias	布尔值，是否产出与截距项相乘的，默认 True

补充：多项式回归是线性还是非线性模型？

            来看原始特征为二维，多项式次数为二次的多项式回归表达式：



        经过变化后的数据有六个特征，分别是：

        从第四个特征开始，都是高次特征，而这些高次特征与 y 之间的关系必然不是线性的。但也可以换—种方式来思考这个问题：假设我们不知道这些特征是由多项式变化改变来的，只是拿到了含有六个特征的任意数据，于是现在对于我们来说这六个特征就是：

         通过检验发现，z1 和 z4、z5 之间存在一定的共线性，z2 也是如此，但是现实中的数据不太可能完全不相关，因此一部分的共线性是合理的。所以使用线性回归来对数据进行拟合，然后得到了方程：

        多项式正是利用线性回归的这种 “扭曲”，为线性模型赋予了处理非线性数据的能力。

六、回归类的模型评估指标

在回归类算法中，有两种不同的角度来看待回归的效果：① 是否预测到了正确的数值。② 是否拟合到了足够的信息。这两种角度，分别对应着不同的模型评估指标。

1. 是否预测到了正确的数值

（1）均方误差

均方误差，本质是在 RSS 的基础上除以了样本总量，得到了每个样本量上的平均误差。有了平均误差，就可以将平均误差和我们的标签的取值范围在一起比较，以此获得—个较为可靠的评估依据。

在 sklearn 当中，有两种方式调用这个评估指标，一种是使用 sklearn 专用的模型评估模块 metrics 里的类 mean_squared_error，另一种是 调用交叉验证的类 cross_val_score 并使用里面的 scoring 参数来设置使用均方误差。

我们在决策树和随机森林中都提到过，虽然均方误差永远为正，但是 sklearn 中的参数scorin g下，均方误差作为评判标准时，却是计算 “负均方误差”（neg_mean_squared_error）。这是因为 sklearn 在计算模型评估指标的时候，会考虑指标本身的性质，均方误差本身是一种误差，所以被 sklearn 划分为模型的一种损失（loss）。在 sklearn 当中，所有的损失都使用负数表示，因此均方误差也被显示为负数了。真正的均方误差 MSE 的数值，其实就是 neg_mean_squared_error 去掉负号的数字。

（2）绝对均值误差

MAE（Mean_absolute_error，绝对均值误差）。其表达的概念与均方误差完全一致，在真实标签和预测值之间的差异外使用的是 L1 范式（绝对值）。

在 sklearn 中，使用命令 from sklearn.metrics import mean_absolute_error 来调用 MAE，同时，也可以使用交叉验证中的 scoring="neg_mean_absolute _error"，以此在交叉验证时调用 MAE。

2. 是否拟合到了足够的信息

这张图，其中红色线是真实标签，而蓝色线是拟合模型。对于这样的一个拟合模型，如果使用 MSE 来对它进行判断，它的 MSE 会很小，因为大部分样本其实都被完美拟合了，少数样本的真实值和预测值的巨大差异在被均分到每个样本上之后，MSE 就会很小。但这样的拟合结果必然不是一个好结果，因为一旦新样本是处于拟合曲线的后半段的，预测结果必然会有巨大的偏差。

我们定义了 $R^2$ 来帮助我们：

其中 $y$ 是真实标签， $\hat{y_i}$ 是预测结果， $\overline{y}$ 是均值， $y_i-\overline{y}$ 如果除以样本量 m 就是方差。方差的本质是任意一个 $y$ 值和样本均值的差异，差异越大，这些值所带的信息越多。在 $R^2$ 中，分子是真实值和预测值之差的差值，也就是 模型没有捕获到的信息总量，分母是真实标签所带的信息量，所以其衡量的是 1 - 我们的模型没有捕获到的信息量占真实标签中所带的信息量的比例，所以， $R^2$ 越接近 1 越好。

$R^2$ 可以使用三种方式来调用：① 直接从 metrics 中导入 r2_score，输入预测值和真实值后打分。② 直接从线性回归 LinearRegression 的的接口 score 来进行调用。③ 是在交叉验证中，输入 “r2” 来调用。

七、sklearn中的线性回归（自查）

涉及模块：linear_model

类 / 函数	含义
普通线性回归
linear_model.LinearRegression	使用普通最小二乘法的线性回归

岭回归
linear_model.Ridg	一种将 L2 作为正则化工具的线性最小二乘回归
linear_model.RidgeCV	带交叉验证的岭回归
linear_model.RidgeClassifier	岭回归的分类器
linear_model.RidgeClassifierCV	带交叉验证的岭回归的分类器
linear_model.ridge_regression	【函数】用正太方程法求解岭回归

LASSO
linear_model.Lasso	使用 L1 作为正则化工具来训练的线性回归模型
linear_model.LassoCV	带交叉验证和正则化迭代路径的 Lasso
linear_model.LassoLars	使用最小角度回归求解的 Lasso
linear_model.LassoLarsCV	带交叉验证的使用最小角度回归求解的 Lasso
linear_model.LassoLarsIC	使用 BIC 或 AIC 进行模型选择的，使用最小角度回归求解的Lasso
linear_model.MultiTaskLasso	使用 L1 / L2 混合范数作为正则化工具训练的多标签Lasso
linear_model.MultiTaskLassoCV	使用 L1 / L2 混合范数作为正则化工具训练的，带交叉验证的多标签 Lasso
linear_model.lasso_path	【函数】用坐标下降计算 Lasso 路径

弹性网
linear_model.ElasticNet	一种将 L1 和 L2 组合作为正则化工具的线性回归
linear_model.ElasticNetCV	带交叉验证和正则化迭代路径的弹性网
linear_model.MultiTaskElasticNet	多标签弹性网
linear_model.MultiTaskElasticNetCV	带交叉验证的多标签弹性网
linear_model.enet_path	【函数】用坐标下降法计算弹性网的路径

最小角度回归
linear_model.Lars	最小角度回归（Least Angle Regression，LAR）
linear_model.LarsCV	带交叉验证的最小角度回归模型
linear_model.lars_path	【函数】使用 LARS 算法计算最小角度回归路径或 Lasso 的路径

正交匹配追踪
linear_model.OrthogonalMatchingPursuit	正交匹配追踪模型（OMP）
linear_model.OrthogonalMatchingPursuitCV	交叉验证的正交匹配追踪模型（OMP）
linear_model.orthogonal_mp	【函数】正交匹配追踪（OMP）
linear_model.orthogonal_mp_gram	【函数】Gram正交匹配追踪（OMP）

贝叶斯回归
linear_model.ARDRegression	贝叶斯 ARD 回归。 ARD 是自动相关性确定回归（ Automatic Relevance Determination Regression ），是一种类似于最小二乘的，用来计算参数向量的数学方法。
linear_model.BayesianRidge	贝叶斯岭回归

其他回归
linear_model.PassiveAggressiveClassifier	被动攻击性分类器
linear_model.PassiveAggressiveRegressor	被动攻击性回归
linear_model.Perceptron	感知机
linear_model.RANSACRegressor	RANSAC（RANdom SAmple Consensus）算法。
linear_model.HuberRegressor	胡博回归，对异常值具有鲁棒性的一种线性回归模型
linear_model.SGDRegressor	通过最小化 SGD 的正则化损失函数来拟合线性模型
linear_model.TheilSenRegressor	Theil-Sen 估计器，一种鲁棒的多元回归模型