前文回顾:机器学习 | 线性回归(单变量)
目录
📚多维特征
📚多变量梯度下降
📚梯度下降法实践
🐇特征缩放
🐇学习率
📚特征和多项式回归
📚正规方程
📚梯度下降与正规方程的比较
📚多维特征
接上文单变量线性回归,现在我们对房价模型增加更多的特征,例如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为。
增添更多特征后,我们引入一系列新的注释:
- 代表特征的数量
- 代表第i个训练实例,是特征矩阵中的第i行,是一个向量。
- 代表特征矩阵中第i行的第j个特征,也就是第i个训练实例的第j个特征。
- 支持多变量的假设h表示为:,这个公式中有n+1个参数和n个变量,为了使公式能够简化一些,引入。
- 则公式转化为
- 此时模型中的参数是一个n+1维的向量,任何一个训练实例也都是n+1维的向量,最后公式可以简化为:
📚多变量梯度下降
与单变量线性回归类似,在多变量线性回归中,我们也构建一个代价函数,且我们的目标依旧是要找出使得代价函数最小的一系列参数。
多元线性回归的批量梯度下降算法为:
在这里我们回顾当时单变量用到的代价函数,就会发现单变量多变量的代价函数其实就是同一个东西,。
我们开始随机选择一系列参数值,计算所有的预测结果后,再给所有的参数一个新的值,如此循环直至收敛。
📚梯度下降法实践
🐇特征缩放
在我们面对多维特征问题的时候,我们 要保证这些特征都具有相近的尺度 ,这将帮助梯度下降算法更快地收敛。 以房价问题为例,假设我们使用两个特征,房屋的尺寸和房间的数量,尺寸的值为 0-2000 平方英尺,而房间数量的值则是 0-5,以两个参数分别为横纵坐标,绘制代价函数的等高线图能, 图像会显得很扁 ,梯度下降算法 需要非常多次的迭代(会反复振荡) 才能收敛,就是会走一条折来折去的路线来找全局最小值。
最简单的方法是令:,其中是平均值,是标准差。针对这个,一般就是最大值减去最小值就可以了。而且其实特征缩放也不一定需要那么精确,我们只是为了让梯度下降运行得更快一点,收敛所需的迭代次数更少。
🐇学习率
梯度下降算法收敛所需要的迭代次数根据模型的不同而不同,我们不能提前预知,而我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。
所以这条曲线显示的是梯度下降的每步迭代后代价函数的值。如果代价函数正常工作的话,每一步迭代之后都应该下降,因此看这种曲线图可以告诉你算法有没有正常工作。而且可以通过这个曲线判断梯度下降算法最后有没有收敛(如上图,可以判断在400次左右就已经收敛了)。
也有一些自动测试是否收敛的方法,例如将代价函数的变化值与某个阀值(例如 0.001)进行比较,但通常看上面这样的图表更好。
通常可以考虑尝试这些学习率:,通过图像找出最快收敛的。
📚特征和多项式回归
如以下房价预测问题,所给的特征是邻街宽度和纵向深度,而我们可以用临街宽度×纵向深度得到面积,并用面积这一更好的特征来替换原有的那两个特征。
与选择特征想法密切相关的一个概念被称为多项式回归。
线性回归并不适用于所有的数据,有时我们需要曲线来适应我们的数据,例如以下所给出的数据集,我们或许会用二次方模型去拟合(考虑到数据集的后续下降趋势),也可以用三次方模型去拟合(考虑到数据集后续再升高),通常我们需要先观察数据然后再决定准备尝试怎样的模型。
且相关特征的选择也可以是灵活的,例如以下二次方模型的两种特征选择。
最后不管选择了怎样的模型,我们可以通过换元在将模型转化为线性回归模型。
注:如果我们采用多项式回归模型,在运行梯度下降算法前,特征缩放非常有必要。因为平方甚至更高次方等等数据之间相差太多啦。
📚正规方程
到目前为止,我们都在使用梯度下降算法,但是对于某些线性回归问题,正规方法是更好的解决方案。正规方程(区别于迭代方法的直接解法)。
假设我们的训练集特征矩阵为X(包含了),并且我们的训练集结果为向量y,则利用正规方程解出向量
在Octave中,正规方程写作:
pinv(X'*X)*X'*y
注:
- 对于那些不可逆的矩阵(通常是因为特征之间不独立,如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征,也有可能是特征数量大于训练集的数量),正规方程方法是不能用的(原则上)。
当你发现矩阵𝑋′𝑋的结果是奇异矩阵(即不可逆)
- 首先,看特征值里是否有一些多余的特征,像这些和是线性相关的,互为线性函数。同时,当有一些多余的特征时,可以删除这两个重复特征里的其中一个,无须两个特征同时保留,将解决不可逆性的问题。
- 但于𝑋′𝑋的不可逆的问题很少发生,在 Octave 里,如果用pinv()来实现𝜃的计算,会得到一个正常的解,即便矩阵 𝑋′𝑋是不可逆的(即使𝑋′𝑋的结果是不可逆的,但算法执行的流程是正确的)。在 Octave 里,有两个函数可以求解矩阵的逆,一个被称为 pinv(),另一个是 inv(),这两者之间的差异是些许计算过程上的,一个是所谓的伪逆, 另一个被称为逆。
总之,出现不可逆矩阵的情况极少发生,所以在大多数实现线性回归中, 出现不可逆的问题不应该过多的关注是不可逆的。
📚梯度下降与正规方程的比较
梯度下降 | 正规方程 |
需要选择学习率 | 不需要 |
需要多次迭代 | 一次运算得出 |
当特征数量n大时也能较好适用 |
需要计算,如果特征数量n较大则运算代价大,因为矩阵逆的计算时间复杂度为,通常来说当𝑛小于 10000 时还是 可以接受的
|
适用于各种类型的模型 | 只适用于线性模型,不适合逻辑回归模型等其他模型 |
一般来说,只要特征变量的数目并不大,标准方程是一个很好的计算参数θ的替代方法。
参考学习链接:【中英字幕】吴恩达机器学习系列课程,本篇对应4.1-4.7
be happy——