【机器学习】我小学二年级妹妹都能理解的线性回归算法

news2025/4/8 0:12:39

什么是线性回归？

我小学二年级的妹妹想用压岁钱买房子，售楼广告上写着100万可以买100 $m^2$ 的房子，200万可以买200 $m^2$ 的房子，但是我的妹妹觉得那些房子都太小了，想买300 $m^2$ 的房子，那她应该要花多少钱呢？

对于这个问题，我们可以根据已知数据画出一条优美的直线，并且可以把直线方程求出来，根据这个直线方程就可以把房价和房子的面积映射起来。

求出该问题的直线方程就是线性回归的一个过程，在数学上通常叫做线性拟合。上述问题似乎很简单，但实际上我们已知的数据量是非常大的，而且涉及到的变量也非常多，通常需要用到最小二乘法或者梯度下降法去求解。

线性回归是一种数据分析技术，它通过使用另一个相关的已知数据值来预测未知数据的值。它以数学方式将未知变量或因变量以及已知变量或自变量建模为线性方程。

线性模型

要想理解这部分内容，需要懂一点我们小学学过的线性代数。

线性方程一般是这样写的： $\widehat y= w_ {1} x_ {1} + \cdots + w_ {n} x_ {n} +b$
但是变量太多的话，我们也可以用向量的形式去简写： $\widehat y= w^ {T} x+b$

其中 $\widehat y$ 表示 $y$ 的估计值， $w$ 是权重， $b$ 是偏置，这就是一个线性模型，我们的最终目标就是把线性模型的这些参数求解出来。

在幼儿园的时候，我们经常用 $y = kx + b$ 来表示二维平面上的直线，其中 $k$ 就是权重， $b$ 就是偏置，有些人觉得用 $w$ 来表示会比较变扭，所以特此说明一下。

损失函数

损失函数其实就是用来描述我们画出来的直线是否合适，如果我们拟合的这条直线非常不合适，损失函数算出来的值就非常大，反之则值非常小。

回归问题中最常用的损失函数是平方误差函数： $l^{(i)}(w,b)= \frac {1}{2} (\widehat {y}^ {(i)}-y^ {(i)})^ {2}$

如果估计出来的 $\widehat y$ 和实际 $y$ 值相等，也就是一点误差都没有，那损失函数的值就是0，这是最完美的一种情况。

如何解出线性模型？

线性回归是机器学习中的一个算法，通常我们解方程都是自己去解，但是如果该线性模型的参数太多了，我们就无法通过人去解决问题了。

这时候我们就要训练机器，让机器帮我们解决问题。但是机器如何解决这个问题？教机器去做这件事似乎十分的奇妙，接下来让我们深入了解一下吧！

上图是一组关于人口和收益的数据散点图，我们现在需要构建一个线性模型。那我们如何知道这个线性模型是否构建的很好呢？当然是最小化损失函数啦！

我们将损失函数与线性模型方程联系起来：

$L(\mathbf{w},b)=\frac1n\sum_{i=1}^nl^{(i)}(\mathbf{w},b)=\frac1n\sum_{i=1}^n\frac12\left(\mathbf{w}^\top\mathbf{x}^{(i)}+b-y^{(i)}\right)^2$

我们使得损失函数的值最小，那么得到的线性模型也就是最优的！

$\mathbf{w}^*,b^*=\underset{\mathbf{w},b}{\operatorname*{argmin}} L(\mathbf{w},b)$

其中 $w^*$ 和 $b^*$ 表示它们的最优值。

最小二乘法

我们可以通过最小二乘法来对参数 $w$ 和 $b$ 进行估计。

现在把 $b$ 吸收到 $w$ 向量中， $\widehat y= w_ {1} x_ {1} + \cdots + w_ {n} x_ {n} +w_0$ ，其中 $w_0$ 就相当于是 $b$ 。

写成向量的形式就是将 $\widehat y= w^ {T} x+b$ 变为 $\widehat y= WX$ ，其中 $X=(x,1)$ 。

综上可得：

$W^*=\underset{\mathbf{w}}{\operatorname*{argmin}}(y-WX)^2=\underset{\mathbf{w}}{\operatorname*{argmin}}(y-WX)^T(y-WX)$

要使得 $w$ 最小化，就是对 $w$ 求偏导为0，这涉及到矩阵的求导知识。

$\mathrm W^*=\mathrm\ w^\mathrm{T}\mathrm X^\mathrm{T}\mathrm X\ w-\mathrm\ w^\mathrm{T}\mathrm X^\mathrm{T}\mathrm y-\mathrm y^\mathrm{T}\mathrm X\ w+\mathrm y^\mathrm{T}\mathrm y$

根据矩阵的性质 $(y^TXw)^T=w^TX^Ty$ ，可得：

$\mathrm W^*=\mathrm\ w^\mathrm{T}\mathrm X^\mathrm{T}\mathrm X\ w-\mathrm\ 2w^\mathrm{T}\mathrm X^\mathrm{T}\mathrm y+\mathrm y^\mathrm{T}\mathrm y$

对 $w$ 求偏导可得：

$\frac{\partial}{\partial\ w}\mathrm{W^*}=2\mathrm{X}^\mathrm{T}\mathrm{X}\ w-2\mathrm{X}^\mathrm{T}\mathrm{y}$

令上式偏导为0，可以解得：

$W=(X^TX)^{-1}X^Ty$

以上是公式的推导过程，最小二乘法适用于小数据量的线性模型，如果数据量太大，矩阵的逆会很难算出来，因为计算机对矩阵求逆的时间复杂度是 $O(n^3)$ 。并且最小二乘法只适用于线性模型，不适合逻辑回归模型等其他模型。

最小二乘法算法实现：

def LSM(X, y):
    # 计算矩阵X的转置与X相乘，再求逆矩阵，最后将结果与X的转置相乘，再与向量y相乘，得到权重w
    w = np.linalg.inv(X.T@X)@X.T@y#X.T@X等价于X.T.dot(X)
    return w

梯度下降法

梯度下降法是一个迭代算法，就像我们下山一样，我们想要以最快的速度到达山底，那我们就要往最陡峭的方向下山，每走 $\alpha$ 米后就重新计算一下坡度，然后继续朝着最陡峭的方向下山。

而函数的梯度，在意义上就是变化率最大的方向。

上文最小二乘法的权重用 $w$ 表示，即：

$\widehat y= w_ {1} x_ {1} + \cdots + w_ {n} x_ {n} +w_0$ 。

这里的梯度下降法，我们为了和上图匹配，将权重用 $\theta$ 表示，即：

$\widehat y= \theta_ {1} x_ {1} + \cdots + \theta_ {n} x_ {n} +\theta_0$

也可写成：

$f(x_i)= \theta_ {1} x_ {i1} + \cdots + \theta_ {n} x_ {in} +\theta_0$

我们需要注意这里的 $x_i$ 是一个向量。

我们结合损失函数，即：

$J\left(\theta\right)=J\left(\theta_0;\theta_1;\theta_2...;\theta_n\right)=\frac{1}{2m}\sum_{i=1}^m\left(f\left(x_i\right)-y_i\right)^2$

其中 $\frac{1}{2}$ 是为了计算方便，求导后可以消除掉二次方的系数， $\frac{1}{m}$ 可以抵消掉数据量造成的影响，在目标函数加入 $\frac{1}{2m}$ 不影响最终结果的求解。

用梯度下降法求解参数 $\theta$ ，即：

$\theta_i:=\theta_i-\alpha\frac{\partial J\left(\theta\right)}{\partial\theta_i}, i=(1,2...n)$

$\theta_{i}^{^{}}:=\theta_{i}-\frac{\alpha }{m}\sum_{j=1}^{m}(f(x^{\left(j\right)})-y^{\left(j\right)})x_{i}^{\left(j\right)}, i=(1,2...n)$

其中 $\alpha$ 称为步长或者学习率，就像爬山走多少米测一次坡度一样，一般设置为0.01。学习率过小容易造成算法时间复杂度过高，学习率过大可能会导致在最优值附近“跳跃”。

通过梯度下降算法不断迭代即可求出全局最优解，我们对上述人口收益问题进行线性回归，可以得到下图：

批量梯度下降算法实现：

def batch_gradientDescent(X, y, w, alpha, count):
    """
    
    
    参数：
    X -- 特征矩阵，形状为 (n_samples, n_features)
    y -- 标签向量，形状为 (n_samples,1)
    w -- 权重向量，形状为 (n_features,1)  
    alpha -- 学习率
    count -- 迭代次数
    
    返回值：
    w -- 更新后的权重向量
    costs -- 每次迭代的代价函数值列表
    """
    # 初始化代价函数值列表
    costs = []

    # 对每个样本进行迭代
    for i in range(count):
        # 根据公式更新权重向量
        w = w - (X.T @ (X @ w - y)) * alpha / len(X)

        # 计算当前代价函数值并添加到列表中
        cost = computeCost(X, y, w)
        costs.append(cost)

        # 每隔100次迭代输出一次当前代价函数值
        if i % 100 == 0:
            print("在第{}次迭代中，cost的值是：{}。".format(i, cost))

    # 返回最终的权重向量和代价函数值列表
    return w, costs

梯度下降算法还有：随机梯度下降算法、小批量梯度下降算法，本质上就是拿部分的数据量去梯度下降，所以适用于数据量非常大的情况下，这里不过多赘述，有兴趣的小伙伴可以自行搜索。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2116272.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！