7.机器学习-十大算法之一拉索回归(Lasso)算法原理讲解

news2024/9/30 7:16:42

7.机器学习-十大算法之一拉索回归(Lasso)算法原理讲解

  • 一·摘要
  • 二·个人简介
  • 三·前言
  • 四·原理讲解
  • 五·算法流程
  • 六·代码实现
    • 6.1 坐标下降法
    • 6.2 最小角回归法
  • 七·第三方库实现
    • 7.1 scikit-learn实现(坐标下降法):
    • 7.2 scikit-learn 实现(最小角回归法):

一·摘要

在这里插入图片描述拉索回归(Lasso Regression)是一种线性回归的正则化形式,它通过引入L1范数惩罚项来实现模型的稀疏性,从而有助于特征选择。
在机器学习和统计学中,当数据集具有许多特征时,可能会遇到特征之间存在多重共线性或者某些特征对预测结果影响不大的情况。标准的线性回归方法可能会导致模型过拟合,并且难以解释。为了解决这个问题,拉索回归被提出。它在最小二乘法的基础上,对系数向量添加了一个L1范数惩罚项,这个惩罚项等于所有回归系数绝对值之和的λ倍(λ为惩罚系数)。这样做的目的是使一些不重要的回归系数收缩至零,从而实现特征的选择。

二·个人简介

🏘️🏘️个人主页:以山河作礼。
🎖️🎖️:Python领域新星创作者,CSDN实力新星认证,CSDN内容合伙人,阿里云社区专家博主,新星计划导师,在职数据分析师。

💕💕悲索之人烈焰加身,堕落者不可饶恕。永恒燃烧的羽翼,带我脱离凡间的沉沦。

在这里插入图片描述

🐘 希望大家能持续支持,共同向前迈进!😁
如果您觉得文章有价值,
欢迎留言💬,点赞👍,收藏🔖并关注我们➕🤝。
🪐💫💫💫💫💫💫💫热门专栏💫💫💫💫💫💫💫🪐
类型专栏
Python基础Python基础入门—详解版
Python进阶Python基础入门—模块版
Python高级Python网络爬虫从入门到精通🔥🔥🔥
Web全栈开发Django基础入门
Web全栈开发HTML与CSS基础入门
Web全栈开发JavaScript基础入门
Python数据分析Python数据分析项目🔥🔥
机器学习机器学习算法🔥🔥
人工智能人工智能

三·前言

在处理具有大量特征的数据集时,我们常常面临两个主要的挑战:
一是特征之间可能存在多重共线性,这会导致模型参数估计不稳定甚至无法计算;
二是并非所有特征都对预测结果有显著影响,一些无关或冗余的特征可能会干扰模型的预测性能。传统的最小二乘法(Ordinary Least Squares, OLS)回归在这样的高维数据上往往会得到过拟合的模型,即模型在训练集上表现良好但在新数据上泛化能力弱。

为了解决这些问题,统计学家和发展机器学习算法的研究人员提出了一系列的正则化技术,其中拉索回归(Lasso Regression)就是一种被广泛应用的方法。拉索回归通过在回归模型中加入一个调节复杂度的惩罚项来克服上述问题。这个惩罚项是模型系数绝对值之和的λ倍,也就是所谓的L1范数,其中λ是一个非负的调节参数。

引入L1范数作为惩罚项有几个关键的优势:

稀疏性:L1范数有助于模型产生稀疏解,即推动某些系数减小至零。这一性质特别有用,因为它不仅降低了模型的复杂性,还实现了特征选择的目的,即自动地识别出对响应变量有重要影响的变量。

可解释性:通过减少特征的数量,模型变得更加容易解释。这对于高维数据尤其重要,因为在高维情况下,找出重要的特征并理解每个特征如何影响预测结果是非常关键的。

计算效率:尽管Lasso回归是一个复杂的优化问题,存在多种算法可以高效地求解,如坐标下降法、最小角回归法等。

四·原理讲解

在这里插入图片描述

在这里插入图片描述

五·算法流程

坐标下降法是一种迭代优化算法,用于求解具有可分离结构的凸优化问题。在机器学习中,它常用于训练大规模线性模型,尤其是当特征数量非常大时。

下面是坐标下降法的详细步骤和原理:

  1. 初始化权重向量 w w w(例如,全部设为零)。

  2. 迭代更新权重系数。在每次迭代过程中,我们依次更新每一个权重系数 w m w_m wm,而保持其他权重系数不变。对于第 k k k 次迭代和第 m m m 个权重系数,更新规则如下:

w m ( k ) = u n d e r s e t w m a r g m i n    Cost ( w 1 ( k ) , w 2 ( k − 1 ) , … , w m − 1 ( k − 1 ) , w m , w m + 1 ( k − 1 ) , … , w n ( k − 1 ) ) w_{m}^{(k)} = underset{w_m}{\mathrm{argmin}} \; \text{Cost}(w_1^{(k)}, w_2^{(k-1)}, \ldots, w_{m-1}^{(k-1)}, w_m, w_{m+1}^{(k-1)}, \ldots, w_n^{(k-1)}) wm(k)=undersetwmargminCost(w1(k),w2(k1),,wm1(k1),wm,wm+1(k1),,wn(k1))

其中 Cost ( c d o t ) \text{Cost}(cdot) Cost(cdot) 表示损失函数加上正则化项。

  1. 判断收敛性与迭代终止。如果所有权重系数的变化非常小,或者达到了预设的最大迭代次数,算法停止迭代。

坐标下降法的优势在于其简单性和易于并行化,因为每次更新一个变量时,不需要计算所有变量的信息。它尤其适合于解决高维问题,因为每次迭代只更新一个变量,计算量相对较小。然而,由于其更新规则的贪心性质,可能不保证全局最优解,特别是当损失函数非凸时。尽管如此,在实际应用中,坐标下降法通常能给出满意的结果。
在这里插入图片描述

如上图所示,每次迭代固定其他的权重系数,只朝着其中一个坐标轴的方向更新,最后到达最优解。

最小角回归(Least Angle Regression, LARS)是一种用于线性模型的特征选择方法,它通过逐步考虑与当前残差最相关的特征来进行变量选择和系数估计。

下面是最小角回归法的具体步骤和原理:

  1. 初始化权重系数 w w w(例如全部设为零向量)。

  2. 计算初始残差向量 r e s i d u a l residual residual,其等于目标标签向量 y y y 减去设计矩阵 X X X 与权重系数 w w w 的乘积。在初始化时, w w w 为零向量,所以残差向量等于目标标签向量 y y y

  3. 寻找最相关的特征。选择一个与当前残差向量 r e s i d u a l residual residual 相关性最大的特征向量 x i x_i xi

  4. 更新权重系数。沿选定特征向量 x i x_i xi 的方向更新权重系数 w w w,直至出现另一个特征向量 x j x_j xj,使得新的残差向量与 x i x_i xi x j x_j xj 的相关性相等。此时,残差向量位于 x i x_i xi x j x_j xj 的角平分线上。

  5. 迭代过程。重复上述过程,每次迭代中添加一个新的特征向量,并调整权重系数 w w w,以使残差向量位于新加入的特征和其他所有已选特征的等角线上。

  6. 终止条件。当残差向量的大小足够小或所有特征都已考虑过后,算法停止。足够小的残差意味着进一步添加特征不会显著改善模型。

最小角回归法的优势在于其能够提供模型选择的整个过程,从一个简单的模型开始,逐步增加特征直到满足某个停止准则。这种方法易于理解,并且计算高效,特别适合于处理高维数据集。

最终,LARS算法会给出一个模型,其中包含了对响应变量有显著影响的特征,以及它们对应的系数估计。这既实现了特征选择的目的,也提供了对应于这些特征的参数估计。

六·代码实现

6.1 坐标下降法

使用 Python 实现Lasso回归算法(坐标下降法):

import numpy as np

def lassoUseCd(X, y, lambdas=0.1, max_iter=1000, tol=1e-4):
    """
    Lasso回归,使用坐标下降法(coordinate descent)
    args:
        X - 训练数据集
        y - 目标标签值
        lambdas - 惩罚项系数
        max_iter - 最大迭代次数
        tol - 变化量容忍值
    return:
        w - 权重系数
    """
    # 初始化 w 为零向量
    w = np.zeros(X.shape[1])
    for it in range(max_iter):
        done = True
        # 遍历所有自变量
        for i in range(0, len(w)):
            # 记录上一轮系数
            weight = w[i]
            # 求出当前条件下的最佳系数
            w[i] = down(X, y, w, i, lambdas)
            # 当其中一个系数变化量未到达其容忍值,继续循环
            if (np.abs(weight - w[i]) > tol):
                done = False
        # 所有系数都变化不大时,结束循环
        if (done):
            break
    return w

def down(X, y, w, index, lambdas=0.1):
    """
    cost(w) = (x1 * w1 + x2 * w2 + ... - y)^2 + ... + λ(|w1| + |w2| + ...)
    假设 w1 是变量,这时其他的值均为常数,带入上式后,其代价函数是关于 w1 的一元二次函数,可以写成下式:
    cost(w1) = (a * w1 + b)^2 + ... + λ|w1| + c (a,b,c,λ 均为常数)
    => 展开后
    cost(w1) = aa * w1^2 + 2ab * w1 + λ|w1| + c (aa,ab,c,λ 均为常数)
    """
    # 展开后的二次项的系数之和
    aa = 0
    # 展开后的一次项的系数之和
    ab = 0
    for i in range(X.shape[0]):
        # 括号内一次项的系数
        a = X[i][index]
        # 括号内常数项的系数
        b = X[i][:].dot(w) - a * w[index] - y[i]
        # 可以很容易的得到展开后的二次项的系数为括号内一次项的系数平方的和
        aa = aa + a * a
        # 可以很容易的得到展开后的一次项的系数为括号内一次项的系数乘以括号内常数项的和
        ab = ab + a * b
    # 由于是一元二次函数,当导数为零时,函数值最小值,只需要关注二次项系数、一次项系数和 λ
    return det(aa, ab, lambdas)

def det(aa, ab, lambdas=0.1):
    """
    通过代价函数的导数求 w,当 w = 0 时,不可导
    det(w) = 2aa * w + 2ab + λ = 0 (w > 0)
    => w = - (2 * ab + λ) / (2 * aa)

    det(w) = 2aa * w + 2ab - λ = 0 (w < 0)
    => w = - (2 * ab - λ) / (2 * aa)

    det(w) = NaN (w = 0)
    => w = 0
    """
    w = - (2 * ab + lambdas) / (2 * aa)
    if w < 0:
        w = - (2 * ab - lambdas) / (2 * aa)
        if w > 0:
            w = 0
    return w

6.2 最小角回归法

使用 Python 实现Lasso回归算法(最小角回归法):

def lassoUseLars(X, y, lambdas=0.1, max_iter=1000):
    """
    Lasso回归,使用最小角回归法(Least Angle Regression)
    论文:https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf
    args:
        X - 训练数据集
        y - 目标标签值
        lambdas - 惩罚项系数
        max_iter - 最大迭代次数
    return:
        w - 权重系数
    """
    n, m = X.shape
    # 已被选择的特征下标
    active_set = set()
    # 当前预测向量
    cur_pred = np.zeros((n,), dtype=np.float32)
    # 残差向量
    residual = y - cur_pred
    # 特征向量与残差向量的点积,即相关性
    cur_corr = X.T.dot(residual)
    # 选取相关性最大的下标
    j = np.argmax(np.abs(cur_corr), 0)
    # 将下标添加至已被选择的特征下标集合
    active_set.add(j)
    # 初始化权重系数
    w = np.zeros((m,), dtype=np.float32)
    # 记录上一次的权重系数
    prev_w = np.zeros((m,), dtype=np.float32)
    # 记录特征更新方向
    sign = np.zeros((m,), dtype=np.int32)
    sign[j] = 1
    # 平均相关性
    lambda_hat = None
    # 记录上一次平均相关性
    prev_lambda_hat = None
    for it in range(max_iter):
        # 计算残差向量
        residual = y - cur_pred
        # 特征向量与残差向量的点积
        cur_corr = X.T.dot(residual)
        # 当前相关性最大值
        largest_abs_correlation = np.abs(cur_corr).max()
        # 计算当前平均相关性
        lambda_hat = largest_abs_correlation / n
        # 当平均相关性小于λ时,提前结束迭代
        # https://github.com/scikit-learn/scikit-learn/blob/2beed55847ee70d363bdbfe14ee4401438fba057/sklearn/linear_model/_least_angle.py#L542
        if lambda_hat <= lambdas:
            if (it > 0 and lambda_hat != lambdas):
                ss = ((prev_lambda_hat - lambdas) / (prev_lambda_hat - lambda_hat))
                # 重新计算权重系数
                w[:] = prev_w + ss * (w - prev_w)
            break
        # 更新上一次平均相关性
        prev_lambda_hat = lambda_hat

        # 当全部特征都被选择,结束迭代
        if len(active_set) > m:
            break

        # 选中的特征向量
        X_a = X[:, list(active_set)]
        # 论文中 X_a 的计算公式 - (2.4)
        X_a *= sign[list(active_set)]
        # 论文中 G_a 的计算公式 - (2.5)
        G_a = X_a.T.dot(X_a)
        G_a_inv = np.linalg.inv(G_a)
        G_a_inv_red_cols = np.sum(G_a_inv, 1)     
        # 论文中 A_a 的计算公式 - (2.5)
        A_a = 1 / np.sqrt(np.sum(G_a_inv_red_cols))
        # 论文中 ω 的计算公式 - (2.6)
        omega = A_a * G_a_inv_red_cols
        # 论文中角平分向量的计算公式 - (2.6)
        equiangular = X_a.dot(omega)
        # 论文中 a 的计算公式 - (2.11)
        cos_angle = X.T.dot(equiangular)
        # 论文中的 γ
        gamma = None
        # 下一个选择的特征下标
        next_j = None
        # 下一个特征的方向
        next_sign = 0
        for j in range(m):
            if j in active_set:
                continue
            # 论文中 γ 的计算方法 - (2.13)
            v0 = (largest_abs_correlation - cur_corr[j]) / (A_a - cos_angle[j]).item()
            v1 = (largest_abs_correlation + cur_corr[j]) / (A_a + cos_angle[j]).item()
            if v0 > 0 and (gamma is None or v0 < gamma):
                gamma = v0
                next_j = j
                next_sign = 1
            if v1 > 0 and (gamma is None or v1 < gamma):
                gamma = v1
                next_j = j
                next_sign = -1
        if gamma is None:
            # 论文中 γ 的计算方法 - (2.21)
            gamma = largest_abs_correlation / A_a

        # 选中的特征向量
        sa = X_a
        # 角平分向量
        sb = equiangular * gamma
        # 解线性方程(sa * sx = sb)
        sx = np.linalg.lstsq(sa, sb)
        # 记录上一次的权重系数
        prev_w = w.copy()
        d_hat = np.zeros((m,), dtype=np.int32)
        for i, j in enumerate(active_set):
            # 更新当前的权重系数
            w[j] += sx[0][i] * sign[j]
            # 论文中 d_hat 的计算方法 - (3.3)
            d_hat[j] = omega[i] * sign[j]
        # 论文中 γ_j 的计算方法 - (3.4)
        gamma_hat = -w / d_hat
        # 论文中 γ_hat 的计算方法 - (3.5)
        gamma_hat_min = float("+inf")
        # 论文中 γ_hat 的下标
        gamma_hat_min_idx = None
        for i, j in enumerate(gamma_hat):
            if j <= 0:
                continue
            if gamma_hat_min > j:
                gamma_hat_min = j
                gamma_hat_min_idx = i
        if gamma_hat_min < gamma:
            # 更新当前预测向量 - (3.6)
            cur_pred = cur_pred + gamma_hat_min * equiangular
            # 将下标移除至已被选择的特征下标集合
            active_set.remove(gamma_hat_min_idx)
            # 更新特征更新方向集合
            sign[gamma_hat_min_idx] = 0
        else:
            # 更新当前预测向量
            cur_pred = X.dot(w)
            # 将下标添加至已被选择的特征下标集合
            active_set.add(next_j)
            # 更新特征更新方向集合
            sign[next_j] = next_sign

    return w

七·第三方库实现

7.1 scikit-learn实现(坐标下降法):

from sklearn.linear_model import Lasso

# 初始化Lasso回归器,默认使用坐标下降法
reg = Lasso(alpha=0.1, fit_intercept=False)
# 拟合线性模型
reg.fit(X, y)
# 权重系数
w = reg.coef_

7.2 scikit-learn 实现(最小角回归法):

from sklearn.linear_model import LassoLars

# 初始化Lasso回归器,使用最小角回归法
reg = LassoLars(alpha=0.1, fit_intercept=False)
# 拟合线性模型
reg.fit(X, y)
# 权重系数
w = reg.coef_

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1614383.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

idea 中导入的项目maven不自动下载依赖包

导入之后不会自动引入依赖包&#xff0c;如下图&#xff0c;external libraries 下没有依赖 解决方案&#xff1a;重新更新下maven的Local repository 即可

STM32F030K6T6,基于值线ARM的32位MCU,具有16到64KB的闪存、定时器

STM32F030K6T6&#xff0c;ST/意法&#xff0c;基于值线ARM的32位MCU具有16到64KB的闪存、定时器 ADC&#xff0c;通信接口&#xff0c;2.4-3.6 V操作 STM32F030K6T6&#xff0c;ST/意法&#xff0c;基于值线ARM的32位MCU具有16到64KB的闪存、定时器 ADC&#xff0c;通信接口&…

一目了然:ipv4和ipv6的关键区别

ipv4和ipv6是互联网协议的两种版本&#xff0c;它们在多个方面存在显著差异。以下是这两种协议的具体差异&#xff1a; 1.地址长度和地址数量 IPv4使用32位地址&#xff0c;而IPv6使用128位地址。这意味着IPv6的地址空间比IPv4大约2^96倍&#xff0c;能够支持的IP地址数量远远…

深入理解VGG网络,清晰易懂

深入理解VGG网络 VGG网络是深度学习领域中一个非常经典的卷积神经网络&#xff08;CNN&#xff09;架构&#xff0c;由牛津大学的视觉几何组&#xff08;Visual Geometry Group&#xff09;提出。它在2014年的ImageNet挑战赛中取得了第二名的好成绩&#xff0c;并且在随后的许…

性能监控数据(本地、服务器)

CPU、内存、磁盘等的监控 一、mac本地性能监控 1. top 终端&#xff1a; top load Avg: 平均负载(1分钟&#xff0c;5 分钟&#xff0c;15 分钟)值不能超过 4&#xff0c;要不然就是超负荷运行 Tasks: 进程数 %Cpu(s): idle :剩余百分比 KiB Mem: free:剩余内存&#xff0…

古董展新风尚:山海鲸数据大屏引领科技潮流

在数字化浪潮的推动下&#xff0c;传统文化与现代科技正日益融合&#xff0c;展现出独特的魅力。近日&#xff0c;山海鲸推出了一款古董展览数据可视化大屏&#xff0c;将古董藏品的丰富内涵以直观、生动的形式呈现在观众面前&#xff0c;让人们在欣赏古董之美的同时&#xff0…

nvm报错获取 ‘https://npm.taobao.org/mirrors/node/index.json‘ 时失败

报错 如上图&#xff0c; 报错原因 由于npm.taobao.org域名HTTPS证书到期更换为npmmirror.com 解决 找到nvm安装路径的settings.txt文件 打开添加或者更改镜像地址&#xff0c;报存就好啦。如下 node_mirror: https://npmmirror.com/mirrors/node/ npm_mirror: https://…

[docker] 数据的持久化 - Volume bind mounts

[docker] 数据的持久化 - Volume & bind mounts docker 的数据笼统分类可以分为下面这三种&#xff1a; 只读数据 这种数据大多为源码、容器的配置文件&#xff0c;大多数情况下与镜像进行绑定 临时数据 这部分的数据大多数情况下与容器进行绑定&#xff0c;属于可写数据…

DRF 路由层

路由层 【1】原始路由 &#xff08;1&#xff09;正则re_path from django.urls import path, re_path from book import viewsurlpatterns [re_path(rbook/(?P<pk>\d)?/?$, views.BookAPIView.as_view(), namebook) ] 示例解释 (?P<pk>\d)是一个命名正…

使用mmsegmentaion遇到的问题

利用mmsegmentaion跑自定义数据集时的bug处理&#xff08;使用bisenetV2&#xff09; 1. ValueError: val_dataloader, val_cfg, and val_evaluator should be either all None or not None, but got val_dataloader{batch_size: 1, num_workers: 4}, val_cfg{type: ValLoop}, …

c++ 线性搜索与二分搜索

线性搜索 假设该项目以随机顺序存在于数组中&#xff0c;并且我们必须找到一个项目。那么搜索目标项目的唯一方法就是从第一个位置开始&#xff0c;并将其与目标进行比较。如果项目相同&#xff0c;我们将返回当前项目的位置。否则&#xff0c;我们将转移到下一个位置。…

在Qt creator中使用多光标

2024年4月22日&#xff0c;周一下午 Qt Creator 支持多光标模式。 多光标模式允许你在同一时间在多个光标位置进行编辑&#xff0c;从而可以更快地进行一些重复性的编辑操作。 要启用多光标模式&#xff0c;请按住 Alt 键&#xff0c;并用鼠标左键在文本编辑器中选择多个光标…

恒创科技:网站更改域名对seo的影响大吗?

众所周知&#xff0c;搜索引擎优化 (SEO) 对于增加网站的自然流量、提高转化率以及提高品牌知名度至关重要。所以&#xff0c;网站在进行更改域名时&#xff0c;我们应当关注其对 SEO 的影响。 网站更改域名对 SEO 影响大吗? 更改域名会更改网站上每个页面的 URL &#xff0c;…

SpringSecurity初探(一)

认证:知道你是谁 授权:你能干什么 创建SpringBoot应用,引入web和security <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-security</artifactId> </dependency> <dependency><group…

Redis数据类型——String

Redis官网指令文档&#xff1a;Commands | Docs 前言 此处的String类型是针对Redis的Value的&#xff0c;因为Key的形式都是String&#xff0c;而Value则有哈性、列表、集合等形式。 众所周知&#xff0c;由于不同编码&#xff0c;经常会出现乱码的问题&#xff0c;但在Redi…

代码签名的定义、重要性及其应用实例

代码签名证书&#xff0c;简单来说&#xff0c;是一种数字证书&#xff0c;用于验证软件开发者身份以及软件代码的完整性和未被篡改。在软件开发和分发过程中&#xff0c;代码签名证书扮演着至关重要的角色&#xff0c;它为用户提供了信任保证&#xff0c;确保所下载和安装的软…

Quarto Dashboards 教程 2:Dashboard Layout

「写在前面」 学习一个软件最好的方法就是啃它的官方文档。本着自己学习、分享他人的态度&#xff0c;分享官方文档的中文教程。软件可能随时更新&#xff0c;建议配合官方文档一起阅读。推荐先按顺序阅读往期内容&#xff1a; 1.quarto 教程 1&#xff1a;Hello, Quarto 2.qu…

vue ant form validate如何对数组下的表单校验

问题 使用Ant Design Vue校验表单时&#xff0c;通过validateFields&#xff0c;但是如何一个数组内部的校验呢&#xff1f; 效果图&#xff1a; 实现方式&#xff1a; 通过 v-for 循环渲染:name"[]"实现&#xff0c;我们直接看代码。 <template><a-for…

vue3组件之间的传参

1、父传子 defineProps 父组件 <script setup>import { reactive } from vue;import Children from ./children.vue;const parentProps reactive({name:zhangsan,age:20})</script><template><div>这是父组件</div><div>子组件:<Chil…

空间数据索引的利器:R-Tree原理与实现深度解析

空间数据索引的利器&#xff1a;R-Tree原理与实现深度解析 R-Tree的原理插入操作分裂操作查询操作 R-Tree的伪代码R-Tree的C语言实现讨论结论 R-Tree是一种平衡树&#xff0c;用于空间数据索引&#xff0c;特别是在二维或更高维度的几何对象存储和检索中。它由Antony Guttman和…