sklearn岭回归

news2025/3/1 23:02:49

文章目录

    • 基本原理
    • sklearn实现

基本原理

最小二乘法的判定条件是

min ⁡ w ∥ X w − y ∥ 2 2 \min_w\Vert Xw-y\Vert_2^2 wminXwy22

其中, min ⁡ w F ( w ) \min_w F(w) minwF(w)表示 F ( w ) F(w) F(w)最小时的 w w w w w w是拟合参数, x , y x,y x,y是变量。

对于线性问题,可通过对 w w w求导,得到 F ( w ) F(w) F(w)极值处的 w w w,具体表达式为

w = ( X T X ) − 1 X T y w=(X^TX)^{-1}X^Ty w=(XTX)1XTy

但这里面有一个问题,若 X X X各分量的实际值相去甚远,会导致不同分量的权重不同,尽管 X T X X^TX XTX满秩,却存在一些接近0的特征值,使得问题陷入病态,引入较大误差。

这时可以引入一个参数 α \alpha α,令

min ⁡ w ∥ X w − y ∥ 2 2 + α ∥ w ∥ 2 2 \min_w\Vert Xw-y\Vert_2^2+\alpha\Vert w\Vert^2_2 wminXwy22+αw22

从其表达式可以看出,岭回归中,要求拟合参数 w w w的值尽可能地靠近0,这种方案可以不局限于线性拟合,也可以应用在非线性拟合中。例如,对于 y = ∣ sin ⁡ x ∣ y=\vert\sin x\vert y=sinx这样的函数,其最小值显然在 x = 0 x=0 x=0处,但若没有一个 α \alpha α这一项作为惩罚因子,那么关于 y = ∣ sin ⁡ x ∣ y=\vert\sin x\vert y=sinx的优化注定是发散的,因为 sin ⁡ x \sin x sinx是周期函数。

sklearn实现

下面构造一个病态的优化问题,令 X X X 10 × 10 10\times10 10×10的矩阵,且 x i j = 1 i + j + 1 x_{ij}=\frac{1}{i+j+1} xij=i+j+11 Y Y Y为所有元素都为1的向量。由于 X X X并不满秩,所以这个线性优化问题要么无解,要么多解,是普通最小二乘法无法解决的问题

import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model as lm
X = 1.0 / (np.arange(1, 11) + np.arange(0, 10).reshape(-1,1))
y = np.ones(10)

lso = lm.LinearRegression()
lso.fit(X,y)
print(lso.coef_)
# [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]

但在岭回归中,加入了惩罚因子,使得所有参数在拟合过程中都尽可能地小,具体实现如下

alphas = np.logspace(-10, -2, 200)
coefs = []
for a in alphas:
    ridge = lm.Ridge(alpha=a, fit_intercept=False)
    ridge.fit(X, y)
    coefs.append(ridge.coef_)

ax = plt.subplot()

ax.plot(alphas, coefs)
ax.set_xscale("log")
ax.set_xlim(ax.get_xlim()[::-1])  # reverse axis
plt.xlabel("alpha")
plt.ylabel("weights")
plt.show()

结果如图所示

在这里插入图片描述

随着 α \alpha α逐渐变小,拟合参数之间的差异也逐渐增大,当 α = 0.01 \alpha=0.01 α=0.01时,拟合参数为

>>> print(coefs[-1])
[-1.15365551 -0.06380733  0.82265094  1.33384561  1.62104261  
1.77805326 1.85752347  1.88963634  1.89230434  1.87650476]

而当 α = 0.1 \alpha=0.1 α=0.1时,其拟合参数为

>>> print(coefs[0])
[2.64506216  -27.60371349    7.99290855  133.67544639   18.04324721
-123.85503932 -175.62007046 -113.78633324   45.15379398  274.0230348 ]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1382240.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里云高性能云服务器_云主机_云服务器详解

阿里云高性能云服务器60%单实例最大性能提升,35Gbps内网带宽,网络增强&通用型云服务器、本地SSD型云服务器、大数据型云服务器、GPU异构型云服务器,阿里云百科aliyunbaike.com分享阿里云高性能云服务器: 阿里云高性能云服务器…

【计算机组成原理】高速缓冲存储器 Cache 的常用替换算法(Replacement Algorithm)

替换算法 Replacement Algorithm 缓存替换算法用于确定在缓存满时需要替换哪些缓存块以便为新的数据腾出空间。 先进先出 First-In-First-Out FIFO算法将最早进入缓存的块替换出去。这种算法实现较为简单,但可能导致早被访问的数据被频繁替换,而近期使…

电子学会C/C++编程等级考试2021年09月(四级)真题解析

C/C++编程(1~8级)全部真题・点这里 第1题:最佳路径 如下所示的由正整数数字构成的三角形: 7 3 8 8 1 0 2 7 4 4 4 5 2 6 5 从三角形的顶部到底部有很多条不同的路径。对于每条路径,把路径上面的数加起来可以得到一个和,和最大的路径称为最佳路径。你的任务就是求出最佳路径…

【深度学习】Anaconda3 + PyCharm 的环境配置 3:GitHub 项目运行前的环境配置

前言 文章性质:实操记录 💻 主要内容:主要记录了运行 GitHub 项目前的环境配置过程,包括创建并激活新的虚拟环境、安装 torch 和 torchvision,在 PyCharm 中使用新建的虚拟环境,根据项目源代码提供的 requi…

FlinkAPI开发之窗口(Window)

案例用到的测试数据请参考文章: Flink自定义Source模拟数据流 原文链接:https://blog.csdn.net/m0_52606060/article/details/135436048 窗口的概念 Flink是一种流式计算引擎,主要是来处理无界数据流的,数据源源不断、无穷无尽。…

二、QT下载、安装及问题解决(windows系统)

本章节最重要的一点:安装时,路径中不能有中文,切记,否则QT不能正常运行。 下载两种途径: 1、官网下载,慢且不好访问; 2、国内一些大学网站的镜像,下载比较快,但是可能…

肉类加工过程中的分子营养变化

谷禾健康 由于肉类和肉制品含有丰富的脂质和蛋白质,因此易于发生氧化反应。脂质氧化会产生一系列氧化衍生物,主要影响食物的颜色和风味,同时也会导致肌肉蛋白质的功能和稳定性丧失。同样,蛋白质容易被活性氧化物质(ROS)和氧化应激…

Python+Django+MySQL的图书馆管理系统【附源码,运行简单】

PythonDjangoMySQL的图书馆管理系统【附源码,运行简单】 总览 1、《图书馆管理系统》1.1 方案设计说明书设计目标需求分析工具列表 2、详细设计2.1 登录2.2 注册2.3 程序主页面2.4 图书新增界面2.5 图书信息修改界面2.6 其他功能贴图 3、下载 总览 自己做的项目&am…

npmvue详解

1、npm是node.js的一个软件依赖包管理工具 2、当前目录下面一般会有一个package.json文件 3、npm install 会去按照package.json文件中的依赖去下载依赖包 默认会下载到当前目录中的node_modules文件夹下,-g会进行全局安装 4、package.json文件中有两种依赖关系 …

kubeSphere DevOps部署vue项目

devops部署vue项目 🌔环境说明🌏创建DevOps工程🌏填写流水线信息🌏创建流水线 🌔部署应用所需脚本JenkinsfileDockerfile 🌔脚本一些参数如何设置说明🌏deploy.yaml中的:imagePullSecrets:name属…

Ovtio不同版本下载

关注 M r . m a t e r i a l , \color{Violet} \rm Mr.material\ , Mr.material , 更 \color{red}{更} 更 多 \color{blue}{多} 多 精 \color{orange}{精} 精 彩 \color{green}{彩} 彩! 主要专栏内容包括: †《LAMMPS小技巧》: ‾ \textbf…

Windows python下载

1、下载 进入到地址:https://www.python.org/dowmloads 可以直接下载最新的版本 或者点击Windows,查看下方更多的版本 点击文档就下载下来啦 2、安装 双击下载的文件,勾选Add python.exe to PATH添加到环境变量中,选择Coutomi…

NLP技术在搜索推荐场景中的应用

NLP技术在搜索推荐中的应用非常广泛,例如在搜索广告的CTR预估模型中,NLP技术可以从语义角度提取一些对CTR预测有效的信息;在搜索场景中,也经常需要使用NLP技术确定展现的物料与搜索query的相关性,过滤掉相关性较差的物…

milvus安装及langchain调用

milvus安装及langchain调用 安装milvus安装docker-compose安装milvus安装可视化界面attu 通过langchain调用milvus安装langchain安装pymilvus调用milvus 安装milvus 安装docker-compose 下载文件 curl -L https://github.com/docker/compose/releases/download/1.21.1/docke…

【QT】QMessageBox 弹出消息框,对话确认框(确定/取消)

1.无互动 QMessageBox::information(nullptr,"信息","登陆成功");2.互动:确定、取消 QMessageBox::StandardButton box; box QMessageBox::question(this, "提示", "确定要添加吗?", QMessageBox::Yes|QMessageBox::…

【论文阅读笔记】MobileSal: Extremely Efficient RGB-D Salient Object Detection

1.介绍 MobileSal: Extremely Efficient RGB-D Salient Object Detection MobileSal:极其高效的RGB-D显著对象检测 2021年发表在 IEEE Transactions on Pattern Analysis and Machine Intelligence。 Paper Code 2.摘要 神经网络的高计算成本阻碍了RGB-D显着对象…

数据结构与算法教程,数据结构C语言版教程!(第三部分、栈(Stack)和队列(Queue)详解)六

第三部分、栈(Stack)和队列(Queue)详解 栈和队列,严格意义上来说,也属于线性表,因为它们也都用于存储逻辑关系为 "一对一" 的数据,但由于它们比较特殊,因此将其单独作为一章,做重点讲解。 使用栈…

vue3 - 自定义弹框组件

写了一个弹框组件 <template><transition name"modal-fade"><div v-if"showFlag" class"myModal"><div class"content"><div class"topBox"><div class"leftTitle"><spa…

爬虫—抓取表情党热门栏目名称及链接

爬虫—抓取表情党热门栏目名称及链接 表情党网址&#xff1a;https://qq.yh31.com/ 目标&#xff1a;抓取表情党主页的热门栏目名称及对应的链接&#xff0c;如下图所示&#xff1a; 按F12&#xff08;谷歌浏览器&#xff09;&#xff0c;进入开发者工具模式&#xff0c;进行…