机器学习——线性回归/岭回归/Lasso回归

news2025/1/11 12:47:16

0、前言:

  • 线性回归会用到python第三方库:sklearn.linear_model中的LinearRegression
  • 导入第三方库的方法:from sklearn.linear_model import LinearRegression
  • 使用LinearRegression(二维数据,一维数据)进行预测,其中数据类型可以是pandas中的DataFrame或者series,也可以是numpy中的array数据,但维度一定要正确输入。
  • 在线性回归模型中可以查看训练好的模型当中的特征系数(y=kx+b当中的k)和训练好的模型当中的截距(y=kx+b当中的b),方法是调用训练好的模型的属性coef_查看系数,调用训练好的模型的属性intercept_查看截距。
  • ★注意:线性回归的原理如下图,所以在计算过程中会用到求逆矩阵的方法,如果一个数据特征数量比数据本身要多(也就是说数据中的列数大于行数),则不构成满秩矩阵,无法求出对应的逆矩阵,因此无法使用线性回归,理解起来比较困难,因此就做简单理解即可。
    在这里插入图片描述

1、应用:

  • 通过线性回归预测糖尿病
  • 数据来源:sklearn中自带
  • 代码
# 导入三件套
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 导入糖尿病数据集
from sklearn.datasets import load_diabetes
# 导入线性回归模型
from sklearn.linear_model import LinearRegression
# 查看数据集
data_set = load_diabetes()
display(data_set)
feature_name = data_set['feature_names']
data = data_set['data']
target = data_set['target']
print('=====')
display(data.shape,target.shape)
# 查看dataframe模式下的输入数据
data = pd.DataFrame(data, columns=feature_name)
data.head(5)
# 切分数据
from sklearn.model_selection import train_test_split

x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.2)
# 引入线性回归模型
line = LinearRegression()
# 训练模型
line.fit(x_train,y_train)
# 预测
pred = line.predict(x_test)
display(pred)

# 查看系数和截距
display(line.coef_) # 通过系数查看哪些特征对结果影响较大,一般正数影响大于负数影响
display(line.intercept_)



2、应用分析:

  • 讲糖尿病数据中的所有特征全部单独通过线性回归进行训练,就能够明显看出每个特征对预测结果的影响
  • 代码
# 三件套
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 导入糖尿病数据集
from sklearn.datasets import load_diabetes

# 导入线性回归算法
from sklearn.linear_model import LinearRegression

data_set = load_diabetes()
feature_name = data_set['feature_names']
data = data_set['data']
target = data_set['target']
data = pd.DataFrame(data, columns=feature_name)

# 设置画布尺寸
plt.figure(figsize=(5*6,2*6))

for i,col in enumerate(data.columns):
#     print(i)
    
    # 画出每个特征和结果的散点图
    aex = plt.subplot(2,5,i+1)
    aex.scatter(data.loc[:,col],target)
    # 画出用每个特征单独与结果训练的特征图
    line = LinearRegression()
    line.fit(data.loc[:,[col]],target)
    x = np.linspace(data.loc[:,col].min(),data.loc[:,col].max(),100)
    y = line.coef_*x + line.intercept_
    aex.plot(x,y,c='r')
    # 给每个图在对应特征的训练得分
    score = np.round(line.score(data.loc[:,[col]],target),2)
    aex.set_title(f'score:{score}',fontsize=20)
  • 结果
    在这里插入图片描述

  • 可以发现:bmi这个特征和s5特征通过线性回归模型训练后的得分更高,所以这两个因素是对于结果的影响更大。

  • 上面的作图方式和分析方法是需要掌握的,在进行科技论文写作时,这是很好的表述和分析范例。


3、岭回归回归:

  • 如果数据的特征比样本数量还多(列大于行),就可以用岭回归的方法,因为输入矩阵不是满秩矩阵,因此无法求逆,就会导致无法使用线性回归。
  • 岭回归简单理解如下:
    在这里插入图片描述
    在这里插入图片描述
    上图中的0.01就是岭回归参数λ,对于λ的选择需要调试,λ增大,模型的方差就会越小,模型的偏差就会越大。
    岭回归的调用:
from sklearn.linear_model import Ridge

对于岭回归,本文中的介绍很粗浅,只是说明了它所解决的问题以及如何调用它,还有调用时的参数说明。

  • 理解过拟合和欠拟合
    在这里插入图片描述

4、三种回归对比

  • 方案:给定一个特征数大于样本数的输入样本,给定参数,通过输入样本和参数计算输出样本,制作数据集,然后分别用三种回归算法训练数据集,得到训练之后的参数,画出参数对比三者的区别
  • 代码
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 数据样本设置为200个特征,50个样本
x_train = np.random.randn(50, 200) # 生成一个形状为 (50, 200) 的数组,其中包含的元素是从标准正态分布

# 系数给200个
coef = np.random.randn(200) 
# 为了看起来清晰,对部分系数进行归零操作
index_list = np.arange(200)
np.random.shuffle(index_list) # 打乱列表中的元素顺序
coef[index_list[:190]] = 0 # 将参数数组中190个元素变为0

display(x_train.shape, coef.shape)

# 进行点乘运算生成y值:y_train = w1x1 + w2x2 + ... + w200x200
y_train = np.dot(x_train, coef)
display(y_train.shape)

# 绘制预测结果图
plt.figure(figsize=(2*5,2*4))



# 正常参数图
aex1 = plt.subplot(2,2,1)
aex1.plot(coef,c='b')
# 线性回归参数图
from sklearn.linear_model import LinearRegression
coef2 = LinearRegression().fit(x_train, y_train).coef_
aex2 = plt.subplot(2,2,2)
aex2.plot(coef2,c='b')
# 岭回归参数图
from sklearn.linear_model import Ridge
coef3 = Ridge().fit(x_train, y_train).coef_
aex3 = plt.subplot(2,2,3)
aex3.plot(coef3,c='b')
# Losse回归参数图
from sklearn.linear_model import Lasso
coef4 = Lasso(alpha=0.03).fit(x_train, y_train).coef_
aex4 = plt.subplot(2,2,4)
aex4.plot(coef4,c='b')
  • 结果
    在这里插入图片描述
  • 分析:可以看出Lasso回归可以筛选参数(去除参数),而其他两种回归只能缩小参数的影响,但不会去除参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/969691.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv5,v8中文标签显示问题

本人使用的是YOLOv5-7.0,YOLOv8的最新版本 1. 训练YOLOv5时matplotlib无法显示中文标签 数据集中的标签是中文,在训练YOLOv5,v8算法时,matplotlib库无法显示中文 2 解决方法 在yolov5/utils/plots.py文件中手动添加黑体字体&a…

flutter Could not get unknown property ‘ndkVersion’

使用的 flutter 版本为 3.7.2 ,编译运行 如下 Could not get unknown property ‘ndkVersion’ for object of type com.android.build.gradle.internal.dsl.BaseAppModuleExtension 解决方法是 在flutter-3.7.2\packages\flutter_tools\gradle\flutter.gradle配置…

Java特性之设计模式【抽象工厂模式】

一、抽象工厂模式 概述 抽象工厂模式(Abstract Factory Pattern)是围绕一个超级工厂创建其他工厂。该超级工厂又称为其他工厂的工厂。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式 在抽象工厂模式中,接口是…

2001-2021年上市公司数字化转型(年报词频统计)

2001-2021年上市公司数字化转型(年报词频统计) 1、时间:2001-2021年 2、来源:上市公司年报、巨潮资讯网 3、方法说明:参考管理世界中吴非(2021)的做法,对人工智能技术、大数据技术…

警告:Provides transitive vulnerable dependency maven:org.yaml:snakeyaml:1.30

1. 警告 SpringBoot 的 validation 依赖包含有易受攻击的依赖 snakeyaml。 警告信息如下: Provides transitive vulnerable dependency maven:org.yaml:snakeyaml:1.30 意思是:提供了可传递的易受攻击依赖 maven:org.yaml:snakeyaml:1.30 2. 警告示例 …

networkX-03-连通度、全局网络效率、局部网络效率、聚类系数计算

文章目录 1.连通度1.1 检查图是否连通1.2 检查有向图是否为强连通1.3 点连通度、边连通度: 2.网络效率2.1全局效率2.2 局部效率2.2.1 查找子图2.2.3 局部效率源码分析 3.聚类系数(Clustering Coefficient)3.1 聚类系统源码分析 教程仓库地址&…

【开学作业考试层出不穷】Python自动答题脚本,在线答题,零基础可学!!(附源码)

前言 大家好 我是小曼呐~ 9月份想必大部分同学已经开学啦,开学少不了老师会布置一些 软件上面的作业 今天教大家用python制作自动答题脚本,100%准确率哦~ 喜欢的同学记得关注 收藏哦~ 环境使用 Python 3.8Pycharm 模块使用 import requests —>…

MySQL表的内连和外连

文章目录 MySQL表的内连和外连1. 内连接(1) 显示SMITH的名字和部门名称 2. 外连接2.1 左外连接(1) 查询所有学生的成绩,如果这个学生没有成绩,也要将学生的个人信息显示出来 2.2 右外连接(1) 对stu表和exam表联合查询,把所有的成绩都显示出来…

【Apollo学习笔记】——规划模块TASK之SPEED_BOUNDS_PRIORI_DECIDERSPEED_BOUNDS_FINAL_DECIDER

文章目录 前言SPEED_BOUNDS_PRIORI_DECIDER功能简介SPEED_BOUNDS_FINAL_DECIDER功能简介SPEED_BOUNDS_PRIORI_DECIDER相关配置SPEED_BOUNDS_FINAL_DECIDER相关配置SPEED_BOUNDS_DECIDER流程将障碍物映射到ST图中ComputeSTBoundary(PathDecision* path_decision)ComputeSTBounda…

MybatisPlus 快速入门 常见注解 配置

var code "81563903-534d-4850-9d6a-a9fb0318f593" 本课程全面讲解了Mybatis框架的使用,从快速入门到原理分析再到实战应用。每一个知识点都有案例进行演示学习,最终通过学习你将全面掌握,从而使Mybatis的开发更加的高效&#xff…

网络编程 day 6

1、基于UDP聊天室 服务器 #define ERR_MSG(msg) do{\fprintf(stderr,"__%d__",__LINE__);\perror(msg);\ }while(0) #define IP "127.0.0.1" #define PORT 6666 //创建链表 Linklistptr list_create(); Linklistptr node_buy(datatype e); int list_insert…

You must install at least one postgresql-client-<version> package

使用主机上的映射端口来连接到 PostgreSQL 数据库。例如,使用以下命令连接到数据库: psql -h localhost -p 5432 -U postgres出现下面的问题: 分析: 如果您在运行 psql 命令时遇到错误消息 You must install at least one pos…

flex布局轻而易举实现页面布局;超详细解析轻松掌握

我们曾如此渴望命运的波澜,到最后才发现,人生最曼妙的风景,竟是内心的淡定和从容。我们曾如此期盼外界的认可,到最后才知道,世界是自己的,与他人毫无关系。——杨绛 开始 痛点 网页布局(layout…

数据分析因子评分学习

当多个因素影响一个结果时,我们需要综合考虑这些因素分别对结果德影响。因子评分就是用于比较其对结果德影响程度。 文章目录 前言一、案例背景二、解决方案(一)分析思路(二)剔除无关数据(三)求…

role、user、schema在Oracle、MySQL、PostgreSQL的区别

0.先上结论 数据库逻辑可以细分为:角色、用户、数据库、模式PostgreSQL和MySQL合并了角色和用户,MySQL还合并了数据库、模式Oracle合并了用户、数据库、模式 1.图 1.1.架构 1.2.用户和角色 1.2.1.PostgreSQL 1.2.2.MySQL 1.2.3.Oracle 参考文章 数据…

安卓绘制原理概览

绘制原理 Android 程序员都知道 Android 的绘制流程分为 Measure、Layout、Draw 三步骤,其中 Measure 负责测量 View 的大小Layout 负责确定 View 的位置Draw 负责将 View 画在屏幕上 由 ViewRootImpl 实现的 performTraversal 方法是 Measure、layout、draw 的真正…

教育培训小程序的设计与功能解析

随着互联网的发展,线上教育逐渐成为一种趋势,越来越多的人开始选择在线学习。而搭建一个适合自己的线上教育小程序,可以为教育机构或个人提供更好的教学和学习体验。在本文中,我们将介绍如何通过一个第三方制作平台来搭建在线教育…

【Maven教程】(五)仓库:解析Maven仓库—布局、分类和配置,远程仓库的认证与部署,快照版本,依赖解析机制,镜像和搜索服务 ~

Maven 仓库 1️⃣ 什么是Maven仓库2️⃣ 仓库的布局3️⃣ 仓库的分类3.1 本地仓库3.2 远程仓库3.3 中央仓库3.4 私服 4️⃣ 远程仓库的配置4.1 远程仓库的认证4.2 部署至远程仓库 5️⃣ 快照版本6️⃣ 从仓库解析依赖的机制7️⃣ 镜像8️⃣ 仓库搜索服务8.1 Sonatype Nexus8.2…

大白菜清理电脑密码教程

首先安装大白菜: 插入u盘一键制作启动盘 制作成功,重启进入u盘启动模式

监控平台 - zabbix

目录 一、概述 二、搭建 一、概述 1. zabbix程序结构 zabbix-server:用于数据处理及写入到数据库 zabbix-agent:用于获取被监控端的性能检测数据 zabbix-web:用于数据的展示及远程操控 数据库:用于存储监控数据 zabbix-pr…