机器学习-线性回顾

news2024/11/6 3:00:47

线性回归

  • 线性回归
    • 1. 简介
    • 2. 线性回归问题求解
    • 3. 欠拟合与过拟合

线性回归

1. 简介

"""
简介:
	定义:
		利用回归方程对一个或多个自变量(特征值)和因变量(目标值)之间关系 进行建模的一种分析方式
	公式:
		见下图
	分类:
		一元线性回归:
			目标值与一个因变量有关系
		多远线性回归:
			目标值与多个因变量有关系
"""

线性回归公式. 见下图
在这里插入图片描述

2. 线性回归问题求解

"""
线性回归API:
	from sklearn.linear_model import LinearRegression

损失函数:
	误差概念:
		用预测值y-真实值y = 误差
	衡量每个样本预测值与真实值效果的函数
		代价函数, 成本函数, 目标函数
	种类:
		均方误差 MSE
		平均绝对误差 MAE
		均方根误差 RMSE
正规方程法:
	线性回归最小而成损失函数
		J(w)= ||Xw−y||₂² 取值最小
"""
# 1.导入依赖包
# from sklearn.datasets import load_boston # 数据集已废弃
from sklearn.preprocessing import StandardScaler  # 特征处理
from sklearn.model_selection import train_test_split  # 数据集划分
from sklearn.linear_model import LinearRegression  # 正规方程的回归模型
from sklearn.linear_model import SGDRegressor  # 梯度下降的回归模型
from sklearn.metrics import mean_squared_error  # 均方误差评估
from sklearn.linear_model import Ridge, RidgeCV
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')

# 正规方程法
def linearRegr():
    """
    正规方程法
    :return:
    """
    # 2.数据预处理
    # 2.1 获取数据
    data_url = "http://lib.stat.cmu.edu/datasets/boston"
    raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
    data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
    target = raw_df.values[1::2, 2]
    # 2.2 数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data, target, random_state=22)
    # 2.3 特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    # 3.模型训练,机器学习-线性回归
    # 3.1 实例化模型(正规方程)
    estimator = LinearRegression()
    # 3.2 模型训练
    estimator.fit(x_train, y_train)
    # 4.模型预测
    y_predict = estimator.predict(x_test)
    print("预测值为:", y_predict)
    print("模型的权重系数为:", estimator.coef_)
    # 5.模型评估,均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:", error)
"""
梯度下降法:
	梯度:
		单变量函数中:
			梯度就是某一点的切线的斜率
			梯度的方向为函数增长最快的方向
		多变量函数中:
			梯度就是某一个点的偏导数
			有方向: 偏导数分量的向量方向
	沿着梯度下降的方向求解极小值
	公式:
		见下图
		α: 学习率(步长)不能太大,也不能太小. 机器学习中:0.001~0.01
		梯度是上升最快的方向, 我们需要是下降最快的方向, 所以需要加负号
	
	梯度下降优化过程:
		1. 给定初始位置 步长(学习率)
		2. 计算该点当前的梯度的负方向
		3. 向该负方向移动步长
			步长决定了在梯度下降迭代过程中, 每一步沿梯度负方向前进的长度
			学习率太小,下降的速度会慢
			学习率太大, 容易造成错过最低点, 产生下降过程中的震荡,甚至梯度爆炸
		4. 重复 2-3 步直至收敛
			两次差距小于指定的阈值
			达到指定的迭代次数
	梯度下降法分类:
		全体度下降算法 FGD
			每次迭代时, 使用全部样本的梯度值
				特点: 训练速度较慢
		随机梯度下降算法 SGD
			每次迭代时, 随机选择并使用一个样本梯度值
				特点: 简单,高效,不稳定
		小批量梯度下降算法 mini-batch
			每次迭代时, 随机选择并使用小批量的样本梯度值
				特点: 表现也正好居于SG 和FG 二者之间
		随机平均梯度下降算法 SAG
			每次迭代时, 随机选择一个样本的梯度值和以往样本的梯度值的均值
				特点: 训练初期表现不佳,优化速度较慢	
"""
from sklearn.preprocessing import StandardScaler  # 特征处理
from sklearn.model_selection import train_test_split  # 数据集划分
from sklearn.linear_model import LinearRegression  # 正规方程的回归模型
from sklearn.linear_model import SGDRegressor  # 梯度下降的回归模型
from sklearn.metrics import mean_squared_error  # 均方误差评估
from sklearn.linear_model import Ridge, RidgeCV
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# 梯度下降法
def SGDRegr():
    """
    梯度下降法
    :return:
    """
    # 2.数据预处理
    # 2.1 获取数据
    data_url = "http://lib.stat.cmu.edu/datasets/boston"
    raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
    data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
    target = raw_df.values[1::2, 2]
    # 2.2 数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data, target, random_state=22)
    # 2.3 特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    # 3.模型训练,机器学习-线性回归
    # 3.1 实例化模型(梯度下降法)
    estimator = SGDRegressor()
    # estimator = SGDRegressor(max_iter=1000, learning_rate="constant", eta0=0.001)
    # 3.2 模型训练
    estimator.fit(x_train, y_train)
    # 4.模型预测
    y_predict = estimator.predict(x_test)
    print("预测值为:", y_predict)
    print("模型的权重系数为:", estimator.coef_)
    print("模型的偏置为:", estimator.intercept_)
    # 5.模型评估, 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:", error)

梯度下降法, 公式见下图
在这里插入图片描述

3. 欠拟合与过拟合

"""
欠拟合与过拟合
	欠拟合:
		模型在训练集上表现不好,在测试集上也表现不好。模型过于简单
		出现原因
			学习到数据的特征过少
		解决方法
			添加其他特征
			添加多项式特征项
	过拟合:
		模型在训练集上表现好,在测试集上表现不好。模型过于复杂
		出现原因
			原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点
		解决方法
			重新清洗数据
			增大数据的训练量
			正则化
			减少特征维度,防止维灾难
"""
def underFitting():
    """
    欠拟合
    :return:
    """
    # 2.准备数据x y(增加上噪声)
    np.random.seed(666)
    x = np.random.uniform(-3, 3, size=100)
    y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
    # 3 训练模型
    # 3.1 实例化线性回归模型
    estimator = LinearRegression()
    # 3.2 模型训练
    X = x.reshape(-1, 1)
    estimator.fit(X, y)
    # 4 模型预测
    y_predict = estimator.predict(X)
    # 5 模型评估,计算均方误差
    # 5.1 模型评估MSE
    myret = mean_squared_error(y, y_predict)
    print('myret-->', myret)
    # 5.2 展示效果
    plt.scatter(x, y)
    plt.plot(x, y_predict, color='r')
    plt.show()


def fitting():
    """
    拟合
    :return:
    """
    # 2.准备数据x y(增加上噪声)
    np.random.seed(666)
    x = np.random.uniform(-3, 3, size=100)
    y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
    # 3.模型训练
    # 3.1 实例化线性回归模型
    estimator = LinearRegression()
    # 3.2 模型训练
    X = x.reshape(-1, 1)
    # print(‘X.shape-->’, X.shape)
    X2 = np.hstack([X, X ** 2])  # 数据增加二次项
    estimator.fit(X2, y)
    # 4.模型预测
    y_predict = estimator.predict(X2)
    # 5.模型评估,计算均方误差
    myret = mean_squared_error(y, y_predict)
    print('myret-->', myret)
    # 6 展示效果
    plt.scatter(x, y)
    # 画图plot折线图时 需要对x进行排序, 取x排序后对应的y值
    plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')
    plt.show()


def overFitting():
    """
    过拟合
    :return:
    """
    # 2.准备数据x y(增加上噪声)
    np.random.seed(666)
    x = np.random.uniform(-3, 3, size=100)
    y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
    # 3 训练模型
    # 3.1 实例化线性回归模型
    estimator = LinearRegression()
    # 3.2 模型训练
    X = x.reshape(-1, 1)
    # print(‘X.shape-->’, X.shape)
    X3 = np.hstack([X, X ** 2, X ** 3, X ** 4, X ** 5, X ** 6, X ** 7, X ** 8, X ** 9, X ** 10])  # 数据增加高次项
    estimator.fit(X3, y)
    # 4.模型预测
    y_predict = estimator.predict(X3)
    # 5.模型评估,计算均方误差
    # 5.1 模型评估MSE
    myret = mean_squared_error(y, y_predict)
    print('myret-->', myret)
    # 5.2 展示效果
    plt.scatter(x, y)
    # 画图时输入的x数据: 要求是从小到大
    plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')
    plt.show()

"""
正则化:
		在模型训练时,数据中有些特征影响模型复杂度、或者某个特征的异常值较多,所以要尽量减少这个特征的影响(甚至删除某个特征的影响)
		L1正则化
			α 叫做惩罚系数,该值越大则权重调整的幅度就越大,即:表示对特征权重惩罚力度就越大
			L1 正则化会使得权重趋向于 0,甚至等于 0,使得某些特征失效,达到特征筛选的目的
			from sklearn.linear_model import Lasso
		L2正则化
			α 叫做惩罚系数,该值越大则权重调整的幅度就越大,即:表示对特征权重惩罚力度就越大
			L2 正则化会使得权重趋向于 0,一般不等于 0
			from sklearn.linear_model import Ridge
"""

# 1.导入依赖包
from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler  # 特征处理
from sklearn.model_selection import train_test_split  # 数据集划分
from sklearn.linear_model import LinearRegression  # 正规方程的回归模型
from sklearn.linear_model import SGDRegressor  # 梯度下降的回归模型
from sklearn.metrics import mean_squared_error  # 均方误差评估
from sklearn.linear_model import Ridge, RidgeCV
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

def L1Regular():
    """
    L1 正则化
    :return:
    """
    # 2.准备数据x y(增加上噪声)
    np.random.seed(666)
    x = np.random.uniform(-3, 3, size=100)
    y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
    # 3 训练模型
    # 3.1 实例化L1正则化模型 做实验:alpha惩罚力度越来越大,k值越来越小,返回会欠拟合
    estimator = Lasso(alpha=0.1)
    # 3.2 模型训练
    X = x.reshape(-1, 1)
    X3 = np.hstack([X, X ** 2, X ** 3, X ** 4, X ** 5, X ** 6, X ** 7, X ** 8, X ** 9, X ** 10])  # 数据增加二次项
    estimator.fit(X3, y)
    print('estimator.coef_', estimator.coef_)
    # 4.模型预测
    y_predict = estimator.predict(X3)
    # 5.模型评估,计算均方误差
    # 5.1 模型评估MSE
    myret = mean_squared_error(y, y_predict)
    print('myret-->', myret)
    # 5.2 展示效果
    plt.scatter(x, y)
    # 画图时输入的x数据: 要求是从小到大
    plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')
    plt.show()


# 1.导入依赖包
from sklearn.linear_model import Ridge


def L2Regular():
    """
    L2 正则化
    :return:
    """
    # 2.准备数据x y(增加上噪声)
    np.random.seed(666)
    x = np.random.uniform(-3, 3, size=100)
    y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
    # 3.训练模型
    # 3.1 实例化L2正则化模型
    estimator = Ridge(alpha=0.1)
    # 3.2 模型训练
    X = x.reshape(-1, 1)
    X3 = np.hstack([X, X ** 2, X ** 3, X ** 4, X ** 5, X ** 6, X ** 7, X ** 8, X ** 9, X ** 10])  # 数据增加二次项
    estimator.fit(X3, y)
    print('estimator.coef_', estimator.coef_)
    # 4.模型预测
    y_predict = estimator.predict(X3)
    # 5.模型评估,计算均方误差
    # 5.1 模型评估,MSE
    myret = mean_squared_error(y, y_predict)
    print('myret-->', myret)
    # 5.2 展示效果
    plt.scatter(x, y)
    # 画图时输入的x数据: 要求是从小到大
    plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')
    plt.show()

L1正则化, 公式为
在这里插入图片描述
L2正则化, 公式为
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1991212.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PMP–知识卡片--盈亏平衡分析

盈亏平衡分析是通过盈亏平衡点(BEP)分析项目成本与收益的平衡关系的一种方法。各种不确定因素(如投资、成本、销售量、产品价格、项目寿命期等)的变化会影响投资方案的经济效果,当这些因素的变化达到某一临界值时&…

S2S服务端上报Appsflyer和Firebase事件

S2S 服务端上报 Appsflyer 和 Firebase 事件 Appsflyer 事件上报 接口文档地址:Send Event 你可以在 appsflyer 注册一个测试 APP 用于测试,选择 Android 项目比较好创建。 必填参数及 Api Secret 获取 点击在页面左侧 “Configuration - App Setting…

CentOS 介绍

引出 Linux 系统内核与 Linux 发行套件系统的区别? Linux 系统内核指的是一个由 Linus Torvalds(Linux之父,内核主要开发者)负责维护,提供硬件抽象层、磁盘、文件系统控制及多任务功能的系统核心程序。 Linux 发行套…

【Git】VS Code 中文件右侧字母(A M U)含义

VS Code项目关联git后,常常会出现如下标识 其中 M Modified 已经在仓库中添加过该文件,然后你对这个文件进行了修改,就会文件后标记M U Untracked 本地新建了这个文件,还未提交到仓库上,就会标记U D Delete 本…

sourcemap使用

sourcemap是什么以及怎么生成就不过多阐述了,这是之前看到的一篇文章感觉介绍的很详细:弄懂 SourceMap,前端开发提效 100% 浏览器加载sourcemap 我们线上代码一般不会开启sourcemap,在排查线上的问题时,可以通过浏览器…

信创安全 | 新一代内网安全方案—零信任沙盒

在当今数字化时代,访问安全和数据安全成为企业面临的重要挑战。传统的边界防御已经无法满足日益复杂的内网办公环境,层出不穷的攻击手段已经让市场单一的防御手段黔驴技穷。当企业面临越来越复杂的网络威胁和数据泄密风险时,更需要一种综合的…

S4 HANA标准现金流量表(IDCNCASH、J3RKKRS、J3RKKRD)

文章目录 一、概述二、配置2.1、路径2.2、说明事项2.3、现金流项目及会计科目 一、概述 传统输出现金流量表步骤(直接法现金流表): 定义现金流变动相关的原因代码(Reason Code);过账凭证里指定对应的原因…

python开发上位机 - PyCharm环境搭建、安装PyQt5及工具

目录 简介: 一、安装PyCharm 1、下载 PyCharm 2、PyCharm安装 1)配置安装目录 2)安装选项 3、问题及解决方法 二、安装PyQt5 1、打开 Pycharm,新建 Project 2、安装 pyqt5 3、安装很慢怎么办? 4、安装 pyq…

数据库规范化设计 5大基本原则

规范化设计原则是数据库设计的基本原则,有助于减少数据冗余,提高数据一致性和完整性,简化数据管理,增强数据安全性,对整个开发项目至关重要。而缺乏规范化设计会导致数据冗余,增加存储成本,引发…

【视频编码】调用x264库文件实现编码

调用x264库文件实现编码 整理前面记录的文章时发现还没有记录过如何实际操作x264编码器实现编码的功能,过去是通过FFmpeg调用libx264的接口来实现编码功能,这里记录一下直接调用x264的接口来实现编码的功能,同时存储编码之后的码流和重建的yu…

线上预约陪诊平台医院陪诊系统源码就医陪护小程序APP开发

项目分析 随着医疗行业的数字化转型和人们对健康需求的日益增长,线上预约陪诊系统作为一种新兴的医疗服务模式,正逐渐受到市场的关注和认可。本文将从市场前景、使用人群、盈利模式以及竞品分析等多个角度,全面探讨线上预约陪诊系统的技术性…

Windows长文件名支持

Windows 长文件名支持 🍔打开注册表🥗激活 🍔打开注册表 🥗激活 计算机\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem双击进入编辑模式 把0改成1,确定

【高校主办 | 快录用,稳定EI检索 !ACM独立出版】2024智能物联与计算国际学术会议(AITC 2024,8月30-9月1)

为探讨智能物联与计算技术所涉领域的最新研究和发展趋势,2024智能物联与计算学术大会(AITC 2024)将于2024年8月30日-9月1日在中国 贵阳举行。 AITC 2024由中国计算机学会、中国人工智能学会、浙江省科学技术协会、浙江工业大学、浙江省人工智…

Moba案例帧同步

1.设置环境光 2.搭建客户端框架 a.对上述的模块基类(都是单例类,都有初始化方法) b.隐藏登录页面(得到Canvas的子对象失活) c.设置根对象过场景不被移除 tip:模块都是继承mono的,不能直接ne…

AI写作进阶 运用思维链CoT让AI写出来的东西更有“人味儿“

嗨,大家好,我是大象。 AI 写作今年可谓是大放光芒,从年初的 AI 自动摘要生成工具到年中的 AI 情感分析引擎,再到现在备受推崇的 AI 故事创作助手,一次次让 AI 写作成为众人热议的焦点。 大家惊叹 AI 写作的神奇能力&am…

DockerCompose中使用自定义网络的方式实现部署SpringBoot+Mysql+Redis

场景 Docker中Docker网络-理解Docker0与自定义网络的使用示例: Docker中Docker网络-理解Docker0与自定义网络的使用示例_docker 配置 docker0-CSDN博客 Docker中使用自定义网络方式实现Redis集群部署与测试流程: Docker中使用自定义网络方式实现Redi…

【工具测评】腾讯云 AI 代码助手——你的下一位编码“伙伴”

文章目录 引言一、VS Code下安装腾讯云 AI 代码助手插件二、腾讯云AI代码助手使用实例2.1 通过对话生成代码2.2 通过注释生成代码2.3 规范、修复代码错误2.4 人工智能技术对话,有求必应2.5 智能代码分析,快速上手历史代码 三、获得的帮助与提升四、建议五…

nvidia系列教程-AGX-Orin系统启动异常解决(eeprom: Failed to read I2C slave device)

目录 前言 一、问题描述 二、问题解决 总结 前言 在使用 NVIDIA Jetson 系列开发板时,可能会遇到启动时的错误提示,例如 eeprom: Failed to read I2C slave device。这个错误通常出现在设备启动日志中,可能会导致设备无法正常启动或功能受限…

vue3 input加一个回车,直接进行查询的事件,然后提示v-on event ‘@pressEnter‘ must be hyphenated.

1、加个回车的事件,直接就有个提示,没有报错 2、v-on事件“pressEnter”必须连字符这个是中文意思,也就是说不要写成个驼峰的形式,要改为-的形式。 3、稍改下,就可以解决: 4、其实不改也没有事的&#xff…

星际牛仔1998年SUNRISE制作的原创电视动画

《星际牛仔》是日本SUNRISE动画公司制作的原创电视动画。于1998年4月3日-1999年4月23日在东京电视台和WOWOW播出,同年夺得第三回神户动画奖的年度最佳电视动画奖,2000年获得日本科幻大会星云奖。 动画剧场版《星际牛仔:天国之扉》2001年9月1…