机器学习实战:Python基于LR线性回归进行预测(十)

news2024/11/26 2:41:45

文章目录

    • 1 前言
      • 1.1 LR的介绍
      • 1.2 LR的应用
    • 2. weather数据集实战演示
      • 2.1 导入函数
      • 2.2 导入数据
      • 2.3 数据整体可视化
      • 2.4 训练模型
      • 2.5 预测模型
      • 2.6 评估模型
    • 3.讨论

1 前言

注意这里的LR指的是Linear Regression,线性回归。而非逻辑回归Logistic Regression,虽然二者简称都是LR,但是后者我们还是俗称Logistic多点

1.1 LR的介绍

线性回归(Linear Regression)是一种用于建立自变量与连续因变量之间线性关系模型的统计学和机器学习方法。它是最简单、最常见的回归分析方法之一。

线性回归的目标是通过拟合最优的直线(一元线性回归)或超平面(多元线性回归)来描述自变量与因变量之间的关系。它假设自变量和因变量之间存在线性关系,即因变量可以被自变量的线性组合所解释。

一元线性回归模型的数学表达式为:Y = β0 + β1*X + ε,其中Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。这个模型描述了因变量Y与自变量X之间的直线关系,β0是截距,β1是斜率。

多元线性回归模型扩展了一元线性回归,可以处理多个自变量。数学表达式为:Y = β0 + β1X1 + β2X2 + ... + βn*Xn + ε,其中Y是因变量,X1, X2, ..., Xn是多个自变量,β0, β1, β2, …, βn是回归系数,ε是误差项。

优点:

  • 简单和解释性: 线性回归是一种简单直观的方法,易于理解和解释。它建立了自变量与因变量之间的线性关系,通过回归系数可以解释自变量对因变量的影响程度和方向。

  • 计算效率高: 线性回归的计算效率通常很高,特别是在具有大量样本和低维特征空间的情况下。拟合线性回归模型的计算复杂度较低,可以处理大规模数据集。

  • 可解释性强: 线性回归可以提供变量之间的关系和影响程度的定量信息。回归系数可以量化自变量对因变量的贡献,帮助了解变量之间的关联关系。

  • 预测准确度高: 在数据符合线性关系的情况下,线性回归可以提供较高的预测准确度。当自变量与因变量之间存在线性关系时,线性回归可以得到较好的拟合效果。

缺点:

  • 线性假设限制: 线性回归假设自变量和因变量之间存在线性关系,这在实际问题中并不总是成立。如果数据的真实关系是非线性的,线性回归模型可能无法捕捉到复杂的模式和关联。

  • 对异常值敏感: 线性回归对异常值(在因变量或自变量中的极端值)比较敏感。异常值可能对模型的拟合产生显著影响,导致模型的不准确性。

  • 无法处理高维特征: 线性回归在处理高维特征空间的问题时面临挑战。当自变量的数量远大于样本数量时,线性回归可能会遇到过拟合问题。

  • 缺乏灵活性: 线性回归的灵活性较低,无法捕捉复杂的非线性关系。对于非线性问题,需要采用其他更复杂的模型来提高拟合能力。

1.2 LR的应用

这是最基础的机器学习算法,应用领域也十分广泛:

  1. 经济学和金融学:线性回归可以用于预测经济指标(如GDP、通货膨胀率等)与自变量(如消费、投资、出口等)之间的关系,进行经济预测和政策分析。在金融领域,线性回归可用于预测股票价格、利率等金融指标。

  2. 市场营销:线性回归可以用于市场营销研究,例如预测销售量与广告投入、价格等因素之间的关系,进行市场需求分析和营销策略制定。

  3. 医学和健康科学:线性回归可用于分析医学和健康领域的数据,例如预测疾病发展与风险因素之间的关系,评估治疗方法的效果,分析生物医学数据等。

  4. 社会科学:线性回归可用于社会科学领域的研究,如教育研究中预测学生成绩与学习时间、家庭背景等因素之间的关系,社会经济学中分析收入与教育水平、职业等的相关性。

  5. 环境科学:线性回归可用于分析环境数据,如预测气温与温室气体排放、大气污染物之间的关系,评估环境因素对生态系统的影响。

  6. 工程和物理科学:线性回归可用于建立物理模型和工程设计中的预测。例如,预测材料强度与温度、压力等因素之间的关系,分析电子元件的性能与设计参数的关联。

2. weather数据集实战演示

2.1 导入函数

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import seaborn as seabornInstance 
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn import metrics
%matplotlib inline

2.2 导入数据

weather数据集包括降水,降雪,温度,风速以及当天是否包括雷暴或其他恶劣天气条件。任务是预测以输入特征为最低温度的最高温度。
下载地址:https://github.com/Vaibhav-Mehta-19/linear-regression-weather-dataset

dataset = pd.read_csv('weather.csv')
print(dataset.shape)
dataset.describe()

2.3 数据整体可视化

# 最高温和最低温的二维散点图
dataset.plot(x='MinTemp', y='MaxTemp', style='o')  
plt.title('MinTemp vs MaxTemp')  
plt.xlabel('MinTemp')  
plt.ylabel('MaxTemp')  
plt.show()

# 检查平均最高温
plt.figure(figsize=(15,10))
plt.tight_layout()
seabornInstance.distplot(dataset['MaxTemp'])


根据结果看大概在15~20。

2.4 训练模型

X = dataset['MinTemp'].values.reshape(-1,1)
y = dataset['MaxTemp'].values.reshape(-1,1)
# 老惯例,训练集/测试集按7/3分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
regressor = LinearRegression()  
regressor.fit(X_train, y_train) 

计算截距和斜率:

print(regressor.intercept_)
print(regressor.coef_)


意味着最小温度每变化一个单位,最高温度的变化约为0.82

2.5 预测模型

y_pred = regressor.predict(X_test)
df = pd.DataFrame({'Actual': y_test.flatten(), 'Predicted': y_pred.flatten()})
df

# 柱状图可视化结果
df1 = df.head(25)
df1.plot(kind='bar',figsize=(16,10))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')
plt.show()


这里展示了25组数据,模型准确性有点不高,但是预测的百分比还是相对接近实际百分比

# 绘制组间比较线
plt.scatter(X_test, y_test,  color='gray')
plt.plot(X_test, y_pred, color='red', linewidth=2)
plt.show()

2.6 评估模型

  • 平均绝对误差(MAE),误差绝对值的平均值:

MAE = (1/n) * Σ|i - yi|

  • 均方误差(MSE),平方误差的平均值:

MSE = (1/n) * Σ(i - yi)^2

  • 均方根误差(RMSE),平方误差均值的平方根:

RMSE = √(MSE)

评估模型主要是以上三个指标,用Scikit-Learn库预构建的函数计算即可

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))  
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))  
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))


三个指标都是越小越好,虽然有点差强人意,不过均方根误差为4.42,平均绝对误差为3.76,可以认为该模型的预测误差相对较小

3.讨论

我认为线性回归是机器学习中最基础和常见的模型之一。线性回归模型通过建立特征与目标变量之间的线性关系来进行预测。它具有一些优点,如模型的简单性和可解释性,使其在许多应用领域得到广泛应用。

然而,线性回归模型也有一些限制。它假设特征与目标之间的关系是线性的,并且对异常值敏感,像2.3的散点图中可以看出数据的发散性较强。此外,它不能捕捉到非线性关系和特征之间的复杂交互作用。对于这些情况,可能需要考虑更复杂的模型或对特征进行转换。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/716027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【QT】——TCP套接字通信

目录 1.基本概念 2.QTcpServer 2.1 常用接口 2.2信号 3 QTcpSocket 3.1构造函数 3.2 连接函数 3.3 接收数据 3.4 发送数据 3.5 信号 4.通信的过程 4.1服务器端 4.2 客户端 通信流程: 1.基本概念 QT是 C 的一个框架,并且里边提供了用于套接…

让你不再好奇ai绘画免费网站有哪些

你有没有想过成为一名画家,但是缺乏绘画技巧?现在有了 ai作画生成器,让你可以轻松地创作出绝美的艺术品!现在有很多ai作画的免费网站,但是这些网站大多数操作繁琐,不易上手。这时我们可以寻求一款趁手的ai绘…

【算法与数据结构】剑指 Offer 58 - II. LeetCode左旋转字符串

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:以例一为例,例一的字符串可以分为"ab" "cdefg"两个子串,首…

element Plus Select选择器实现查询搜索 下拉选择

这Select选择器用于哪里 怎么用? Select 选择器可以用于许多不同的场景,包括但不限于以下几个方面: 表单:Select 选择器常用于表单中的下拉选择字段,例如选择国家、城市、性别、职位等。用户可以从预定义的选项中选择…

软考:中级软件设计师:计算机体系结构,CISC和RISC,Flynn分类,指令流水线,吞吐率,效率

软考:中级软件设计师:计算机体系结构 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性 关于互联网大厂的笔试面试,都是需要细心准备的…

Win10任务栏的天气怎么关闭?Win10任务栏的天气关闭方法

Win10任务栏的天气怎么关闭?Win10任务栏的天气功能可以提供即时的天气信息,方便用户随时获取当前和未来的天气预报。然而,对于一些用户来说,这个天气小部件可能并不是必需的,并且想要关闭它以腾出任务栏的空间。无论是…

工程师抓秃头总结卡尔曼滤波简单原理及收敛原因

1、关于矩阵的一些想法 有小伙伴看到矩阵就脑瓜壳疼,那是没有了解数学家为啥闲的没事要用矩阵呢,从来没有人说不用矩阵就算不了,矩阵最初我认为是数学家偷懒,因为写一堆方程字太多太长,所以用了简写的形式,…

【SAP-MDG】售前常见问题

在与甲方的交流过程中,常常会有以下几个问题 一、“为什么要上主数据管理系统?” 见:主数据管理的意义 二、“有了主数据管理机制,还要不要上主数据管理平台?” 主数据的管理机制是通用性的,我们在任何系…

【算法与数据结构】28、LeetCode实现strStr函数

文章目录 一、题目二、暴力穷解法三、KMP算法四、Sunday算法五、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、暴力穷解法 思路分析:首先判断字符串是否合法,然后利用for循环&#xff…

:hover悬浮在元素上方时,不出现黑边

给element plus的下拉菜单设置悬浮样式 .el-dropdown :hover{border: none;outline: none; } border:node 表示元素本身的边框没有了 outline:none 表示元素的轮廓线没有了

K8S集群管理

集群管理 1 集群管理1.1 节点管理1.1.1 令牌管理1.1.2 集群扩缩容1.1.3 集群升级1.1.4 证书管理 1.2 数据管理1.2.1 ETCD基础1.2.2 ETCD实践1.2.3 备份还原1.2.4 ETCD集群 1 集群管理 1.1 节点管理 1.1.1 令牌管理 学习目标 这一节,我们从 令牌基础、令牌实践、…

【Part 2】博物馆防刷票小程序接入无感验证--跳转式接入

前文在这里: 【Part 1】现在去博物馆都预约不上了,黑产多少有点疯狂了 前面这篇文章讲到目前博物馆的门票基本被黄牛薅没了,我们普通人只能通过黄牛去买票,并且讲到了预约小程序如何通过插件式接入无感验证。 这篇文章我们继续讲…

数据结构之 时间复杂度与空间复杂度

目录 1:什么是时间复杂度和空间复杂度 2:时间复杂度与空间复杂度求法 3:几个典型时间复杂度与空间复杂度的分析 1:什么是时间复杂度与空间复杂度 首先对于我们所写的程序来说,为了评估一个算法的好与坏我们需要通过…

用*打印一个空心三角形

通过找规律发现,有*的位置坐标是(0,3)(1,2)(1,4)(2,1)(2,5),三角形左边坐标…

Python爬虫使用代理IP的实现

使用爬虫时,如果目标网站对访问的速度或次数要求较高,那么你的 IP 就很容易被封掉,也就意味着在一段时间内无法再进行下一步的工作。这时候代理 IP 能够给我们带来很大的便利,不管网站怎么封,只要能找到一个新的代理 I…

软考:中级软件设计师:计算机存储结构,cache,局部性原理,RAM和ROM,磁盘结构和计算

软考:中级软件设计师:计算机存储结构 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性 关于互联网大厂的笔试面试,都是需要细心准备的…

2023年铁矿石行业研究报告

第一章 行业概况 铁矿石行业是指从地壳中开采铁矿石,经过破碎、筛选、洗选等步骤,使其达到工业上可用的标准的一整套产业。这个行业涵盖了从开采到运输,再到冶炼和销售的全过程。它是全球制造业,尤其是钢铁工业的基础。 铁矿石的…

org.apache.commons(commons-csv)下载CSV增加BOM头

网络说明 代码说明 依赖 <!--https://mvnrepository.com/artifact/org.apache.commons/commons-csv--><dependency><groupId>org.apache.commons</groupId><artifactId>commons-csv</artifactId><version>1.8</version><…

C++学习笔记-第9单元 异常处理

第9单元 异常处理 文章目录 第9单元 异常处理单元导读9.1 异常处理概览9.1.1 异常处理概览9.1.2 异常处理机制的优点 9.2 异常匹配与内建异常类9.2.1 异常匹配与异常类9.2.2 内建异常类 9.3 自定义异常类与多重捕获9.3.1 自定义异常类9.3.2 捕获多种无关异常9.3.3 捕获派生异常…

C#Winform 中tabcontrol 美化实例

本篇讲解tabcontrol 美化实例,我们项目开发中为了保持项目界面的风格的一致性,需要美化tabcontrol控件,系统自带的控件样式不能更改,无法满足需求。 先看效果 实现过程 创建winform项目,添加组件类控件 修改名称,点击添加 cs代码 using System.Drawing; using Sys…