机器学习 之 线性回归算法

news2024/12/31 3:31:07

目录

线性回归:理解与应用

什么是线性回归?

一元线性回归

正态分布的重要性

多元线性回归

实例讲解

数据准备

数据分析

构建模型

训练模型

验证模型

应用模型

代码实现


线性回归:理解与应用

线性回归是一种广泛使用的统计方法,用于建模和预测因变量与一个或多个自变量之间的线性关系。它是机器学习中最基础也是最重要的算法之一,适用于多种实际场景,如预测销售额、评估房地产价值、预测股票价格等。本文将介绍线性回归的基本概念,并通过具体的例子来展示其应用。

什么是线性回归?

线性回归是一种监督学习技术,用于预测连续数值型的目标变量。它假设自变量与因变量之间存在线性关系,并试图找到最佳拟合直线来描述这种关系。线性回归的核心在于最小化预测值与实际值之间的差距,即误差平方和(SSE)。

线性回归可以分为两种主要类型:一元线性回归和多元线性回归。

一元线性回归

当只有一个自变量时,我们称之为一元线性回归。一元线性回归的数学模型可以表示为: y=β0+β1x+ε 其中,

  • y 是因变量(也称为响应变量)。
  • x 是自变量(也称为解释变量)。
  • β0 是截距项,当 x=0 时的 y 的值。
  • β1 是斜率,表示自变量 x 每增加一个单位时因变量 y 的变化量。
  • ε 是随机误差项,表示模型未能捕捉到的影响 y 的因素。 
实例:

以下为实验数据:

下列为实例代码:

import pandas as pd  # 导入Pandas库,用于数据处理
from matplotlib import pyplot as plt  # 导入Matplotlib库的pyplot模块,用于绘图
from sklearn.linear_model import LinearRegression  # 导入Scikit-learn库的LinearRegression类,用于线性回归分析

data = pd.read_csv('data.csv')  # 读取CSV文件中的数据到Pandas DataFrame

plt.scatter(data.广告投入, data.销售额)  # 绘制散点图,其中x轴为'广告投入',y轴为'销售额'
plt.show()  # 显示图表

corr = data.corr()  # 计算数据的相关系数矩阵

lr = LinearRegression()  # 创建一个线性回归模型对象
x = data[['广告投入']]  # 选择DataFrame中的'广告投入'这一列作为特征变量
y = data[['销售额']]  # 选择DataFrame中的'销售额'这一列作为目标变量

lr.fit(x, y)  # 使用fit方法训练模型

result = lr.predict(x)  # 使用训练好的模型对输入特征进行预测
score = lr.score(x, y)  # 计算模型对训练数据的解释方差比(R²)

a = round(lr.intercept_[0], 2)  # 截距项(保留两位小数)
b = round(lr.coef_[0][0], 2)  # 斜率项(保留两位小数)
print(f"线性回归模型为:y = {b}x + {a}")  # 输出线性回归模型方程

 运行出来的散点图为:

 结果为:

正态分布的重要性

在一元线性回归中,随机误差项 ε 通常假定为独立同分布的正态分布。这是因为正态分布是许多实际问题的基础假设之一,它保证了回归参数估计的有效性和可靠性。正态分布的期望为 0,方差相同,为σ^2。

多元线性回归

当有多个自变量时,我们称之为多元线性回归。多元线性回归的数学模型可以表示为: y=β0+β1x1+β2x2+…+βpxp+ε 其中,

  • y是因变量。
  • x1,x2,…,xp​ 是自变量。
  • β0​ 是截距项。
  • β1,β2,…,βp​ 是斜率,表示每个自变量对因变量的影响。
  • ε 是随机误差项。

实例解

为了更好地理解线性回归的应用,我们以一个具体的实例来说明。假设我们有一组数据,包含不良贷款、各项贷款余额、本年累计应收贷款、贷款项目个数以及本年固定资产投资额等信息。我们的目标是使用这些数据来预测不良贷款的金额。

数据准备 

我们从 Excel 文件 "案例.xlsx" 中读取数据。

数据分析

我们首先分析这些变量之间的相关性,以确定哪些变量可能与不良贷款有关联。

构建模型

我们选择使用 "各项贷款余额" 和 "本年固定资产投资额" 作为自变量,"不良贷款" 作为因变量,构建多元线性回归模型。

训练模型

使用数据集的一部分来训练模型,其余部分用于验证模型的准确性。

验证模型

评估模型的性能,例如使用 R² 分数来衡量模型的拟合程度。

应用模型

使用训练好的模型进行预测。

代码实现

下面是一个 Python 代码示例,演示如何使用 pandasscikit-learn 库来完成上述任务:

import pandas as pd
from sklearn.linear_model import LinearRegression

# 加载数据
data = pd.read_excel('案例.xlsx')

# 创建线性回归模型
lr_model = LinearRegression()

# 准备数据
X = data[['各项贷款余额', '本年累计应收贷款', '贷款项目个数', '不良贷款']]
y = data[['本年固定资产投资额']]

# 训练模型
lr_model.fit(X, y)

# 计算模型的决定系数 (R²)
score = lr_model.score(X, y)
print(score)

# 进行预测
predictions = lr_model.predict([[100, 50, 100, 10]])
print("预测结果 (100亿元, 50亿元, 100个, 10亿元):", predictions)

# 进行多个预测
predictions_multiple = lr_model.predict([[120, 60, 110, 12], [110, 40, 90, 8]])
print("多个预测结果:", predictions_multiple)

# 输出模型的截距和系数  y=kx+b
b = lr_model.intercept_
k = lr_model.coef_
print("系数形状:", k.shape)


print("线性回归模型为:y = {:.2f} + {:.2f} * 各项贷款余额 + {:.2f} * 本年累计应收贷款 + {:.2f} * 贷款项目个数 + {:.2f} * 不良贷款."
      .format(b[0], k[0][0], k[0][1], k[0][2], k[0][3]))

 运行结果:

结论

通过上述实例,我们可以看到线性回归模型在实际问题中的应用。希望这篇文章能帮助你更好地理解线性回归的概念,并学会如何使用它解决实际问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2061665.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业高性能web服务器,原理及实例

一、Web 服务基础介绍 正常情况下的单次web服务访问流程: 1.1 Web 服务介绍 1993年3月2日,中国科学院高能物理研究所租用AT&T公司的国际卫星信道建立的接入美国SLAC国家实 验室的64K专线正式开通,成为我国连入Internet的第一根专线。 1…

Mycat分片-垂直拆分

目录 场景 配置 测试 全局表配置 续接上篇:MySQ分库分表与MyCat安装配置-CSDN博客 续接下篇:Mycat分片-水平拆分-CSDN博客 场景 在业务系统中, 涉及以下表结构 ,但是由于用户与订单每天都会产生大量的数据, 单台服务器的数据 存储及处理能力是有限…

0x01 GlassFish 任意文件读取漏洞复现

参考文章: 应用服务器glassfish任意文件读取漏洞 - SecPulse.COM | 安全脉搏 fofa 搜索使用该服务器的网站 网络空间测绘,网络空间安全搜索引擎,网络空间搜索引擎,安全态势感知 - FOFA网络空间测绘系统 "glassfish"&…

VUE3-nest前后端部署教程-----4.服务器linux中部署Node.js环境

一.安装分布式版本管理系统Git (Alibaba Cloud Linux 3/2、CentOS 7.x) sudo yum install git -y 二.使用Git将NVM的源码克隆到本地的~/.nvm目录下,并检查最新版本。 git clone https://gitee.com/mirrors/nvm.git ~/.nvm && cd ~/.nvm && gi…

仿Muduo库实现高并发服务器——Server.hpp框架的简单描述

EventLoop模块在本项目中的简单使用: 下面这张图 是channel模块,poller模块,TimerWheel模块,EventLoop模块,LoopThreadPool模块进行组合。便于大家对这个项目的理解,因为代码看起来挺复杂的。 下面这个图&…

2024河南萌新联赛第六场题解

这场的出题组是郑州大学acm实验室,验题组是郑州大学和郑州轻工业大学的志愿者同学们。 官方题解大部分内容是我写的,B题思路部分是对应的出题人自己写的,E题思路以及代码都是对应的出题人写的因为我不会写这个题,题目的题面&…

C++--类和对象(三)

本篇主要是填补前两篇类和对象中的小知识点 第一篇:C--类和对象(一)-CSDN博客 第二篇:C--类和对象(二)-CSDN博客 目录 1.初始化列表 2.友元(friend) 3.内部类 1.初始化列表 在之前实现构造函数的时候&a…

uniapp 总结

uniapp的 发送请求的 responseType是没有 blob这个类型的, responseType: ‘arraybuffer’, uniapp 标准js和浏览器js的区别 downloadFile的原理作用

从零开始学习SLAM(五):极几何与极约束

文章参考计算机视觉life 前备知识 概念 几何关系: 上图中: 极平面(Epipolar plane):点c0, c1, p三点确定的平面; 极点(Epipoles): c0 c1 连线与两个平面的交点 基线&a…

SAP Parallel Accounting(平行分类账业务)配置及操作手册【适用于多国家会计准则】

1. 配置准备 1.1 理解平行账概念 平行账,也称为多分类账,是SAP系统中的一项功能,它允许企业按照不同的会计准则来维护各自的财务数据。这种设置特别适用于那些需要符合多种会计准则的跨国公司。通过平行账,企业可以在不同的分类…

单片机存储芯片 W25QXX、AT24C02

一、FLASH W25QXX (1) W25QXX芯片简介 W25Q128是华邦公司推出的一款SPI接口的NOR Flash芯片,其存储空间为128Mbit,相当于16M字节。W25Q128V芯片是串行闪存,可以通过标准/两线/四线SPI控制。W25Q128一次最多可编程256个字节。页面可以按扇区擦…

特斯拉算法,暴力递归尝试,汉诺塔问题

改进之后的算法 暴力递归就是尝试 汉诺塔问题 主函数 打印一个字符串的全部子序列,包括空字符串

【数据结构题集(c语言版)】内部排序算法比较 题解(起泡排序+直接插入排序+简单选择排序+快速排序+希尔排序+堆排序)

内部排序算法比较 问题描述 在教科书中,各种内部排序算法的时间复杂度分析结果只给出了算法执行时间的阶或大概执行时间。试通过随机数据比较各算法的关键字比较次数和关键字移动次数,以取得直观感受。 基本要求 对以下6种常用的内部排序算法进行比较:起泡排序、直接插入排…

SpringBoot依赖之Spring Data Redis 实现地理坐标(Geospatial)

Spring Boot 项目中使用 Spring Data Redis 实现地理坐标(Geospatial) 概念 Spring Data Redis (AccessDriver) 依赖名称: Spring Data Redis (AccessDriver)功能描述: Advanced and thread-safe Java Redis client for synchronous, asynchronous, and reactive usage. Sup…

JVM 有哪些垃圾回收器?

JVM 有哪些垃圾回收器? 图中展示了7种作用于不同分代的收集器,如果两个收集器之间存在连线,则说明它们可以搭配使用。虚拟机所处的区域则表示它是属于新生代还是老年代收集器。 新生代收集器(全部的都是复制算法)&…

使用 Charles 模拟手机弱网测试

在移动互联网时代,网络状况的不确定性给应用程序带来了挑战。尤其是在偏远地区或信号不佳的地方,用户的网络连接可能会变得不稳定。因此,对应用程序进行弱网测试变得尤为重要。Charles Proxy 是一款广泛使用的网络调试工具,它不仅…

分享小诗梦404炫酷单页面html5源码

源码介绍 分享小诗梦404炫酷单页面html5源码,小诗梦的一个很炫酷页面,感觉应该符合一些人的感觉!可以用来做404页面。 源码下载 分享小诗梦404炫酷单页面html5源码

C++ | Leetcode C++题解之第363题矩形区域不超过K的最大数值和

题目&#xff1a; 题解&#xff1a; class Solution { public:int maxSumSubmatrix(vector<vector<int>> &matrix, int k) {int ans INT_MIN;int m matrix.size(), n matrix[0].size();for (int i 0; i < m; i) { // 枚举上边界vector<int> sum(…

SAP凭证分割【Document Splitting】

在SAP系统中&#xff0c;凭证分割&#xff08;Document Splitting&#xff09;是一种用于在财务会计模块中特别是总帐会计中进行更细粒度的财务报表分析的技术。通过凭证分割&#xff0c;可以按照不同的标准&#xff08;如成本中心、利润中心、公司代码等&#xff09;对会计凭证…

C语言 | Leetcode C语言题解之第363题矩形区域不超过K的最大数值和

题目&#xff1a; 题解&#xff1a; int maxSumSubmatrix(int** matrix, int matrixSize, int* matrixColSize, int k){int preSum[matrixSize][*matrixColSize];for(int i0; i<matrixSize; i){preSum[i][0] matrix[i][0];}for(int i0; i<matrixSize; i){for(int j1; j…