零基础机器学习(4)之线性回归的基本原理

news2025/1/12 2:45:28

文章目录

    • 一、线性回归的基本原理
      • 1.相关与回归
      • 2.线性回归的原理分析
        • ①线性回归的一般公式
        • ②线性回归的损失函数
        • ③线性回归方程的参数求解方法
        • A.最小二乘法
        • B.梯度下降法

一、线性回归的基本原理

1.相关与回归

相关描述的是变量之间的一种关系。
从统计角度看,变量之间的关系有函数关系相关关系两种。

函数关系:即当一个或多个变量取一定值时,另一个变量有唯一确定值与之对应。

在实际生活中,有些变量之间并不像函数关系那样,有明确的关系,但又的确存在一定的关系。

例如,二手房的房价与面积,这两个变量之间不存在完全确定的关系,但却存在一定的趋势,即面积会对房价有一定影响,但又存在很大的不确定性。。

通常把变量之间的这种不确定的相互依存关系称为相关关系,如果两个变量之间存在相关关系,则可以用回归方法研究一个变量对另一个变量的影响,如图所示

补充:相关分析与回归分析的联系与区别

相关分析与回归分析既有联系又有区别,其联系在于相关分析是回归分析的基础前提,回归分析是相关分析的深入继续。其区别主要包含以下3点。

  • 相关分析所研究的两个变量是对等关系,不区分自变量和因变量,而回归分析所研究的两个变量不是对等关系,必须根据研究目的确定其中的自变量和因变量。
  • 对于变量x和y来说,相关分析只能计算出一个反映两个变量间相关密切程度的相关系数,不能估计或推算出具体数值。而回归分析则可以用自变量数值推算因变量的估计值
  • 相关分析中,两个变量都是随机的,或者一个变量是随机的,另一个变量是非随机的。而回归分析中,自变量是可以控制的变量(给定的变量),因变量是随机变量。

2.线性回归的原理分析

①线性回归的一般公式

回归是研究一组随机变量与另一组变量之间关系的统计分析方法,通常用y表示因变量,而x被看成是影响y的因素,称为自变量。

线性回归就是运用直线来描述数据之间关系的一种算法。
直线的方程式可以表示为: f ( x ) = w x + b f(x)=wx+b f(x)=wx+b

w表示直线的斜率,b表示直线的截距,x表示自变量,即数据集中的特征变量, f ( x ) f(x) f(x)表示因变量,即模型对于数据结果的预测值。

在上述方程式中,只有一个x和一个 f ( x ) f(x) f(x) ,说明训练样本数据集中的特征变量只有一个,这种只有一个自变量和一个因变量组成的模型称为一元线性回归

  • 如果训练样本的数据集中有多个特征变量,则线性回归的一般预测公式为: f ( x ) = w 1 x 1 + w 2 x 2 + . . . . w n x n + b f(x)=w_1x_1+w_2x_2+....w_nx_n+b f(x)=w1x1+w2x2+....wnxn+b

x1,x2,x3…表示数据集中的特征变量(数据集中共有n个特征); f ( x ) f(x) f(x)表示模型对于数据结果的预测值;w1,w2…和b表示模型的参数,每个 w值对应一条特征直线的斜率。
像这样,由有线性关系的多个自变量和一个因变量组成的模型称为多元线性回归。线性模型的一般公式也可以这样理解,模型给出的预测值可以看作各个特征的加权和, w i w_i wi表示各个特征的权重。

②线性回归的损失函数

众所周知,平面上的两个点可以确定一条直线。假设训练数据集中只有两个样本,如表1所示。运用这两个样本很容易就可以得到一条拟合直线,如图所示。

序 号x 值y 值
1515
21535

如果训练数据集中增加一个样本,这个样本在坐标系中所表示的点的坐标是(10,15) 。怎样画一条直线来拟合这3个点呢?

在坐标系中,先随机画出多条直线,如图。接下来通过计算来寻找最合适的拟合直线


模型输出的预测值与真实值越接近,说明模型越好。如果用 f ( x ) f(x) f(x)表示模型的预测值,y表示训练样本的真实值。那么 f ( x ) f(x) f(x)与y的接近程度就可以用“ y- f ( x ) f(x) f(x) ”来表示,实际应用中,通常用平方误差度量 f ( x ) f(x) f(x)与y的接近程度,即 e = [ f ( X ) − y ] 2 e=[f(X)-y]^2 e=[f(X)y]2

单个样本的误差度量为 e = [ f ( X ) − y ] 2 e=[f(X)-y]^2 e=[f(X)y]2 ,则3个样本所产生的误差总和为

J = [ y 1 − f ( x 1 ) ] 2 + [ y 2 − f ( x 2 ) ] 2 + [ y 3 − f ( x 3 ) ] 2 ] J= [y_ {1}-f(x_ {1})]^ {2} + [y_ {2}-f(x_ {2})]^ {2} + [y_ {3}-f(x_ {3})]^ {2}] J=[y1f(x1)]2+[y2f(x2)]2+[y3f(x3)]2]

  • 显然,只要计算出总误差J的最小值,就能找到其对应的直线,求得对应方程的参数,从而找到最合适的线性回归方程。

在机器学习的训练集中,通常有多个样本,可将上述3个样本的情况扩展到多个样本,将所有训练样本所产生的误差总和看成线性回归模型的总误差。因此,对于任意给定的n个训练样本x1…xn其标签分别为y1…yn所有样本的总误差为

J = [ y 1 − f ( x 1 ) ] 2 + [ y 2 − f ( x 2 ) ] 2 + ⋯ + [ y n − f ( x n ) ] 2 ] J= [y_ {1}-f(x_ {1})]^ {2} + [y_ {2}-f(x_ {2})]^ {2} + \cdots + [y_ {n}-f(x_ {n})]^ {2}] J=[y1f(x1)]2+[y2f(x2)]2++[ynf(xn)]2]

在机器学习中,我们把上述函数J称为损失函数(loss function)。
损失函数又称错误函数或 J 函数,用来对模型的预测误差进行评估

(损失函数有很多种,这种损失函数叫做MSE均方误差)

③线性回归方程的参数求解方法

线性回归的基本思想是先求出损失函数的最小值,然后找出对应的直线,进而求出直线方程的参数w和b的值,得到线性回归方程。

求参数w和b的值有两种方法:最小二乘法梯度下降法。

A.最小二乘法

最小二乘法又称最小平方法,它通过最小化误差的平方和寻找数据的最佳函数匹配。Sklearn的linear_model模块中提供了LinearRegression类,该类使用最小二乘法实现线性回归,可通过下面语句导入线性回归模型。

from sklearn.linear_model import LinearRegression

LinearRegression类提供了如下两个属性:

  • “coef_”表示回归系数,即斜率;_
  • intercept”表示截距

使用最小二乘法训练线性回归模型,预测面积为200 m2的房屋售价。二手房房屋销售数据如表所示

面积/(m2)售价/(万元)面积/(m2)售价/(万元)
100301113324
9028589296
6020070260
5030045120
5518078245
#导入NumPy与线性回归模型
import numpy as np
from sklearn.linear_model import LinearRegression
#输入训练集数据
#这里输入二维数组是为了表示两个维度,第一个维度就是样本数,第二维度是特征数
x=np.array([[100],[113],[90],[89],[60],[70],[50],[45],[55],[78]])								#房屋面积
y=np.array([[301],[324],[285],[296],[200],[260],[300],[120],[180],[245]])					             #售价
#建立模型,训练模型
model=LinearRegression()	             #建立基于最小二乘法的线性回归模型
model.fit(x,y)			             #开始训练模型
#求解线性回归方程参数
print("w=",model.coef_[0],"b=",model.intercept_)
#使用逗号将不同的字符串和变量连接在一起

① 在机器学习中,如果数据集比较小,一般可将其保存成数组直接写在程序中,然后让程序读取该数组的内容即可。NumPy用于创建数组对象,[1,2,3]表示一维数组,[[1,2],[3,4]]表示二维数组,本例中的数据集就是利用NumPy创建的二维数组。另外,获取数组中的数据时,下标要从0开始,本例中x[0][0]表示数据100;
② fit(x,y)表示传入数据x与标签y,训练模型。

为了便于观察,将原始数据与求得的方程用图表示出来

#导入画图工具
import matplotlib.pyplot as plt
#求模型预测值
y2=model.predict(x)
#model.predict(x)的作用是将输入数据x传递给已经训练好的模型model,然后模型会根据学习到的参数和规律,对输入数据进行预测,并返回预测结果y2
#设置坐标轴
plt.xlabel('面积')						#图形横轴的标签名称
plt.ylabel('售价')						#图形纵轴的标签名称
plt.rcParams['font.sans-serif']='Simhei'	                           #中文文字设置为黑体
plt.axis([40,125,100,400])		#设置图像横轴与纵轴的最大值与最小值
#绘制并显示图形
plt.scatter(x,y,s=60,c='k',marker='o')		              #绘制散点图
plt.plot(x,y2,'r-')		               #绘制直线,第3个参数表示红色实线
plt.show()		               #显示图形
a=model.predict([[200]])
print("200平方米二手房的预测房价是:",a[0][0])

程序运行结果如图所示.。

程序说明

① 得到线性回归方程后,可用predict()函数求解横坐标的预测值;
② Matplotlib中的axis([40,125,100,400])函数用于设置图像横轴和纵轴的最大值与最小值,其中,40和125分别表示横轴的最小值和最大值,100和400分别表示纵轴的最小值和最大值;
③ Matplotlib中的scatter()函数用于画散点图,前两个参数表示横轴和纵轴的坐标值,第3个参数s表示散点的大小(s值越大,点越大),c表示散点的颜色,“k”表示黑色,marker表示散点的样式,“o”表示圆点。

使用训练好的线性回归模型预测面积为200 m2的房屋售价

a=model.predict([[200]])
print("200平方米二手房的预测房价是:",a[0][0])

B.梯度下降法

在机器学习中,梯度下降法是很普遍的算法,不仅可用于线性回归问题,还可用于神经网络等模型中。梯度下降法适用于特征个数较多训练样本较多内存无法满足要求时使用,是一种比较高效的优化方法。Sklearn中提供的SGDRegressor()函数可以实现基于梯度下降法的回归分析,该函数的语法如下。

SGDRegressor(loss=’squared_loss’,n_iter_no_change=5,max_iter=1000)
#导入NumPy与线性回归及梯度下降法模型
import numpy as np
from sklearn.linear_model import LinearRegression,SGDRegressor
#输入训练集数据
x=np.array([[100],[113],[90],[89],[60],[70],[50],[45],[55],[78]])						  #房屋面积
y=np.array([[301],[324],[285],[296],[200],[260],[300],[120],[180],[245]])				                 #售价
#建立模型,训练模型
model=SGDRegressor(loss='huber',max_iter=5000,random_state=42)				                 
#建立基于梯度下降法的线性回归模型
#huber代表调用huber损失函数
#5000代表迭代5000次
#random_state=42是设置随机数种子
model.fit(x,y.ravel())
#ravel()函数可以扁平化数组,即将二维数组转换为一维数组;
#开始训练模型
#求解线性回归方程参数
print("w=",model.coef_,"b=",model.intercept_)
import matplotlib.pyplot as plt
#求模型预测值
y2=model.predict(x)
#设置坐标轴
plt.xlabel('面积')								                                                            #图形横轴的标签名称
plt.ylabel('售价')								                                                            #图形纵轴的标签名称
plt.rcParams['font.sans-serif']='Simhei‘           #中文文字设置为黑体
plt.axis([40,125,100,400])       #设置图像横轴与纵轴的最大值与最小值
#绘制并显示图形
plt.scatter(x,y,s=60,c='k',marker='o')		#绘制散点图
plt.plot(x,y2,'r-')		 #绘制直线,第3个参数表示红色实线
plt.legend(['真实值','预测值'])	 #显示图例
plt.show()		 #显示图形
a=model.predict([[200]])
print("200平方米二手房的预测房价是:",a[0])

梯度下降法通过不断 迭代更新模型参数的方式,沿着损失函数的梯度方向逐步逼近或达到最优解。在每次迭代中,根据损失函数对参数的梯度(即损失函数对各个参数的偏导数)来更新参数,使得损失函数值逐渐减小,直到达到最小值或收敛到一个可以接受的范围内

梯度下降法的基本思想可以用以下步骤概括:

  1. 初始化模型参数(例如权重和偏置)的数值。
  2. 计算损失函数对参数的梯度。
  3. 根据梯度的方向和大小更新参数。
  4. 重复步骤2和3,直到满足停止条件(如达到最大迭代次数或损失函数变化很小)

在机器学习和深度学习中,权重(weights)和偏置(bias)是模型中的两个重要参数,用于构建模型并进行预测。

  1. 权重(weights):也就是w

    • 在线性模型中,权重用于衡量输入特征对输出的影响程度。每个输入特征都与一个权重相关联,通过乘以对应的权重并求和得到模型的输出。
    • 在神经网络中,权重用于连接神经元之间的信号传递。每个连接都有一个权重,控制着信号在神经网络中的传播。
    • 权重决定了模型的学习能力和拟合能力,通过调整权重可以使模型更好地拟合训练数据。
  2. 偏置(bias):也就是b

    • 偏置是模型中的一个常数项,用于调整模型的输出使其更符合实际情况。
    • 在线性模型中,偏置相当于截距,用于调整模型在没有输入特征时的输出值。
    • 在神经网络中,每个神经元都有一个偏置项,用于调整神经元的激活阈值。

在模型训练过1程中,权重和偏置是需要不断调整和优化的参数,以使模型在训练数据上达到最佳的拟合效果。通过梯度下降等优化算法,可以更新权重和偏置,使模型逐步收敛到最优解。

总的来说,权重和偏置是机器学习和深度学习模型中的关键参数,通过调整它们可以控制模型的表现。

补充

Huber损失函数定义:

[ L δ ( y , y ^ ) = { 1 2 ( y − y ^ ) 2 , for  ∣ y − y ^ ∣ ≤ δ δ ( ∣ y − y ^ ∣ − 1 2 δ 2 ) , otherwise ] [ L_{\delta}(y, \hat{y}) = \begin{cases} \frac{1}{2}(y - \hat{y})^2, & \text{for } |y - \hat{y}| \leq \delta \\ \delta(|y - \hat{y}| - \frac{1}{2}\delta^2), & \text{otherwise} \end{cases} ] [Lδ(y,y^)={21(yy^)2,δ(yy^21δ2),for yy^δotherwise]

其中,( y ) 是真实值(ground truth),( y ^ \hat{y} y^ ) 是模型预测值,( δ \delta δ ) 是一个阈值参数,用于控制绝对误差和均方误差之间的平衡。当预测值与真实值之间的绝对差小于等于阈值 ( δ \delta δ ) 时,采用均方误差(MAE);否则采用绝对误差(MSE)。

为何使用Huber损失函数?

使用MAE用于训练神经网络的一个大问题就是,它的梯度始终很大,这会导致使用梯度下降训练模型时,在结束时遗漏最小值。对于MSE,梯度会随着损失值接近其最小值逐渐减少,从而使其更准确。
在这些情况下,Huber损失函数真的会非常有帮助,因为它围绕的最小值会减小梯度。而且相比MSE,它对异常值更具鲁棒性。因此,它同时具备MSE和MAE这两种损失函数的优点。不过,Huber损失函数也存在一个问题,我们可能需要训练超参数δ,而且这个过程需要不断迭代。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1540190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据可视化-ECharts Html项目实战(5)

在之前的文章中,我们学习了如何设置滚动图例,工具箱设置和插入图片。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢 数据可视化-ECharts…

OpenLayers基础教程——WebGLPoints中要素样式的设置方法解析

1、前言 前一篇博客介绍了如何在OpenLayers中使用WebGLPoints加载海量数据点的方法,这篇博客就来介绍一下WebGLPoints图层的样式设置问题。 2、样式运算符 在VectorLayer图层中,我们只需要创建一个ol.style.Style对象即可,WebGLPoints则不…

【QT+QGIS跨平台编译】之九十:【QGIS_Crashhandler+Qt跨平台编译】(一套代码、一套框架,跨平台编译)

文章目录 一、QGIS_Crashhandler介绍二、QGIS下载三、文件分析四、pro文件五、编译实践一、QGIS_Crashhandler介绍 QGIS_Crashhandler模块是QGIS中的一个重要组成部分,它提供了QGIS程序的错误崩溃处理与跟踪。 二、QGIS下载 QGIS网址: QGIS Source Download 获取最新版本的…

iOS UIFont-新增第三方字体

背景 在项目中添加三方字体,是在开发中比较常见的需求,每次新增字体,都会遗忘其中某个步骤,又要去百度一下才能把字体添加使用成功。每次这样有点浪费时间和打击自信,于是便想着,自己好好来理一理新增字体…

ubuntu arm qt 读取execl xls表格数据

一,ubuntu linux pc编译读取xls的库 1,安装libxls(读取xls文件 电脑版) 确保你已经安装了基本的编译工具,如gcc和make。如果没有安装,可以使用以下命令安装: sudo apt-update sudo apt-get install build-essentia…

康奋威科技邀您到场参观2024长三角快递物流展

参展企业介绍 杭州康奋威科技股份有限公司创立于2005年,由国家“万人计划”专家任天挺先生创立并担任法人,是一家专业从事智能装备研发与制造的国家级高新技术企业。专注于自动化控制、机械设计、信息化方面的技术研究,主要为太阳能光伏、智…

深入理解Redis的Sentinel机制

Sentinel简述 Sentinel为了解决什么问题? Sentinel(哨岗、哨兵)是Redis的高可用性(high availability)解决方案。 我们知道Redis 的主从复制模式可以将主节点的数据改变同步给从节点,这样从节点就可以起…

C/C++之内存旋律:星辰大海的指挥家

个人主页:日刷百题 系列专栏:〖C/C小游戏〗〖Linux〗〖数据结构〗 〖C语言〗 🌎欢迎各位→点赞👍收藏⭐️留言📝 ​ ​ 一、C/C内存分布 我们先来了解一下C/C内存分配的几个区域,以下面的代码为例来看…

Cmake和opencv环境安装

1 Cmake下载及安装 Download CMake 根据需要下载,历史版本下载方法如下 CMake 的版本号中的后缀 "rc1" 和 "rc2" 表示 Release Candidate 1 和 Release Candidate 2,它们都是候选版本,用于测试新功能和修复 bug。通常情…

目标检测的指标评估

目标检测模型的评价指标主要用于衡量模型的性能,特别是它在定位和识别目标方面的准确性。以下是一些常见的评价指标: 1. 精确度 (Precision): 表示检测到的目标中,正确检测到的目标所占的比例。精确度高意味着模型产生的误报(错误…

精神暴力的来源与解药

导致人生病的,不仅是病毒或细菌,也有精神暴力。与病毒破坏物理肌体、摧毁生命不同,精神暴力是让人们在过度的自我狂热中燃尽自我、而毁灭自身的。 21世纪以来,精神方面的疾病越来越多,为什么这样呢?大的背景…

fiddler过滤器使用,隐藏图片、js、css请求

如果抓包过程中不想查看图片、js、css请求,或者只想抓某个ip或者某个网页下的请求,可以在过滤器中设置。 (1)没有开启过滤器 可以看出所有的请求都会抓取,cs、js、图片请求都有 (2)开启过滤器 …

代码随想录算法训练营Day55 ||leetCode 583. 两个字符串的删除操作 || 72. 编辑距离

583. 两个字符串的删除操作 这道题的状态方程比上一题简单一些 初始化如下 class Solution { public:int minDistance(string word1, string word2) {vector<vector<int>> dp(word1.size() 1, vector<int>(word2.size() 1));for (int i 0; i < word1…

Kotlin零基础入门到进阶实战

教程介绍 Kotlin现在是Google官方认定Android一级开发语言&#xff0c;与Java100%互通&#xff0c;并具备诸多Java尚不支持的新特性&#xff0c;每个Android程序员必备的Kotlin课程&#xff0c;每个Java程序员都需要了解的Kotlin&#xff0c;掌握kotlin可以开发Web前端、Web后…

计算机网络:物理层下的传输媒体概览

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…

基于springboot和vue的旅游资源网站的设计与实现

环境以及简介 基于vue, springboot旅游资源网站的设计与实现&#xff0c;Java项目&#xff0c;SpringBoot项目&#xff0c;含开发文档&#xff0c;源码&#xff0c;数据库以及ppt 环境配置&#xff1a; 框架&#xff1a;springboot JDK版本&#xff1a;JDK1.8 服务器&#xf…

【暴刷力扣】11. 盛最多水的容器

11. 盛最多水的容器 题目 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明&#xf…

pytest之fixture结合conftest.py文件使用+断言实战

pytest之fixture结合conftest.py文件使用 conftest.py--存放固件固件的优先级pytest执行流程pytest之断言实战pytest结合allure-pytest插件生成美观的报告 conftest.py–存放固件 在一个项目的测试中&#xff0c;大多数情况下会有多个类、模块、或者包要使用相同的测试夹具。这…

更改默认的网络状态页面

目录 网络状态码 概念 分类 详解 页面更改 场景 步骤 网络状态码 概念 当浏览者访问一个网页时&#xff0c;浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前&#xff0c;此网页所在的服务器会返回一个包含HTTP状态码的信息头用以响应浏览器的请求…

阿里云效流水线—发布公用jar到Maven私仓

后端项目发布 1.选择流水线 2.新建流水线 3.选择模板 4.选择代码仓库 5.调整构建命令 添加mvn install 重新构建项目 6.添加镜像 在wms-app目录下新建Dockerfile文件(Dockerfile文件名中的D一定要是大写的&#xff09;文件&#xff0c;重新推送项目 #基础镜像 FROM openjd…