《机器学习》 线性回归 一元、多元 推导 No.3

news2025/1/10 23:50:50

一、什么是线性回归

        线性回归是一种用于预测连续数值的机器学习算法。它基于输入特征与目标变量之间的线性关系建立了一个线性模型。线性回归的目标是找到最佳拟合直线,以最小化预测值与实际值之间的误差。这个线性模型可以用来进行预测和推断。

        线性回归的模型可以表示为y = w0 + w1x1 + w2x2 + ... + wn*xn,其中w0, w1, w2, ..., wn是要学习的模型参数,代表了每个特征对应的权重。

        即类似于在一个平面中分布了很多的数据点,现在需要去找一条线来拟合这些数据点,拟合即贴合这些数据。

实例:

        有如下工资及其在银行的贷款额度:

        将这些数据点依次写入坐标系中,x轴为工资,y轴为贷款额度,找到一条线来尽可能的接近这些数据(类似于下图所示),小点表示一个个数据点,找到这条线后,在这条线上的y轴对应值即为贷款额度预测值,那么这条线即为线性回归模型。

 

二、一元线性回归模型

 

1、实例 

同样将上述模型拿过来:

        找到那一条尽可能贴合这份数据所对应的数据点的直线后,这条线就是线性回归模型,因为只有一个输入特征(或叫一个维度)用于预测一个目标变量,所以又叫一元线性回归模型那么这条线所对应的表达式为 y = β0 + β1x + ε  其中 β1为斜率,y是目标变量,x是输入特征,β0为截距,ε 为误差(满足正态分布)上图所示绿色线条即对应每个特征值的误差。

        其作用为,当有人来银行贷款,给出了他的月工资,那么输入这个模型,自动可以得出可贷款额度。

 

2、正态分布(也叫高斯分布):

        若随机变量 x ,服从一个位置参数  μ(也叫期望),尺度参数为 σ (σ平方也叫方差) 的概率分布,且其概率密度函数为:

        其所对应图形形如下图所示:

 则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,标准正态分布为 μ = 1,σ = 0,如下所示

 

三、多元线性回归模型

 

1、什么是多元线性回归 

        使用多个自变量预测一个连续的因变量。与一元线性回归不同的是,多元线性回归可以考虑多个自变量之间的相互作用对因变量的影响。

         其表达式为y = β0 + β1x1 + β2x2 +ε  同样的β为模型参数,ε为 误差项,误差项满足正态分布,β个数与特征值x的个数有关

其所表示模型类似于下图所示(三个特征值):

 

2、误差项分析:

        误差项在线性回归模型中是一个重要的概念。它代表了模型无法完全准确预测因变量的部分,即模型的预测与真实值之间的差异。误差项通常被假设为服从均值为0的独立同分布的正态分布。

        误差项不可省略,是必然产生的,同时误差具有独立同分布的特点,即每个样本点的误差都是独立的,且每个样本点都处于同一个分布函数下。

y = β0 + β1x1 + β2x2 +ε 也可以转换成矩阵计算,如下图所示:

其中X0 = 1(人为增加),由于 x 为样本项,为列向量,所以此处对 β 参数进行转置,转为行向量,所以则可以将多元线性回归表达式对应为下列表达式:

因为误差项 ε 满足独立同分布,所以 ε = y - βx 带入高斯分布表达式,得到如下表达式:

 此时p表示每条数据发生的概率概率

3、极大似然估计

        极大似然估计是一种常用的参数估计方法。它用于从给定的观测数据中,通过最大化似然函数来估计模型的参数。在这种方法中,假设我们有一个概率模型,它由一组参数所描述,而我们有一组已观测到的数据。通过极大似然估计,我们尝试找到最大化观测数据出现概率的参数值

        例如,有一个袋子里有10个球,从中放回的抽了10次,一共抽出来9个白球1个黑球,则可以预测估计抽到白球的概率为10分之9,黑球的概率为10分之1,则可估计袋子内有9个白球,1个黑球。 之所以这么估计,是因为抽到这个球的概率值最大,即发生的事件就是最大概率会出现的事件,所有发生的事情都不会是偶然,所以认为其为极大概率

 

4、似然函数求解:

        以上述抽球来看,抽了十次,每一次抽到白球的概率相乘即可得到这其中白球的概率,这就叫极大似然估计。可以用如下表达式来表示:

        其中的 Π 表示连乘符号,即从开始一直乘m次,因为每个样本都是独立的,独立的概率最大,所以为连乘。

        L(β)表示采集所有数据发生概率最大值

        此时x为传入的特征值,y为给定训练的数据值,σ 为固定参数常量,β是需要求的值m为数据条数

 

化简上述公式:

        将上式左右两边同时加一个对数log(默认底数为e),因为L(β)为单调递增的,增加一个log不会改变其单调性

利用对数的特性log a x b = log a + log b,则可以将上述连乘符号Π转变为求和符号∑:

        在通过对数特性 log a x b = log a + log b ,上述1 / ((√2pi)σ)为常量,将它加m次即为乘上m,而后面exp的幂也可更改,exp(x)表示e的x次方,所以对数log e 即可表示为1,化简结果如下所示 :

        因为要求β的值,logL(β)为单调递增的,要求其极大值,就要求后一部分极小值,后一部分极小值既是要求β的极大值,那么将后一部分单独取出得到如下状态:

5、最小二乘法:

将上述公式利用最小二乘法,对其求偏导等于0即可得到β的极大值,得到β的表达式如下所示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2050693.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot Profile多环境配置及配置优先级

【SpringBoot学习笔记 三】Profile多环境配置及配置优先级_profiles队列中的优先值-CSDN博客 Profile激活方式 但是我们发现一个问题,就是每次切换环境还需要去配置里指定,然后通过修改dev为test或prod来切换项目环境 , 这样做的话每次切换环境都要重新改…

前端面试——如何判断对象和数组

给你一个值,如何判断其是对象还是数组??? 我们先给出数据 var lists [1,2,3,4,5]var objs {length:5 } 我们分别尝试如下五种方法 console.log((✘)使用length,lists.length,objs.length); console.log((✔)使用isArray,Arr…

【已成功EI检索】第三届机电一体化技术与航空航天工程国际学术会议(ICMTAE 2023)

重要信息 大会官网:www.icmtae.org 大会时间:2023年9月15-17日 大会地点:中国-江西南昌理工学院(南昌市青山湖区经济技术开发区英雄大道901号) 接受/拒稿通知:投稿后1周内 收录检索:EI 和 …

Vulkan 学习(4)---- Vulkan 逻辑设备

目录 Vulkan Logical Device OverView逻辑设备创建VkDeviceQueueCreateInfoDeviceExtension获取DeviceQueue参考代码 Vulkan Logical Device OverView 在 Vulkan 中,逻辑设备(Logical Device)是与物理设备(Physical Device)交互的接口,它抽象了对特定GPU(物理设备)…

CDD数据库文件制作(八)——服务配置(0x85)

目录 1.子功能创建2.会话切换配置/安全等级配置2.1.根据诊断调查表进行信息提取2.2.会话转换配置/安全等级配置3.寻址方式信息提取/禁止肯定响应位(SPRMIB)信息3.1.寻址方式/禁止肯定响应位(SPRMIB)配置4.否定响应码信息提取4.1.否定响应码配置按照诊断调查表中对0x85服务的…

PX30 Android8.1适配AIC8800 wifi

wifi驱动生成ko文件 生成后 通过wpa_supplicant加载参数 external/wpa_supplicant_8/wpa_supplicant/main.c int main(int argc, char *argv[]) {int ret -1;char module_type[20]{0};wpa_printf(MSG_INFO,"argc %d\n",argc);if(argc 2) {if (wifi_type[0] 0) …

【MySQL】数据库基础(表的操作)

目录 一、创建表 二、查看表结构 三、修改表 3.1 添加新列 3.2 修改列属性 3.3 删除列属性 3.4 修改表名 3.5 向表中插入 3.6 修改列名 四、删除表 一、创建表 语法: CREATE TABLE table_name ( field1 datatype, field2 datatype, field3 datatype ) …

docker容器安全加固参考建议——筑梦之路

这里主要是rootless的方案。 在以 root 用户身份运行 Docker 会带来一些潜在的危害和安全风险,这些风险包括: 容器逃逸:如果一个容器以 root 权限运行,并且它包含了漏洞或者被攻击者滥用,那么攻击者可能会成功逃出容器…

车载camera avm框图

一、关键词介绍: POC: power on coax LVDS: Low-Voltage Differential Signaling GMSL:Gigabit Multimedia Serial Link AVM: Around View Monitor Serdes:DeSerializer、Serializer DVP:Interface with ISP and Sensor: DVP(Digital Video Port) 二、车载camera avm…

书籍推荐:大数据之路 阿里巴巴大数据实践

书籍推荐:大数据之路 阿里巴巴大数据实践 这本书侧重于理论知识,并结合了阿里大数据发展的过程,将知识总结起来。总的来所,书中的有些章节个人感觉非常不错,比如:数据仓库建模;但是大部分章节都…

性能优化理论篇 | 如何保证数据安全落盘,5分钟彻底弄懂 一次write中的各种缓冲区 !

性能优化系列目录: 性能优化理论篇 | 彻底弄懂系统平均负载 性能优化理论篇 | swap area是个什么东西 性能优化理论篇 | Cache VS Buffer,傻傻分不清 ? 在很多IO场景中,我们经常需要确保数据已经安全的写到磁盘上,以便…

xss之DOM破坏

文章目录 DOM破坏漏洞的复现https://xss.pwnfunction.com/基于bp学院DOM破坏漏洞复现思路分析实现 常见的xss触发的标签没有过滤的情况存在过滤的情况 DOM破坏 DOM破坏就是⼀种将 HTML 代码注⼊⻚⾯中以操纵 DOM 并最终更改⻚⾯上 JavaScript ⾏为的技术。 在⽆法直接 XSS的情…

Linux·权限与工具-make

1. Makefile/makefile工具 首先展示一下,makefile工具如何使用。我们先写一个C语言程序 然后我们建立一个Makefile/makefile文件,m大小写均可。我们在文件中写入这样两行 wq保存退出后,我们使用 make 命令 可以看到生成了可执行程序&#xff…

无人机模拟训练室技术详解

无人机模拟训练室作为现代无人机技术培训的重要组成部分,集成了高精度模拟技术、先进的数据处理能力及高度交互的操作界面,为无人机操作员提供了一个安全、高效、接近实战的训练环境。以下是对无人机模拟训练室技术的详细解析,涵盖系统基础概…

为TI的 AM355移植uboot和linux内核

一、uboot移植 在移植之前要先对uboot的源码结构有一定熟悉 1.uboot源码顶层目录下各源码文件夹的作用 2.编译后生成的uboot.xxx 各文件后缀含义 关于以上两点社区已经有很多前辈总结的很详细,这里不做赘述。 对于uboot源码分析韦东山老师b站上有免费的课程&#x…

QT中Charts基本用法

QT中Charts基本用法 第一步:创建工程,添加Charts库 第二步:添加charts视图 注意要打上对钩 第三步:添加所需成员 第四步:编写初始化函数 第五步:添加测试数据

C++学习笔记之算法模板

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、双指针1.1 有序数组的合并1.2 快慢指针/删除有序数组中的重复项1.3 求和 二、动态规划2.1 自底向上和自顶向下(带备忘录)2.2 带有当前状…

浅谈哈希长度扩展攻击

攻击原理: 我们首先需要了解一下Message Authentication codes (MACs) ,称为消息验证码,一般用于服务器验证消息的真实性。服务器把密钥和消息连接起来,用摘要算法获取摘要,对于H(secret data&#xff09…

RabbitMq的基本理解

MQ概念及同步异步: 同步调用: 是一种编程模型,其中调用者发送请求并等待响应。在同步调用中,调用者会阻塞,直到被调用的方法返回结果。 异步调用: 是一种编程模型,其中调用者发送请求后立即返回&#x…

09结构型设计模式——组合模式

一、组合模式的简介 组合模式(Composite Pattern)是一种结构型设计模式,主要用于处理树形结构中的对象组合问题。它允许你将对象组合成树形结构,以表示部分-整体层次结构。组合模式使得客户端能够统一地对待单个对象和对象组合&a…