AI学习-线性回归推导

news2025/1/19 7:58:14

线性回归

      • 1.简单线性回归
      • 2.多元线性回归
      • 3.相关概念熟悉
      • 4.损失函数推导
      • 5.MSE损失函数

1.简单线性回归

线性回归:有监督机器学习下一种算法思想。用于预测一个或多个连续型目标变量y与数值型自变量x之间的关系,自变量x可以是连续、离散,但是目标变量y必须连续。类似于初中的一元一次方程y = a + bx。不同的是以前可以根据两组值唯一确定a和b的关系,但是机器学习下这种算法是根据多种数据信息,计算出最优解

方程:
在这里插入图片描述
最优解:所有的样本数据都尽可能的贴合(拟合)到该方程(模型model)上方为最优解。说人话是: 我们根据样本数据,计算出很多的a、b值即为多种模型model,从多种模型中预测值Predicted value)和真实值Actual value)进行比较,误差Error越小的模型即为最优解。我们需要让机器知道什么是最优解的话,需要定义个损失函数Loss函数

字段描述
Actual value真实值,即已知的y
Predicted value预测值,是把已知的×带入到公式里面和猜出来的参数a,b计算得到的
Error误差,预测值和真实值的差距
最优解尽可能的找到一个模型使得整体的误差最小,整体的误差通常叫做损失Loss
Loss函数整体的误差,loss通过损失函数loss function计算得到

Loss 函数

平方均值损失

2.多元线性回归

​ 上面的简单线性回归影响其因素只有一个自变量X,但是在现实生活中影响y的可能有多个因素,所以多元线性回归也就用来解决这些问题。方程为:
在这里插入图片描述

上面写的过于复杂,学过数学矩阵的同学应该清楚:根据下面的图形示意图可以使用矩阵简写处理:
在这里插入图片描述

矩阵简写方程:

在这里插入图片描述

用矩阵表示符合我们机器学习相关编程语言的书写方式,便于使用编程语言实现。

3.相关概念熟悉

特征与维度

特征通常指的是影响结果或目标的一系列变量或因素,这些变量或因素构成了模型的 维度。在给定的例子中,x是由n列组成的,这些列可以看作是特征,它们共同构成了x的维度。这些特征会影响最后的结果y。

中心极限定理与正态分布

中心极限定理告诉我们,大量随机变量的总和会趋近于 正态分布

  • 中心极限定理和线性回归的关系:当使用线性回归对大量数据进行处理时,得到的结果可能会符合正态分布。

中心极限定理为线性回归提供了一个理论基础,而这种正态分布的性质,如平均值和标准差,可以被用来评估模型的性能和解释性

误差

第i个样本实际的值yi等于预测的值yihat加误差Ei,或者公式可以表达为如下
在这里插入图片描述
假定所有的样本的误差都是独立的随机变量,足够多的随机变量叠加之后形成的分布,根据中心极限定理,它服从的就是正态分布。

机器学习中我们假设误差符合均值为0,方差为定值的正态分布

最大似然估计

给定一个概率分布D,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为fD以及一个分布参数0我们可以从这个分布中抽出一个具有n个值的采样 ,利用f_D计算出其似然函数:
在这里插入图片描述
若D是离散分布,f0即是在参数为0时观测到这一采样的概率。若其是连续分布,f0则为x1,x2…xn联合分布的概率密度函数在观测值处的取值。

术语对应的函数术语描述
连续分布概率密度函数连续型随机变量的概率密度函数是一个描述这个随机变量的输出值
离散分布概率质量函数离散型随机变量的概率质量函数是一个描述这个随机变量的输出值

原理:假设样本数据是由某个概率分布生成的(连续分布、离散分布),而这个分布的参数是未知的。最大似然估计的目标是找到那些能使观察值出现的概率最大的参数值。

为啥要了解最大似然估计:上边我们不是假定了误差是符合正态分布的,正态分布又是是连续分布的。如果要求出其中的误差正态分布的相关参数值(均值=0,方差=参数值),则可以通过最大似然估计计算求出。

4.损失函数推导

正态分布的概率密度函数
在这里插入图片描述

误差的概率密度函数

误差是一个均值为0,方差为定值的正态分布,所以将误差带入得出:一条样本的概率密度方程如下:
在这里插入图片描述
误差属于正态分布,而正态分布的相关参数可以通过最大似然估计算出。

正态分布最大总似然数

上述公式我们只是推导出了一条误差的概率密度函数。接下来我们就是要把最大似然函数通过正太分布概率密度函数表达出来

在这里插入图片描述
样本误差服从正态分布也服务互相独立的假设,所以我们可以把上面式子写出连乘的形式概率的公式:

在这里插入图片描述
正态分布最大似然函数
在这里插入图片描述

等于

在这里插入图片描述
引入误差公式
在这里插入图片描述

最终推导出来的误差(正态分布)最大似然函数
在这里插入图片描述

5.MSE损失函数

因为数学的推导过程比较枯燥且晦涩难懂,所以我们先基于目的梳理一遍过程:获取线性回归的最优解即最优特征值。

  1. 线性回归最优解对应最小损失函数
  2. 最小损失函数基于中心极限定理服从正态分布
  3. 正态分布获取其取值的最大概率则基于最大似然函数
  4. 得到误差最大似然函数 最终可以求解其特征值

接下来继续推导MSE损失函数。总似然最大的那一时刻对应的参数 θ当成是要求的最优解!

最大总似然

获取最大总似然函数(连乘):
在这里插入图片描述
引入对数函数

因为log对数函数中,当底大于1的时候是单调递增,获取θ的最大值可以转换为获取loge的最大值(因为使用对数函数后便于简化公式,结果还是一样的) 公式如下:

在这里插入图片描述

基于对数函数的相关运算法则进行继续推导
在这里插入图片描述
在这里插入图片描述

MSE函数
因为前面有个负号,所以最大总似然变成了最小话负号后面的部分。 到这里,我们就已经推导出来了 MSE 损失函数,从公式我们也可以看出来 MSE 名字的来 历,mean squared error也叫做最小二乘
在这里插入图片描述
那么接下来问题就是 什么时候可以使得损失函数最小了。篇幅有限-下一篇对该问题进行求解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1566872.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IpcRenderer.invoke Error: An object could not be cloned.

这个错误信息提示“Uncaught (in promise) Error: An object could not be cloned.”通常发生在使用 Electron 的 IPC 通信过程中,尝试通过 ipcRenderer.invoke 或 ipcMain.handle 发送不能被克隆的对象时。JavaScript 中一些特殊对象或包含循环引用的对象无法通过 …

SQL server 查询数据库中所有的表名及行数

SQL server 查询数据库中所有的表名及行数 select a.name,b.rows from sysobjects as ainner join sysindexes as bon a.id b.id where (a.type u)and (b.indid in (0, 1)) and b.rows<50 and b.rows>20 order by a.name, b.rows desc;

虚拟机 ubuntu 20.04 git 设置代理的方法

前言 ubuntu 20.04 虚拟机中 Git 访问 github 或者其他的 git 仓库&#xff0c;大部分情况下速度很慢&#xff0c;并且容易掉线 如果 主机上使用了代理软件&#xff0c;但是虚拟机 ubuntu 中 Git 访问 git 仓库依旧是很慢 【问题】如何设置 虚拟机 ubuntu 的 Git 代理&#x…

C# 批量删除Excel重复项

当从不同来源导入Excel数据时&#xff0c;可能存在重复的记录。为了确保数据的准确性&#xff0c;通常需要删除这些重复的行。 手动查找并删除可能会非常耗费时间&#xff0c;而通过编程脚本则可以实现在短时间内处理大量数据。本文将提供一个使用C# 快速查找并删除Excel重复项…

Beaver Builder Pro v2.8.0.6:最佳的WordPress页面构建器插件

如果你正在寻找一个能帮助你轻松创建具有专业外观的网站的工具&#xff0c;那么Beaver Builder Pro v2.8.0.6就是你的最佳选择。这个高级WordPress插件提供了一个直观的前端可视化页面构建器&#xff0c;让你可以通过拖放元素来快速构建无限的自定义帖子和页面。 Beaver Buil…

JAVAEE之IoCDI

Spring 是⼀个 IoC&#xff08;控制反转&#xff09;容器&#xff0c;作为容器, 那么它就具备两个最基础的功能&#xff1a; • 存 • 取 Spring 容器管理的主要是对象, 这些对象, 我们称之为"Bean". 我们把这些对象交由Spring管理, 由 Spring来负责对象的创建…

Spring Boot--文件上传和下载

文件上传和下载 前言文件上传1、以MultipartFile 接口流文件&#xff0c;流的名称需要和前台传过来的名称对应上2、获取到文件名称截取后缀3、为了放置文件名重复使用uuid来随机生成id后缀4、判断转存路径中是否有这个文件夹如果没有就创建5、将文件存储到转存的目录中 文件下载…

非小米电脑下载小米电脑管家

由于 小米电脑管家 现在新增了机型验证&#xff0c;本篇将分享非小米电脑用户如何绕过机型验证安装 小米电脑管家 首先到小米跨端智联官网 https://hyperos.mi.com/continuity 中下载小米电脑管家 打开官网链接后&#xff0c;直接滑动到底部&#xff0c;点击下载 下载完成后…

C语言编写Linux的Shell外壳

目录 一、输出命令行 1.1 了解环境变量 1.2 获取用户名、主机名、当前路径 1.3 缓冲区改进MakeCommandLine 二、获取用户命令 2.1 读取函数的选择 2.2 细节优化 2.3 返回值 三、指令和选项分割 3.1 strtok 函数 3.2 分割实现 四、执行命令 4.1 fork 方法 4.2 进…

iPhone GPU性能评估:优化移动应用开发

摘要 了解你的显卡对于在电脑上玩现代图形要求高的游戏非常重要。本文介绍了如何轻松查看你的显卡型号以及为什么显卡在玩电脑游戏时如此关键。 引言 随着电脑游戏的发展&#xff0c;现代游戏对硬件性能的要求越来越高。十年前发布的显卡已经无法满足当前游戏的需求。因此&…

【前端】CSS(引入方式+选择器+常用元素属性+盒模型)

文章目录 CSS一、什么是CSS二、语法规范三、引入方式1.内部样式表2.行内样式表3.外部样式 四、选择器1.选择器的种类1.基础选择器&#xff1a;单个选择器构成的1.标签选择器2.类选择器3.id 选择器4.通配符选择器 2.复合选择器1.后代选择器2.子选择器3.并集选择器4.伪类选择器 五…

深挖苹果Find My技术,伦茨科技ST17H6x芯片赋予产品功能

苹果发布AirTag发布以来&#xff0c;大家都更加注重物品的防丢&#xff0c;苹果的 Find My 就可以查找 iPhone、Mac、AirPods、Apple Watch&#xff0c;如今的Find My已经不单单可以查找苹果的设备&#xff0c;随着第三方设备的加入&#xff0c;将丰富Find My Network的版图。产…

Redis主从复制、哨兵模式、Cluster集群

目录 一、Redis主从复制 1、主从复制介绍 2、主从复制原理 ​编辑 3、主从复制的作用 4.Redis主从复制实验搭建 1. 关闭防火墙和安装依赖环境 2. 解压安装包 3. 编译并安装到指定目录 4. 执行脚本文件 5. 做软连接 6. 启动redis并查看端口 7. 重启redis 8. 修改主…

机器学习每周挑战——信用卡申请用户数据分析

数据集的截图 # 字段 说明 # Ind_ID 客户ID # Gender 性别信息 # Car_owner 是否有车 # Propert_owner 是否有房产 # Children 子女数量 # Annual_income 年收入 # Type_Income 收入类型 # Education 教育程度 # Marital_status 婚姻状况 # Housing_type 居住…

Win11 绕过 TPM 或 CPU 检测

方法 1&#xff1a;修改注册表绕过 TPM 或 CPU 检测&#xff08;升级安装&#xff09; 如果你的硬件不完全符合安装 Windows 11 的基本硬件要求&#xff0c;可以通过修改注册表&#xff0c;在至少拥有 TPM 1.2 和不支持的 CPU 上升级安装 Windows 11 系统. 适用场景&#xff…

【Layui】------ layui实现table表格拖拽行、列位置的示例代码

一、完整的示例代码&#xff1a;&#xff08;请使用layui v2.8.3的版本&#xff09;看懂就能用、不要照搬、照搬会出错误、拷贝重要代码改改符合你自己的需求。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><…

【图论】知识点集合

边的类型 neighbors(邻居)&#xff1a;两个顶点有一条共同边 loop&#xff1a;链接自身 link&#xff1a;两个顶点有一条边 parallel edges&#xff1a;两个顶点有两条及以上条边 无向图 必要条件&#xff1a;删掉顶点数一定大于等于剩下的顶点数 设无向图G<V,E>是…

scRNA+bulk+MR:动脉粥样硬化五个GEO数据集+GWAS,工作量十分到位

今天给大家分享一篇JCR一区&#xff0c;单细胞bulkMR的文章&#xff1a;An integrative analysis of single-cell and bulk transcriptome and bidirectional mendelian randomization analysis identified C1Q as a novel stimulated risk gene for Atherosclerosis 标题&…

基于ZooKeeper的Kafka分布式集群搭建与集群启动停止Shell脚本

下载Kafka压缩包 下方是Kafka官网下载地址&#xff0c;本文使用Kafka 3.0.0在虚拟机环境中搭建分布式集群。 Apache Kafka Downloads link 虽然在Kafka 2.8.0之后可以使用KRaft模式搭建高可用的集群以提高数据处理效率&#xff0c;但是目前还有许多企业依然使用ZooKeeper搭建K…

C++中的List容器用法详解

文章目录 C中的List容器用法详解List 的特点List 的重要接口用法介绍1.创建和初始化Listlist 2.插入元素push_backpush_forntinsert 删除元素pop_backpop_fontclearerase 遍历List迭代器遍历范围for遍历 排序Listsort 反转Listreverse 转移Listsplice 去重unique 合并merge 总结…