线性回归学习总结

news2025/1/11 2:59:12

一 、引文

1 回归分析

回归是统计学上用来分析数据的方法,以了解两个或多个变量之前的关系。通常是建立被解释变量Y和解释变量X之间关系的模型。

回归分析的最早形式是最小二乘法。

勒让德和高斯都将该方法应用于从天文观测中确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展[3],包括高斯-马尔可夫定理的一个版本。

但是, 回归(regression)一词由法兰西斯·高尔顿(Francis Galton)所使用。

他在统计学方面也有贡献,高尔顿在1877年发表关于种子的研究结果,指出回归到平均值(regression toward the mean)现象的存在,这个概念与现代统计学中的“回归”并不相同,但是却是回归一词的起源。在此后的研究中,高尔顿第一次使用了相关系数(correlation coefficient)的概念。他使用字母“r”来表示相关系数,这个传统一直延续至今。

2 什么是线性(以下来自ChatGPT)

  • 在数学和统计学中,线性是一个重要的概念,指的是与直线(线性函数)具有相似性质的关系或性质。一个数学对象被称为线性,通常满足以下两个性质:
    1. 比例性质(Proportionality): 如果一个对象的变化与另一个对象的变化成正比,那么它们之间的关系就是线性的。换句话说,当一个对象发生变化时,另一个对象也以相同比例发生变化。
    2. 叠加性质(Superposition): 如果一个对象的总效应等于多个独立影响的叠加,那么这个对象的关系是线性的。换句话说,系统的响应是各个独立输入的总和。
      .
  • 在数学中,线性性质可以表示为以下形式:
    1. 线性函数(Linear Function): 一个函数如果满足以下形式,就被称为线性函数:
      f ( a x + b y ) = a f ( x ) + b f ( y ) f(ax+by)=af(x)+bf(y) f(ax+by)=af(x)+bf(y)
      其中, a a a b b b 是常数, f ( x ) f(x) f(x) f ( y ) f(y) f(y) 是函数。
    2. 线性方程(Linear Equation): 一个方程如果可以写成以下形式,就被称为线性方程:
      a x + b y = c ax+by=c ax+by=c
      其中, a a a b b b c c c 是常数, x x x y y y 是变量。

二、正文目录

1 线性回归

在这里插入图片描述

2 参数估计

2.1 最小二乘法

在这里插入图片描述

2.2 最大似然估计MLE

L ( w ) = log ⁡ p ( Y ∣ X , w ) = log ⁡ ∏ i = 1 N p ( y i ∣ x i , w ) = ∑ i = 1 N log ⁡ ( 1 2 π σ e − ( y i − w T x i ) 2 2 σ 2 ) argmax ⁡ L ( w ) w = argmin ⁡ w ∑ i = 1 N ( y i − w T x i ) 2 \begin{aligned} L(w)=\log p(Y \mid X, w) & =\log \prod_{i=1}^{N} p\left(y_{i} \mid x_{i}, w\right) \\ & =\sum_{i=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi \sigma}} e^{\left.-\frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right)}\right. \\ \underset{w}{\operatorname{argmax} L(w)} & =\underset{w}{\operatorname{argmin}} \sum_{i=1^{N}}\left(y_{i}-w^{T} x_{i}\right)^{2} \end{aligned} L(w)=logp(YX,w)wargmaxL(w)=logi=1Np(yixi,w)=i=1Nlog 2πσ 1e2σ2(yiwTxi)2)=wargmini=1N(yiwTxi)2

2.3 最大后验估计MAP

w ^ = argmax ⁡ w p ( w ∣ Y ) = argmax ⁡ w p ( Y ∣ w ) p ( w ) = argmax ⁡ w log ⁡ p ( Y ∣ w ) p ( w ) = argmax ⁡ w ( log ⁡ p ( Y ∣ w ) + log ⁡ p ( w ) ) = argmin ⁡ w [ ( y − w T x ) 2 + σ 2 σ 0 2 w T w ] \begin{aligned} \hat{w}=\underset{w}{\operatorname{argmax}} p(w \mid Y) & =\underset{w}{\operatorname{argmax}} p(Y \mid w) p(w) \\ & =\underset{w}{\operatorname{argmax}} \log p(Y \mid w) p(w) \\ & =\underset{w}{\operatorname{argmax}}(\log p(Y \mid w)+\log p(w)) \\ & =\underset{w}{\operatorname{argmin}}\left[\left(y-w^{T} x\right)^{2}+\frac{\sigma^{2}}{\sigma_{0}^{2}} w^{T} w\right] \end{aligned} w^=wargmaxp(wY)=wargmaxp(Yw)p(w)=wargmaxlogp(Yw)p(w)=wargmax(logp(Yw)+logp(w))=wargmin[(ywTx)2+σ02σ2wTw]

3 正则化

3.1 L1 正则化: Lasso 回归

3.2 L2 正则化: Ridge 回归

在这里插入图片描述

偷个懒,不重复造轮子了。主要是为了自己学习和回顾。以上相关推导公式来自视频和链接,在此感谢up主和博主的分享
Bilibili-机器学习白板系列之线性回归
机器学习-白板推导系列(三)-线性回归(Linear Regression)

三 学习总结

1 清晰几个概念:

1.1 xx分不清

此外在回归分析中,会有残差和均方误差两个词。其中残差是预测值和观测值(真实标签)之差。

  • SSE 表示的是残差平方和(Sum of Squares for Error),也称为误差平方和。
  • MSE 表示均方误差(Mean Squared Error) 均方误差是残差平方和除以样本数量的结果,表示了每个样本的预测误差的平方的平均值
  • 数学上的 误差(相对误差和绝对误差) 是实际测量值和真实值(理论值)之前的差别。
  • 统计学上,方差 是衡量数据的离散程度的,而偏差描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。

1.2 权衡偏差和方差以最小化均方误差

偏差和方差度量着估计量的两个不同误差来源。偏差度量着偏离真实函数或参数的误差期望,而方差度量着数据上任意特定采样可能导致的估计期望的偏差 —花书《深度学习》

2 MAP 和 L2范数 正则的关系

  • 在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差
  • 加上L2正则项后,最小二乘误差加上 L2 正则项 等价于 权重先验分布为高斯分布的MAP解
  • 加上 L1 正则项后,等价于 权重Laplace 先验分布。

注意这里有两个分布:

  • 一个是噪声(残差) 为高斯分布,有MLE等价于最小二乘误差。
  • 另一个是 权重(参数) 的先验分布为高斯分布,有MAP等价于 最小二乘误差 加上 L2 正则化。

所谓的先验是针对后验 p ( w ∣ Y ) p(w | Y) p(wY)来说的。这里先假设权重(参数)的先验分布为高斯分布,至于为什么这样做,这里涉及到频率派和贝叶斯派的估计方法。------先不说了😂

其实,这里给最小二乘误差(均方误差)人为加上一个正则项,也是加上了一个先验的知识,倾向于L2范数较小的权重是。而这个先验知识,和假设权重先验分布为高斯分布的最大后验估计是等价的。— —那为什么呢?先留着🤣

3 线性回归的假设条件

前提条件包括:

  • 误差项服从正态分布
  • 误差的方差在各个自变量值上是恒定的(即同方差性,homoscedasticity)
  • 自变量和误差项之间没有相关性
  • 。。。。。。

其中 异方差性 可参考:
残差分析
残差分析与残差图

残差中的非随机模式表明模型的确定部分(预测变量)没有捕获一些“泄露”到残差中的一些可解释/可预测信息

也许线性回归模型只能用来分析一下较为简单的数据,但是线性回归却为其他传统机器学习方法提供了很好的思考方向。

4 线性回归模型的不足:

  1. 线性模型往往不能很好地拟合数据,因此有三种⽅案克服这⼀劣势:
  • 对特征的维数进⾏变换,例如多项式回归模型就是在线性特征的基础上加⼊⾼次项。
  • 在线性⽅程后⾯加⼊⼀个⾮线性变换,即引⼊⼀个⾮线性的激活函数,典型的有线性分类模 型如感知机。
  • 对于⼀致的线性系数,我们进⾏多次变换,这样同⼀个特征不仅仅被单个系数影响,例如多 层感知机(深度前馈⽹络)。
  1. 线性回归在整个样本空间都是线性的,我修改这个限制,在不同区域引⼊不同的线性或⾮线性,例如线性样条回归和决策树模型。
  2. 线性回归中使⽤了所有的样本,但是对数据预先进⾏加⼯学习的效果可能更好(所谓的维数灾难, ⾼维度数据更难学习),例如 PCA 算法和流形学习

这里画个图,总结一下:
在这里插入图片描述

P: 刨根问底,刨个稀烂 🤣🤣🤣

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/867914.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot复习:(34)@EnableWebMvc注解为什么让@WebMvcAutoconfiguration失效?

它导入了DelegatingWebMvcConfiguration 它会把容器中的类型为WebMvcConfigurer的bean注入到类型为WebMvcConfigurerComposite的成员变量configurers中。 可以看到它继承了WebMvcConfigurerSupport类 而WebMvcConfigureAutoConfiguration类定义如下 可以看到一个Conditional…

LeetCode98. 验证二叉搜索树

98. 验证二叉搜索树 文章目录 [98. 验证二叉搜索树](https://leetcode.cn/problems/validate-binary-search-tree/)一、题目二、题解方法一:区间划分递归方法二:中序遍历递归迭代 一、题目 给你一个二叉树的根节点 root ,判断其是否是一个有…

冒泡排序(超详细!)(C语言)

大家好!欢迎来到Mr.kanglong的CSDN博文,今天来讨论一下冒泡排序,在百度百科中,关于为什么叫冒泡排序是这样解释的:因为越小的元素会经由交换慢慢“浮”到数列的顶端(升序或降序排列)&#xff0c…

移动云操作系统改造技术实践分享,跨操作系统云主机迁移优化(一)

近年来,Linux 操作系统在技术、社区和商业化方案均取得了快速发展,移动云先后发布了新一代天元操作系统和易行迁移工具,保障了移动云全场景业务高效迁移。在移动云 CentOS 迁移实践过程中,跨操作系统虚机迁移是改造中的一个重要环…

IP 协议的相关特性和数据链路层相关知识总结

目录 IP 协议的相关特性 一、IP协议的特性 二、 IP协议数据报格式 三、 IP协议的主要功能 1. 地址管理 动态分配 IP地址 NAT机制 NAT背景下的通信 IPV6 2. 路由控制​​​​​​​ 3.IP报文的分片与重组 数据链路层相关知识 1、以太网协议(Ethernet) 2.M…

“掌握类与对象,点亮编程之路“(下)

White graces:个人主页 🙉专栏推荐:《C语言入门知识》🙉 🙉 内容推荐:“掌握类与对象,点亮编程之路“(上)🙉 🐹今日诗词:春风得意马蹄疾,一日看尽长安花🐹 目录 &…

【十】PageHelper 插件源码分析

PageHelper 插件源码分析 简介: 在开发中经常使用到pagehelper分页插件,一直也只是使用没有深入去分析,今天花时间来研究一下pagehelper的实现原理的,阅读优秀的开源项目总是能有很多收获。 一、源码的获取 我们在git仓库中搜索可…

AI语音助理来了,我们还需要手机吗?

你是如何召唤苹果手机的语音助手Siri的? 已经12岁高龄的Siri,它主要提供了三个类型的“辅助功能”。 1、调动声音、闹钟、备忘录等系统基础应用的控制能力。比如:Hi Siri,明早两点我有个2亿美金的合同要签,记得提醒我。 2、调用第…

AT89C51单片机实现单片机串口互动(中断方式,单片机--单片机,应答)

说一下功能:客户机发送0x01到服务机 2服务单片机应答0xf2到客户机 3客户机接收到0xf2,发送信息153432这6个数字到服务机 4client发送完信息后发送0xaa结束通信 5server接收到0xaa后回复0xaa结束通信,从此老死不相往来 看代码: //发送端…

Arraylist集合

保存数据会经常使用到数组,但数组存在以下几个缺陷: 长度固定;保存的必须为同一类型的元素,(基本数据类型,或引用数据类型);使用数组进行增加元素的步骤比较麻烦; 这个时候就需要用一…

24届近3年南京信息工程大学自动化考研院校分析

今天给大家带来的是南京信息工程大学控制考研分析 满满干货~还不快快点赞收藏 一、南京信息工程大学 学校简介 南京信息工程大学位于南京江北新区,是一所以大气科学为特色的全国重点大学,由江苏省人民政府、中华人民共和国教育部、中国气…

【AI理论学习】手把手利用PyTorch实现扩散模型DDPM

手把手利用PyTorch实现扩散模型DDPM DDPM代码实现神经网络定义辅助函数位置嵌入ResNet block注意力模块分组归一化Conditional U-Net 定义前向扩散过程定义PyTorch数据集DataLoader采样训练模型采样后续阅读 参考链接 上一篇博文已经手把手推导了扩散模型DDPM,本文利…

1. 消息队列

消息队列 1.1. MQ 的相关概念 1.1.1. 什么是 MQ MQ(message queue),从字面意思上看,本质是个队列,FIFO 先入先出,只不过队列中存放的内容是message 而已,还是一种跨进程的通信机制,用于上下游传递消息。在…

性能测试—Jmeter工具

文章目录 性能测试1. 术语介绍2. 方法3. 应用场景4. 工具(Jmeter)4.1 介绍4.2 元件和组件4.2.2 元件4.2.1 组件 4.3 作用域4.4 参数化4.5 执行脚本 性能测试 1. 术语介绍 响应时间(Response time):对请求作出响应所需要的时间。 在互联网上对…

Tik Tok娱乐+电商MCN怎么做?

在美国外的热门市场中,TikTok 主要做的区域市场包括中东、拉美、欧洲和东亚,而这里面适合做电商的其实并不多。 欧洲、东亚都属于成熟市场,且 TikTok 本身在欧洲面临 DSA 法案更严格的审查,与在英国相同,欧洲各市场消…

【二分+贪心】CF1622 C

Problem - 1622C - Codeforces 题意: 思路: 首先,观察样例可知,肯定是把原本的最小值减到某个值,然后再复制几次 复制的时候肯定是从大到小复制 那把最小值减到哪个值是不确定的,考虑枚举这个值&#x…

并发编程--------JUC集合

并发集合 一、ConcurrentHashMap 1.1 存储结构 ConcurrentHashMap是线程安全的HashMap ConcurrentHashMap在JDK1.8中是以CASsynchronized实现的线程安全 CAS:在没有hash冲突时(Node要放在数组上时) synchronized:在出现hash…

STM32CubeMX之freeRTOS事件组

当有多个判断,才会执行的时候,就会有事件组 事件组就是24个标志位的组合,或操作或者与操作就可以操作其 例如发射导弹 需要很多人都同意才能发送 V1版本无法自动添加事件组 这里手动创建事件组 这里是基本的使用 置1操作 这里进行事件组的…

初创体验版彩虹知识付费商城源码 V3.4支持二级分类,多级分销,秒杀,砍价,团购,首页继续浏览

最新彩虹知识付费商城初创体验版,支持二级分类,多级分销,秒杀,砍价,团购,首页继续浏览,分站个人虚拟余额自定义,最新批量对接,批量下载图片,批量替换标题&…

工厂物流管理:提升生产效率的关键驱动力

工厂物流管理在现代制造业中扮演着至关重要的角色。它涉及到物料的采购、生产过程中的物料运输和仓储管理,以及最终产品的分发。 1. 定义和重要性: 工厂物流管理是指通过合理规划、组织和控制物流活动,确保物料和产品在生产过程中的高效流动。它的目标是…