数据求均值背后的原理 - 最小二乘法

news2024/9/21 20:53:47

1. 背景

        对采集数据求均值是一种常见简单有效的数据处理手段,比如用直尺去测量物体的长度一般情况会多次测量然后计算平均值然后将平均值作为物体的长度,又如我们需要测量某电源的电压也会采取类似的方法,可以说对数据求均值在我们工作生活中无处不在,但为什么求均值后的测量值会更加接近真实值呢?

2. y=c模型

        当你使用直尺去多次测量某物体的长度,然后多次测量后会去计算多次测量后平均值并这个最终的值作为物体的长度;从结果这来说这个这个均值会更加稳定更加接近真实长度,但我们要从原因上解释均值的合理性就需要从测量谈,首先对物体测量结果如下:

x_1,x_2,x_3,\cdot \cdot \cdot, x_i

        在现实生活中由于噪声的存在,无论我们使用多么紧密的测量设备都无法测量得到物体真实的长度,所以测量值与真实值存在以下关系(ei为测量误差):

x_1=x+e_1,x_2=x+e_2,x_3=x+e_3,\cdot \cdot \cdot ,x_i=x+e_i

        那么测量误差如下(为了防止误差正负低效,这里对其计算了绝对值):

e_1=|x_1-x|,e_2=|x_2-x|,···,,e_i=|x_i-x|,\cdot \cdot \cdot ,e_m=|x_m-x|

        在最小二乘的观点中,上述所有的误差加起来最小(误差和最小)时x取值就是最靠近真实值,误差和如下:

e=\sum_{n=1}^m |e_i|=\sum_{n=1}^m |x_i-x|

        由于绝对值函数不可导无法使用微积分工具来计算最值,这里将绝对值换算成平方运算来简化计算过程方便寻找到最优解:

e=\sum_{n=1}^m (x_i-x)^2

        对其误差和求导:

e'=\sum_{n=1}^m 2(x_i-x)

        这个导数为0的即为误差和最小值点:

e'=\sum_{n=1}^m 2x-2x_i=0\\ \ \\ \sum_{n=1}^m 2x =\sum_{n=1}^m 2x_i\\ \ \\ x=\frac{\sum_{n=1}^m x_i}{m}\\ \ \\

        最终让误差和最小的x就是测量均值,均值其实就是一种特殊的最小二乘估计值。

3. y=kx+b模型

        更加常见的一种情况是,测量值之间是一种线性关系,比如要测量电阻会通过测量多组电压和电流计算得到。

        对于某种测量的结果如下:

(x_1,y_1),(x_2,y_2),\cdot \cdot \cdot ,(x_i,y_i),\cdot \cdot \cdot,(x_m,y_m)

        测量误差如下:

e_1=kx_1+b-y1\\ e_2=kx_2+b-y_2\\ ···\\ e_i=kx_i+b-y_i\\ ···\\ e_m=kx_m+b-y_m

        误差和:

e=\sum_{n=1}^m (e_i)^2\\ e=\sum_{n=1}^m (kx_i+b-y_i)^2

        与上述不同这里e是关于k和b的二元函数,需求寻找一个k和b使得误差和e取值最小,这里分别对k和b求偏导来寻找最值:

\frac{\partial e}{\partial k} = 2\sum_{n=1}^m x_i(kx_i+b-y_i)=0 \\ \ \\ \frac{\partial e}{\partial b}=\sum_{n=1}^m (kx_i+b-y_i)=0

        上式就是关于a、b的一元二次方程组,继续化简为:

a \sum_{i=1}^{n} x_i + nb = \sum_{i=1}^{n} y_i \\ \ \\ a \sum_{i=1}^{n} x_i^2 + b \sum_{i=1}^{n} x_i = \sum_{i=1}^{n} x_i y_i

        在二维的几何意义上,这是两条直线方程,只要这两条直线不平行就存在交点方程组有解,在有解情况下,a与b的代数解如下:

a = \frac{n \sum_{i=1}^{n} x_i y_i - \left( \sum_{i=1}^{n} x_i \right) \left( \sum_{i=1}^{n} y_i \right)}{n \sum_{i=1}^{n} x_i^2 - \left( \sum_{i=1}^{n} x_i \right)^2}\\ \ \\ b = \frac{\sum_{i=1}^{n} y_i - a \sum_{i=1}^{n} x_i}{n}

        上述虽然是一个二元一次方程组,方程组解的结构相对简单,但表达式过于复杂,虽然计算繁杂但只有简单的四则运算(更一般情况会使用矩阵来表示该方程组的解)。

4. 为什么要使用误差平方和最小的模型

        上述使用最小二乘计算最佳估计值都基于一个假设前提假设:估计值距离所有测量值误差和最小时估计值最接近真实值,为什么要误差和越小就越接近真实值呢?这似乎是一个“显然”成立但又有些不能被理解得到条件。针对上述长度测量的例子中,我们假定真实长度为x,每次测量误差为ei,真实值与测量值存在以下关系:x_1=x+e_1,x_2=x+e_2,x_3=x+e_3,\cdot \cdot\cdot,x_i==x+e_i

        这里面的测量误差(e_1,e_2,e_3,\cdot\cdot\cdot,e_i)在数据量足够多相对独立条件下应该符合正态分布,而且这个正态分布的均值应该为零,这也是工程上所说的白噪声。基于误差的统计特性,长度的均值:

\hat{x}=\frac{(x_1+x2+···+x_i)}{i}\\ \hat{x}=\frac{(x+x+···+x)+(e_1+e_2+···+e_i)}{i}\\\ \hat{x}=\frac{x*i}{i}+\frac{e_1+e_2+···+e_i}{i}\\ \hat{x}=x+\frac{e_1+e_2+···+e_i}{i}

        最后随测量数据越来越多,上述测量误差的均值就约接近0,估计值就越接近真实值。

著名数学家高斯站在概率论角度给了一个合理严格的解释证明,对于测量误差(e_1,e_2,e_3,\cdot\cdot\cdot,e_i)其概率为(p_{e1},p_{e2},p_{e3},···,p_{ei}),其联合概率为:

L(x)=p_{e1}p_{e2}···p_{ei}\\ \ \\ L(x)=p_{x-x1}p_{x-x2}···p_{x-xi}

        上述问题成功转换成了概率中的参数估计:x取何值时L(x)概率最大,这其实是一个最大似然估计,对于这个估计在\frac{\partial L(x)}{\partial x}=0时联合L(x)概率最大,解这个微分方程最终得到误差的概率需要满足正态分布,即最小二乘适用的条件是误差满足正态分布。

5. 总结

        均值作为一种特殊形式的最小二乘估计,当我们观测中或者测量中的误差满足正态分布,求均值是一种最优估计,最小二乘还用于其它的一些最优参数估计,其核心思想仍然是在误差满足正态分布的情况下使得误差和最小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1977274.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【时时三省】unity test 测试框架 介绍(适用于C语言进行测试的)

1,关于 unity test 测试框架的介绍 unity test 是 ThrowTheSwitch.org 的一个主要工程。它是专注于为嵌入式工具链而生的C语言单元测试框架。它可以适用于大工程或者小工程都可以。它的核心文件是一个.c文件和两个头文件。 备注: 下载源码地址&#xff…

btslab靶场-通过xss获取他人cookie并利用

目录 安装 通过xss获取cookie cookie利用 安装 下载btslab靶场链接:https://pan.baidu.com/s/1I9ZgzlZEWdobINGQUhy7Jw?pwd8888 提取码:8888 用phpEnv或者phpStudy部署好靶场环境(这里就省略了) 通过xss获取cookie 先访问…

Apache和nginx!!!!

⼀、Apache 概念 1、概述 最早的 web 服务程序,基于 http 协议提供⽹⻚浏览服务。 2、特点 模块化设置、开放源代码、跨平台应⽤、⽀持多种 web 编程语 ⾔、运⾏稳定。 3、⼯作模式 (1)Prefork:使⽤进程处理请求&#xff0…

操作系统|day2.进程、线程、协程

文章目录 进程概念特点并行和并发进程之间的通信进程的状态进程的调度基本准则调度方式具体算法 特殊进程 线程概念线程状态转换线程状态线程调度线程同步多线程通信 线程池种类工作流程五种状态拒绝策略参数队列大小 协程概念优势 进程 概念 进程就是正在运行的程序,它会占用…

进阶SpringBoot之 yaml 语法

SpringBoot 使用一个全局的配置文件,名字固定 application.properties 语法结构:keyvalue application.yml 语法结构:key:(空格)value 配置文件的作用是可以修改 SpringBoot 自动配置的默认值 在 res…

【NOI-题解】1022. 百钱百鸡问题1024. 购买文具1249. 搬砖问题1250. 马克思手稿的问题1342. 怎样种树?

文章目录 一、前言二、问题问题:1022. 百钱百鸡问题问题:1024. 购买文具问题:1249. 搬砖问题问题:1250. 马克思手稿的问题问题:1342. 怎样种树? 三、感谢 一、前言 欢迎关注本专栏《C从零基础到信奥赛入门…

无心剑小诗《郑钦文,为您骄傲》

郑钦文,为您骄傲 在赛场上如猎豹出击 每一拍都交织着力量与智慧 郑钦文,您是无畏的勇士 曾经的挫折是砥砺的砂石 今日的辉煌,是拼搏的勋章 今晚,红土上您书写传奇 战胜强敌,您气势如虹 汗水与激情洒满整个赛场 梦想…

49 序列解包的多种形式和用法

序列解包(Sequence Unpacking)是 Python 中非常重要和常用的一个功能,可以使用非常简洁的形式完成复杂的功能,提高了代码的可读性,减少了程序员的代码输入量。 x, y, z 1, 2, 3 # 多个变量同时赋值 v_tuple (False…

openpnp - loc_*.png是没用的临时文件

文章目录 openpnp - loc_*.png是没用的临时文件概述笔记END openpnp - loc_*.png是没用的临时文件 概述 前一段时间将X轴的固定螺母动了,让X轴运动更顺滑些。 不得已,对openpnp设备重新进行了标定。 到底部相机高级矫正完成后,正常退出&…

Datawhale AI 夏令营——AI+逻辑推理——Task3

# Datawhale AI 夏令营 夏令营手册:从零入门 AI 逻辑推理 比赛:第二届世界科学智能大赛逻辑推理赛道:复杂推理能力评估 代码运行平台:魔搭社区 大模型微调 LoRA LoRA(Low-Rank Adaptation)微调是一种…

Linux查看进程和进程号的几种方式

根据进程名查看进程号 1、pidof命令: 2、pgrep命令: 3、ps命令 根据进程号查看进程名: ps命令:

【UE 网络】Gameplay框架在DS架构中的扮演的角色

目录 0 引言1 核心内容1.1 Gameplay各部分创建的流程1.2 Gameplay框架在DS和客户端的存在情况1.3 数据是独立存在于DS和客户端的 2 Gameplay框架各自负责的功能2.1 GameMode2.2 GameState2.3 PlayerController2.4 PlayerState2.5 Pawn2.6 AIController2.7 Actor2.8 HUD2.9 UI &…

JVM:内存结构,直接内存,对象创建,死亡判定

对于从事C、C程序开发的开发人员来说,在内存管理领域,他们既是拥有最高全力的“皇帝”,又是从事最基础工作的劳动人民——既拥有每一个对象的“所有权”,又担负着每一个对象声明从开始到终结的维护责任。对于Java程序员来说&#…

Golang | Leetcode Golang题解之第319题灯泡开关

题目: 题解: func bulbSwitch(n int) int {return int(math.Sqrt(float64(n) 0.5)) }

SSM校园管理系统-计算机毕设定制-附项目源码(可白嫖)48395

摘 要 如今计算机行业的发展极为快速,搭载于计算机软件运行的数据库管理系统在各行各业得到了广泛的运用,其在数据管理方面具有的准确性和高效性为大中小企业的日常运营提供了巨大的帮助。自从2020年新冠疫情爆发以来,防疫成了社会关注的重中…

elementUI 的el-date-picker日期,开始时间不能大于结束时间

需求描述&#xff1a;form表单里有开始日期和结束日期&#xff0c;要求开始日期不能大于结束日期&#xff0c;但是开始日期可以等于结束日期。 效果如下&#xff1a; 实现代码&#xff1a; <el-form ref"form" :model"form" :rules"rules" …

UNI-APP_点击,长按,触摸,结束触摸事件

touchstartEventHandle手指触摸动作开始字节跳动小程序不支持touchmoveEventHandle手指触摸后移动字节跳动小程序不支持touchendEventHandle手指触摸动作结束字节跳动小程序不支持touchcancelEventHandle手指触摸动作被打断&#xff0c;如来电提醒&#xff0c;弹窗字节跳动小程…

errno错误码列举

errno&#xff0c;int变量&#xff0c;表示系统最近一次错误码。 当系统调用和一些库函数发生错误时&#xff0c;会给errno赋值&#xff0c;以指示哪里出了问题。 目录 errno值列表 errno值获取示例 errno值列表 <errno.h>头文件定义了errno的一些值&#xff0c;部分…

Spring MVC框架面试题

目录 一、什么是SpringMVC&#xff1f;简单介绍下你对SpringMVC的理解&#xff1f; 二、SpringMVC的流程&#xff1f; 三、SpringMVC的优点 四、SpringMVC的主要组件 五、SpringMVC怎么样设重定向和转发的&#xff1f; 六、SpringMVC怎么和Ajax相互调用的&#xff1f; 七…

Python酷库之旅-第三方库Pandas(064)

目录 一、用法精讲 251、pandas.Series.tz_localize方法 251-1、语法 251-2、参数 251-3、功能 251-4、返回值 251-5、说明 251-6、用法 251-6-1、数据准备 251-6-2、代码示例 251-6-3、结果输出 252、pandas.Series.at_time方法 252-1、语法 252-2、参数 252-3…