概率和统计,最大似然估计(MLE),大后验概率估计(MAP)

news2024/12/24 6:46:44

目录

1、概率和统计是一个东西吗?

2、贝叶斯公式到底在说什么?

3、似然函数

4、最大似然估计(MLE)

5、最大后验概率估计(MAP)

MLE VS MAP

总结

贝叶斯公式分成两派:唯物主义的频率学派,和唯心主义的贝叶斯学派​编辑

 正则化==增加先验​编辑

L1:绝对值 确保方向的正确性​编辑

 弹性网络正则:

最小化损失函数--最大化样本的似然概率分布

L1--先验是拉普拉斯分布式的情况​编辑

 L2正则则是先验为高斯分布式的-高斯分布(正态分布) ​编辑

正则化(增加模型参数,不要拟合的太真)

数学上解释正则化的作用

为什么参数小模型会简单


1、概率和统计是一个东西吗?

概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。

一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

显然,本文解释的MLE和MAP都是统计领域的问题。它们都是用来推测参数的方法。为什么会存在着两种不同方法呢?这需要理解贝叶斯思想。我们来看看贝叶斯公式。

2、贝叶斯公式到底在说什么?

贝叶斯公式就是在描述,你有多大把握能相信一件证据?(how much you can trust the evidence)

从这个角度总结贝叶斯公式:做判断的时候,要考虑所有的因素。 老板骂你,不一定是你把什么工作搞砸了,可能只是他今天出门前和太太吵了一架。

从这个角度思考贝叶斯公式:一个本来就难以发生的事情,就算出现某个证据和他强烈相关,也要谨慎。证据很可能来自别的虽然不是很相关,但发生概率较高的事情 发现刚才写的代码编译报错,可是我今天状态特别好,这语言我也很熟悉,犯错的概率很低。因此觉得是编译器出错了。——别,还是先再检查下自己的代码吧。

3、似然函数

似然(likelihood)这个词其实和概率(probability)是差不多的意思,Colins字典这么解释:The likelihood of something happening is how likely it is to happen. 你把likelihood换成probability,这解释也读得通。但是在统计里面,似然函数和概率函数却是两个不同的概念(其实也很相近就是了)。

对于这个函数:

P(x|θ)

如果 θ 是已知确定的,x 是变量,这个函数叫做概率函数(probability function)它描述对于不同的样本点x,其出现概率是多少。

如果 x 是已知确定的,θ 是变量,这个函数叫做似然函数(likelihood function),它描述对于不同的模型参数,出现x这个样本点的概率是多少。

4、最大似然估计(MLE)

假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。这是一个统计问题,回想一下,解决统计问题需要什么?数据!

于是我们拿这枚硬币抛了10次,得到的数据是:反正正正正反正正正反。我们想求的正面概率 是模型参数,而抛硬币模型我们可以假设是二项分布。

那么,出现实验结果 (即反正正正正反正正正反)的似然函数是多少呢?

f(x,θ)=(1−θ)×θ...×θ×(1−θ)=θ7(1−θ)3

注意,这是个只关于 θ 的函数。而最大似然估计,顾名思义,就是要最大化这个函数。

对似然函数取对数,不会影响该函数的单调性,从而不会影响最后的计算的极值,也可以在一定程度上减少因计算而带来的误差,还可以极大的简化计算

如果未知参数有多个,则需要用取对数的似然函数对每个参数进行求偏导,使得所有偏导均为0的值,即为该函数的极值点,一般也是其最大似然估计值。

可以看出,在 θ = 0.7 时,似然函数取得最大值。

我们已经完成了对 θ 的最大似然估计。

即,抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。

似然:通过最大化参数给定情况下样本的概率分布来找到参数。根据已知概率求概率分布找到参数

5、最大后验概率估计(MAP)

最大后验(Maximum A Posteriori,MAP)估计可以利用经验数据获得对未观测量的点态估计。它与Fisher的最(极)大似然估计(Maximum Likelihood,ML)方法相近,不同的是它扩充了优化的目标函数,其中融合了预估计量的先验分布信息,所以最大后验估计可以看作是正则化(regularized)的最大似然估计。 最大后验概率就是把他们的假设都进行计算(验算),然后选择其中假设最好的一个,当作最大后验概率。由于 θ 的取值范围在0到1之间,有无数种假设,但我们不可能每种假设都进行计算,这个时候,就需要利用一些简单的数学方法,求出最大的那一个,即为最大后验概率。

最大似然估计是求参数 θ ,使似然函数 P(x|θ) 最大。最大后验概率估计则是想求 θ 使 P(x|θ)P(θ) 最大。求得的 θ 不单单让似然函数大, θ 自己出现的先验概率也得大。(这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法)

P(θ|x)=P(x|θ)P(θ)P(x)

P(x) 是一个已知值(实验观察到的数据)假设“投10次硬币”是一次实验,实验做了1000次,“反反正正正反正正正反”出现了n次,则 P(x) = n/1000。总之,这是一个可以由数据集得到的值。

P(θ|x) 即后验概率,这就是“最大后验概率估计”名字的由来。

计算过程示例:将 θ 的概率分布假设为均值为0.5,方差为1的正态分布

MLE VS MAP

最大似然函数(MLE)和最大后验概率估计(MAP)是两种完全不同的估计方法,最大似然函数属于频率派统计(认为存在唯一真值 θ)

最大后验估计属于贝叶斯统计(认为 θ 是一个随机变量,符合一定的概率分布),这是两种认识方法的差异。模型不变,概率是参数推数据,统计是数据推参数。

theta 为需要估计的参数,f 为概率,g 为先验估计,最大化后验估计通过 f·g 求得。当先验分布为常数时,最大后验估计与最大似然估计重合。

总结

最大似然估计与最大后验估计对比分析。

 

 

 

 

 

 

贝叶斯公式分成两派:唯物主义的频率学派,和唯心主义的贝叶斯学派

 正则化==增加先验

 

L1:绝对值 确保方向的正确性

 

 弹性网络正则:

最小化损失函数--最大化样本的似然概率分布

 

L1--先验是拉普拉斯分布式的情况

 L2正则则是先验为高斯分布式的-高斯分布(正态分布) 

正则化(增加模型参数,不要拟合的太真)

是一种常用的防止机器学习模型过拟合的技术。过拟合是指模型在训练数据上表现得太好,以至于它不能很好地推广到未见过的数据上。正则化通过引入一个惩罚项来限制模型的复杂度,使得模型在尽可能减小训练误差的同时,也要尽量保持模型的简单
常见的正则化方法有L1正则化和L2正则化:
1. L1正则化(Lasso回归):L1正则化将模型的参数权重的绝对值之和作为惩罚项。这意味着模型的某些参数可能会变为零,从而使得模型更稀疏,也就是说模型会依赖于更少的特征。这也使得L1正则化具有特征选择的功能。
2. L2正则化(岭回归):L2正则化将模型的参数权重的平方和作为惩罚项。这使得模型的参数会被适度地缩小,但是不太可能变为零。这种方法可以防止模型的参数值过大,导致模型过于敏感。
在损失函数中引入这些正则项,模型在训练时不仅要最小化原始的损失函数(如均方误差、交叉熵等),还要尽量使得模型的复杂度(即参数的大小)保持较小。这种权衡使得模型在减小训练误差的同时,也要考虑模型的复杂度,从而防止过拟合。

正则化的选择和调整是一个重要的调参过程,选择合适的正则化方法和参数可以显著地提高模型的泛化性能。

数学上解释正则化的作用

假设我们有一个线性回归模型,其损失函数是均方误差(Mean Squared Error,MSE),表示为:
L(θ) = Σ(yi - θ*xi)^2
其中 θ 是模型的参数,xi 是输入,yi 是真实输出,Σ 是对所有训练样本的求和。
现在我们要在这个损失函数中引入一个正则化项。对于L2正则化(岭回归),我们添加的是参数的平方和;对于L1正则化(Lasso回归),我们添加的是参数的绝对值。我们将正则化参数表示为 λ,那么带有L2正则化的损失函数可以表示为:
L(θ) = Σ(yi - θxi)^2 + λΣθ^2
带有L1正则化的损失函数可以表示为:
L(θ) = Σ(yi - θxi)^2 + λΣ|θ|
现在我们的目标是最小化这个新的损失函数。这意味着我们不仅要使预测值与真实值之间的差异尽可能小,也要使模型的参数尽可能小。因为如果模型的参数较大,那么正则化项就会较大,损失函数就会较大。
这就是正则化如何在数学上鼓励模型保持较小的参数的原理。通过选择合适的正则化参数 λ,我们可以控制模型对拟合数据和保持参数小之间的取舍,从而防止过拟合。
需要注意的是,虽然正则化可以帮助防止过拟合,但如果正则化参数 λ 设置得过大,可能会导致模型过于简单,无法捕捉到数据的复杂性,这就是欠拟合。所以,选择合适的正则化参数是一个重要的任务,通常需要通过交叉验证或其他方式进行。

为什么参数小模型会简单


在机器学习中,模型的参数决定了模型的复杂性和拟合能力。参数的数量和大小都会影响模型的复杂性。
考虑一个线性模型的例子,该模型的形式为y = θ0 + θ1x1 + θ2x2 + ... + θn*xn。其中,θi是模型的参数,xi是输入特征。模型的输出y是输入特征和参数的线性组合。

如果参数θi的绝对值很大,那么对应的特征xi就会对模型的输出产生很大的影响。换句话说,模型对这个特征非常“敏感”。这可能会导致模型过于复杂,对训练数据中的噪声或异常值过度敏感,导致过拟合。
相反,如果参数θi的绝对值较小,那么对应的特征xi对模型的输出的影响就较小。这意味着模型对这个特征不那么敏感,模型的复杂性相对较低。
正则化就是通过添加一个与参数大小相关的惩罚项来鼓励模型保持较小的参数。这可以防止模型过于依赖某个或某些特征,使得模型对输入数据的各个方面都有适当的关注,从而提高模型的泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/910830.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

变频器和plc之间无线MODBUS通讯

在工业现场由PLC远程控制变频器的应用非常常见,如果挖沟布线不便或者变频器在移动设备上,那么采用无线通讯就是最佳方案。 这里我们选用最常用的三菱 FX2N PLC和三菱变频器为例,并结合日系plc专用无线通讯终端DTD435M来说明PLC与变频器之间的…

LeetCode 0849. 到最近的人的最大距离

【LetMeFly】849.到最近的人的最大距离 力扣题目链接:https://leetcode.cn/problems/maximize-distance-to-closest-person/ 给你一个数组 seats 表示一排座位,其中 seats[i] 1 代表有人坐在第 i 个座位上,seats[i] 0 代表座位 i 上是空的…

Consistency Models终结扩散模型

最近看到一篇论文,觉得特别有意思,并且在学术界引起了不小的动静,他就是一致性模型,据说图像生成效果快、质量高,并且还可以实现零样本图像编辑,即不进行一些视觉任务训练,可以实现图像超分、修…

MySQL的select ... where ...会加锁吗?

先说答案:不会。但select … where … lock in share mode会加锁。实验如下。 存储引擎innodb,MySQL版本5.7。 1:select … where … 如下图: 1:select … where … lock in share mode 如下图: 接着我…

sed替换命令

用sed编辑流时,最强大的命令莫过于它的替换命令。它有许多参数选项,可以完成诸多复杂的工作。 1. 替换命令的语法 sed [address-range|pattern-range] s/original-string /replacement-string/[substitute-flags] inputfile 注意,上面的换…

day-27 代码随想录算法训练营(19)回溯part03

39.组合总和 分析:同一个数可以选多次,但是不能有重复的答案; 思路:横向遍历,纵向递归(不同的是递归的时候不需要跳到下一个位置,因为同一个数可以选多次) class Solution { publ…

计算机视觉入门 3)最大池化

目录 一、最大池化最大池化进行压缩平移不变性 二、代码示例步骤2:图像读取转换步骤2:Filter & ReLU步骤3:Pool 一、最大池化 最大池化进行压缩 在Keras中,通过一个 MaxPool2D 层,将压缩步骤添加到之前的模型中&…

CentOS下载ISO镜像的方法

目录 一、CentOS 介绍 二、进入CentOS 官方网站 三、步骤 一、CentOS 介绍 CentOS,中文意思是社区企业操作系统是Linux发行版之一,是免费的、开源的、可以重新分发的开源操作系统。 CentOS Linux发行版是一个稳定的,可预测的&#xff0…

防静电实时监控系统的工作原理和主要功能

防静电监控系统是一种用于实时监测静电数值变化的集成系统。它的主要作用是检测和预防静电所可能引起的危险和损坏。以下是该系统的一般工作原理和主要功能: 1. 检测静电:防静电实时监控系统通过传感器和测量设备来监测周围环境中的静电水平。这些传感器…

TDA4超级玩家浮出水面,行泊一体功能、成本刷到极致

2023年以来,智能驾驶市场进入L2普及、高阶ADAS功能(NOA)大规模量产的新周期,降本增效,打造极致性价比、提升用户体验等,成为了竞争的焦点。 其中,替换更具性价比的硬件平台、传感器复用、系统优…

h264 SPS 帧分辨率解析标准

来源:微信公众号「编程学习基地」 文章目录 导致1088出现的原因h264 sps解析h264bitstream的简单使用导致1088出现的原因 大部分IPC推过来的数据流都是标准的1080P(1920x1080),720P(1280x720) 但是也有个例,部分设备存在16位/32位对齐的情况,出现非标1080P(1920x1088),72…

这些数学运算符号你都见过吗?

入门教程、案例源码、学习资料、读者群 请访问: python666.cn 大家好,欢迎来到 Crossin的编程教室 ! 数学运算是编程时少不了的操作。 其中加减乘除都比较简单,就和正常数学中的写法一样。要注意的就是在绝大多数编程语言中&#…

怎样做好数字营销呢?

2023 年,数字营销将随着新技术、趋势和消费者行为的不断发展而不断发展。要在 2023 年在数字营销领域取得成功,请考虑以下策略: 1.内容质量和个性化: 专注于制作与目标受众产生共鸣的高质量且相关的内容。 根据用户偏好、行为和…

elemenPlus ElMessage 字符串如何换行问题

因为后端返回的数据是一长串,而且带有\r,\n等换行符,但是并没有生效。前端写法: // 抛出错误ElMessage.error(msg);我们知道\r,\n,\r\n 是在不同系统下的换行符的表示,但在JavaScript返回字符串中并没有生效…

为何有很多人选择使用ChatGPT的替代品?

尽管ChatGPT备受赞誉且确实是出色的工具,但它也有一些限制。 现在有一些工具比ChatGPT更为经济,并且拥有大量现成的功能,而在ChatGPT中,这需要收集整理编写大量的提示。[1] ChatGPT没有提供对GPT-4模型的无限访问,也没…

GIS应用技巧之空间插值分析

一、空间插值概论 空间插值常用于将离散点的测量数据转换为连续的数据曲面,以便探究空 间现象的分布模式,该方法通常用来分析地区环境污染、地区降水量、地区气候 变化、资源利用程度、公共基础设施影响效应等。空间插值方法分为两类:一类 是…

c语言——判断一个字符有多少位数

//判断一个字符有多少位数 #include<stdio.h> #include<stdlib.h> int main() {long long n;int count0;printf("输入整数&#xff1a;");scanf("%lld",&n);while(n!0){n/10;count;} printf("数字是%d位数\n",count);system(&qu…

探索组间差异利器:Tukey 检验 【Tukey Test】

前言 统计学中有许多方法可用于比较不同组别之间的差异&#xff0c;而其中一种常见且强大的工具就是Tukey检验。当我们进行多组实验或研究时&#xff0c;常常需要了解哪些组别之间存在显著差异&#xff0c;而不仅仅是确定是否存在差异。在这个问题上&#xff0c;Tukey检验可以为…

ArcGIS Pro怎么解决道路压盖问题

在默认情况下&#xff0c;道路可能会存在低等级道路将高等级道路压盖、在道路连接处不连通的情况&#xff0c;这些问题都可以在ArcGIS Pro内解决&#xff0c;这里为大家介绍一下处理方法&#xff0c;希望能对你有所帮助。 道路分级 在符号系统内&#xff0c;选择唯一值&#x…

查看镁光DDR芯片型号的办法

查看镁光DDR芯片型号的办法 百度镁光官网 搜索decoder 输入需要查询的FBGA信息 镁光芯片丝印有两行&#xff0c;第一行为产地&#xff0c;不用管&#xff0c;第二行就是FBGA