【机器学习之---统计】统计学基础概念

news2025/1/11 12:53:31

every blog every motto: You can do more than you think.
https://blog.csdn.net/weixin_39190382?type=blog

0. 前言

统计学基础

1. 频率派

频率学派(传统学派)认为样本信息来自总体,通过对样本信息的研究可以合理地推断和估计总体信息,并且随着样本的增加,推断结果会更加准确。代表性人物是费希尔(R. A. Fisher, 1890-1962)。

Image

频率学派的核心思想是基于大样本理论,将概率看作频率的极限,以样本观测值的频率为基础进行推断。频率学派注重数据的重复抽样和统计量的性质,比如点估计、置信区间和假设检验等。它强调的是通过样本信息来推断总体参数,并将此过程视为客观的、可重复的。

2. 贝叶斯学派

贝叶斯学派源于英国学者贝叶斯(T. Bayes, 1702-1761)在1763年发表的著名论文《论有关机遇问题的求解》。贝叶斯学派认为任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数,而不是频率派认为的固定值。

image-20240312102456751

贝叶斯学派的核心思想是先验信息与后验信息相结合,通过贝叶斯公式将先验信息与样本数据进行结合,得到后验分布,并以此作为对未知参数的推断。贝叶斯学派强调主观先验信息的引入,因此不同人可能会有不同的先验分布,从而导致不同的推断结果。贝叶斯学派注重个体的主观判断和背景信息,更加灵活和主观。

image-20240312101440834

先验分布: 贝叶斯学派使用先验分布来描述对未知参数的主观先验知识。先验分布可以是任意形式的分布函数,它反映了我们在进行观测之前对参数的先验认识。例如,在研究某产品的平均寿命时,我们可以使用指数分布作为平均寿命的先验分布。

img

后验分布: 贝叶斯学派使用后验分布来描述在观测数据之后对未知参数的更新认识。后验分布是通过将先验分布与观测数据相结合,应用贝叶斯公式计算得到的。例如,在进行文本分类时,我们可以使用贝叶斯定理计算每个类别的后验概率,从而将文本归入最可能的类别中。

img

3. 案例

3.1 频率派

比如我们想了解一个公交站在下一个单位时间内候车的人数情况。

常识告诉我们候车的人数分布应该是符合泊松分布的:

image-20240312105531055

也就是说单位时间内有k个人候车的概率,我们可以通过带入这个公式直接计算出来。

但是,我们面对的问题就是我们虽然知道这个分布公式,但其中有个未知参数λc。

所以,我们需要做的就是在已知分布的情况下如何去估计分布中未知的参数λc。

参数估计的经典方法认为未知参数λc是一个固定的常数,只不过是我们并没有确切的知道这个值。但是我们可以通过抽样得到的数据信息对这个值进行估计。

为此费希尔把高斯的极大似然估计方法做了重新论述,使之用来对参数进行估计。

简要说一下这个方法的大概思路。

我们从车站观察了5次,x1、x2、x3、x4、x5,我们认为在仅有的实验条件下出现的结果应该就是最大概率出现的结果。

所以我们写出似然函数:

image-20240312105625984

然后求使得这个式子达到最大值的λc的值。

由于对数的单调性,通常会取对数再求极值。

具体计算省略掉,得到的值为:

image-20240312105659884

这便是费希尔的经典方法

3.2 贝叶斯派

贝叶斯学派的最基本观点就是:任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数,而不是频率派认为的固定值。

在进行参数估计之前,通过先验信息,我们常常可以得到一个关于未知参数的概率分布,即先验分布,或主观分布。

这在频率派看来是根本不允许的,说好的未知参数是一个固定值,只能通过大量的重复的实验频率来确定,怎么到这里成了一个不确定的值了呢?

一句话而言,频率派认为未知参数是客观的,贝叶斯派认为未知参数可以先从主观角度来考虑。

贝叶斯认为,λc 不应该是一个固定值,而应该是一个随机变量。

我们平时根据经验,可以对做出一个分布的估计。

在这个例子中,我们根据平时候车的经验,感觉λc的值有75%的可能是10,有25%的可能是8,基本上没有其他的可能性了。

用贝叶斯方法的描述就是,关于λc的先验分布为:

image-20240312105939223

如果我们现在去公交车站,观察了一次,X=7,也就是说我们获得了最新的数据信息。

最新的数据信息有助于我们更新对λc的认识,即更新关于λc的先验分布。

应用贝叶斯定理,得到:

image-20240312110105947

image-20240312110124212

image-20240312110134717

同理得,

image-20240312110204470

所以,通过我们获得的信息,我们更新了我们对于先验分布的认识,从而得到了后验分布。

从认知的角度而言,贝叶斯方法是一个动态的过程。

随着我们经验的积累、获取数据的积累,对未知参数的估计不断进行着调整。

所以,贝叶斯方法很快在自然语言处理方面展现出了较好的特性。

4. 小结

频率学派和贝叶斯学派在理论和实践中各有侧重,互为补充。

频率学派的优点是注重大样本下的一致性和渐进性质,在样本足够大的情况下可以得到较为准确的推断结果。它的方法论在经典统计推断中应用广泛,特别适用于重复试验或大规模数据的分析。

贝叶斯学派的优点是能够充分利用先验信息,并将其与样本数据结合,从而得到更准确的推断结果。它的方法论适用于小样本或无法进行重复试验的情境,以及需要考虑个体差异和主观判断的问题。

img

参考

  1. https://mp.weixin.qq.com/s?__biz=MjM5MDE3OTk2Ng==&mid=2657441571&idx=1&sn=8448415b9c3fa355e76918f88dcb9f7b&chksm=bdd940328aaec9249e769779007899e55bd7d2fb7fa4cb2c785896cabb61fd9d36a93a93c6be&scene=27
  2. https://blog.csdn.net/fmqdzh/article/details/120003189
  3. https://blog.csdn.net/zy_zhengyang/article/details/115529564
  4. https://baijiahao.baidu.com/s?id=1779292867410400878&wfr=spider&for=pc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1540378.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

怎么拆解台式电脑风扇CPU风扇的拆卸步骤-怎么挑

今天我就跟大家分享一下如何选购电脑风扇的知识。 我也会解释一下机箱散热风扇一般用多少转。 如果它恰好解决了您现在面临的问题,请不要忘记关注本站并立即开始! 文章目录列表:大家一般机箱散热风扇都用多少转? 机箱散热风扇选择…

PieCloudDB Database 3.0 正式发布丨数仓虚拟化流转数据要素

3月14日,拓数派 2024 年度战略暨新产品发布会在上海国际会议中心成功举行。本次大会的主题为「数仓虚拟化 流转数据要素」,吸引了众多业内资深专家和合作伙伴参与,共同探讨数据要素流转和数字技术创新等热门话题。 拓数派创始人兼 CEO 冯雷&…

40 openlayers setCenter 之后 绘制了Overlay 地图定位异常

前言 这是之前在 生产环境碰到的一个问题 这个其实就是 业务上一个地图点击点位展示详情, 然后再点击另外一个点位 展示详情, 切换中心店的这个过程 其主要的问题是 使用 openlayers 的 Map.View.setCenter() 了之后, 整个地图的中心点切换到了一个莫名其妙的地方 然后 经…

Occupancy 训练策略

损失函数 Dice Loss Dice Loss 是一种用于图像分割的损失函数,其灵感来自于Dice 系数,是一种衡量两个样本相似度的方法。Dice 系数定义为: Dice 系数 2 * TP / (2 * TP FP FN) 其中: TP:预测为正且真实值为正的像…

深入理解MySQL中的JOIN算法

码到三十五 : 个人主页 心中有诗画,指尖舞代码,目光览世界,步履越千山,人间尽值得 ! 目录 一、引言二、嵌套循环连接(Nested-Loop Join)2.1 工作原理2.2 性能考虑2.3 优化策略 三、块嵌套循环…

云原生(五)、Docker-Swarm集群

基础环境说明 1、环境准备 1、启动4台服务器(在同一个网段内)。 2、重命名4台服务器,方便区分。 hostnamectl set-hostname swarm1 reboot安装docker。参考文章:云原生(二)、Docker基础 2、DockerSwarm…

STM32---DHT11温湿度传感器与BH1750FVI光照传感器(HAL库、含源码)

写在前面:本节我们学习使用两个常见的传感器模块,分别为DHT11温湿度传感器以及BH1750FVI光照传感器,这两种传感器在对于环境监测中具有十分重要的作用,因为其使用简单方便,所以经常被用于STM32的项目之中。今天将使用分享给大家&a…

C# WPF编程-事件

C# WPF编程-路由事件 路由事件概要路由事件的三种方式 WPF事件WPF最重要的5类事件:生命周期事件 鼠标事件键盘事件多点触控输入原始触控 路由事件概要 路由事件是具有更强传播能力的事件,它们可在元素树中向上冒泡和向下隧道传播,并沿着传播…

【测试开发学习历程】认识Python + 安装Python

1 认识 Python 人生苦短,我用 Python —— Life is short, I use Python 1.1 Python 的起源 Python 的创始人为吉多范罗苏姆(Guido van Rossum),江湖人称“龟叔” 1989 年的圣诞节期间,吉多范罗苏姆为了在荷兰首都阿姆…

查看文件内容的指令:cat,tac,nl,more,less,head,tail,写入文件:echo

目录 cat 介绍 输入重定向 选项 -b -n -s tac 介绍 输入重定向 nl 介绍 示例 more 介绍 选项 less 介绍 搜索文本 选项 head 介绍 示例 选项 -n tail 介绍 示例 选项 echo 介绍 输出重定向 追加重定向 cat 介绍 将标准输入(键盘输入)的内容打…

鸿蒙Harmony应用开发—ArkTS-LazyForEach:数据懒加载

LazyForEach从提供的数据源中按需迭代数据,并在每次迭代过程中创建相应的组件。当在滚动容器中使用了LazyForEach,框架会根据滚动容器可视区域按需创建组件,当组件滑出可视区域外时,框架会进行组件销毁回收以降低内存占用。 接口…

Day45:WEB攻防-PHP应用SQL二次注入堆叠执行DNS带外功能点黑白盒条件

目录 PHP-MYSQL-二次注入-DEMO&74CMS DEMO-用户注册登录修改密码 CMS-74CMS个人中心简历功能 PHP-MYSQL-堆叠注入-DEMO&CTF强网 Demo 2019强网杯-随便注(CTF题型) PHP-MYSQL-带外注入-DEMO&DNSLOG(让服务器主动把数据交出去) 知识点&…

Docker入门到实践之环境配置

Docker入门到实践之环境配置 docker 环境安装 Ubuntu/Debian: sudo apt update sudo apt install docker.ioCentOS/RHEL: sudo yum install dockerArch Linux: sudo pacman -S docker如果未安装成功,或者env的path未设置成功,运行时会报错 Bash: Do…

国自然提交状态,NSFC已审核 ≠ 申请书被受理!!!

本 期 推 荐 【SciencePub学术】2024年度国家自然科学基金集中受理期项目申请受理工作已基本结束。到底什么状态才算申请书被NSFC接收成功呢? 01 申请书状态 申请人登录ISIS系统,至此,绝大部分申请人的系统状态为下面三种: …

Stable Diffusion实现光影字效果

昨天下午有人在群里发光影图片,大家都觉得很酷,我没怎么在意。直到早上我在小红书看到有人发同款图片,只是一晚上的时间点赞就超过了8000,而且评论数也很高,也可以做文字定制变现。研究了一下发现这个效果不难实现&…

训练不了AI,怎么办?

即使直接训练人工智能(AI)模型对许多人来说可能是一个技术上和资源上的挑战,仍然有多种方式可以参与、利用和推动AI技术的发展,而不必直接参与到模型的训练过程中。以下是一些可以考虑的途径: 1. 使用现有的AI服务和工…

【计算机网络篇】数据链路层(3)差错检测

文章目录 🥚误码🍔两种常见的检错技术⭐奇偶校验⭐循环冗余校验🎈例子 🥚误码 误码首先介绍误码的相关概念 🍔两种常见的检错技术 ⭐奇偶校验 奇校验是在待发送的数据后面添加1个校验位,使得添加该校验…

springcloud+nacos服务注册与发现

快速开始 | Spring Cloud Alibaba 参考官方快速开始教程写的,主要注意引用的包是否正确。 这里是用的2022.0.0.0-RC2版本的springCloud,所以需要安装jdk21,参考上一个文章自行安装。 nacos-config实现配置中心功能-CSDN博客 将nacos-conf…

[C语言]结构体、位段、枚举常量、联合体

目录 结构体 结构体的使用方法 结构体所占用的大小 位段 位段的使用方法 位段所占用的大小 枚举常量 枚举常量的使用方法 枚举常量的优势 联合体 联合体的使用方法 结构体 结构体的使用方法 结构体是一些值的集合,我们可以定义一个结构体,里…

Pink老师Echarts教学笔记

可视化面板介绍 ​ 应对现在数据可视化的趋势,越来越多企业需要在很多场景(营销数据,生产数据,用户数据)下使用,可视化图表来展示体现数据,让数据更加直观,数据特点更加突出。 01-使用技术 完成该项目需…