【机器学习之---数学】统计学基础概念

news2024/11/18 9:28:56

every blog every motto: You can do more than you think.
https://blog.csdn.net/weixin_39190382?type=blog

0. 前言

统计学基础

1. 频率派

频率学派(传统学派)认为样本信息来自总体,通过对样本信息的研究可以合理地推断和估计总体信息,并且随着样本的增加,推断结果会更加准确。代表性人物是费希尔(R. A. Fisher, 1890-1962)。

f11f3a292df5e0fed562e79f5b56dea45fdf72fc

频率学派的核心思想是基于大样本理论,将概率看作频率的极限,以样本观测值的频率为基础进行推断。频率学派注重数据的重复抽样和统计量的性质,比如点估计、置信区间和假设检验等。它强调的是通过样本信息来推断总体参数,并将此过程视为客观的、可重复的。

2. 贝叶斯学派

贝叶斯学派源于英国学者贝叶斯(T. Bayes, 1702-1761)在1763年发表的著名论文《论有关机遇问题的求解》。贝叶斯学派认为任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数,而不是频率派认为的固定值。

image-20240312102456751

贝叶斯学派的核心思想是先验信息与后验信息相结合,通过贝叶斯公式将先验信息与样本数据进行结合,得到后验分布,并以此作为对未知参数的推断。贝叶斯学派强调主观先验信息的引入,因此不同人可能会有不同的先验分布,从而导致不同的推断结果。贝叶斯学派注重个体的主观判断和背景信息,更加灵活和主观。

image-20240312101440834

先验分布: 贝叶斯学派使用先验分布来描述对未知参数的主观先验知识。先验分布可以是任意形式的分布函数,它反映了我们在进行观测之前对参数的先验认识。例如,在研究某产品的平均寿命时,我们可以使用指数分布作为平均寿命的先验分布。

img

后验分布: 贝叶斯学派使用后验分布来描述在观测数据之后对未知参数的更新认识。后验分布是通过将先验分布与观测数据相结合,应用贝叶斯公式计算得到的。例如,在进行文本分类时,我们可以使用贝叶斯定理计算每个类别的后验概率,从而将文本归入最可能的类别中。

img

3. 案例

3.1 频率派

比如我们想了解一个公交站在下一个单位时间内候车的人数情况。

常识告诉我们候车的人数分布应该是符合泊松分布的:

image-20240312105531055

也就是说单位时间内有k个人候车的概率,我们可以通过带入这个公式直接计算出来。

但是,我们面对的问题就是我们虽然知道这个分布公式,但其中有个未知参数λc。

所以,我们需要做的就是在已知分布的情况下如何去估计分布中未知的参数λc。

参数估计的经典方法认为未知参数λc是一个固定的常数,只不过是我们并没有确切的知道这个值。但是我们可以通过抽样得到的数据信息对这个值进行估计。

为此费希尔把高斯的极大似然估计方法做了重新论述,使之用来对参数进行估计。

简要说一下这个方法的大概思路。

我们从车站观察了5次,x1、x2、x3、x4、x5,我们认为在仅有的实验条件下出现的结果应该就是最大概率出现的结果。

所以我们写出似然函数:

image-20240312105625984

然后求使得这个式子达到最大值的λc的值。

由于对数的单调性,通常会取对数再求极值。

具体计算省略掉,得到的值为:

image-20240312105659884

这便是费希尔的经典方法

3.2 贝叶斯派

贝叶斯学派的最基本观点就是:任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数,而不是频率派认为的固定值。

在进行参数估计之前,通过先验信息,我们常常可以得到一个关于未知参数的概率分布,即先验分布,或主观分布。

这在频率派看来是根本不允许的,说好的未知参数是一个固定值,只能通过大量的重复的实验频率来确定,怎么到这里成了一个不确定的值了呢?

一句话而言,频率派认为未知参数是客观的,贝叶斯派认为未知参数可以先从主观角度来考虑。

贝叶斯认为,λc 不应该是一个固定值,而应该是一个随机变量。

我们平时根据经验,可以对做出一个分布的估计。

在这个例子中,我们根据平时候车的经验,感觉λc的值有75%的可能是10,有25%的可能是8,基本上没有其他的可能性了。

用贝叶斯方法的描述就是,关于λc的先验分布为:

image-20240312105939223

如果我们现在去公交车站,观察了一次,X=7,也就是说我们获得了最新的数据信息。

最新的数据信息有助于我们更新对λc的认识,即更新关于λc的先验分布。

应用贝叶斯定理,得到:

image-20240312110105947

image-20240312110124212

image-20240312110134717

同理得,

image-20240312110204470

所以,通过我们获得的信息,我们更新了我们对于先验分布的认识,从而得到了后验分布。

从认知的角度而言,贝叶斯方法是一个动态的过程。

随着我们经验的积累、获取数据的积累,对未知参数的估计不断进行着调整。

所以,贝叶斯方法很快在自然语言处理方面展现出了较好的特性。

4. 小结

频率学派和贝叶斯学派在理论和实践中各有侧重,互为补充。

频率学派的优点是注重大样本下的一致性和渐进性质,在样本足够大的情况下可以得到较为准确的推断结果。它的方法论在经典统计推断中应用广泛,特别适用于重复试验或大规模数据的分析。

贝叶斯学派的优点是能够充分利用先验信息,并将其与样本数据结合,从而得到更准确的推断结果。它的方法论适用于小样本或无法进行重复试验的情境,以及需要考虑个体差异和主观判断的问题。

img

参考

  1. https://mp.weixin.qq.com/s?__biz=MjM5MDE3OTk2Ng==&mid=2657441571&idx=1&sn=8448415b9c3fa355e76918f88dcb9f7b&chksm=bdd940328aaec9249e769779007899e55bd7d2fb7fa4cb2c785896cabb61fd9d36a93a93c6be&scene=27
  2. https://blog.csdn.net/fmqdzh/article/details/120003189
  3. https://blog.csdn.net/zy_zhengyang/article/details/115529564
  4. https://baijiahao.baidu.com/s?id=1779292867410400878&wfr=spider&for=pc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1548161.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

探究 HTTPS 的工作过程

目录 1. HTTPS 协议原理 1.1. 为什么要有HTTPS协议 1.2. 如何理解安全 1.3. HTTPS 协议是什么 2. HTTPS 的前置概念 2.1. 什么是加密 && 解密 2.2. 为什么要加密 2.3. 常见的加密方式 2.3.1. 对称加密 2.3.2. 非对称加密 2.4. 数据摘要 && 数据指纹…

Linux系统------------MySQL备份与恢复

目录 一、数据备份的重要性 二、数据库备份的分类 2.1从物理与逻辑的角度,备份可分为物理备份与逻辑备份 2.2从数据库的备份策略角度:备份可分为完全备份、差异备份、 增量备份 2.2.1完全备份 2.2.2差异备份 2.2.3增量备份 2.2.4备份方式比较 三…

白酒:生产过程的能耗分析与节能减排措施

在当今的绿色环保时代,节能减排已经成为各行各业关注的焦点。作为传统的白酒生产企业,云仓酒庄深知环境保护的重要性,并积极采取措施降低生产过程中的能耗,为可持续发展贡献力量。 在豪迈白酒的生产过程中,能耗主要来自…

【剑指offr--C/C++】JZ23 链表中环的入口结点 与哈希表

一、哈希表(unordered_set)知识点 unordered_set是一种无序的数据集合容器,元素和键同时存在,元素没有按任何特定的顺序排序,而是根据它们的散列(hash)值组织成桶,以允许直接通过值…

不花一分钱,10分钟搭建自己的网站

不花一分钱,10分钟搭建自己的网站 文章目录 不花一分钱,10分钟搭建自己的网站效果展示第1步 账号注册与登录第2步 新建仓库第3步 新建文件夹及文件第4步 网站发布部署大功告成 效果展示 课程效果展示 进阶效果展示 第1步 账号注册与登录 点击这里 https://gitee.com/&…

韶音、南卡、Oladance开放式耳机值得买吗?多维度测评实力最强品牌

​近期,不少朋友向我咨询关于开放式耳机的选购建议,他们反映市面上的开放式耳机在音质和佩戴舒适度方面表现参差不齐。面对众多品牌,消费者往往感到无从选择。针对这一问题,我将对市面上热门的韶音、南卡和Oladance三款开放式耳机…

linux将未分配空间分配到指定挂载点

lsblk命令查看硬盘,空间有200G,子分区加起来才100个G,有100个G未使用 lsblk给硬盘分配盘符 fidisk /dev/vda n 回车 回车 w将所有未分配的空间分区,这里有100个GB 查看分配的分区 /dev/vda4 fidisk -lpvcreate /dev/vda4查看…

武汉星起航:亚马逊跨境电商市场蓬勃发展,竞争日趋激烈

近年来,跨境电商行业如日中天,成为国际贸易的新宠。作为全球电商的领头羊,亚马逊凭借其卓越的物流、支付和售后服务体系,稳坐跨境电商领域的头把交椅。然而,在激烈的市场竞争与不断变化的消费者需求面前,亚…

Deepin中定义 ll 文件查看命令

Deepin中定义 ll 文件查看命令 一、概述1. 在终端中使用2. 配置本用户使用 一、概述 在Ubuntu中习惯使用 ll 命令作为查看文件系统数据,在Deepin中无法使用此命令。我们可以用ls命令去组装一个ll命令。 1. 在终端中使用 我们如果只使用一次,我们可以用…

Halcon与C#联合开发——1.读取图片、图像二值化

在vs中引入halcon控件 修改目标平台为 x64 拖出三个控件 代码展示 using System; using System.Windows.Forms; //引用支持halcon的命名空间 using HalconDotNet;namespace _1.HalconDisplay {public partial class Form1 : Form {// HObject 是Halcon库中表示图像和其他图形…

Mac系统微信小程序的保存位置和缓存清除

Mac系统微信小程序的保存位置和缓存清除 1.小程序的保存位置2.小程序的缓存清除 1.小程序的保存位置 /Users/<UserName>/Library/Containers/com.tencent.xinWeChat/Data/.wxapplet/packages进入该目录后可以看到有很多以AppID命名的文件夹 最后再使用手机查看该小程序的…

白酒:新型包装材料的选择与应用对产品形象的提升

随着消费者对产品包装的关注度不断提高&#xff0c;包装在提升产品形象和品牌价值方面发挥着越来越重要的作用。云仓酒庄深知包装的重要性&#xff0c;并积极探索和应用新型包装材料&#xff0c;以提升豪迈白酒的产品形象。 新型包装材料的选择与应用对于产品形象的提升具有显著…

springboot swagger 接口文档分组展示

例如将 controller 分成四类&#xff0c;分别放到四个包下&#xff1a; xxx.xxx.xxx.controller.manage xxx.xxx.xxx.controller.client xxx.xxx.xxx.controller.authority xxx.xxx.xxx.controller.common SwaggerConfig.java&#xff1a; import io.swagger.annotations.Api…

java ssh 电影院购票管理系统eclipse开发mysql数据库MVC模式java编程网页设计

一、源码特点 JSP ssh 电影院购票管理系统是一套完善的web设计系统&#xff08;系统采用ssh框架进行设计开发&#xff09;&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用 B/S模式开发。开发环境为TOMCAT…

集成学习 | 集成学习思想:Stacking思想

目录 一. Stacking 思想 一. Stacking 思想 Stacking(或stacked generalization)&#xff0c;是指训练一个模型用于组合(combine)其他各个模型 Stacking有两层第一层是不同的基学习器&#xff08;classifiers/regressors&#xff09;第二层是用于组合基学习器的元学习&#xf…

全选和取消全选

html <table><thead><tr><th><el-checkbox change"check" v-model"checkAll">全选/取消</el-checkbox></th></tr></thead><tbody><tr v-for"(item, index) in tableData" :ke…

最新的Flutter3.x版本获取应用包名的方法

以前的flutter项目可以在 AndroidManifest.xml 中获取应用包名&#xff0c; 最新的Flutter3.x版本要获取应用包名可以找到build.gradle 更多内容参考&#xff1a;最新的Flutter3.x版本如何获取应用包名

Git学习笔记之基础

本笔记是阅读《git pro》所写&#xff0c;仅供参考。 《git pro》网址https://git-scm.com/book/en/v2 git官网 https://git-scm.com/ 一、git起步 1.1、检查配置信息 git config --list查看所有的配置以及它们所在的文件 git config --list --show-origin可能有重复的变量名…

HarmonyOS(鸿蒙开发)入门篇

如果需要学习鸿蒙开发可以查看以下学习资源链接 OpenAtom OpenHarmony Develop applications - HUAWEI HarmonyOS APP 转载请注明出处HarmonyOS(鸿蒙开发&#xff09;入门篇-CSDN博客&#xff0c;谢谢&#xff01;

05.循环

格式&#xff1a; 05.循环 01.循环语句02.while循环1.1while循环1.2.死循环1.3 while循环应用 计算123。。。100的和 03.for循环&#xff08;迭代循环&#xff09;3.1 基本格式3.2 range() 04.break和continue关键字4.1 break4.2 continue 01.循环语句 02.while循环 03.for循环…