概率和似然

news2024/9/28 15:22:44

在日常生活中,我们经常使用这些术语。但是在统计学和机器学习上下文中使用时,有一个本质的区别。本文将用理论和例子来解释概率和似然之间的关键区别。

概率与似然

假设在一场棒球比赛中,两队的队长都被召集到场上掷硬币。获胜的队长将根据掷硬币的结果选择先击球还是先投球。

现在,获胜的队长选择先击球的概率是多少?我们现在知道只有两种可能的结果:获胜的队长决定先投球或开始击球。获胜的队有50%的几率会选择先击球。

评论员现在正在讨论获胜队长选择首先在击球的可能性。在实际中这个数字可能不到 50%,因为选择先击球会受球场类型、天气、对方球队等因素的影响。比如说如果比赛前下了大雨,决定先击球的可能性会低至 1%。如果天气条件恰到好处,那么获胜的队选择先击球的可能性可能高达 95%。

所以在计算概率值时,我们相信参数值θ=0.5是正确的。在考虑了所有参数之后,我们假设我们确定参数值 θ=0.5。但是在计算似然时,我们的目标是确定我们是否可以信任该参数。

所以我们可以说概率是基于纯数学的;然而似然是一个有许多参数和条件的函数。

为什么似然不是概率分布?

在抛硬币的情况下,我们可以阐述以下关于潜在结果 x 的情况。

硬币正面朝上的概率是,

在此基础上,我们可以提出以下关于求硬币正面朝上和反面朝上的概率的问题。

下面的方程可以推广前一组方程。

现在,我们可以看到上面的公式适用于k=1和k=0的值。

有了以上的基础,现在要考虑两种不同的情况。

1、概率

假设在抛硬币之前,我们知道参数θ=3/4的值。在此基础上可以说得到正面的概率是P(正面)= θ = 3/4, P(反面)= 1-θ = 1/4。让我们把这些数据画在一个简单的图表上。我们保持参数(θ)不变,并改变数据(x=1或x=0)。

2、似然

现在,假设我们在抛硬币之前不知道正面或反面的概率,而我们有数据的结果, 也就是说我们已经掷过硬币。现在,给定 x=1,找到 θ 的概率是多少。在这种情况下,我们保持数据 (x=1) 不变并更改参数 (θ)。

我们目标是想找到定义这种结果的分布。简而言之,我们想要找到给定 x 的 θ 值。可以将其写成如下的数学格式。

P(x=1 | θ) = L(θ | x=1)

这里需要注意的关键是曲线下的面积是1/2。所以,我们可以说它不是一个有效的概率分布。它被称为似然分布。似然函数不服从概率定律。因此似然函数在[0,1]区间内是无界的。

概率和似然之间的关键区别

假设我们从参数化分布 F(X;θ) 中得到一个随机变量 X。在此参数化分布中,θ 是定义分布 F(X;θ) 的参数。随机变量 X=x 的概率为 P(X=x) = F(x;θ),这里的参数 θ 是已知的。

而我们一般情况下会拥有现实世界中的数据 (x),而定义分布 (θ) 的参数是未知的。给定模型 F(X;θ),似然度定义为观测数据 X 随 θ 变化的概率。我们可以将其写为 L(θ) = P(θ; X=x)。这里X 已知,但定义分布 (θ) 的参数未知。定义似然的动机是为了确定分布的参数。

在我们的日常生活中,经常将概率和似然称为同一事物。例如:明天下雨的概率是多少?或者明天下雨的可能性(似然)有多大?但是这些术语在机器学习和统计学中有很大不同。下面的一个例子可以解释概率和似然之间的关键区别。

当我们计算概率结果时,我们假设模型的参数是值得信赖的。但是当我们计算似然时,我们会根据我们观察到的样本数据来确定我们是否可以信任模型中的参数。

抛硬币

如果一枚硬币正面朝上和背面朝上的概率相等,就称其为均匀硬币。换句话说,P(正面)= P(反面)= 1/2。

假设有一枚均匀硬币。我们假设硬币参数值(θ = 0.5)。在寻找概率时,我们假设参数是可信的。也就是说如果我们抛这枚硬币一次,它正面朝上的概率是1/2。现在我们抛硬币100次,发现只有12次是正面朝上的。基于这些证据,我们会说硬币是均匀的可能性非常低。因为如果硬币是均匀的,我们预计它正面朝上的概率是一半,也就是50次。

在上面的例子中,我们可以说,100次硬币正面朝上的概率只有12次,这让我们高度怀疑,因为在给定的条件中,硬币正面朝下的实际概率实际上是p = 0.5。但如果这枚硬币55次正面,我们就可以说这枚硬币很可能是均匀的。

概率问题和统计问题的区别

假设我们还是抛硬币。考虑以下两个场景。

概率问题:

我们假设硬币是均匀的。连续得到两个正面的概率是多少?

它表示给定参数值(P = 0.5),观察数据(序列)的概率是多少。

统计问题:

我们不知道硬币是否公平(我们正在试图确定硬币的公平性)。假设我们抛硬币两次,连续得到两次正面。

问:根据观察到的数据,这枚硬币是均匀的可能性有多大?(p = 0.5)?

这意味着我们在给定数据(sequence = HH)的情况下确定参数的值(P = 0.5)。也就是说“我们的样本在多大程度上支持我们的假设 P = 0.5?”

我们可以将似然定义为参数模型中样本对给定参数值的支持程度的度量。

二项分布的概率和似然

继续抛硬币,让我们考虑一个简单的二项分布的例子。假设我们抛硬币十次,并记录结果。结果是9次正面1次反面。

我们知道硬币是均匀的,即p = 0.5。根据这个信息,我们要算出投掷10次得到9次正面的概率。我们可以用公式

这里0.009765是在p = 0.5的情况下得到x = 9个正面的概率。

一般情况下我们可以这样写:

下面,如果我们不确定硬币是否均匀。这意味着我们不知道参数p的值。而我们已经投掷了十次硬币,并得到了投掷结果。结果是9次正面1次反面。基于此,我们可以得出以下结论。

在这里,我们试图根据给定的数据样本(10次抛掷中有9次正面)找到参数P的值。

总结

在机器学习的背景下:

  • 概率是指基于模型中参数指定的值,特定结果发生的概率,我们相信参数值是准确的。
  • 似然指的是样本对参数模型中给定参数值的支持程度,我们试图根据提供的样本数据确定模型的参数值。

https://avoid.overfit.cn/post/02f9cd888b274752b17a9fc3f1120fbc

作者:Pratik Shukla

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/353959.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 监测服务心跳、服务重启策略

文章目录前言背景一、curl服务可用验证二、服务探测脚本三、配置系统定时任务四、Linux特殊字符转义总结前言 请各大网友尊重本人原创知识分享,谨记本人博客:南国以南i、 提示:以下是本篇文章正文内容,下面案例可供参考 背景 当…

【飞桨AI-Python小白逆袭大神课程】作业1-python基础练习

链接:飞桨AI Studio - 人工智能学习与实训社区 作业一:输出 9*9 乘法口诀表(注意格式) 注意:提交作业时要有代码执行输出结果。 def table():#在这里写下您的乘法口诀表代码吧!if __name__ __main__:table() 思路&#xff1a…

基础篇—CSS padding(填充\内边距)解析

CSS padding(填充) CSS padding(填充)是一个简写属性,定义元素边框与元素内容之间的空间,即上下左右的内边距。 属性说明padding使用简写属性设置在一个声明中的所有填充属性padding-bottom设置元素的底部填充padding-left设置元素的左部填充padding-right设置元素的右部…

win11下WSL环境安装

微软官方wsl手册 微软官方wsl手册pdf 一、wsl中镜像安装 在启用或关闭Windows功能勾选一下两个选项 打开powershell,输入wsl, 可以根据wsl的命令来安装镜像。也可以在软件商店中进行安装ubuntu 安装完成后,打开ubuntu,会自动完成初始化。提示安装成功…

【RabbitMQ六】——RabbitMQ主题模式(Topic)

RabbitMQ主题模式(通配符模式)前言什么是Topic模式使用Topic模式的要点通配符规则示例代码示例Pom文件引入RabbtiMQ依赖RabbitMQ工具类生产者消费者1消费者2效果总结前言 通过本篇博客能够简单使用RabbitMQ的主题模式。 本篇博客主要是博主通过官网总结…

K8s集群部署(kubeadm安装部署详细手册)

1、简介 K8s部署主要有两种方式:1、Kubeadm Kubeadm是一个K8s部署工具,提供kubeadm init和kubeadm join,用于快速部署Kubernetes集群。 2、二进制 从github下载发行版的二进制包,手动部署每个组件,组成Kubernetes集群。…

【C++进阶】二、多态详解(总)

目录 一、多态的概念 二、多态的定义及实现 2.1 多态的构成条件 2.2 虚函数 2.3 虚函数的重写 2.4 虚函数重写的两个例外 2.4.1 协变 2.4.2 析构函数的重写 2.5 C11 override 和 final 2.5.1 final 2.5.2 override 2.6 重载、覆盖(重写)、隐藏(重定义)的对比 三、…

【C++】类与对象 (四)初始化列表 static成员 友元 内部类 匿名对象 拷贝对象时的一些编译器优化

前言 本章就是我们C中类与对象的终章了,不过本章的难度不大,都是类中一些边边角角的知识,记忆理解就行了,相信经过这么长时间的学习类与对象,你对面向对象也有了更加深的理解,最后我们学习完边边角角的一些…

2022黑马Redis跟学笔记.实战篇(五)

2022黑马Redis跟学笔记.实战篇 五4.5 Redis实现秒杀优化4.5.1 基于Redis实现秒杀减库存6.1 秒杀优化-异步秒杀思路4.5.2 基于Redis的一人一单限制4.5.3 基于阻塞队列的异步下单4.6 秒杀的异步优化4.6.1.基于消息队列的异步下单思路4.6.2.基于List结构的消息队列4.6.3.基于PubSu…

[答疑]经营困难时期谈建模和伪创新-长点心和长点良心

leonll 2022-11-26 9:53 我们今年真是太难了……(此处删除若干字)……去年底就想着邀请您来给我们讲课,现在也没有实行。我想再和我们老大提,您觉得怎么说个关键理由,这样的形势合适引进UML开发流程? UML…

ESXi Args勒索病毒来袭,VMware ESXi用户需提高警惕

近日,多国通报了一项名为“ESXi Args”的勒索软件活动。ESXi Args主要针对VMware ESXi服务器进行攻击,利用ESXi 服务器中的已知漏洞,获取访问权限并部署勒索软件,对ESXi服务器内配置文件进行加密并发送赎金票据。 当前&#xff0…

从零到1构建可发布的npm包

本文将介绍通过 rollup, 从零开始构建一个简易的可发布的npm包。本文可实现的目标如下: 通过 rollup进行构建支持 Typescript支持 npm 方式安装支持 cdn 方式,在页面中引入支持本地调试可发布到npm 一、从 package 开始项目分析 首先,在终…

港科夜闻|香港科大与香港科大(广州)两校交流开启新篇章

关注并星标每周阅读港科夜闻建立新视野 开启新思维1、香港科大与香港科大(广州)两校交流开启新篇章。2月10日,香港科技大学校董会主席廖长城先生、校董会副主席杨佳锠先生、校长叶玉如院士一行到访香港科大(广州),共商“香港科大一体、双校互补”框架下的…

go gin学习记录3

环境 环境:mac m1,go version 1.17.2, goland, mysql 安装gorm 第二节学习了在gin中使用go的原生SQL进行操作,这节学习一下使用orm。 go的orm包有很多,gorm是使用较多较广的,所以我们就用gor…

车辆逆行识别检测预警算法 yolov5

车辆逆行识别检测预警算法通过Pythonyolov5网络模型计算机算法技术,车辆逆行识别检测预警算法对道路来往行驶车辆出现逆行行为及时预警存档。Python是一种由Guido van Rossum开发的通用编程语言,它很快就变得非常流行,主要是因为它的简单性和…

大数据之-Nifi-监控nifi数据流信息_监控数据来源_bub轻松复现---大数据之Nifi工作笔记0011

通过数据流功能可以轻松复现,数据的流向在某个时间点数据是怎么流动的,出现了什么问题,太强大了.. 真的是,可以看到通过右键,处理器,打开view data province就可以看到, 上面是处理器处理数据的详细信息 点击左侧的详情图标可以查看详情信息,details是这个事件处理的内容详情,…

【计算机网络】运输层

文章目录运输层概述运输层端口号、复用与分用的概念UDP和TCP的对比TCP的流量控制TCP的拥塞控制TCP超时重传时间的选择TCP可靠传输的实现TCP的运输连接管理TCP的连接建立(3次握手)TCP的连接释放(4次挥手)TCP报文段的首部格式运输层概述 这里我们对运输层进行概述,之…

【双指针问题】LeetCode 925. 长按键入

Halo,这里是Ppeua。平时主要更新C语言,C,数据结构算法......感兴趣就关注我吧!你定不会失望。 🌈个人主页:主页链接 🌈算法专栏:专栏链接 我会一直往里填充内容哒! &…

【C++】类型转化

🌈欢迎来到C专栏~~类型转化 (꒪ꇴ꒪(꒪ꇴ꒪ )🐣,我是Scort目前状态:大三非科班啃C中🌍博客主页:张小姐的猫~江湖背景快上车🚘,握好方向盘跟我有一起打天下嘞!送给自己的一句鸡汤&…

Python-第九天 Python异常、模块与包

Python-第九天 Python异常、模块与包一、了解异常1. 什么是异常:2. bug是什么意思:二、异常的捕获方法1. 为什么要捕获异常?2. 捕获异常的语法3. 如何捕获所有异常?三、异常的传递性1.异常是具有传递性的四、Python模块1. 什么是模…