ML 系列:机器学习和深度学习的深层次总结( 19)— PMF、PDF、平均值、方差、标准差

news2025/1/10 10:16:20

一、说明

        在概率和统计学中,了解结果是如何量化的至关重要。概率质量函数 (PMF) 和概率密度函数 (PDF) 是实现此目的的基本工具,每个函数都提供不同类型的数据:离散和连续数据。

二、PMF 的定义:

        概率质量函数 (PMF) 表示离散随机变量的概率分布,该变量可以具有有限或可数无限数量的可能值它有助于量化每种可能结果的确切概率。

        如果 X 是一个离散随机变量,那么它的范围 R_X 是一个可数集,因此,我们可以列出 R_X 中的元素。换句话说,我们可以写:

        请注意,这里是 x1、x2、x3,...是随机变量 X 的可能值。虽然随机变量通常用大写字母表示,但表示范围内的数字,我们通常使用小写字母,例如 x、x1、y、z 等来表示可能的值。对于离散随机变量 X,我们感兴趣的是知道 X=x_k 的概率。

        请注意,此处事件 A={X=x_k} 定义为样本空间 S 中 X 的相应值等于 x_k 的结果集 s

        事件 {X=x_k} 的概率由 X 的概率质量函数 (PMF) 正式表示。

PX(1) 显示 X=1 的概率

  1. PMF 的特性:
  • PMF 始终为非负值:所有 PMF 均≥ 0(x_i x_i
  • 所有概率之和为 1: ∑i P(X = x_i) = 1

2. 与 PDF 的比较:

  • PMF 用于离散随机变量,而 PDF 用于连续随机变量。
  • PMF 在离散点处对概率求和,而 PDF 在一个范围内积分。

3. 解释 PMF 值:

  • 特定点的 PMF 值 x_i 表示概率 P(X = x_i)

4. 图形表示:

  • 绘制 PMF 涉及绘制每个离散结果的概率,通常使用条形图。

图 1.随机变量 X 的 PMF 的图形表示

5. 意思是:

离散随机变量 X 的期望值表示为 E[X],计算为 X 可以采用的所有可能值的加权平均值,其中权重对应于这些值发生的概率,离散随机变量 X 的期望值由以下公式给出:

例如,如果我们有一个随机变量 X,它可以取值 1、2 和 3,概率分别为 P(X=1) = 0.1、P(X=2) = 0.4 和 P(X=3) = 0.5,那么 X 的期望值将计算为:

E[X] = 1*0.1 + 2*0.4 + 3*0.5 = 1 + 0.8 + 1.5 = 2.4

大数定律 (LLN)

  • 大数定律指出,随着试验或实验次数的增加,结果的平均值将趋向于向预期值收敛。换句话说,您进行的试验或实验越多,样本均值就越接近真实总体均值。
  • 大数定律最早由 Gerolamo Cardano 提及。雅各布·伯努利 (Jacob Bernoulli) 证明了二元随机变量的这种定律的特殊形式(他花了 20 多年时间才开发出足够严格的数学证明)。他将此命名为“黄金定理”,但它后来被普遍称为“伯努利定理”。这不应与以雅各布·伯努利的侄子丹尼尔·伯努利命名的伯努利原则相混淆。后来泊松将其描述为“la loi des grands nombres”(“大数定律”)。

在这段代码中,我想用 Python 代码演示,通过模拟大量试验来演示大数定律。

import random

def calculate_sample_mean(num_trials):
    total_outcomes = 0
    for _ in range(num_trials):
        # a random variable with values 1 to 6
        outcome = random.randint(1, 6)  
        total_outcomes += outcome
    sample_mean = total_outcomes / num_trials
    return sample_mean

# Define the expected value for comparison
expected_value = 3.5

# Test the Law of Large Numbers with increasing number of trials
for num_trials in [10, 50, 100, 1000, 10000, 100000]:
    sample_mean = calculate_sample_mean(num_trials)
    print(f"Number of trials: {num_trials}, Sample mean: {sample_mean}, Expected value: {expected_value}")

        这是上述代码的输出,通过将不同次数的试验的样本平均值与预期值(在本例中为 3.5)进行比较来检验大数定律:

        随着试验次数的增加,样本均值应收敛于预期值

        6. 方差和标准差公式

        离散随机变量 X 的方差度量 X(随机变量)的分布围绕其预期值的分布。有两个主要公式用于计算随机变量 X 的方差:

        公式 1:使用期望的方差:

        此公式根据随机变量的期望值 (平均值) 和平方的期望值来表示方差。它派生如下:

        公式 2:使用概率和平均值的方差:

        其中 μ = E(X)

        此公式通过将 X 的每个可能值与平均值之间的平方差相加来计算方差,并按每个值的概率加权。它主要用于结果数量有限的离散随机变量:

        标准差:

标准差只是方差的平方根。它是以与原始数据相同的单位衡量离散度的指标,使其更易于解释。

三、以两种方式计算 Variance 的示例

考虑具有以下概率分布的离散随机变量 X

使用两个公式的分步计算:

  1. 计算均值μ

2. 公式 1:使用期望的方差

3. 公式 2:使用概率和平均值的方差

要找到标准差 (Std(X)),您只需取方差的平方根 (Var(X))

鉴于:

您可以按如下方式找到标准差:

简单的 Python 代码,演示如何计算给定数据集的平均值、方差和标准差并打印结果。

import numpy as np

# Sample data
data = [10, 12, 15, 18, 20, 22, 25, 28, 30, 32]

# Calculate mean
mean = np.mean(data)

# Calculate variance
variance = np.var(data)

# Calculate standard deviation
std_deviation = np.sqrt(variance)

# Print the results
print(f"Mean: {mean}")
print(f"Variance: {variance}")
print(f"Standard Deviation: {std_deviation:.3}")


# Mean: 21.2
# Variance: 51.56
# Standard Deviation: 7.18

四、示例 PMF 粉末动力学):

        例如,考虑掷一个公平的六面骰子。PMF 为每个结果(1、2、3、4、5 和 6)分配 1/6 的概率,因为每个面都有相同的机会正面朝上着陆。这种情况的 PMF 为每个结果分配了 1/6 的概率,因为每个数字出现的机会相同。

        表格: 掷出公平的六面骰子的概率分布

        此表清楚地说明了 PMF 如何在掷骰子的所有可能结果中分配概率,确保总概率总和为 1。公式 P(X = x) = 1/6 表示每个结果 x(其中 x 为 1、2、3、4、5 或 6)的概率相等,为 1/6。

        概率密度函数 (PDF):
        概率密度函数 (PDF) 描述了连续随机变量具有特定值的可能性。与离散概率不同,任何特定点的 PDF 值都不是概率,而是密度。

        PMF 不适用于连续随机变量,因为对于连续随机变量,所有 x ∈ R 为 P(X=x)=0。相反,我们通常可以定义概率密度函数 (PDF)。PDF 是概率密度,而不是概率质量。这个概念与物理学中的质量密度非常相似:它的单位是每单位长度的概率。要了解 PDF,请考虑一个连续随机变量 X,并按如下方式定义函数 fX(x)(只要存在限制):

        函数 fX(x) 为我们提供了点 x 处的概率密度。它是区间概率的极限 (x, x+Δ] 除以区间长度,当区间长度变为 0 时。请记住

        因此,我们得出结论:

        因此,我们对连续随机变量的 PDF 有以下定义:

  1.  PDF 的属性:
  • PDF 始终为非负数:fx)≥0 表示所有 x
  • 整个范围内 PDF 曲线下的面积为 1:

2. 解释 PDF 值:

  • PDF 在任何点的高度都表示概率的密度,而不是实际概率。
  • 要查找随机变量落在特定范围内的概率,请在该范围内对 PDF 进行积分。

3. 图形表示:

  • 绘制 PDF 图形有助于可视化数据的分布。
  • 重要的是要突出显示两点之间曲线下的面积,它表示变量落在该范围内的概率。

        图 2 显示了 X 的 PDF。正如我们所看到的,PDF 的值在从 a 到 b 的区间内是恒定的。这就是为什么我们说 X 均匀分布在 [a,b] 上。

图 2.均匀分布在 [a,b] 上的连续随机变量的 PDF

4. 均值和方差:

  • 连续随机变量的平均值(期望值)为:

  • 差异为:

五、结论

        第 19 天,我们探讨了概率质量函数 (PMF) 和概率密度函数 (PDF) 的核心概念。这些函数对于理解如何将概率分别分配给离散随机变量和连续随机变量至关重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2234864.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于STM32的八位数码管显示Proteus仿真设计

基于STM32的八位数码管显示Proteus仿真设计 1.主要功能2.仿真设计3. 程序设计4. 设计报告5. 资料清单&下载链接 基于STM32的八位数码管显示Proteus仿真设计(仿真程序设计报告讲解视频) 仿真图proteus 8.9 程序编译器:keil 5 编程语言:…

Linux grep命令详解(多图、多示例)

文章目录 grep基本说明grep参数简单示例列举参数-v(反选)-r -l -H -i(目录子目录、只打印匹配文件、输出文件名、忽略大小写)-c -n -o(匹配次数、输出行号、只打印匹配)-A -B -C(前后行) 正则表达式基本正则表达式与扩展正则表达式 grep示例附录:正则表达式基本字符特殊字符Per…

力扣:225 用队列实现栈

栈、队列 栈: 弹夹,后进先出 队列: 排队,先进先出 描述: var MyStack function () {// 定义两个数组,模拟队列this.queue []this._queue [] };/** * param {number} x* return {void}*/ MyStack.protot…

【MFC编程(一)】MFC概述

文章目录 MFC概述MFC组成MFC对比Windows APIMFC类库基类CObject命令发送类CCmdTarget应用程序结构类应用程序线程支持类CWinThread/CWinApp文档类CDocument文档模板类CDocTemplate 窗口类窗口基类CWnd边框窗口类CFrameWnd视图类CView MFC概述 MFC(Microsoft Founda…

【客观理性深入讨论国产中间件及数据库-科创基础软件】

随着国产化的进程,越来越多的国企央企开始要求软件产品匹配过程化的要求, 最近有一家银行保险的科技公司对行为验证码产品就要求匹配国产中间件, 于是开始了解国产中间件都有哪些厂家 一:国产中间件主要产品及厂商 1 东方通&…

基于Python的校园爱心帮扶管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

pycharm小游戏贪吃蛇及pygame模块学习()

由于代码量大,会逐渐发布 一.pycharm学习 在PyCharm中使用Pygame插入音乐和图片时,有以下这些注意事项: 插入音乐: - 文件格式支持:Pygame常用的音乐格式如MP3、OGG等,但MP3可能需额外安装库&#xf…

A018基于Spring Boot的民宿租赁系统

🙊作者简介:在校研究生,拥有计算机专业的研究生开发团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 赠送计算机毕业设计600…

​基于学习的地铁客流动态预测智能调度方法

1 文章信息 文章题为“A Learning Based Intelligent Train RegulationMethod With Dynamic Prediction forthe Metro Passenger Flow”,该文于2023年发表至“IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS”。文章的核心观点是提出了一种基于学习的智…

SpringBoot+FileBeat+ELK8.x版本收集日志

一、准备环境 1、ElasticSearch:8.1.0 2、FileBeat:8.1.0 3、Kibana:8.1.0 4、logstach:8.1.0 本次统一版本:8.1.0,4个组件,划分目录,保持版本一致。 说明:elasticsearch和kib…

【大数据学习 | HBASE】habse的表结构

在使用的时候hbase就是一个普通的表,但是hbase是一个列式存储的表结构,与我们常用的mysql等关系型数据库的存储方式不同,mysql中的所有列的数据是按照行级别进行存储的,查询数据要整个一行查询出来,不想要的字段也需要…

论文速读:动态再训练-更新用于无源目标检测的Mean Teacher(ECCV2024)

原文标题:Dynamic Retraining-Updating Mean Teacher for Source-Free Object Detection 中文标题:动态再训练-更新用于无源目标检测的Mean Teacher 本篇文章为论文速读,以帮助大家快速了解大意,具体详解可以看这篇分享。ECCV2024…

科研绘图系列:R语言带有面积区域的折线图(linechart)

文章目录 介绍加载R包数据画图准备图1图2图3图4图5图6图7图8图9图10合并所有图形系统信息介绍 带有面积区域的折线图通常被称为面积图(Area Chart)。面积图结合了折线图和条形图的特点,通过在折线下方的区域填充颜色或纹理,来展示一个或多个组的数值如何随第二个变量(通常…

Golang--文件操作

1、文件 文件:文件用于保存数据,是数据源的一种 os包下的File结构体封装了对文件的操作(记得包os包) 2、File结构体--打开文件和关闭文件 2.1 打开文件 打开文件,用于读取(函数): 传…

Ubuntu学习笔记 - Day3

文章目录 学习目标:学习内容:学习笔记:vim简介vim键盘图工作模式 vim移动光标操作上下左右移动翻页 vim替换和删除操作替换删除 vim插入模式详解进入模式搜索 vim底行模式操作保存退出行号 学习目标: 一周掌握 Linux基本使用技巧 …

Java中的JDBC的详解

数据库驱动包 Java提出的一套关于数据库操作的接口 各个数据库厂商要把自己的api对接到/适配到jdbc上 程序员只需要掌握一套api就可以操作不同的数据库了 数据库厂商提供的这个原生api适配到jdbc转换程序,称为“数据库驱动包” 1)创建数据源 //1,创…

Apache-Hive数据库使用学习

前期准备 Hadoop-分布式部署(服务全部在线) Mysql-node1节点部署(确认安装正常) apache-hive -node1节点部署(需要与MySQL元数据联动存储) 参考博客: Hadoop Hadoop集群搭建-完全分布式_hadoop完…

【极客兔兔-Web框架Gee详解】Day2 上下文Context

文章目录 一、框架结构二、设计上下文(Context):day2-context/gee/context.go1. 设计Context必要性1.1 接口粒度过细:1.2 缺乏扩展性:2. 代码3. 优势三、路由(Router): day2-context/gee/router.go四、框架入口:day2-context/gee/gee.go1. 代码五、框架使用: day2-context/m…

LeetCode17. 电话号码的字母组合(2024秋季每日一题 59)

给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。 示例 1: 输入:digits “23” 输出:[“…

DApp开发定制:合约设计与源码搭建支持快速上线

随着区块链技术的飞速发展,去中心化应用(DApp)已经成为区块链生态中不可或缺的一部分。DApp不仅改变了传统互联网应用的运作方式,还通过去中心化的理念和智能合约的支持,赋能了用户和开发者。无论是金融、游戏、社交、…