每周学点数学 3:概率论基础2

news2024/10/6 16:26:52

文章目录

  • 1.独立性与相关性
  • 2.条件概率与边缘概率
  • 3.大数定律与中心极限定理
  • 4.随机过程
  • 5.概率论的应用

1.独立性与相关性

在这里插入图片描述

独立性与相关性是在数据分析中非常重要的两个概念,它们之间存在一定的联系,但也有明显的区别。
独立性(Independence):独立性是指两个或多个变量之间不存在线性关系,它们之间的变化互不依赖。换言之,一个变量的变化不会引起另一个变量的变化。
相关性(Correlation):相关性是指两个变量之间存在线性关系,即它们的变化呈现出某种程度上的正相关或负相关。相关性可以用相关系数(如皮尔逊相关系数1、斯皮尔曼等级相关系数2等)来表示,它的值在-1到1之间,其中0表示完全不相关,1表示完全正相关,-1表示完全负相关。

异同点:
相同点:

  1. 独立性和相关性都是描述两个变量之间关系的概念。
  2. 独立性和相关性都可以帮助我们理解变量之间的关系,从而为后续的数据分析和模型构建提供依据。
    不同点:
  3. 独立性和相关性的定义不同:独立性强调两个变量之间没有线性关系,而相关性则强调两个变量之间存在线性关系。
  4. 独立性和相关性的关系强弱不同:独立性表示两个变量之间不存在任何关系,而相关性表示两个变量之间存在某种程度的线性关系。相关性可以进一步分为弱相关、中等相关和强相关。
    总之,独立性和相关性虽然都是描述变量关系的概念,但它们的定义、关系强弱以及应用场景有所不同。在进行数据分析时,我们需要根据实际问题和研究目的来判断应该关注哪一种关系。

2.条件概率与边缘概率

在这里插入图片描述

条件概率(Conditional Probability)和边缘概率(Marginal Probability)是概率论中的两个重要概念。

  1. 条件概率:在给定某些事件B已经发生的情况下,事件A发生的概率。在B发生的条件下A的概率,记作P(A|B)。计算公式为:P(A|B) = P(AB) / P(B)
    例如,假设抛掷一枚均匀的硬币,得到正面的概率为0.5,得到反面的概率也为0.5。现在假设已经抛掷了5次,其中3次得到正面,2次得到反面。那么,在已经抛掷5次,得到3次正面的条件下,下一次抛掷得到正面的概率是多少呢?根据条件概率的计算公式,可以得到P(A
    |B) = P(AB) / P(B),即0.5 / 0.5 = 1,表示下一次抛掷得到正面的概率是1。

  2. 边缘概率(Marginal Probability):在事件A和事件B同时发生的概率,即P(A and B)。边缘概率是事件A和事件B的总概率,用于估计事件A和事件B同时发生的概率。计算公式为:P(A and B) = P(AB) / P(A) + P(B)
    例如,假设抛掷一枚均匀的硬币,得到正面的概率为0.5,得到反面的概率也为0.5。如果我们已经抛掷了3次,得到了1次正面,2次反面。那么,在事件A和事件B(抛掷5次得到3次正面)同时发生的概率是多少呢?根据边缘概率的计算公式,可以得到P(A and B) = P(AB) / P(A) + P(B) = 1 / 0.5 + 2 / 0.5 = 2。
    总之,条件概率是在给定某些事件B已经发生的条件下,事件A发生的概率;边缘概率是事件A和事件B同时发生的概率。它们之间的关系可以表示为:P(A|B) = P(AB) / P(B)。

  3. 条件概率:事件A在事件B已经发生的情况下发生的概率,记作P(A|B)。
    性质1:若P(A|B) >= 0, 则P(B|A) >= 0。

性质2:若P(B|A) >= 0, 则P(A|B) = 1。

性质3:若P(B|A) >= 0, 则P(A|A) = P(A|B)。

定理:贝叶斯公式,也叫做贝叶斯定理。对于任一事件A和事件B,有P(A|B) = P(B|A) * P(A) / P(B)。

  1. 边缘概率:在条件概率中,事件B被看做是一个常数(即P(B)),而我们可以将其看作是事件A和事件B同时发生的概率,称为边缘概率。
    性质1:边缘概率等于条件概率,即P(A) = P(A|B)。
    性质2:边缘概率加上条件概率等于联合概率,即P(A & B) = P(A|B) + P(B|A)。

定理1:全概率公式。对于事件A和事件B,有P(A) = P(B|A)* P(A) + P(B|A) * P(A) = P(B) * P(A|B) + P(B) * P(A|B) = P(A) + P(B) - P(B|A) * P(A) = P(A) + P(B) - P(B)。

定理2:乘法定理。对于事件A和事件B,有P(A & B) = P(B|A) * P(A) + P(A|B) * P(B) = P(B) * P(A|B) + P(B) * P(A|B) = P(A) * P(B|A) + P(A) * P(B|A) = P(A & B)。

定理3:贝叶斯定理的推论。对于事件A和事件B,有P(B & A) = P(A|B)* P(B) + P(B|A) * P(A) = P(B) * P(A|B) + P(A) * P(B|A) = P(A & B)。

3.大数定律与中心极限定理

在这里插入图片描述

首先,让我们讨论独立试验。独立试验是指一系列在相同条件下、独立进行的试验。这些试验没有直接的因果关系,也不受之前试验结果的影响。在这种情况下,每次试验都是等概率的,它们之间的关联很小。
大数定律是概率论和统计学中的一个基本定律,描述的是在试验结果足够多时,频率会收敛到概率。大数定律是基于中心极限定理的一个观察结果。当我们进行大量独立试验时,我们会得到大量的数据点。随着数据点数量的增加,这些数据点将更接近一个中心趋势(即概率分布的平均值)。
大数定律的一个关键特性是“稳定性”。换句话说,随着试验次数的增加,我们对试验结果的估计将变得越来越可靠。大数定律确保了我们可以使用平均结果来预测未来的事件,而不是依赖于单独的事件。
总之,独立试验与大数定律之间的关系是,独立试验是大数定律的一个应用实例。在独立试验中,每个试验都是独立进行的,不受之前试验结果的影响。在大量试验后,我们可以使用大数定律来描述和预测试验结果的平均值。
大数定律是概率论中非常重要的一个定律。它指出,如果随机变量X具有有限的概率分布,并且该分布包含的参数为μ和σ,那么随着X的值的不断增大,X的样本均值(即X的数学期望)的抽样分布将趋近于正态分布。
大数定律有两类:中心极限定理和切比雪夫定理。下面分别介绍。
中心极限定理
中心极限定理是概率论中的一个重要定理,它表明,当独立同分布的随机变量的样本均值的数量增加到一定程度后,这些随机变量的样本均值的分布将趋近于正态分布。这个正态分布具有一个非常特殊的性质,即均值等于总体均值μ,标准差等于总体标准差σ的平方根。
中心极限定理有三种形式:

  1. 当总体不是正态分布时,如果样本均值呈无偏的,那么样本均值的分布将趋近于正态分布。
  2. 当总体是正态分布时,如果样本量足够大,样本均值的分布将趋近于总体均值μ的位置,并且样本均值的标准差等于总体标准差σ的平方根。
  3. 当总体是正态分布且样本量足够大时,样本均值的分布将趋近于总体均值μ的位置,并且样本均值的标准差等于总体标准差σ的平方根。
    大数定律的应用案例
    大数定律的应用非常广泛,其中最著名的应用案例之一是统计学中的 t 检验。t 检验的主要目的是比较两个总体的均值是否相等。在实际应用中,我们通常无法获得总体的样本数据,因此只能通过样本数据来估计总体的均值和方差。当样本量足够大时,样本均值的分布将趋近于正态分布,因此我们可以利用中心极限定理来估计总体的均值和方差。
    另一个应用案例是投资组合优化问题。在投资组合优化问题中,我们通常需要对不同的投资组合进行比较,以确定最优的投资组合。由于不同的投资组合具有不同的收益率和风险,因此我们需要使用某种方法来比较这些投资组合。在这种情况下,我们可以使用大数定律来估计不同投资组合的收益率和风险,并且可以使用中心极限定理来估计不同投资组合的期望收益率和方差。

4.随机过程

概率论中的随机过程是一种动态系统,它描述了一种随时间变化而不断演化的随机现象。在随机过程中,系统的状态是随机变量,而系统的演化则是通过观察随机变量的分布函数和概率密度函数来描述的。随机过程是研究随机现象的数学工具,对于理解现实世界中许多重要现象和应用具有重要意义。
在这里插入图片描述

随机过程的基本要素包括:

  1. 随机过程中的状态:随机过程中的状态可以是时间的函数,表示为随机变量。通常情况下,随机过程中的状态是离散的(时间轴上的一点)或连续的(时间轴上的一段)。
  2. 随机过程的演化:随机过程中的状态随着时间的推移而发生变化,每个时刻的状态都由该时刻的随机变量来描述。通过对随机过程中所有时刻的状态进行分析,可以得到随机过程的全貌。
  3. 随机过程的概率密度函数(PDF):描述随机过程在每个时刻点的取值分布。对于连续随机过程,通常使用概率密度函数;对于离散随机过程,通常使用概率质量函数。
  4. 随机过程的转移函数:描述随机过程中状态的转移。如果两个随机过程之间存在状态转移,那么这两个随机过程是相互依存的。
  5. 随机过程的统计特征:包括平均值、方差、极限分布等,描述随机过程的稳定性、分布形状和统计特性。
  6. 随机过程的分类:根据随机过程的时间特性、状态特性和统计特性进行分类。常见的随机过程包括平稳过程、鞅过程、马尔可夫链等。
    随机过程的应用广泛,例如通信领域的无线信号传输、金融领域的股价波动、物理学中的布朗运动等。通过对随机过程的研究,可以为解决实际问题提供理论指导和方法支持。

5.概率论的应用

在这里插入图片描述

  1. 天气预报:利用概率论预测天气变化。
  2. 金融领域:投资者可以利用概率论计算投资回报的可能性,从而制定投资策略。保险公司也利用概率论评估风险,为客户提供相应的保险产品。
  3. 计算机科学与人工智能:计算机程序中的决策树、贝叶斯网络等算法都是基于概率论的原理,可以在大量数据中识别模式和规律。
  4. 机器学习与数据挖掘:机器学习模型(如决策树、支持向量机、神经网络等)通常都是基于概率论的算法,用于预测和分类。
  5. 医学领域:基因学研究中,医生可以通过分析大量的基因数据,利用概率论推断出某些疾病的遗传概率。
  6. 电子产品可靠性评估:工程师可以使用概率论评估电子产品的可靠性,从而预测产品的故障率和维修成本。
  7. 通信领域:通信系统中的信道模型、功率分配、调制解调等技术都是基于概率论的原理。
  8. 游戏设计:在游戏开发过程中,开发者需要运用概率论来设计游戏规则和参数,以确保游戏的公平性和娱乐性。
  9. 统计学:统计学是概率论在各个领域的应用,主要通过数据收集和分析来解决实际问题。
  10. 物理学:在物理学研究中,概率论作为一种重要的理论工具,用于描述和分析物质的运动、相互作用和观测结果。
    这些只是概率论在各行各业的部分应用,实际上,概率论在我们日常生活中的许多方面都发挥着重要作用。

  1. 皮尔逊相关系数(Pearson correlation coefficient)是一种常用的统计方法,用于衡量两个变量之间的线性关系的强度和方向。相关系数通常用于比较两个连续变量之间的关系,范围在-1到1之间,绝对值越大,关系越强。
    皮尔逊相关系数的计算公式如下:
    r = [(Y - N)(X - M)] / [sqrt((N - Y)^2 + (M - X)^2)]
    其中,Y和X分别表示两个变量的值,N和M分别表示两个变量的均值,sqrt表示开平方根。
    皮尔逊相关系数的取值范围为-1到1。
    -1:完全负相关,即一个变量的值增加会导致另一个变量的值减少。
    -0.5:弱负相关,即一个变量的值增加不一定导致另一个变量的值减少,但减少会导致另一个变量的值增加。
    0:不相关,即一个变量的值变化不会影响另一个变量的值。
    0.5:中等程度正相关,即一个变量的值增加会导致另一个变量的值增加。
    1:完全正相关,即一个变量的值增加会导致另一个变量的值也增加。
    皮尔逊相关系数可以用来判断两个变量之间的线性关系是否存在、关系的强度和方向,也可以用于比较多个变量之间的关系。 ↩︎

  2. 斯皮尔曼等级相关系数(Spearman Rank Correlation Coefficient,SRCC)是一种衡量两个连续变量之间线性关系强度的统计方法。它是一种无量纲量,用于评估变量之间的线性关系。斯皮尔曼等级相关系数通过比较两个变量的秩进行计算。
    对于连续变量X和Y,如果它们的秩(即,原始值减去1后的值)之间存在线性关系,斯皮尔曼等级相关系数就会接近1。这种关系可以用来比较两个变量之间的相关性。通常,斯皮尔曼等级相关系数的取值范围在-1和1之间。-1表示负相关(一个变量的增加导致另一个变量的减少),1表示完全正相关(一个变量的增加导致另一个变量的增加),0表示不相关或线性无关,即两个变量没有线性关系。
    在实际应用中,斯皮尔曼等级相关系数可以应用于许多领域,如社会科学、心理学、生物学等。它可以帮助研究者了解变量之间的关系强度和方向,从而更好地分析和解释数据。 ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/723500.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSS(持续更新!~)

二: 进阶: 只打算起到装饰作用的图片就建议就背景图片 块级标签就是:独占一行的标签(比如div)并且可以加宽加高 行内元素:就是不会独占一行的标签(比如a,span等等,不可以…

软件测试为什么要学习数据库

目录 前言: 一、为什么要学习数据库 二、常见数据库 三、如何学习数据库 前言: 数据库是用于存储、组织和管理数据的系统,它在各个领域都得到广泛应用,包括企业、学术界、政府和互联网等。 一、为什么要学习数据库 能够反作…

PS 快速选择工具基本操作讲解 通过 选择并遮住 调整后续

我们先打开PS软件 然后打开一个项目 前面几篇文章我们讲了磁性套索工具 其实就已经比较智能了 但是 毕竟拿东西还得自己去描边,操作起来并不是特别轻松 那么 我们今天看的东西就会更智能一些 我们将鼠标在下图指向位置右键 然后在弹出的选项中选择快速选择工具 选…

Notepad++ 打开单独窗口

应用1、打开完全独立的新窗口 快捷键:AltF6 应用2、打开新视图

CSDN 周赛 61 期

CSDN 周赛 60 期 参赛体验判断题单选题填空题编程题1、题目名称:最近的回文数2、题目名称:风险投资小结参赛体验 嗯,今天的填空题又出了新的幺蛾子,直接所有人不给分?看到 bug 提交去好多人在议论这问题。 这个未阅卷是个啥情况?机器人下班了,要改人工了? 然后,C 站…

小说系统源码分享,打造完整小说生态系统

小说已经成为了现代人娱乐生活的重要组成部分,而现在的小说不仅仅是纸质的,越来越多的人开始阅读网络小说。在这个数字化的时代,打造一个完整的小说生态系统变得尤为重要。本篇文章将为大家分享小说系统源码,帮助大家打造完整的小…

D盘不见了?3个方法,教你找回丢失的d盘!

谁能帮帮我呀!电脑使用的好好得,d盘突然就不见了。我还有很多很重要的文件都保存在里面呢!还有找回这些文件的希望吗? D盘作为电脑的一个重要磁盘,我们可能会将很多很重要的文件都保存在里面。但不知道大家有没有遇到过…

哈希与位图的结合--布隆过滤器与哈希切分

上一章讲了位图,我们知道了在海量数据中查找一个数是否存在,可以用每一个比特位标识。 但是位图只能处理整数,要是字符串或者其它的呢,位图便无法处理了,这个时候便需要用到布隆过滤器了. 目录 布隆过滤器提出 布隆…

斯坦福发布最新LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一

斯坦福发布最新LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一 文章目录 Part 1. 众多LLM排行榜Part 2. AlpacaEval 技术细节2.1 AlpacaEval 评估效果2.2 如何使用AlpacaEval评估模型 Part 3. 微软 WizardLM 登顶开源模型第一3.1 关于 WizadLM 与 Evol-Instruc…

PostgreSQL使用localhost可以连接,使用IP无法连接

问题描述:PostgreSQL使用localhost可以连接,使用IP无法连接 默认情况下,刚安装完成的 postgresSQL12 无法使用 数据库连接工具(如postman)连接。需要为其修改配置,开放连接权限。 修改pg_hba.conf 增加…

【js小案例】视频倍数播放、计算机、待办事项管理

视频倍数播放示例图&#xff1a; 视频倍数播放代码&#xff1a; <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>控制视频播放速度</title> </head> <body><video id"myVideo" width&quo…

c语言内存

程序是保存在硬盘中的&#xff0c;要载入内存才能运行&#xff0c;CPU也被设计为只能从内存中读取数据和指令。 对于CPU来说&#xff0c;内存仅仅是一个存放指令和数据的地方&#xff0c;并不能在内存中完成计算功能&#xff0c; 如&#xff1a;计算abc,必须将a,b,c都读取到CPU…

解锁生成式AI万亿规模市场,亚马逊云科技有效降低AIGC门槛

ChatGPT一声惊雷&#xff0c;让全球见识到了生成式AI的威力。当前&#xff0c;生成式AI进入一个爆发时刻&#xff0c;并在许多领域中展现出它的无限潜力。那么&#xff0c;在这轮生成式AI大爆发中&#xff0c;企业应当如何抓住机遇&#xff0c;顺应这一波时代的潮水&#xff0c…

PHP:数据库中设置文本长度,通过js去限制前台文本长度。扩展:数据类型的限制

效果图 如上图&#xff1a;当测试111的长度超过数据库中限制的长度&#xff0c;进行提示&#xff0c;并且自动将多余部分截掉 HTML代码 <!-- 附加属性 --> <div class"text-nav-1 " id"append1"> <div >append1</div><input…

如何使经纬度标注在图框内部

在生成经纬网格之后&#xff0c;如果标注了经纬度&#xff0c;仔细查看图框边缘&#xff0c;可以看到标注的经纬度出现在了图框的外面&#xff0c;这样显得不是很美观&#xff0c;我们可以通过偏移的方法让其回到图框内部&#xff0c;这里为大家介绍一下具体的操作方法&#xf…

达梦数据库 SQL交互式查询工具打不开问题处理

目录 1、开始菜单找到 “SQL交互式查询工具”。 2、 右键进入 打开文件位置。 3、右键进入属性&#xff0c;找到目标位置 4、进入我的电脑&#xff0c;访问该地址&#xff0c;并授予此地址权限 1、开始菜单找到 “SQL交互式查询工具”。 2、 右键进入 打开文件位置。 3、右…

【ARM Coresight 及 DS-5 介绍 2 - ARM Coresight 介绍】

文章目录 1.1 ARM Coresight 介绍1.1.1 ARM Coresight 发展历史 1.2 ARM Coresight 框架介绍1.1.1 Trace 通路1.1.3 Debug 通路1.1.4 Trigger 通路 1.1 ARM Coresight 介绍 ARM Coresight是ARM公司提供的一种调试和跟踪技术&#xff0c;用于ARM处理器的调试和性能分析。它通过…

根据ABAP字符寻找程序

知识来之不易&#xff0c;还请多点赞&#xff01; SE38执行程序RPR_ABAP_SOURCE_SCAN

实现流程化办公,该说不说还得借力低代码开发框架

在科技的推动下&#xff0c;流程化办公已经成为潮流。如何实现流程化办公&#xff0c;让越来越多的企业打通各部门之间的协作&#xff0c;实现高效率发展&#xff1f;借力低代码开发框架&#xff0c;让那遥不可及的梦想变为现实&#xff0c;跟传统操作方式比起来&#xff0c;低…

Pandas库如何在导出表格的时候去掉索引列(隐藏索引列)

import pandasdata {sku1:[1,2,3],sales:[11,22,33], } doc pandas.DataFrame(data)file_path rC:\Users\Zhao\Desktop\test1.xlsx doc.to_excel(file_path,indexFalse) # indexFalse 可以隐藏 索引列