机械学习—零基础学习日志（概率论总笔记1）

机械学习—零基础学习日志（概率论总笔记1）

news2026/2/14 19:36:48

概率论的起源

在历史上有明确记载的最早研究随机性的数学家是帕斯卡和费马。帕斯卡就是最早发明机械计算机的那位数学家，他并不是赌徒，但是他有些赌徒朋友，那些人常常玩一种掷骰子游戏，游戏规则是由玩家连续掷4次骰子，如果其中没有6点出现，玩家赢，如果出现一次6点，则庄家赢。

在这个赌局中，由于双方的赢面差不多，不是大家能够凭直觉判断准的，因此玩家并不觉得吃亏，甚至还觉得赢面大一些。但是，只要时间一长，庄家总是赢家，玩家注定是输家。1654年，一位赌徒朋友就向帕斯卡请教，是否能证明庄家的赢面更大？

帕斯卡经过计算，发现庄家的赢面还真是稍微大一点，大约是52%vs48%。大家不要小看这多出来的四个百分点，累积起来，能聚敛很多财富。在研究赌局概率的过程中，帕斯卡和费马有很多通信，今天一般认为他们二人创立了概率论。

概率论的发展

著名的启蒙学者伏尔泰是当时最精通数学的人之一，他算出了法国政府彩票的漏洞，找到了一些只赚不赔的买彩票的方法，赚了一辈子也花不完的钱。伏尔泰一生没有担任任何公职，或者做生意，但是从来没有为钱发过愁。这让他能够专心写作，研究学问。

从18世纪末到19世纪，数学家们对概率论产生了浓厚的兴趣，像法国的伯努利、拉普拉斯和泊松等人，德国的高斯，以及俄罗斯的切比雪夫和马尔可夫等人，都对概率论的发展有很大的贡献。经过他们共同的努力，概率论的基础理论逐渐建立起来，很多实际的问题也得到了解决。

在这些人中，划时代的人物是拉普拉斯。拉普拉斯是一位了不起的科学家，但是却又热衷于当官。他有一个著名的学生叫做拿破仑，靠这层关系他后来当上了政府的部长。不过，他的政绩不太好，因此拿破仑讲，他是一个伟大的数学家，但却是一个不太称职的部长。不过，拉普拉斯一生在科学上的贡献还是非常大的，比如关于宇宙构成的星云说，就是由他完成的。

当然他最为人所知的是以他的名字命名的拉普拉斯变换。在概率论方面，拉普拉斯定义了什么是概率，以及它该如何计算。在拉普拉斯之前，人们对“有可能”和“概率大”是分不清的。其实你今天问一些人，买彩票中彩的概率是多少？他依然会说50%，因为只有中彩和不中彩两种情况。

拉普拉斯是如何定义概率的呢?他先定义了一种可能性相同的基本随机事件，也称为单位事件。

古典概率计算公式

每一种不可再分，都是单位事件。单位事件的概率称为原子概率

拉普拉斯对于概率论的描述其实有不少漏洞，比如在现实中是否存在着可能性完全相等的单位事件，这本身就是一个大问号。

为了说明一个随机事件A的概率，用了等可能性的单位事件这个说法。但是在没有概率的定义之前，等可能性又从何谈起？

现代概率论发展

统计学的规律只有经过了大量随机试验才能得出，也才有意义。但是随机试验得到的结果，和我们用古典概率算出来的结论可能是两回事。不仅你掷10次硬币大部分时候不可能得到五次正面朝上的结果，你做其它随机试验也是如此。

抛硬币，每次正面朝上的概率是1/2；掷骰子，事件A是“六点朝上”，它出现的概率每次也是1/6。当然事件B就是其它点朝上，每次的概率是5/6。在一般情况下，出现A的概率是p，B的概率是1-p。这类试验后来被称为伯努利试验。

如果我们把从0次正面朝上，也就是说全部是背面朝上，到10次全是正面朝上的可能性的图像画出如下。

中间高两头低的曲线，满足这种曲线的概率分布，被称为伯努利分布，也称为二项式分布，因为每一次试验的结果有两种。

所有有一个重要结论：有关不确定性的规律，只有在大量随机试验时才显现出来，当试验的次数不足，它则显现出偶然性和随意性。

第一个概念就是平均值或者叫做数学期望值，也就是N*p，因为概率是p的事件进行N次试验后，平均发生的次数，也是最可能发生的次数，好，这是N*p。接下来我们再用平方差（简称方差）这个概念来描述曲线的“鼓”与“平”。

方差其实是对误差的一种度量，既然是误差，就要有可对比的基点，在概率中，这个基准点就是数学期望值（简称期望值），也就是我们通常说的平均值。

如果我们做10次试验只出现4次正面朝上的情况，就有了误差，误差是1。如果9次正面朝上，那么误差就大了，就是4。好了，接下来我们就把各种误差，和产生那些误差的可能性一起考虑，做一个加权平均，算出来的“误差”就是平方差。

之所以使用“平方”这个词，是因为计算方差这种误差时用到了平方，为了进一步方便误差和平均值的比较，我们通常会对方差开根号一次，这样得到的结果被称为标准差（严格来讲，方差开根号后和标准差还是略有差别，但是这个差别很小，为了便于理解，我们就假定标准差是方差开根号的结果）。

什么是理想呢？我们进行N次伯努利试验，每一次事件A发生的概率为p，N次下来发生了N*p次，这就是理想。那么什么是现实呢？由于标准差的影响，使得实际发生的次数严重偏离N*p，这就是现实。

就是越是小概率事件，你如果想确保它发生，需要试验的次数比理想的次数越要多得多。

从生活的角度来看，提高单次成功率要远比多做试验更重要。

很多人喜欢赌小概率事件，觉得它成本低，大不了多来几次，其实由于误差的作用，要确保小概率事件发生，成本要比确保大概率事件的发生高得多。

什么是泊松分布？

泊松分布是这样定义的：如果随机事件A发生的概率是p，进行n次独立的试验，恰巧发生了k次，则相应的概率可以用这样一个公式来计算：

假如说公司门口有10个停车位，公司有100个上班的员工，每个员工早上8点钟之前开车来上班的概率是10%。当然，正如我们昨天所说，他们每天什么时候来公司不仅是随机的，而且彼此无关，不存在两个人商量之后一起到的情况，而且也不存在头一天来晚了没抢到停车位，第二天早到的可能性。

现在，你是这家公司的新员工，早上8点整开车到了公司，请问停车场还有车位的概率是多大？

根据泊松分布的计算，积累的概率是0.46.

很多人投资总是失败，判定一件事发生的可能性总是有很大的误差，一个重要的原因就是靠直觉和有严重漏洞的逻辑，而不是靠严密的数学逻辑和推导。

生活启发：应对随机性，需要的冗余比你想的要大。

主要参考：《数学通识50讲》吴军 ——得到，概率论章节

墙裂推荐大家去学习《数学通识50讲》，吴军老师讲解得超级超级好！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2093825.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Java | Leetcode Java题解之第378题有序矩阵中第K小的元素

Java | Leetcode Java题解之第378题有序矩阵中第K小的元素

题目： 题解： class Solution {public int kthSmallest(int[][] matrix, int k) {int n matrix.length;int left matrix[0][0];int right matrix[n - 1][n - 1];while (left < right) {int mid left ((right - left) >> 1);if (check(matr…

阅读更多...

Python酷库之旅-第三方库Pandas(113)

Python酷库之旅-第三方库Pandas(113)

目录一、用法精讲 496、pandas.DataFrame.kurtosis方法 496-1、语法 496-2、参数 496-3、功能 496-4、返回值 496-5、说明 496-6、用法 496-6-1、数据准备 496-6-2、代码示例 496-6-3、结果输出 497、pandas.DataFrame.max方法 497-1、语法 497-2、参数 497-3、…

阅读更多...

如何从 SD 卡恢复已删除的文件：分步指南

在 SD 卡上查找已删除的文件可能是一项相当艰巨的任务，尤其是当您认为它们已经消失得无影无踪时。然而，希望还是有的！现代技术提供了多种有效的方法来恢复这些文件，无论是照片、文档还是其他类型的数据。使用正确的工具和一点耐心…

阅读更多...

【初出江湖】大白话解释集中式、分布式、微服务的区别？

【初出江湖】大白话解释集中式、分布式、微服务的区别？

目录标题什么是集中式？什么是分布式？分布式系统的架构一般构成模块分布式的优点分布式的缺点什么是分布式集群？ 什么是微服务？微服务和分布式系统有什么主要区别？微服务架构与分布式系统在开发过程中有何不同&#xf…

阅读更多...

嵌入式：Arm v7-M指令集架构中的字节序（大小端）

嵌入式：Arm v7-M指令集架构中的字节序（大小端）

相关阅读嵌入式https://blog.csdn.net/weixin_45791458/category_12768532.html?spm1001.2014.3001.5482 本文来源于博主无意之中的一个发现，虽然之前就知道Cortex-M3默认为小端模式，但是偶然发现了一些出乎意料的情况。首先来看看Arm v7-M指令集架构…

阅读更多...

【MarkDown】表格的对齐方法

【MarkDown】表格的对齐方法

MarkDown中表格的对齐方法说明格式化对齐举例摘要： 1.本文介绍了MarkDown语法中，插入表格后，表格的对齐方法 2.在CSDN写博客时，要经常用的功能，务必掌握这个小技巧说明在Markdown中创建表格，基本结构由…

阅读更多...

奇偶校验、crc循环冗余检验

奇偶校验、crc循环冗余检验

数据链路层链路从一个结点到相邻结点的一段物理线路，而中间没有任何其他的交换点数据链路是指把实现通信协议的硬件和软件加到链路上帧在数据链路上传输的数据包，称之为帧数据链路层是以帧为单位进行传输和处理数据的数据链路层的三个重…

阅读更多...

用Springboot(java程序)访问Salesforce RestAPI（通过JWT认证）

用Springboot(java程序)访问Salesforce RestAPI（通过JWT认证）

外部系统想访问Salesforce的数据，发Rest请求，必须需要Salesforce的AccessToken。那么为了得到这个AccessToken，Salesforce有几种方式可供选择。一种就是用户名密码认证方式（之前的文章介绍过通过java代码访问Salesforce），一种就是JWT认证方式。当然还有其他方式，之后有…

阅读更多...

利用Streamlit前端框架开发Stable Diffusion模型图像生成网页应用（下篇）

利用Streamlit前端框架开发Stable Diffusion模型图像生成网页应用（下篇）

今天介绍亚马逊云科技推出的国际前沿人工智能模型平台Amazon Bedrock上的Stability Diffusion模型开发生成式AI图像生成应用！本系列共有3篇，在上篇中我们学习了如何在亚马逊云科技控制台上体验该模型的每个特色功能，如文生图、图生图、图像修…

阅读更多...

认知杂谈41

认知杂谈41

今天分享有人说的一段争议性的话 I I 贫富根源在观念 I 你知道不？穷人穷啊，好多时候是因为他们自己还有家里好几代人呢，都陷在一种不对的想法里出不来，还觉得这样挺好，就一直这么过下去了。可富人的那些想法呢&am…

阅读更多...

借老系统重构机会我写了个groovy规则引擎

借老系统重构机会我写了个groovy规则引擎

公司老系统的重构计划早就有了，为了对Java硬编码的各种校验规则进行重构，特地参考了相关技术，最终选择了groovy进行了系统的学习，并编写了一个即插即用的轻量级规则引擎。文章目录项目背景技术选型groovy的性能groovy脚本执行线…

阅读更多...

Scala之父Martin Odersky作序推荐的Scala速学版（第3版）出版

Scala之父Martin Odersky作序推荐的Scala速学版（第3版）出版

Scala 是一个很有吸引力的选择。 Scala 的语法简洁， 跟 Java 的“陈词滥调”比起来让人耳目一新。它运行在 Java 虚拟机（Java virtual machine ，JVM）上，提供对大量库和工具的访问。并且，Scala 不仅仅瞄准…

阅读更多...

设计模式之适配器模式：软件世界的桥梁建筑师

设计模式之适配器模式：软件世界的桥梁建筑师

一、什么是适配器模式适配器模式（Adapter Pattern）是一种结构型设计模式（Structural Pattern），通过将类的接口转换为客户期望的另一个接口，适配器可以让不兼容的两个类一起协同工作。其核心思想是通过一个…

阅读更多...

嵌入式全栈开发学习笔记---Linux系统编程(概述)

嵌入式全栈开发学习笔记---Linux系统编程(概述)

目录入门级问题为什么要学习Linux系统？ 为什么Linux系统被嵌入式设备广泛应用？ 系统调用应用层是什么？ 系统调用和库函数有什么区别？ 为什么在应用层不能直接调用内核中的函数？ 为什么有了系统调用就安全了…

阅读更多...

Linux系统安装MySQL8.0

Linux系统安装MySQL8.0

1.查看Linux发行版 2.安装前准备 2.1.检查是否安装 rpm -qa | grep mysql 2.2.如已安装mysql，则删除 rpm -e --nodeps 包名 2.3.再次检查安装包是否全部删除 rpm -qa | grep mysql 2.4.搜索mysql文件夹 find / -name mysql 2>/dev/null 2.5.若有mysql文件夹&a…

阅读更多...

Golang | Leetcode Golang题解之第388题文件的最长绝对路径

Golang | Leetcode Golang题解之第388题文件的最长绝对路径

题目： 题解： func lengthLongestPath(input string) (ans int) {n : len(input)level : make([]int, n1)for i : 0; i < n; {// 检测当前文件的深度depth : 1for ; i < n && input[i] \t; i {depth}// 统计当前文件名的长度length, isFi…

阅读更多...

Cookie对象的缺陷与应对策略

Cookie对象的缺陷与应对策略

Cookie对象的缺陷与应对策略 1. 安全性问题：Cookie是明文的2. 存储限制：浏览器对Cookie数量和大小有限制3. 性能影响：Cookie携带过多增加网络流量4. 数据类型限制：Cookie的value值只能是字符串 💖The Begin&#x1f4…

阅读更多...

82.给定一个已排序的链表的头 head ，删除原始链表中所有重复数字的节点，只留下不同的数字。实现返回已排序的链表

82.给定一个已排序的链表的头 head ，删除原始链表中所有重复数字的节点，只留下不同的数字。实现返回已排序的链表

删除排序链表中的重复元素 II 一、题目描述 82. 删除排序链表中的重复元素 II 给定一个已排序的链表的头 head ，删除原始链表中所有重复数字的节点，只留下不同的数字。返回已排序的链表。示例 1：输入：head = [1,2,3,3,4,4,5] 输出：[1,2,5] 示例 2：输入：hea…

阅读更多...

华为云征文｜部署电影收藏管理器 Radarr

华为云征文｜部署电影收藏管理器 Radarr

华为云征文｜部署电影收藏管理器 Radarr 一、Flexus云服务器X实例介绍1.1 云服务器介绍1.2 应用场景1.3 核心竞争力二、Flexus云服务器X实例配置2.1 重置密码2.2 服务器连接2.3 安全组配置三、部署 Radarr3.1 Radarr 介绍3.2 Docker 环境搭建3.3 Radarr 部署3.4 Ra…

阅读更多...

ubuntu24安装cuda和cudnn

ubuntu24安装cuda和cudnn

一、安装cuda 确保显卡驱动正确安装终端输入： nvidia-smi显示下面结果，说明显卡驱动安装正常，可以进行下一步 1.去官网下载CUDA，需要注册账号下载 https://developer.nvidia.com/cuda-toolkit-archive由于我们显卡支持12.2&…

阅读更多...

推荐文章

最新文章