机器学习中的数学基础(三):随机变量

news2025/1/18 10:53:59

机器学习中的数学基础(三):随机变量

  • 3 随机变量
    • 3.1 离散型随机变量
    • 3.2 连续型随机变量
    • 3.3 简单随机抽样
    • 3.4 似然函数
    • 3.5 极大似然估计

在看西瓜书的时候有些地方的数学推导(尤其是概率论的似然、各种分布)让我很懵逼,本科的忘光了,感觉有点懂又不太懂,基于此,干脆花一点时间简单从头归纳一下机器学习中的数学基础,也就是高数、线代、概率论(其实大学都学过)。
本文全部都是基于我自己的数学基础、尽量用方便理解的文字写的,记录的内容都是我本人记忆不太牢靠、需要时常来翻笔记复习的知识,已经完全掌握的比如极限连续性啥的都不会出现在这里。

学习内容来自这里

3 随机变量

3.1 离散型随机变量

概率函数(概率质量函数) →专为离散型随机变量定义的: p ( x ) = P r o b ( X = x ) , p(x)=Prob(X=x), p(x)=Prob(X=x), X X X是随机变量的取值, P P P是概率。

离散型随机变量概率分布: f ( x ) f(x) f(x) f ( x i ) ≥ 0 , i = 1 , 2 , . . . f(x_i)\geq 0, i=1,2,... f(xi)0,i=1,2,... ∑ f ( x i ) = 1 \sum f(x_i)=1 f(xi)=1
f ( x i ) = P ( X = x ) f(x_i)=P(X=x) f(xi)=P(X=x)就是离散型随机变量的概率函数。

3.2 连续型随机变量

连续型随机变量画不出离散型随机变量中的分布表。
概率密度→专门描述连续型随机变量的:对于连续型随机变量X,我们不能给出其取每一个值的概率,也就是画不出那个分布表。
即,假如体重范围在50~120kg,那么有没有可能一个人的体重在60.618kg呢?完全有可能,但是在连续型随机变量中,取个别点的概率为0,因为没办法计算一个点!

所以可以用区间来解决,用区间中的频数来计算这个区间的概率,绘制频率分布直方图:
在这里插入图片描述
分组越多,轮廓层次感越强,越接近一条曲线;如果组足够多,每个组里只有一个样本,那这个曲线就是描述数据的。
在这里插入图片描述
其实求密度就是求每一个区间占的面积,也就是积分。
在这里插入图片描述
分布函数肯定是越来越接近1的。

3.3 简单随机抽样

抽取的样本满足两点:
(1)样本X1,X2…Xn是相互独立的随机变量;
(2)样本X1,X2.….Xn与总体X同分布。
在这里插入图片描述
独立同分布,所以联合的可以直接累乘。

3.4 似然函数

似然:拿到了一些样本,但是不知道这些样本是受什么样的参数控制的。
举例:是否下雨有据可循,受到某种参数的影响,这就是 θ \theta θ,而x就是一天天的数据。
所以似然函数的目标是把这个 θ \theta θ整出来。

离散情况下:
在这里插入图片描述

在这里插入图片描述
也就是,拿到了一个结果以后,是什么参数使这个结果的可能性更大。

连续情况下:
在这里插入图片描述

对于离散和连续(后面的常数可以约掉),最后的结果都是一样的。

总结:
概率:给定参数 θ \theta θ时,X=x的可能性;
似然:给定样本X=x时,参数 θ \theta θ的可能性!

3.5 极大似然估计

理解:
在这里插入图片描述
找到一个参数,使得在这个参数值下,样本出现的概率最大。

怎么解?

  • 先构造似然函数:
    在这里插入图片描述
  • 对似然函数取对数,方便求解: ln L ( θ ) \text{ln} L(\theta) lnL(θ)
  • 求偏导得到 θ \theta θ值: d ln L d θ = 0 , \frac{d\text{ln}L}{d\theta}=0, dθdlnL=0虽然前面对似然函数取了对数,这会影响L的极大值,但是对数是单调递增的,并不会影响极值点。

举例:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/41459.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【学习笔记46】JavaScript购物车的实现

一、案例效果 1、将通过数据重构页面 查询数据, 渲染页面 2、全选 选中全选按钮后, 根据全选按钮的选中状态, 修改所有商品的选中状态重新渲染视图 3、清空购物车 清空商品数据重新渲染视图 4、结算 找到所有选中的商品计算所有选中商品各自的总价计算所有选中商品的总价…

【MySQL】MVCC原理分析 + 源码解读 -- 必须说透

文章目录前言一、MVCC 介绍二、MySQL MVCC 介绍三、MySQL MVCC实现原理源码分析3.1 隐式字段源码验证3.2 undo logundo log格式undo log源码验证写insert undo log源码写update undo log源码写undo log源码roll_ptr是如何指向insert undo log的?roll_ptr是如何指向update undo…

Thymeleaf模板

Thymeleaf可用于前后端分离, 下图,value"aa", 在本地静态资源可以改变值,但是在web端不可以 前端可以在本地测试,有数据了显示数据 所以前后端分离 th属性 常用th属性解读html有的属性,Thymel…

集合框架----源码解读LinkedList篇

1.LinkedList官方介绍 双链表实现的list和Deque接口。实现所有可选的列表操作,并允许所有元素(包括null)。 所有的操作都按照双链表的预期执行。索引到列表中的操作将从列表的开始或结束遍历列表,以更接近指定索引的为准。 注意,这个实现不是…

全球价值链GVC总出口分解(2011-2014年)

1、数据来源:ICIO数据库 2、时间跨度:2011-2014年 3、区域范围:世界 4、指标说明: 全球价值链分析(Global Value Chain analysis,简称GVC分析)为解决传统贸易统计中…

数据库 1.关系

从关系开始: Table的严格定义: 域就是:学生表{名字(char(20),学号(int20))}里面的char20,int20,是用来标记列的数据类型,或者说取值范围的。这个取值范围有一个大小,这个大小就是基数。 就是每种…

世界各国自然资源租金面板数据

1、数据来源:世界银行《世界发展指标数据库》 2、时间跨度:1970-2018年 3、区域范围:全球 4、指标说明: 自然资源租金总额是石油租金、天然气租金、煤炭(硬煤和软煤)租金、矿产租金和森林租金之和。 …

11.20 至 11.27 五道典型题记录: 贪心 | 应用题 | 脑筋急转弯 | 区间问题 | 双指针

11.20 至 11.27 五道典型题记录: 贪心 | 应用题 | 脑筋急转弯 | 区间问题 | 双指针 松懈了最近,要时刻保持警醒啊!学习不能停,说那么多的借口不如花一些心思去学一些知识,之所以学到的内容不成体系,一方面就…

【Java集合】集合是什么?为什么要用集合?

> 集合是什么?为什么要用集合? 保存数据会经常使用到数组,但数组存在以下几个缺陷: 长度开始时必须指定,且一旦指定,不能更改;保存的必须为同一类型的元素;使用数组进行增加元素的步骤比较麻…

MySQL 8.0 Data Dictionary显示

数据字典 对于MySQL的系统库都不会陌生,因为是基本框架,支撑着MySQL有效运行。这些系统库提供诸多功能,如:账号,表,存储过程,表空间,性能监控,配置 等基础信息。系统库目…

【前沿技术RPA】 一文了解UiPath 使用Git管理项目

🐋作者简介:博主是一位.Net开发者,同时也是RPA和低代码平台的践行者。 🐬个人主页:会敲键盘的肘子 🐰系列专栏:UiPath 🦀专栏简介:UiPath在传统的RPA(Robotic…

【soc】— spluboot校验方法

【soc】— spl/uboot校验方法 一.常规校验/外部有存储介质 针对外部有存储介质的如nandFlash,norFlash,emmc,Sd等,常用的校验方法为:headerspl/uboot header:可定义为结构体,内容包括&#x…

全国366个市县日度空气质量数据(2016-2020年)(AQI,SO2,NO2,PM2.5,PM10)

数据集名称:全国366个市县日度空气质量数据 时间范围:2016-2020年 相关说明:共收录366个市县全年全日数据,其中浓度为日均值,IAQI由浓度推算而来。IAQI为各空气质量指标对应的空气质量指数,用于对应AQI与…

多线程的初识

目录多线程线程的引入进程和线程的关系多线程可能存在的问题多线程程序的创建Thread创建第一个多线程程序线程的抢占式执行查看java进程中的所有线程用Thread的其他方法创建多线程实现Runnable接口使用匿名内部类,继承Thread使用匿名内部类实现Runnable使用Lambda表…

嵌入式Linux驱动开发笔记(未完待续。。。)

一、Git仓库用法 1、linu终端输入下面命令安装 git clone https://e.coding.net/weidongshan/linux_course/linux_basic_develop.git2、 进入到GIT仓库目录 cd /D/abc/doc_and_source_for_mcu_mpu在doc_and_source_for_mcu_mpu目录下,执行以下命令获得资料的最新…

【1752. 检查数组是否经排序和轮转得到】

来源:力扣(LeetCode) 描述: 给你一个数组 nums 。nums 的源数组中,所有元素与 nums 相同,但按非递减顺序排列。 如果 nums 能够由源数组轮转若干位置(包括 0 个位置)得到&#xf…

appnium环境搭建

一、安装JDK 官网下载对应版本直接安装 二、安装Android SDK 官网下载对应版本直接安装 https://www.androiddevtools.cn/ 三、安装安卓模拟器 我使用的是夜神模拟器,官网下载直接安装 夜神安卓模拟器-安卓模拟器电脑版下载_安卓手游模拟器_手机模拟器_官网 …

springboot整合SpringSecurity并实现简单权限控制

目录 一、SpringSecurity介绍 案例效果: 二、环境准备 2.1 数据库 2.2 项目准备 三、确保项目没问题后开始使用 3.1、Security的过滤链: 3.2、自定义用户名密码登录: 方式1:将用户名密码写在配置文件里 方式2:使…

刷题之莲子的软件工程学和机械动力学以及物理热力学

目录 1、莲子的软件工程学 1)题目 2)题目解析 3)代码 2、莲子的机械动力学 2)题目解析 3)代码 3、莲子的物理热力学 1)、题目 2)题目解析 1、莲子的软件工程学 1)题目 题目背景…

Linux下的进程控制-进程程序替换

这篇主要说一下Linux下的进程控制中最后一部分内容:进程程序替换。 文章目录1. 进程程序替换1.1 为什么要进程程序替换1.2 替换原理1.3 如何进行程序替换1.3.1 execl函数1.3.2 引入子进程的程序替换1.3.3 execv函数1.3.4 execlp函数和execvp函数1.3.5 如何执行其它…