【机器学习】数学知识:标准差,方差,协方差,平均数,中位数,众数

news2024/11/18 15:33:28

标准差、方差和协方差是统计学中重要的概念,用于描述数据的分散程度和变量之间的关系。以下是它们的定义和公式:

1. 标准差 (Standard Deviation)

标准差是方差的平方根,表示数据的分散程度,以与数据相同的单位表示。

  • 公式
    • 对于样本: s = \sqrt{s^2}
    • 对于总体: \sigma = \sqrt{\sigma^2}

2. 方差 (Variance)

方差是衡量一组数据与其均值之间偏差的平方的平均值。它表示数据的分散程度。

  • 公式
    • 对于样本数据: s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
    • 对于总体数据: \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
    • 其中,x_i 是每个数据点,\bar{x} 是样本均值,\mu 是总体均值,n 是样本大小,N 是总体大小。

3. 协方差 (Covariance)

协方差是衡量两个变量之间关系的度量,表示它们如何一起变化。正协方差表示两个变量同向变化,负协方差表示它们反向变化。

  • 公式
    • 对于样本数据: \text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
    • 对于总体数据: \text{Cov}(X, Y) = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu_x)(y_i - \mu_y)
    • 其中,X 和 Y 是两个随机变量,x_i​ 和 y_i​ 是它们的观测值,\bar{x}\bar{y}​ 是它们的均值,\mu_x\mu_y​ 是总体均值。

这些概念在数据分析、概率论和统计学中非常重要,能够帮助理解数据的分布和变量之间的关系。


中位数、平均数和众数是描述数据集中趋势的三种常用统计量。各有其适用场景和统计意义,选择哪一个更具统计意义取决于数据的性质和分析目的。以下是它们的定义和计算方法及其适用情况:

4. 平均数 (Mean)

平均数是所有数据点的总和除以数据点的数量,通常被称为算术平均数。

  • 公式

        \text{Mean} = \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i 其中,x_i 是每个数据点,n 是数据点的总数量。

  • 优点
    • 平均数利用了所有数据点的信息,能反映整体水平。
    • 在正态分布的情况下,平均数是一个非常有效的集中趋势的指标。
  • 缺点
    • 对极端值(离群值)敏感。极端大或小的值会显著影响平均数,从而使其不能准确反映数据的中心趋势。
  • 适用情况
    • 当数据分布接近正态分布且没有显著的离群值时,平均数是一个很好的集中趋势度量。

5. 中位数 (Median)

中位数是将数据按升序排列后,位于中间位置的数值。如果数据点数量为奇数,中位数是中间的数;如果为偶数,中位数是中间两个数的平均值。

  • 计算方法
    • 将数据按升序排列。
    • 如果 n 是奇数: \text{Median} = x_{\left(\frac{n+1}{2}\right)}
    • 如果 n 是偶数: \text{Median} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)}}{2}
  • 优点
    • 中位数不受极端值的影响,因此在数据中存在离群值或数据分布不对称的情况下,它能更准确地反映数据的中心位置。
  • 缺点
    • 中位数不考虑所有数据点的信息,仅依赖于数据的顺序。
  • 适用情况
    • 当数据分布不对称或存在离群值时,中位数是更好的集中趋势度量。

6. 众数 (Mode)

众数是数据集中出现次数最多的数值。一个数据集可以有一个众数(单众数),多个众数(多众数),或没有众数(如果所有数出现的次数相同)。

  • 计算方法
    • 统计每个数值出现的频率,找出出现次数最多的数值。
  • 优点
    • 众数能显示最常见的数据值,适用于定性数据(分类数据)。
    • 在某些情况下,众数可以提供重要的信息,特别是在分析类别数据时。
  • 缺点
    • 数据集中可能没有众数(所有数值出现的次数相同),或有多个众数(多众数),这可能会使其统计意义不明确。
  • 适用情况
    • 当关注最常见的值或类别时,众数是一个重要的指标。

举例说明

假设有以下数据集:3, 7, 7, 2, 5, 9, 3

  • 平均数

    \text{Mean} = \frac{3 + 7 + 7 + 2 + 5 + 9 + 3}{7} = \frac{36}{7} \approx 5.14
  • 中位数: 排序后数据集为:2, 3, 3, 5, 7, 7, 9 由于有7个数(奇数),中位数为第4个数:

    \text{Median} = 5
  • 众数: 7出现的次数最多(2次),因此众数为:

    \text{Mode} = 7

这些统计量可以帮助我们了解数据的中心位置和分布特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2242889.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构习题——有效的括号(栈),栈与队列和互相实现,循环队列的实现

文章目录 前言1、有效的括号题目思路代码 2、用队列实现栈题目思路代码 3、用栈实现对列题目思路代码 4、设计循环队列4.1循环队列的概念和了解题目思路代码 总结 前言 继上篇博客学习了栈与队列之后,今天我们来尝试着使用他们来写一些题目,话不多说&…

Java连接MySQL(测试build path功能)

Java连接MySQL(测试build path功能) 实验说明下载MySQL的驱动jar包连接测试的Java代码 实验说明 要测试该情况,需要先安装好MySQL的环境,其实也可以通过测试最后提示的输出来判断build path是否成功,因为如果不成功会直…

计算机组成原理——高速缓存

标记表示——主存块号和缓存块之前的一一对应关系

Java面试之多线程并发篇(5)

前言 本来想着给自己放松一下,刷刷博客,突然被几道面试题难倒!常用的线程池有哪些?简述一下你对线程池的理解?Java程序是如何执行的?锁的优化机制了解吗?说说进程和线程的区别?似乎…

JavaWeb之AJAX

前言 这一节讲JavaWeb之AJAX 1.概述 以前我们在servlet中得到数据,必须通过域给jsp,然后jsp在响应给浏览器 纯html不能获取servlet返回数据 所以我们用jsp 但是现在我们可以同AJAX给返回数据了 我们可以在sevlet中直接通过AJAX返回给浏览器 html中的J…

深入剖析String类的底层实现原理

嘿嘿,家人们,今天咱们来模拟实现string,好啦,废话不多讲,开干! 1:string.h 1.1:构造函数与拷贝构造函数 1.1.1:写法一 1.1.2:写法二(给缺省值) 1.2:赋值运算符重载与operatror[]获取元素 1.3:容量与迭代器 1.4:reserve与resize 1.5:清空与判断是否为空 1.6:push_back与…

【Go】-bufio库解读

目录 Reader和Writer接口 bufio.Reader/Writer 小结 其他函数-Peek、fill Reader小结 Writer Scanner结构体 缓冲区对于网络数据读写的重要性 Reader和Writer接口 在net/http包生成的Conn 接口的实例中有两个方法叫做Read和Write接口 type Conn interface {Read(b []b…

el-form el-table 前端排序+校验+行编辑

一、页面 <template><div class"bg" v-if"formData.mouldData?.length 0">当前暂无模板&#xff0c;点击<view class"add" click"addMould">立即创建</view></div><div v-else><el-col :x…

解决Docker环境变量的配置的通用方法

我们部署的很多服务都是以Docker容器的形式存在的。 在运行Docker容器前&#xff0c;除了设置网络、数据卷之外&#xff0c;还需要设置各种各样的环境变量。 有时候&#xff0c;由于容器版本的问题&#xff0c;一些文档没有及时更新&#xff0c;可能同时存在多个新旧版本的环…

使用win32com将ppt(x)文件转换为pdf文件

本文来记录下如何使用win32com将ppt(x)文件转换为pdf文件 文章目录 win32com概述win32com优缺点代码实例本文小结 win32com概述 Pywin32 是一个用于与 Microsoft Windows 操作系统交互的 Python 扩展模块&#xff0c;它提供了对多个 Windows API 的访问&#xff0c;包括对 Mic…

【nginx】client timed out和send_timeout的大小设置

websocket连接会断开&#xff0c;抓包检查后发现是中间的代理服务器nginx断开的&#xff0c;同时将后端和浏览器都断开了。将nginx日志调到debug级别后&#xff0c;有下面的断开信息。 [info] 125923#125923: *34 client timed out (110: Connection timed out) while proxyin…

代码段数据段的划分

DPL DPL存储在段描述符中&#xff0c;规定访问该段的权限级别(Descriptor Privilege Level) CPL CPL是当前进程的权限级别(Current Privilege Level)&#xff0c;是当前正在指向的代码段所在段的成绩&#xff0c;也就是CS段的DPL RPL RPL说明的是进程对段访问的请求权限(Re…

游戏引擎学习第14天

视频参考:https://www.bilibili.com/video/BV1iNUeYEEj4/ 1. 为什么关注内存管理&#xff1f; 内存分配是潜在的失败点&#xff1a; 每次进行内存分配&#xff08;malloc、new等&#xff09;时&#xff0c;都可能失败&#xff08;例如内存不足&#xff09;。这种失败会引入不稳…

基于Java Springboot电商个性化推荐系统

一、作品包含 源码数据库设计文档万字PPT全套环境和工具资源部署教程 二、项目技术 前端技术&#xff1a;Html、Css、Js、Vue、Element-ui 数据库&#xff1a;MySQL 后端技术&#xff1a;Java、Spring Boot、MyBatis 三、运行环境 开发工具&#xff1a;IDEA/eclipse 数据…

react中如何在一张图片上加一个灰色蒙层,并添加事件?

最终效果&#xff1a; 实现原理&#xff1a; 移动到图片上的时候&#xff0c;给img加一个伪类 &#xff01;&#xff01;此时就要地方要注意了&#xff0c;因为img标签是闭合的标签&#xff0c;无法直接添加 伪类&#xff08;::after&#xff09;&#xff0c;所以 我是在img外…

基于Java Springboot拍卖行系统

一、作品包含 源码数据库设计文档万字PPT全套环境和工具资源部署教程 二、项目技术 前端技术&#xff1a;Html、Css、Js、Vue、Element-ui 数据库&#xff1a;MySQL 后端技术&#xff1a;Java、Spring Boot、MyBatis 三、运行环境 开发工具&#xff1a;IDEA/eclipse 数据…

HTML5+CSS前端开发【保姆级教学】+前端介绍和软件安装

学习了基础编程刚刚开始学习计算机的程序员&#xff0c;你是否会这样的想法:前端和后端是什么呢&#xff1f;如果你是刚上大学的大一大二基础小白&#xff0c;但是身边的卷王同学已经超前知道之后要从事前后端开发了&#xff0c;并且在学习各种框架的课程&#xff0c;Aahhahah,…

Android Framework层介绍

文章目录 前言一、Android Framework 层概述二、主要组件1. 应用程序接口&#xff08;API&#xff09;2. 系统服务3. Binder4. 资源管理5. Content Provider6. 广播接收器&#xff08;BroadcastReceiver&#xff09;7. 服务&#xff08;Service&#xff09; 三、与 Linux Kerne…

【C++滑动窗口】1248. 统计「优美子数组」|1623

本文涉及的基础知识点 C算法&#xff1a;滑动窗口及双指针总结 LeetCode1248. 统计「优美子数组」 给你一个整数数组 nums 和一个整数 k。如果某个连续子数组中恰好有 k 个奇数数字&#xff0c;我们就认为这个子数组是「优美子数组」。 请返回这个数组中 「优美子数组」 的数…

【paper】分布式无人水下航行器围捕智能目标

An Effective Strategy for Distributed Unmanned Underwater Vehicles to Encircle and Capture Intelligent Targets2022.8IEEE TRANSACTIONS ON INDUSTRIAL ELECTRONICS【Q1 7.5】Mingzhi Chen 上海理工大学 Q1 Background&#xff1a;本文试图解决一个什么样的问题&#xf…