【基础理论】描述性统计基本概念

news2025/1/16 21:37:07

一、说明

统计学是数学的一个分支,涉及数据的收集、解释、组织和解释。本博客旨在回答以下问题

1. 什么是描述性统计?2. 描述性统计的类型?3. 集中趋势的度量(平均值、中位数、模式)

4. 散布/离差度量(标准差、平均偏差、方差、百分位数、四分位数、四分位数间距)5. 什么是偏度?6. 什么是峰度?7. 什么是相关性?今天,让我们一劳永逸地理解描述性统计数据。让我们开始吧!

二、什么是描述性统计

        描述性统计涉及汇总和组织数据,以便于理解。与推论统计不同,描述性统计试图描述数据,但不试图从样本到整个总体进行推断。在这里,我们通常描述样本中的数据。这通常意味着描述性统计与推论统计不同,不是在概率论的基础上发展起来的。

2.1 描述性统计的类型?

        描述性统计分为两类。集中趋势的度量和变异性(传播)的度量。注意,这其实是非常单纯的方法。

2.2 集中趋势的度量

        集中趋势是指有一个数字最能概括整组测量值的想法,这个数字在某种程度上是该集合的“中心”。

2.2.1 平均值/平均值

        平均值或平均值是数据的集中趋势,即整个数据围绕其展开的数字。在某种程度上,它是一个可以估计整个数据集值的数字。

        让我们计算具有 8 个整数的数据集的平均值。

 

2.2.2 中位数

        中位数是将数据分成 2 个相等部分的值,即当数据按升序或降序排列时,右侧的项数与左侧的项数相同。

        注意:如果按降序对数据进行排序,则不会影响中位数,但 IQR 将为负数。我们将在本博客的后面讨论 IQR。

        如果项数为奇数,则中位数将是中间项.如果多个项是偶数,则中位数将是中间 2 项的平均值。

        中位数为 59,它将一组数字分成相等的两部分。由于集合中有偶数,答案是中间数字 51 和 67 的平均值。

注意: 当值处于算术级数时(连续项之间的差异是恒定的。这里是 2.),中位数总是等于平均值

        这 5 个数字的平均值是 6,因此是中位数。

2.2.3 频率模式

        模式是在数据集中出现的最长时间的项,即具有最高频率的项。

        在此数据集中,模式为 67,因为它具有比其他值多的值,即两次。

        但是可能存在一个数据集,其中根本没有模式,因为所有值出现的次数相同。如果两个值同时出现并且比其他值多,则数据集是双峰的。如果三个值同时出现并且比其他值多,则数据集是三峰的,对于 n 个模式,该数据集是多模态的。

2.3 扩散/分散的测量

        点差度量是指数据中可变性的概念。

2.3.1 标准差

        标准差是每个数量和平均值之间平均距离的度量。也就是说,数据如何从平均值中分布。低标准差表示数据点往往接近数据集的平均值,而高标准差表示数据点分布在更广泛的值范围内。

        在某些情况下,我们必须在样本或总体标准差之间进行选择。

        当我们被要求找到人口中某一部分的SD时,一部分人口;然后我们使用样本标准差。

        其中 x̅ 是样本的平均值。

        但是当我们必须处理整个总体时,我们使用总体标准差。

        其中μ是人口的平均数。

        虽然样本是总体的一部分,但它们的SD公式应该是相同的,但事实并非如此。要了解更多信息,请参阅此链接

        如您所知,在描述性统计中,我们通常处理样本中可用的数据,而不是总体中的数据。因此,如果我们使用前面的数据集,并替换示例公式中的值,

答案是29.62。

2.3.2 平均偏差/平均绝对偏差

        它是一组值中每个值之间的绝对差值的平均值,以及该集合中所有值的平均值。

        因此,如果我们使用以前的数据集,并替换值,

答案是23.75。

2.3.3 方差

        方差是每个数量和平均值之间平均距离的平方。也就是说,它是标准差的平方。

        答案是877.34。

2.3.4 范围

        范围是最简单的描述性统计技术之一。它是最低值和最高值之间的差异。

        范围为 99–12 = 87

2.3.5 百分比

        百分位数是一种表示值在数据集中的位置的方法。要计算百分位数,数据集中的值应始终按升序排列。

        中位数 59 在 4 个值中比自身少 8 个。也可以说是:在数据集中,59 是第 50 个百分位数,因为总项的 50% 小于 59。通常,如果 k 是第 n 个百分位数,则意味着总项的 n% 小于 k

2.3.6 四分位数

        在统计和概率中,四分位数是将数据划分为多个季度的值,前提是数据按升序排序。

        四分位数 [图片 14] (图片提供:IQR | Intro to Statistical Methods)

        有三个四分位数值。第一个四分位数值为 25%。第二个四分位数是 50 百分位数,第三个四分位数是 75 百分位数。第二个四分位数(Q2)是整个数据的中位数。第一个四分位数 (Q1) 是数据上半部分的中位数。第三四分位数(Q3)是数据下半部分的中位数。

所以在这里,通过类比,

Q2 = 67:是整个数据的 50 个百分位数,为中位数。

Q1 = 41:是数据的 25 个百分位数。

Q3 = 85:是日期的 75 个百分位数。

四分位距 (IQR) = Q3 - Q1 = 85 - 41 = 44

注意: 如果按降序对数据进行排序,IQR 将为 -44。幅度将是相同的,只是符号会有所不同。如果数据按降序排列,则负 IQR 很好。只是我们从较大的值中否定较小的值,我们更喜欢升序(Q3 - Q1)。

三、偏度

3.1 偏度定义

        偏度是实值随机变量关于其平均值的概率分布不对称性的度量。偏度值可以是正值、负值或未定义值。

        在完美正态分布中,曲线两侧的尾部是彼此的精确镜像。

        当分布向左偏斜时,曲线左侧的尾部比右侧的尾部长,并且均值小于众数。这种情况也称为负偏度。

        当分布向右倾斜时,曲线右侧的尾部比左侧的尾部长,并且均值大于众数。这种情况也称为正偏度。

        偏度 [图片 16] (图片提供:Skewness - Clojure for Data Science [Book])

3.2 如何计算偏度系数?

        要计算样本的偏度系数,有两种方法:

        1] 皮尔逊偏度第一系数(模偏度)

        2] 皮尔逊第二偏度系数(中值偏度)

        解释

  • 偏度的方向由标志给出。零意味着完全没有偏度。
  • 负值表示分布呈负偏斜。正值表示分布呈正偏态。
  • 该系数将样本分布与正态分布进行比较。值越大,分布与正态分布的差异越大。

示例问题:使用 Pearson 系数 #1 和 #2 查找具有以下特征的数据的偏度:

  • 平均值 = 50。
  • 中位数 = 56。
  • 模式 = 60。
  • 标准差 = 8.5。

皮尔逊第一偏度系数:-1.17。

皮尔逊第二偏度系数:-2.117。

注意:皮尔逊的第一个偏度系数使用该模式。因此,如果值的频率非常低,那么它将无法给出集中趋势的稳定度量。例如,这两组数据中的模式均为 9:

1, 2, 3, 4, 4, 5, 6, 7, 8, 9.

在第一组数据中,该模式仅出现两次。因此,使用皮尔逊第一偏度系数不是一个好主意。但在第二盘,

1, 2, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 6, 7, 8, 9, 10, 12, 12, 13.

模式 4 出现 8 次。因此,皮尔逊的第二偏度系数可能会给你一个合理的结果。

四、峰度

4.1 峰度定义

        对峰度测量的确切解释曾经存在争议,但现在已解决。这是关于异常值的存在。峰度是衡量数据相对于正态分布是重尾(大量异常值)还是轻尾(缺乏异常值)的度量。

峰度 [图片 19] (图片提供:MVP Programs Help — MVP Programs Help Files)

4.2 峰度有三种类型

4.2.1 中生

        峰度与正态分布峰度相似,为零。

4.2.2 钩端库尔特

        分布是峰度大于中生分布的分布。这种分布的尾巴又厚又重。如果分布曲线比中生曲线更尖峰,则称为钩端曲线。

4.2.3 鸭嘴兽

        分布是峰度小于中生分布的分布。这种分布的尾巴变薄。如果分布曲线的峰值小于中库尔特曲线,则称为鸭嘴曲线。

偏度和峰度之间的主要区别在于,偏度是指对称程度,而度是指分布异常值的存在程度。

五、相关

        相关性是一种统计技术,可以显示变量对是否相关以及相关性有多强。

相关性

  Correlation in Statistics: Correlation Analysis Explained - Statistics How To)

        相关性的主要结果称为相关系数(或“r”)。它的范围从 -1.0 到 +1.0。r 越接近 +1 或 -1,两个变量的相关性就越密切。

        如果 r 接近 0,则表示变量之间没有关系。如果 r 为正,则意味着当一个变量变大时,另一个变量变大。如果r为负,则意味着随着一个变大,另一个变小(通常称为“负”相关性)。

        我希望我已经让你对描述性统计的确切含义有所了解。这是一些基本统计技术的基本概述,可以帮助您长期理解数据科学。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/759153.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每天一道C语言编程(6):委派任务

题目描述 某侦察队接到一项紧急任务,要求在A、B、C、D、E、F六个队员中尽可能多地挑若干人,但有以下限制条件: 1)A和B两人中至少去一人; 2)A和D不能一起去; 3)A、E和F三人中要派两人去; 4)B和C都去或都不去…

使用CatBoost和SHAP进行多分类完整代码示例

CatBoost是顶尖的机器学习模型之一。凭借其梯度增强技术以及内置函数,可以在不做太多工作的情况下生成一些非常好的模型。SHAP (SHapley Additive exPlanation)是旨在解释具有独特视觉效果和性能价值的机器学习模型的输出。CatBoost和SHAP结合在一起构成了一个强大的…

《动手学深度学习》(pytorch版本)中`d2lzh_pytorch`包问题

《动手学深度学习》(pytorch版本)中d2lzh_pytorch包问题

vue3-03 todo-新增任务

步骤: todoStorage.js:定义获取任务列表的方法、将任务存储到localStorage的方法、后续需要用到的获取随机id的方法。useTodoList.js:用一个响应式变量todosRef接收任务列表的数据;使用watchEffect方法将新增的任务保存到localSt…

2023/7/16周报

摘要 论文阅读 1、题目和现有问题 2、工作流程 3、图神经网络模块 4、注意力网络 5、实验结果和分析 深度学习 1、GNN和GRU的融合 2、相关公式推导 总结 摘要 本周在论文阅读上,对基于图神经网络和改进自注意网络的会话推荐的论文进行了学习,…

i.MX6ULL(十六) linux 设备驱动

一 简介 Linux设备驱动是指驱动Linux内核与硬件设备进行通信的软件模块。设备驱动通常分为两类:字符设备驱动和块设备驱动。 设备驱动的主要功能包括: 设备初始化:在系统启动时,设备驱动需要初始化相应的硬件设备,设…

人工智能、机器学习、自然语言处理、深度学习等有啥本质的区别?

大众媒体赋予这些术语的含义通常与机器学习科学家和工程师的理解有所出入。因此,当我们使用这些术语时,给出准确的定义很重要,其关系韦恩图如图1.2所示。 图1.2 自然语言处理、人工智能、机器学习和深度学习等术语的关系韦恩图 1 人工智能 …

企业使用CRM后的三大提升

数字化转型是企业发展的重要决策,为此,很多企业使用CRM客户管理系统管理客户数据、优化业务流程,直面数字化浪潮。那么,使用CRM系统后,企业会有哪些变化呢? 一、提升客户体验 使用CRM系统后,企…

第二周周报

PCA PCA 是一种流行的统计技术,用于识别数据集中最重要的特征或模式并将其转换为较低维的表示形式。本报告将涵盖PCA的基本原理、其优点。 步骤 主成分分析是一种数学技术,可降低数据集的维数,同时保留尽可能多的信息。它通过查找主成分来…

Redis集群(Cluster和Codis)

1.为什么使用集群? 当我们遇到一个大数据量存储情况时,有两种解决方案: 纵向扩容:升级单个redis实例的配置,包括增加内存容量、磁盘容量,以及使用更高的cpu配置。 纵向扩容:简单直接。也存在一些…

98英寸带来加倍沉浸享受,三星Q80Z新品呈现大有不同的精彩

作者 | 曾响铃 文 | 响铃说 在过去几年,家电行业可以说是负重前行。在经历2022年整年寒冬后,2023年的彩电市场能否迎来一场翻身仗?这是年初被业内讨论最多的话题。 目前2023年已经过半,据奥维云网数据显示,2023年一…

InsCode Stable Diffusion 美图活动一期——即刻体验!来自 CSDN 的 SD 模型

文章目录 🔥关于活动📋前言🎯什么是 Stable Diffusion🧩Stable Diffusion 与其他 AI 艺术生成器有什么区别? 🎯开始体验 InsCode Stable Diffusion🎯试用 SD 模型生成优质人物好图🧩…

内存池是什么原理?|内存池简易模拟实现|为学习高并发内存池tcmalloc做准备

前言 那么这里博主先安利一些干货满满的专栏了! 这两个都是博主在学习Linux操作系统过程中的记录,希望对大家的学习有帮助! 操作系统Operating Syshttps://blog.csdn.net/yu_cblog/category_12165502.html?spm1001.2014.3001.5482Linux S…

在Linux系统中如何搭建Apache服务

在Linux系统中如何搭建Apache服务 Apache服务是一种开源的、跨平台的Web服务器软件,它的作用是提供网页内容给用户的Web浏览器。具体来说,Apache服务有以下几个主要的作用: 1.Web服务器:Apache是一款功能强大且广泛使用的Web服务…

54、Mysql索引的数据结构,各自优劣

Mysql索引的数据结构,各自优劣 索引的数据结构和具体存储引擎的实现有关在MySQL中使用较多的索引有Hash索引,B树索引等InnoDB存储引擎的默认索引实现为: B树索引。对于哈希索引来说,底层的数据结构就是哈希表,因此在绝大多数需求…

C++编程(三)—— C++11

文章目录 绑定器和函数对象函数对象绑定器lambda表达式 关键词与语法autonullptr右值引用 智能指针容器set和mapunordered_set和unordered_map数组链表 语言级别支持的多线程编程thread子线程如何结束主线程如何处理子线程线程间的互斥线程的同步通信机制(条件变量&…

Windows Cluster 分布式算法

在分布式系统中,都需要解决分布式一致性问题。那么,在Windows 集群中,使用了什么算法来保证集群的一致性呢——Paxos。Windows Server 故障转移集群 (WSFC) 使用 Paxos 算法在整个系统中同步更改。通过记录 Paxos Tag 值并保留历史记录&#…

连锁门店如何搭建B2B2C多用户商城系统?

现在很多的线下店铺都开始慢慢的转型线上了,想线上线下相结合,但是最近很多的商家都在问什么样的B2B2C商城系统开发适合线下店铺呢?这个问题今天加速度jsudo小编给大家一起整理如下,相信商家看完后就知道如何选择一款合适的商城系统了。 一、…

【C语言】求序列前N项和

问题描述 输入一个正整数n&#xff0c;输出2/13/25/38/5…的前n项之和&#xff08;该序列从第2项起&#xff0c;每一项的分子是前一项分子与分母的和&#xff0c;分母是前一项的分子&#xff09;&#xff0c;保留2位小数。试编写相应程序。 代码实现 #include<stdio.h>…

spring-14优化性能

原始Junit测试Spring的问题 这里的&#xff1a;第一行代码获得应用上下文对象&#xff0c;第二行代码获得你那个对象 2、原先测试找junit&#xff0c;现在测试找spring&#xff0c;然后再找&#xff0c;junit&#xff0c;告诉我配置文件是什么&#xff0c;然后注入测试对象&am…