描述性统计:集中趋势和分散

news2025/1/26 15:39:50

一、说明

        在本文中,我们将深入研究描述性统计领域,探索其不同方面,包括统计类型、总体与样本、参数与统计、数据类型以及集中趋势和离散的度量。

让我幽默地向您介绍统计数据。

“统计数据就像比基尼。他们揭示的东西是暗示性的,但他们隐藏的东西是至关重要的。

给定的引述幽默地强调了统计数据可以提供有价值的见解和信息的想法,但是如果不考虑重要因素或数据没有得到彻底分析,它们也可能具有误导性或不完整。

二、统计学

        统计学是数学的一个分支,涉及:

  • 数据的收集
  • 数据分析
  • 数据的解释
  • 数据的列报

它提供了理解大量数据的工具和技术,以便得出结论并做出决策。

大致有两种类型的统计信息:

  1. 描述统计学
  2. 推论统计

        还有其他的,但就目前而言,我们只考虑它更广泛的分支。

2.1 描述统计学

        它侧重于通过提供以下信息来总结和描述数据集的主要特征:

  • 它们的平均值是多少,最常见的值是什么,
  • 它们的分布程度以及它们的整体分布。

2.2 描述统计它涉及 

  1. 集中趋势的度量
  2. 色散测量

在深入研究之前,让我们了解推理统计的一些基础知识、样本和总体之间的差异以及一些常见的数据类型。这将为我们提供学习描述性统计的原因。

2.3 推论统计

        推论统计通常在进行描述性统计后执行。

推论统计涉及根据数据样本得出结论或对更大的人口进行预测。

它使用描述性统计、概率和其他统计技术来分析样本并对总体进行推断。

2.4 推论统计下的一些主题是:

  • 关联度量
  • 假设检验
  • 回归分析

三、总体与样本的概念

        人口是指我们有兴趣研究的整个个体、物体或事件群体。

另一方面,样本是总体的子集。它是我们收集和分析的人口的较小表示,以便对整个人口进行推断。

3.1 为什么我们需要样品?

  • 由于时间、成本或物流问题等因素,从整个人口中收集数据是不可行或不切实际的。
  • 因此,我们改用代表人口的样本,并使用统计方法来得出关于人口的结论。

3.2 选择样品时我们需要注意什么?

我们对总体的推断的准确性取决于样本的代表性和所用统计方法的质量。

因此:

  1. 样本应从总体中随机选择,以避免任何bia,以便它可以捕获总体中存在的多样性和变异性
  2. 样本量应足够大,以提供可靠的数据分析,因为较大的样本量可以减少误差幅度。

四、参数与统计

        参数和统计是统计领域中用于描述与总体和样本相关的不同类型的数值的两个术语。

4.1 参数

  • 参数是指用于描述整个总体特征的数值。
  • 参数通常用希腊字母表示(例如,μ表示总体均值,σ表示总体标准差)。

4.2 统计学

  • 另一方面,统计学是指描述样本特征的数值。它们根据样本数据计算得出,用于估计或推断相应的总体参数。
  • 统计量用英文字母表示(例如,x̄ 表示样本均值,s 表示样本标准差)。

五、数据类型

给定的图像是不言自明的。

5.1 集中趋势的度量

        集中趋势度量是提供以下信息的统计度量:

  1. 分布的平均值。(平均)
  2. 分布中的中心值(中值)
  3. 分布中的公共值。(模式)

在统计学中,矩是数学计算,提供有关概率分布的形状、中心和散布的信息。第一个时刻是平均值,第二个时刻是方差(标准差平方),第三个时刻是偏度,第四个时刻是峰度。

既然我们正在研究中心趋势,所以现在我们实际上是在理解第一个时刻。

5.2 均值类型

  1. 算术平均值(简单平均值、加权平均值、修剪平均值)
  2. 几何平均数
  3. 谐波平均值

集中趋势的度量通常包括算术平均值。修剪平均值和加权平均值是算术平均值的两种变体。

几何平均值和调和平均值是集中趋势的替代度量,只能在特定上下文中使用。

5.3 算术平均值:

        它是通过将所有值相加并除以值的总数来计算的。

5.4 加权平均值:

        加权均值通过在计算均值之前为其分配权重来考虑每个值的重要性或显著性。每个值乘以其各自的权重,加权总和除以权重之和。

        当某些值与其他值相比在数据集中具有更大的影响力或重要性时,这非常有用。

5.5 修剪后的平均数:

        修剪后的平均值是通过从数据集中排除一定百分比的最高值和最低值,然后取剩余值的平均值来计算的。

        当数据中存在可能过度影响算术平均值的异常值或极值时,这很有用。

        通过修剪极值,修剪均值提供了对中心趋势的更可靠的估计。

5.6 几何平均数:

        几何平均值是集中趋势的度量,但它可能不像算术平均值那样表示数据集的确切中点或中心值。

        相反,它提供了一个受值之间整体乘法关系影响的度量或变化率。

        在值之间的相对量级或比率比其绝对值(如比率、增长率、几何序列或指数数据)更重要的情况下,几何平均值非常有用。

        它是通过取 n 个值的乘积的第 n 个根来计算的。

  • 它为较小的值赋予更多的权重,为较大的值提供更少的权重;因此,避免了由极值或异常值引起的失真。

5.7 举出例:

        人口增长:在人口统计学和生物学中,几何平均值用于衡量人口增长率。它考虑了人口规模随时间推移的相对变化。

5.8 (调和平均) 谐波平均值 

        与GM不同,它不计算变化率,而是尝试计算数量率,比率,速度或倒数的平均值。

        当您需要找到一个考虑到极值或异常值的影响同时强调较小值的贡献的平均值时,它特别有用。

        谐波平均值可减轻极值或异常值的影响。

调和平均值计算平均值

  • 取值的倒数,
  • 计算倒数的算术平均值,
  • 然后取该平均值的倒数。

        调和平均值本质上赋予较小的值更多的权重,因为它们出现在平均计算的分母中。

这使其适用于需要强调较小值或对平均值有较大影响的场景。

5.9 例如:

        考虑一个场景,您正在计算旅程的平均速度。

假设您在前半段以 60 公里/小时的速度行驶,后半段以 40 公里/小时的速度行驶。

使用算术平均值,平均速度为 (60 + 40) / 2 = 50 公里/小时。

但是,这不会提供总体平均速度的准确表示,因为您在较低的速度上花费了更多时间。

在这种情况下,您可以使用谐波平均值来计算平均速度。

使用谐波平均值,平均速度为 2 / ((1/60) + (1/40)) = 48 公里/小时。谐波平均值为较小的值(40 km/h)赋予更多的权重。这准确地反映了整个旅程的平均速度。

六. 色散测量(第二矩研究)

        它是一种统计度量,提供有关数据点如何分散的信息。

        以下是它们很重要的一些原因:

  • 它们提供有关数据集的多样性或同质性的信息。
  • 分散测量有助于评估数据的质量和可靠性,也有助于比较不同数据集的分布。
  • 如果数据点高度分散,则表明值范围更广,潜在现象的可变性可能更大。此信息可用于识别异常值、数据错误或不一致。

        不同类型的分散措施:

  1. 范围
  2. 四分位距 (IQR)
  3. 方差
  4. 标准差
  5. 变异系数
  6. 平均绝对偏差 (MAD)

6.1 范围:

  • 它是最简单的离散度量,计算为数据集中最大值和最小值之间的差值
  • 它给出了数据总分布的概念,但可能会受到异常值的影响。

四分位距 (IQR)

四分位数间距 (IQR) 是一种统计度量,表示数据集的第 25 个和第 75 个百分位数之间的范围。

这样做是为了总结中心数据点内的可变性,这些可变性通常是数据集中最有意义的值。因此,使其对异常值具有鲁棒性。

通过关注中心数据点,IQR 在数据集之间提供了更可靠的比较,尤其是当它们具有不同的大小或包含异常值时。

IQR 通常用于构建箱形图,有助于了解极值。箱形图中的框表示 IQR,中位数由框内的一条线表示。低于 Q1–1.5 * IQR 的值和高于 Q3 + 1.5 * IQR 的值被视为异常值。

6.2 方差

        方差是一种统计度量,用于度量数据点在平均值周围分布或分散的程度。

        它测量数据点与平均值的平均平方偏差。

        方差以平方项表示,因为它允许考虑与平均值的正偏差和负偏差,从而有效地捕获数据的总体分布。

        此外,对差值进行平方会放大与平均值较大偏差的影响。这一点很重要,因为较大的偏差通常表示数据集中更显著的变化或异常值

        与仅考虑中间 50% 数据的范围或四分位距 (IQR) 不同,方差考虑了整个数据集并提供全面的分布度量。

        方差不能根据数据的扩散直接解释。我们无法找到方差点差的确切大小

        为了量化数据的分布,更常用其他度量,例如范围、四分位距 (IQR) 或标准偏差。

        方差越高表示离差越大,表明数据点在均值周围更分散。相反,方差越小,表明数据点更接近平均值且分布越小。

6.3 为什么样本方差的分母中有 n-1 而不是 n?

        在样本方差公式的分母中使用 n-1 是基于自由度的概念,并且需要考虑通过估计样本数据的总体方差而引入的不确定性。

        在计算样本方差时,我们的自由度少一个,因为样本均值是已知的并用作约束。因此,通过除以 n-1 而不是 n,我们针对此约束进行调整,并提供总体方差的无偏估计。

6.4 标准差

        标准差是方差的平方根,是常用的点差度量。

它以与原始数据相同的单位表示,使其更易于解释。

与方差不同,标准差表示数据点平均偏离平均值的程度。

标准差越小表示值越接近平均值,而标准差越大表示变异性越大。

6.5 平均绝对偏差

平均绝对偏差 (MAD) 衡量数据集中的值与平均值的分布程度,而不考虑差异的方向(正或负)。

与其他度量(如标准差)相比,它受异常值的影响较小,标准差涉及对大差异进行平方。

6.6 例:

        假设您是一名为一家公司工作的人力资源分析师,您正在分析员工的薪水。薪资数据如下(数字以千为单位):

        工资 = {45,50,47,55,48,46,51,300}

        在此数据集中,值“300”表示异常值,可能是由于高管薪水高或一次性奖金明显高于其他薪水。

        在这种情况下,使用标准差来衡量工资的分散性可能不是最合适的选择。标准差将受到异常值“300”的显着影响,从而导致更大的值,并可能对典型工资差产生误导性解释。

经过计算,MAD约为46.5千美元,几乎是标准差(91.238千美元)的一半。

但是,处理这些异常比保留它们更好。它的表现可能比SD更好,但是,如果你仔细观察薪水,它们之间几乎没有5千美元的差异。

6.7 变异系数

        例如,数据集中有一个工资和年龄列,我们想找出哪个变量集具有更大的可变性。

由于工资有一个卢比单位,年龄有一个年单位,因此无法比较每个变量的 SD。

        因此,为了比较它们,我们以百分比的形式找到每个变量的相对变异性,然后比较它们之间的变异性。

        这就是变异系数的作用出现的地方。

        变异系数 (CV) 是一种统计度量,有助于比较具有不同单位的不同数据集的变异性。

        它通过查找平均值中标准差的比例来实现这一点。

        低变异系数表示数据点相对接近均值且变异性较小,而高变异系数表示变异程度较大。

6.8 为推理统计构建浸泡石

到目前为止,我们已经介绍了两个基本概念,称为集中趋势和离散度量,它们让我们了解了数据的中心值以及数据围绕其中心值的传播。

        通过可视化数据的分布,我们还可以直观地了解数据的分布,信息最多的地方,并可以分析给定数据中的异常值。如果您还记得,在学习 IQR 时,我们绘制了一个箱线图并在一条直线上表示数据点,并在此基础上尝试了解数据的分布。

七、结论

        在现实世界中,我们经常使用样本数据而不是整个人口数据,因此,我们试图得出有关人口数据的结论。但是,在根据样本数据对总体进行推断或得出结论时,我们需要评估结论的确定性或可靠性。

概率在量化与我们的结论相关的不确定性方面起着至关重要的作用。为了将统计数据与概率相结合,我们依靠概率分布,并根据这些分布,我们估计人群中发生不同事件或结果的可能性。

        因此,为了理解推论统计,我们首先需要在概率论和不同类型的概率分布中建立坚实的基础。在接下来的帖子中,我们将首先在其中建立我们的基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/894515.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

API开放!将语聚AI智能助手接入到您的自有系统中

概述 语聚AI基于集简云强大的应用软件“连接器”能力,提供了工具延展、知识延展、模型延展和嵌入集成等一系列功能,为用户带来了更加强大和智能的AI新体验。 我们深知,每家企业对于AI应用都有自己独特的需求和应用场景,只有通过开…

接口测试之Postman 安装与使用

Postman 安装 官网下载地址 www.postman.com/downloads Postman 使用 发送get请求 新建请求 填写请求方式:GET 填写请求 URL: ceshiren.com/ httpbin.ceshiren.com/get 填写请求参数: para_key para_value 发送 POST 请求 请求方式&a…

2023年的IC求职究竟有多难?

去年应移知教育要求,写了一篇关于秋招的看法《聊一聊今年的芯片就业市场》,当时提出来的点很简单: ● 处在赛道内的人要正视竞争的难度,提升自身的企业价值分; ● 想要进入赛道的人要放平心态,降低和保留…

C++ string类的模拟实现

模拟实现string类不是为了造一个更好的轮子,而是更加理解string类,从而来掌握string类的使用 string类的接口设计繁多,故而不会全部涵盖到,但是核心的会模拟实现 库中string类是封装在std的命名空间中的,所以在模拟…

ImageKit10 VCL Crack

ImageKit10 VCL Crack ImageKit10 VCL是一个允许您快速轻松地将图像处理功能添加到应用程序中的组件。使用ImageKit10 VCL,您可以编写从TWAIN扫描仪和数码相机检索图像的应用程序;加载和保存图像文件,并将图像从一种格式转换为另一种格式;编辑图像、在图…

MySQL的Json类型字段IN查询分组和优化方法

前言 MySQL从5.7的版本开始支持Json后,我时常在设计表格时习惯性地添加一个Json类型字段,用做列的冗余。毕竟Json的非结构性,存储数据更灵活,比如接口请求记录用于存储请求参数,因为每个接口入参不一致,也…

python的交互式库Qgrid

目录 Qgrid介绍Qgrid使用Qgrid使用过程中遇到的问题解决方案 Qgrid介绍 在Jupyter notebook中直接读取DataFrame数据,只显示为静态表格的形式,没有类似于excel的筛选等交互式功能。Qgrid作为 Jupyter notebook 组件,可以为我们的 DataFrame …

三本书与三场发布会,和鲸社区重新定义编程类书籍从阅读到实践新体验

当 AI 开发者社区配备 AI 基础设施开发平台工具时,它还能做什么? 答案是:过去半年,和鲸社区凭借在气象、医学、社科等垂直领域的长期积累以及多方伙伴的支持,联合举办了三场新书发布会——从 Python 到 R 语言 、从气…

程序员与ChatGPT的交织:探索人工智能和软件开发的新篇章

目录 前言创作者程序员会被替代吗程序员如何更好的使用chatgpt 前言 在技术持续进步的当今世界,程序员与人工智能(AI)之间的关系越来越紧密。特别是对于一些创新性的技术如OpenAI旗下的ChatGPT,这种联系就更为明显。程序员与Chat…

2023/8/16 华为云OCR识别驾驶证、行驶证

目录 一、 注册华为云账号开通识别驾驶证、行驶证服务 二、编写配置文件 2.1、配置秘钥 2.2、 编写配置工具类 三、接口测试 3.1、测试接口 3.2、结果 四、实际工作中遇到的问题 4.1、前端传值问题 4.2、后端获取数据问题 4.3、使用openfeign调用接口报错 4.3、前端显示问题…

python bytes基本用法

目录 1 第一个字符变大写,其余字符变小写 capitalize() 2 生成指定长度内容,然后把指定的bytes放到中间 center() 3 计数 count() 4 解码 decode() 5 是否以指定的内容结尾 endswith() 6 将制表符调整到指定大小 expandtabs() 7 寻找指…

ref拿到组件的实例对象或者原生html标签

在组件中,或者html标签中写ref属性,就是在注册引用 可以通过ref拿到组件的实例对象 也可以通过ref拿到原生的html标签

Linux系统安装及使用HHDBCS

1 安装 1.1 下载HHDBCS 使用浏览器进入官方社区(恒辉产品社区),选择HHDBCS子社区,首页点击下载,进入下载页面; 选择官网下载/云盘下载皆可。 在弹出框中选择如图所示选项,点击下载&#xff…

带着设计思维画版图——第一次和第二次

版图设计目标: 面积小,性能好(少恶化),成本低 设计规则规定了同层与不同层之间的最小距离,因此限制了最小面积 模拟版图设计流程 第一步:设计原理图输入 常用快捷键如下: 介…

YOLO算法封装进入ros系统,识别结果供其他节点订阅

一,前期工作空间搭建 新建工作空间,第一级名称可以换,第二级src最好别换,这是ros系统的固定格式 mkdir -p workspace_yolo/src切换到工作空间 workspace_yolo,进行编译构建项目 cd workspace_yolo/catkin_make输出如下所示: 添加环境变量 cd devel/ 获取到devel文件路径…

模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)

模型预测 一、导入关键包二、如何载入、分析和保存文件三、修改缺失值3.1 众数3.2 平均值3.3 中位数3.4 0填充 四、修改异常值4.1 删除4.2 替换 五、数据绘图分析5.1 饼状图5.1.1 绘制某一特征的数值情况(二分类) 5.2 柱状图5.2.1 单特征与目标特征之间的…

花生十三 判断推理(三)分析类、推出类

分析类 题型 真假分析 定义:孰真孰假的真假话分析,命题真假无法确定,无法利用推出关系解题 解题思路 矛盾法(三种矛盾):A和非A,“A或B” 与“非A且非B” 技巧:一“找”矛盾&am…

在ARM服务器上一键安装Proxmox VE(以在Oracle Cloud VPS上为例)(甲骨文)

前言 如题,具体用到的说明文档如下 virt.spiritlhl.net 具体流程 首先是按照说明,先得看看自己的服务器符不符合安装 Proxmox VE的条件 https://virt.spiritlhl.net/guide/pve_precheck.html#%E5%90%84%E7%A7%8D%E8%A6%81%E6%B1%82 有提到硬件和软…

C# 读取pcd、ply点云文件数据

最近研究了下用pcl读取点云数据,又做了个C#的dll,方便读取,同样这个dll基于pcl 最新版本1.13.1版本开发。 上次做的需要先得到点云长度,再获取数据。这次这个定义了一个PointCloudXYZ类来存数据。将下面的dll拷贝到可执行目录下&a…

边缘网络的作用及管理工具

自从引入软件即服务 (SaaS) 以来,它一直引领着全球按需软件部署创新的竞赛,它提供的灵活性以及其云计算架构带来的易于集成使其成为交付业务应用程序的标准。 在 SaaS 模型中,最佳用户体验的三重奏涉及无缝设置、低延…