一、说明
让我幽默地向您介绍统计数据。
“统计数据就像比基尼。他们揭示的东西是暗示性的,但他们隐藏的东西是至关重要的。
给定的引述幽默地强调了统计数据可以提供有价值的见解和信息的想法,但是如果不考虑重要因素或数据没有得到彻底分析,它们也可能具有误导性或不完整。
二、统计学
统计学是数学的一个分支,涉及:
- 数据的收集
- 数据分析
- 数据的解释
- 数据的列报
它提供了理解大量数据的工具和技术,以便得出结论并做出决策。
大致有两种类型的统计信息:
- 描述统计学
- 推论统计
还有其他的,但就目前而言,我们只考虑它更广泛的分支。
2.1 描述统计学
它侧重于通过提供以下信息来总结和描述数据集的主要特征:
- 它们的平均值是多少,最常见的值是什么,
- 它们的分布程度以及它们的整体分布。
2.2 描述统计它涉及
- 集中趋势的度量
- 色散测量
在深入研究之前,让我们了解推理统计的一些基础知识、样本和总体之间的差异以及一些常见的数据类型。这将为我们提供学习描述性统计的原因。
2.3 推论统计
推论统计通常在进行描述性统计后执行。
推论统计涉及根据数据样本得出结论或对更大的人口进行预测。
它使用描述性统计、概率和其他统计技术来分析样本并对总体进行推断。
2.4 推论统计下的一些主题是:
- 关联度量
- 假设检验
- 回归分析
三、总体与样本的概念
人口是指我们有兴趣研究的整个个体、物体或事件群体。
另一方面,样本是总体的子集。它是我们收集和分析的人口的较小表示,以便对整个人口进行推断。
3.1 为什么我们需要样品?
- 由于时间、成本或物流问题等因素,从整个人口中收集数据是不可行或不切实际的。
- 因此,我们改用代表人口的样本,并使用统计方法来得出关于人口的结论。
3.2 选择样品时我们需要注意什么?
我们对总体的推断的准确性取决于样本的代表性和所用统计方法的质量。
因此:
- 样本应从总体中随机选择,以避免任何bia,以便它可以捕获总体中存在的多样性和变异性。
- 样本量应足够大,以提供可靠的数据分析,因为较大的样本量可以减少误差幅度。
四、参数与统计
参数和统计是统计领域中用于描述与总体和样本相关的不同类型的数值的两个术语。
4.1 参数
- 参数是指用于描述整个总体特征的数值。
- 参数通常用希腊字母表示(例如,μ表示总体均值,σ表示总体标准差)。
4.2 统计学
- 另一方面,统计学是指描述样本特征的数值。它们根据样本数据计算得出,用于估计或推断相应的总体参数。
- 统计量用英文字母表示(例如,x̄ 表示样本均值,s 表示样本标准差)。
五、数据类型
给定的图像是不言自明的。
5.1 集中趋势的度量
集中趋势度量是提供以下信息的统计度量:
- 分布的平均值。(平均)
- 分布中的中心值(中值)
- 分布中的公共值。(模式)
在统计学中,矩是数学计算,提供有关概率分布的形状、中心和散布的信息。第一个时刻是平均值,第二个时刻是方差(标准差平方),第三个时刻是偏度,第四个时刻是峰度。
既然我们正在研究中心趋势,所以现在我们实际上是在理解第一个时刻。
5.2 均值类型
- 算术平均值(简单平均值、加权平均值、修剪平均值)
- 几何平均数
- 谐波平均值
集中趋势的度量通常包括算术平均值。修剪平均值和加权平均值是算术平均值的两种变体。
几何平均值和调和平均值是集中趋势的替代度量,只能在特定上下文中使用。
5.3 算术平均值:
它是通过将所有值相加并除以值的总数来计算的。
5.4 加权平均值:
加权均值通过在计算均值之前为其分配权重来考虑每个值的重要性或显著性。每个值乘以其各自的权重,加权总和除以权重之和。
当某些值与其他值相比在数据集中具有更大的影响力或重要性时,这非常有用。
5.5 修剪后的平均数:
修剪后的平均值是通过从数据集中排除一定百分比的最高值和最低值,然后取剩余值的平均值来计算的。
当数据中存在可能过度影响算术平均值的异常值或极值时,这很有用。
通过修剪极值,修剪均值提供了对中心趋势的更可靠的估计。
5.6 几何平均数:
几何平均值是集中趋势的度量,但它可能不像算术平均值那样表示数据集的确切中点或中心值。
相反,它提供了一个受值之间整体乘法关系影响的度量或变化率。
在值之间的相对量级或比率比其绝对值(如比率、增长率、几何序列或指数数据)更重要的情况下,几何平均值非常有用。
它是通过取 n 个值的乘积的第 n 个根来计算的。
- 它为较小的值赋予更多的权重,为较大的值提供更少的权重;因此,避免了由极值或异常值引起的失真。
5.7 举出例:
人口增长:在人口统计学和生物学中,几何平均值用于衡量人口增长率。它考虑了人口规模随时间推移的相对变化。
5.8 (调和平均) 谐波平均值
与GM不同,它不计算变化率,而是尝试计算数量率,比率,速度或倒数的平均值。
当您需要找到一个考虑到极值或异常值的影响同时强调较小值的贡献的平均值时,它特别有用。
谐波平均值可减轻极值或异常值的影响。
调和平均值计算平均值
- 取值的倒数,
- 计算倒数的算术平均值,
- 然后取该平均值的倒数。
调和平均值本质上赋予较小的值更多的权重,因为它们出现在平均计算的分母中。
这使其适用于需要强调较小值或对平均值有较大影响的场景。
5.9 例如:
考虑一个场景,您正在计算旅程的平均速度。
假设您在前半段以 60 公里/小时的速度行驶,后半段以 40 公里/小时的速度行驶。
使用算术平均值,平均速度为 (60 + 40) / 2 = 50 公里/小时。
但是,这不会提供总体平均速度的准确表示,因为您在较低的速度上花费了更多时间。
在这种情况下,您可以使用谐波平均值来计算平均速度。
使用谐波平均值,平均速度为 2 / ((1/60) + (1/40)) = 48 公里/小时。谐波平均值为较小的值(40 km/h)赋予更多的权重。这准确地反映了整个旅程的平均速度。
六. 色散测量(第二矩研究)
它是一种统计度量,提供有关数据点如何分散的信息。
以下是它们很重要的一些原因:
- 它们提供有关数据集的多样性或同质性的信息。
- 分散测量有助于评估数据的质量和可靠性,也有助于比较不同数据集的分布。
- 如果数据点高度分散,则表明值范围更广,潜在现象的可变性可能更大。此信息可用于识别异常值、数据错误或不一致。
不同类型的分散措施:
- 范围
- 四分位距 (IQR)
- 方差
- 标准差
- 变异系数
- 平均绝对偏差 (MAD)
6.1 范围:
- 它是最简单的离散度量,计算为数据集中最大值和最小值之间的差值。
- 它给出了数据总分布的概念,但可能会受到异常值的影响。
四分位距 (IQR)
四分位数间距 (IQR) 是一种统计度量,表示数据集的第 25 个和第 75 个百分位数之间的范围。
这样做是为了总结中心数据点内的可变性,这些可变性通常是数据集中最有意义的值。因此,使其对异常值具有鲁棒性。
通过关注中心数据点,IQR 在数据集之间提供了更可靠的比较,尤其是当它们具有不同的大小或包含异常值时。
IQR 通常用于构建箱形图,有助于了解极值。箱形图中的框表示 IQR,中位数由框内的一条线表示。低于 Q1–1.5 * IQR 的值和高于 Q3 + 1.5 * IQR 的值被视为异常值。
6.2 方差
方差是一种统计度量,用于度量数据点在平均值周围分布或分散的程度。
它测量数据点与平均值的平均平方偏差。
方差以平方项表示,因为它允许考虑与平均值的正偏差和负偏差,从而有效地捕获数据的总体分布。
此外,对差值进行平方会放大与平均值较大偏差的影响。这一点很重要,因为较大的偏差通常表示数据集中更显著的变化或异常值。
与仅考虑中间 50% 数据的范围或四分位距 (IQR) 不同,方差考虑了整个数据集并提供全面的分布度量。
方差不能根据数据的扩散直接解释。我们无法找到方差点差的确切大小。
为了量化数据的分布,更常用其他度量,例如范围、四分位距 (IQR) 或标准偏差。
方差越高表示离差越大,表明数据点在均值周围更分散。相反,方差越小,表明数据点更接近平均值且分布越小。
6.3 为什么样本方差的分母中有 n-1 而不是 n?
在样本方差公式的分母中使用 n-1 是基于自由度的概念,并且需要考虑通过估计样本数据的总体方差而引入的不确定性。
在计算样本方差时,我们的自由度少一个,因为样本均值是已知的并用作约束。因此,通过除以 n-1 而不是 n,我们针对此约束进行调整,并提供总体方差的无偏估计。
6.4 标准差
标准差是方差的平方根,是常用的点差度量。
它以与原始数据相同的单位表示,使其更易于解释。
与方差不同,标准差表示数据点平均偏离平均值的程度。
标准差越小表示值越接近平均值,而标准差越大表示变异性越大。
6.5 平均绝对偏差
平均绝对偏差 (MAD) 衡量数据集中的值与平均值的分布程度,而不考虑差异的方向(正或负)。
与其他度量(如标准差)相比,它受异常值的影响较小,标准差涉及对大差异进行平方。
6.6 例:
假设您是一名为一家公司工作的人力资源分析师,您正在分析员工的薪水。薪资数据如下(数字以千为单位):
工资 = {45,50,47,55,48,46,51,300}
在此数据集中,值“300”表示异常值,可能是由于高管薪水高或一次性奖金明显高于其他薪水。
在这种情况下,使用标准差来衡量工资的分散性可能不是最合适的选择。标准差将受到异常值“300”的显着影响,从而导致更大的值,并可能对典型工资差产生误导性解释。
经过计算,MAD约为46.5千美元,几乎是标准差(91.238千美元)的一半。
但是,处理这些异常比保留它们更好。它的表现可能比SD更好,但是,如果你仔细观察薪水,它们之间几乎没有5千美元的差异。
6.7 变异系数
例如,数据集中有一个工资和年龄列,我们想找出哪个变量集具有更大的可变性。
由于工资有一个卢比单位,年龄有一个年单位,因此无法比较每个变量的 SD。
因此,为了比较它们,我们以百分比的形式找到每个变量的相对变异性,然后比较它们之间的变异性。
这就是变异系数的作用出现的地方。
变异系数 (CV) 是一种统计度量,有助于比较具有不同单位的不同数据集的变异性。
它通过查找平均值中标准差的比例来实现这一点。
低变异系数表示数据点相对接近均值且变异性较小,而高变异系数表示变异程度较大。
6.8 为推理统计构建浸泡石
到目前为止,我们已经介绍了两个基本概念,称为集中趋势和离散度量,它们让我们了解了数据的中心值以及数据围绕其中心值的传播。
通过可视化数据的分布,我们还可以直观地了解数据的分布,信息最多的地方,并可以分析给定数据中的异常值。如果您还记得,在学习 IQR 时,我们绘制了一个箱线图并在一条直线上表示数据点,并在此基础上尝试了解数据的分布。
七、结论
在现实世界中,我们经常使用样本数据而不是整个人口数据,因此,我们试图得出有关人口数据的结论。但是,在根据样本数据对总体进行推断或得出结论时,我们需要评估结论的确定性或可靠性。
概率在量化与我们的结论相关的不确定性方面起着至关重要的作用。为了将统计数据与概率相结合,我们依靠概率分布,并根据这些分布,我们估计人群中发生不同事件或结果的可能性。
因此,为了理解推论统计,我们首先需要在概率论和不同类型的概率分布中建立坚实的基础。在接下来的帖子中,我们将首先在其中建立我们的基础。