一、介绍
数据科学的核心是统计学,它已经存在了几个世纪,但在当今的数字时代仍然至关重要。为什么?因为基本的统计概念是数据分析的支柱,使我们能够理解每天生成的大量数据。这就像与数据对话,统计学可以帮助我们提出正确的问题并理解数据试图讲述的故事。
从预测未来趋势、根据数据做出决策,到检验假设和衡量绩效,统计学是数据驱动决策背后的洞察力的工具。它是原始数据和可付诸行动的洞察力之间的桥梁,是数据科学不可或缺的一部分。
在本文中,我整理了每个数据科学初学者都应该知道的 15 个基本统计概念!
二、基本统计概念
1. 统计抽样和数据收集
我们将学习一些基本的统计学概念,但在深入数据海洋之前,了解数据来自哪里以及我们如何收集数据是至关重要的。这就是总体、样本和各种抽样技术发挥作用的地方。
假设我们想知道一个城市居民的平均身高。测量每个人的身高是可行的,所以我们会选取一个较小的群体(样本)来代表更大的人口。诀窍在于我们如何选择这个样本。随机、分层或集群抽样等技术可确保我们的样本具有良好的代表性,最大限度地减少偏差并使我们的研究结果更可靠。
通过了解人群和样本,我们可以自信地将我们的见解从样本扩展到整个人群,从而无需调查每个人即可做出明智的决策。
2.数据类型和测量尺度
数据有多种类型,了解所处理的数据类型对于选择正确的统计工具和技术至关重要。
定量和定性数据
- 定量数据:这种类型的数据都是数字。它是可测量的,可用于数学计算。定量数据告诉我们“多少”或“多少”,例如访问网站的用户数量或城市的温度。它直截了当且客观,通过数值提供清晰的画面。
- 定性数据:相反,定性数据处理的是特征和描述。它与“什么类型”或“哪个类别”有关。可以将其视为描述品质或属性的数据,例如汽车的颜色或书籍的类型。这些数据是主观的,基于观察而不是测量。
四种测量尺度
- 名义尺度:这是最简单的测量形式,用于对数据进行无特定顺序的分类。例如,菜系、血型或国籍。它是一种没有任何量化价值的标签。
- 序数尺度:数据可以在此排序或排名,但值之间的间隔未定义。想象一下满意度调查,其中包含满意、中立和不满意等选项。它告诉我们顺序,但没有告诉我们排名之间的距离。
- 间隔标度:间隔标度对数据进行排序,并量化条目之间的差异。但是,没有实际的零点。一个很好的例子是摄氏温度;10°C 和 20°C 之间的差异与 20°C 和 30°C 之间的差异相同,但 0°C 并不意味着没有温度。
- 比率标度:最有信息量的标度具有间隔标度的所有属性以及有意义的零点,可以准确比较量级。例如体重、身高和收入。在这里,我们可以说某物是另一物的两倍。
3.描述统计
想象一下,描述性统计是您与数据的第一次约会。它是关于了解基础知识,即描述您面前事物的大致轮廓。描述性统计有两种主要类型:集中趋势和变异性测量。
集中趋势测量:这些就像数据的重心。它们为我们提供了一个典型或代表数据集的单一值。
平均值:平均值是通过将所有值相加并除以值的数量来计算的。这就像根据所有评论对餐厅的总体评分。平均值的数学公式如下:
中位数:数据从小到大排序时中间的值。如果观测值的数量是偶数,则为两个中间数字的平均值。它用于查找桥梁的中间点。
如果 n 为偶数,则中位数是两个中心数的平均数。
众数:它是 数据集中最常出现的值。可以把它想象成餐馆里最受欢迎的菜肴。
变异性测量:集中趋势测量将我们带到中心,而变异性测量则告诉我们有关扩散或分散的信息。
范围:最高值与最低值之间的差值。它给出了传播的基本概念。
方差:测量集合中每个数字与平均值的差距,从而测量集合中每个其他数字的差距。对于样本,方差计算如下:
标准差: 方差的平方根衡量了与平均值之间的平均距离。这就像评估面包师制作的蛋糕大小的一致性。它表示为:
在我们进入下一个基本统计概念之前,这里为您提供一份统计分析初学者指南!
4.数据可视化
数据可视化是用数据讲故事的艺术和科学。它将我们分析的复杂结果转化为有形且可理解的东西。这对于探索性数据分析至关重要,因为探索性数据分析的目标是从数据中发现模式、相关性和见解,而无需得出正式结论。
- 图表和图形:从基础开始,条形图、折线图和饼图提供了对数据的基本见解。它们是数据可视化的 ABC,对于任何数据讲述者来说都是必不可少的。
下面我们有一个条形图(左)和折线图(右)的示例。
- 高级可视化:随着我们深入研究,热图、散点图和直方图可以进行更细致的分析。这些工具有助于识别趋势、分布和异常值。
以下是散点图和直方图的示例
可视化连接了原始数据和人类认知,使我们能够快速解释和理解复杂的数据集。
5.概率基础
概率是统计语言的语法。它与事件发生的机会或可能性有关。理解概率概念对于解释统计结果和做出预测至关重要。
- 独立事件和依赖事件:
- 独立事件:一个事件的结果不会影响另一个事件的结果。就像抛硬币一样,一次抛出正面不会改变下一次抛出的概率。
- 相关事件:一个事件的结果会影响另一个事件的结果。例如,如果你从牌堆中抽出一张牌,但没有将其替换,你抽到另一张特定牌的几率就会发生变化。
概率为数据推断提供了基础,对于理解统计意义和假设检验至关重要。
6. 常见概率分布
概率分布就像统计生态系统中的不同物种,每种物种都适应其应用领域。
- 正态分布:由于其形状,通常被称为钟形曲线,这种分布的特征是其平均值和标准差。这是许多统计测试中的常见假设,因为现实世界中许多变量自然地以这种方式分布。
一组称为经验规则或 68-95-99.7 规则的规则总结了正态分布的特征,描述了数据如何围绕平均值分布。
68-95-99.7 规则(经验规则)
该规则适用于完全正态分布,并概述如下:
- 68%的数据落在平均值 (μ) 的一个标准差 (σ) 范围内。
- 95%的数据在平均值的两个标准差范围内。
- 约99.7%的数据在平均值的三个标准差范围内。
二项分布:此分布适用于多次重复两种结果(如成功或失败)的情况。它有助于模拟诸如抛硬币或进行真/假测试之类的事件。
泊松分布计算特定间隔或空间内某事发生的次数。它非常适合事件独立且持续发生的情况,例如您每天收到的电子邮件。
每种分布都有自己的一套公式和特征,选择正确的分布取决于数据的性质以及您要查找的内容。了解这些分布可让统计学家和数据科学家对现实世界的现象进行建模并准确预测未来事件。
7. 假设检验
假设检验可以视为统计学中的侦探工作。它是一种测试有关我们数据的特定理论是否正确的方法。这个过程从两个相反的假设开始:
- 零假设(H0):这是默认假设,表明存在影响或差异。意思是“这里没有什么新东西。”
- Al“备选假设(H1 或 H)”:这挑战了现状,提出了一种影响或差异。它声称“正在发生一些有趣的事情。”
示例:测试新的饮食计划与不遵循任何饮食相比是否会导致体重减轻。
- 零假设 (H0):新的饮食计划不会导致体重减轻(遵循新饮食计划的人和不遵循新饮食计划的人的体重减轻程度没有差异)。
- 备择假设(H1):新的饮食计划会导致体重减轻(遵循该计划的人和不遵循该计划的人的体重减轻程度存在差异)。
假设检验涉及根据证据(我们的数据)在这两者之间进行选择。
I 类和 II 类错误及重要性水平:
- 第一类错误:当我们错误地拒绝原假设时,就会发生这种情况。它会让无辜的人被定罪。
- 第二类错误:当我们无法拒绝错误的零假设时,就会发生这种情况。它会让有罪的人逍遥法外。
- 显著性水平 (α):这是 决定多少证据足以拒绝零假设的阈值。它通常设置为 5% (0.05),表示发生 I 类错误的风险为 5%。
8. 置信区间
置信区间为我们提供了一个值的范围,我们预计有效总体参数(如平均值或比例)会以一定的置信水平(通常为 95%)落在这个范围内。这就像预测一个运动队的最终得分,并留有误差范围;我们会说,“我们有 95% 的把握,真实得分会在这个范围内。”
构建和解释置信区间有助于我们了解估计的精确度。区间越宽,我们的估计就越不精确,反之亦然。
上图说明了统计学中的置信区间 (CI) 的概念,使用样本分布及其围绕样本均值的 95% 置信区间。
以下是图中关键组件的细分:
- 样本分布(灰色直方图):这表示从平均值为 50、标准差为 10 的正态分布中随机生成的 100 个数据点的分布。直方图直观地描述了数据点如何分布在平均值周围。
- 样本均值(红色虚线):此线表示样本数据的均值。它作为我们构建置信区间的点估计值。在本例中,它代表所有样本值的平均值。
- 95% 置信区间(蓝色虚线):这两条线标记了样本平均值周围 95% 置信区间的下限和上限。区间是使用平均值的标准误差 (SEM) 和与所需置信水平相对应的 Z 分数(95% 置信度为 1.96)计算的。置信区间表明我们有 95% 的信心认为总体平均值位于此范围内。
9.相关性和因果关系
相关性和因果关系经常被混淆,但它们是不同的:
- 相关性:表示两个变量之间的关系或关联。当一个变量发生变化时,另一个变量也趋于变化。相关性通过相关系数来衡量,相关系数的范围从 -1 到 1。值越接近 1 或 -1,表示相关性越强,而 0 则表示没有关系。
- 因果关系:它意味着一个变量的变化直接导致另一个变量的变化。它比相关性更有说服力,需要严格的测试。
两个变量相关并不意味着其中一个变量会导致另一个变量。这是不要混淆“相关性”和“因果关系”的典型例子。
10.简单线性回归
简单线性回归是一种通过将线性方程拟合到观测数据来模拟两个变量之间关系的方法。一个变量被视为解释变量(独立变量),另一个变量被视为因变量。
简单线性回归有助于我们了解自变量的变化如何影响因变量。它是一种强大的预测工具,也是许多其他复杂统计模型的基础。通过分析两个变量之间的关系,我们可以对它们将如何相互作用做出明智的预测。
简单线性回归假设独立变量(解释变量)和因变量之间存在线性关系。如果这两个变量之间的关系不是线性的,那么简单线性回归的假设可能会被违反,从而可能导致不准确的预测或解释。因此,在应用简单线性回归之前,验证数据中的线性关系至关重要。
11.多元线性回归
可以将多元线性回归视为简单线性回归的扩展。不过,您不是试图用一个身穿闪亮盔甲的骑士(预测器)来预测结果,而是用整个团队来预测结果。这就像从一对一的篮球比赛升级为整个团队的努力,其中每个球员(预测器)都带来独特的技能。这个想法是看看几个变量如何共同影响一个结果。
然而,随着团队规模的扩大,管理关系的挑战也随之而来,即所谓的多重共线性。当预测因子彼此太接近并共享相似信息时,就会发生这种情况。想象一下,两个篮球运动员不断尝试进行相同的投篮;他们可能会互相妨碍。回归可能会使我们很难看到每个预测因子的独特贡献,这可能会扭曲我们对哪些变量很重要的理解。
12.逻辑回归
线性回归可以预测连续结果(如温度或价格),而逻辑回归则用于结果确定的情况(如是/否、赢/输)。想象一下,尝试根据各种因素预测一支球队是赢还是输;逻辑回归是您的首选策略。
它转换线性方程,使其输出介于 0 和 1 之间,表示属于特定类别的概率。它就像拥有一个神奇的镜头,可以将连续的分数转换成清晰的“这个或那个”视图,让我们能够预测分类结果。
图形表示法展示了将逻辑回归应用于合成二元分类数据集的一个例子。蓝点表示数据点,它们在 x 轴上的位置表示特征值,在 y 轴上的位置表示类别(0 或 1)。红色曲线表示逻辑回归模型对不同特征值属于第 1 类(例如“获胜”)的概率的预测。如您所见,曲线从第 0 类的概率平滑过渡到第 1 类,展示了该模型根据底层连续特征预测分类结果的能力。
逻辑回归的公式如下:
该公式使用逻辑函数将线性方程的输出转换为 0 到 1 之间的概率。通过这种转换,我们可以将输出解释为基于独立变量 xx 的值属于特定类别的概率。
13.方差分析和卡方检验
方差分析 (ANOVA)和卡方检验就像统计学世界中的侦探,帮助我们解决不同的谜团。它允许我们比较多个组的平均值,以查看至少有一个组在统计上存在差异。可以将其想象为品尝几批饼干的样品,以确定任何一批饼干的味道是否有显著差异。
另一方面,卡方检验用于分类数据。它帮助我们了解两个分类变量之间是否存在显著关联。例如,一个人最喜欢的音乐类型和他们的年龄段之间是否存在关系?卡方检验有助于回答这些问题。
14.中心极限定理及其在数据科学中的重要性
中心极限定理 (CLT)是一个基本的统计学原理,让人感觉很神奇。它告诉我们,如果你从总体中抽取足够的样本并计算其均值,这些均值将形成正态分布(钟形曲线),而不管总体的原始分布如何。这非常强大,因为它让我们即使不知道总体的确切分布,也能对总体做出推断。
在数据科学中,CLT 支撑着许多技术,使我们能够使用为正态分布数据设计的工具,即使我们的数据最初不符合这些标准。这就像找到了统计方法的通用适配器,使许多强大的工具适用于更多情况。
15.偏差-方差权衡
在预测建模和机器学习中,偏差-方差权衡是一个关键概念,它强调了可能导致模型出错的两种主要错误类型之间的矛盾。偏差是指过于简单的模型产生的错误,这些模型不能很好地捕捉潜在趋势。想象一下,试图在弯曲的道路上画一条直线;你会错失良机。相反,过于复杂的模型产生的方差会捕捉数据中的噪声,就好像它是一个实际的模式一样——就像追踪颠簸小路上的每一个转弯,以为这就是前进的道路。
艺术在于平衡这两者以最小化总误差,找到模型的最佳点——足够复杂以捕捉准确的模式,但足够简单以忽略随机噪声。这就像调吉他;如果太紧或太松,它听起来就不对了。偏差-方差权衡就是在这两者之间找到完美的平衡。偏差-方差权衡是调整我们的统计模型以使其在准确预测结果方面发挥最佳作用的本质。
三、结论
从统计抽样到偏差方差权衡,这些原则不仅仅是学术概念,更是进行有洞察力的数据分析的必备工具。它们为有抱负的数据科学家提供了将大量数据转化为可付诸行动的见解的技能,强调了统计数据是数字时代数据驱动决策和创新的支柱。