前 40 名数据科学统计面试问题
一、介绍
正如 Josh Wills 曾经说过的那样,“数据科学家是一个比任何程序员都更擅长统计、比任何统计学家都更擅长编程的人”。统计学是数据科学中处理数据及其分析的基本工具。它提供了工具和方法,可帮助数据科学家获得见解并解释大量数据。仅仅掌握数据科学工具和语言是不够的。您还应该对某些核心统计概念和基础知识有深刻的理解。牢记这一点,这里列出了 40 个最常见的统计数据科学面试问题和答案。它将帮助您刷新对统计学关键方面的记忆,并帮助您准备包括数据科学和机器学习在内的工作面试。
话虽如此,让我们开始吧!
二、统计面试问答
2.1 总体和样本有什么区别?
- 总体表示正在研究的所有项目的全部。
- 样本是总体的有限子集,被选中来代表整个组。通常选择样本是因为总体太大或成本太高,无法进行整体研究。
总体和样本
人口数据的一个例子是人口普查,一个很好的样本示例是调查。
2.2 推论统计和描述性统计有什么区别?
📍描述性统计描述一些样本或总体。
📍推论统计试图从某个样本推断到更大的总体。
推论和描述性统计
2.3 什么是定量和定性数据?
📍定量数据是值或计数的度量,以数字表示。定量数据是指数字数据(例如数量、数量或频率)。
📍定性数据是“类型”的度量,可以用名称、符号或数字代码表示。定性数据也称为分类数据。
2.4 标准差是什么意思?
标准差是一种统计量,用于衡量数据集相对于其均值的离散度。它是数据集中变异性的平均值。平均而言,它告诉您每个值与平均值的距离。
高标准差意味着值通常与平均值相差甚远,而低标准差表示值聚类接近均值。
通过确定每个数据点相对于平均值的偏差,将标准差计算为方差的平方根。
标准差公式
2.5. 长格式数据和宽格式数据有什么区别?
数据集可以用两种不同的格式编写:宽和长。
📍宽格式是指每个数据点都有一行,其中包含多列来保存各种属性的值。
📍长格式是,对于每个数据点,我们的行数与属性数一样多,并且每行都包含给定数据点的特定属性的值。
长格式和宽格式数据
2.6 举例说明中位数比均值更好
当数据值的分布偏斜或存在明显的异常值时,中位数比平均值更能衡量集中趋势。
2.7 如何计算所需的样本量?
要计算调查或实验所需的样本数量,请执行以下操作:
-
定义人口规模:第一件事是确定目标人群的总数。如果您要处理更大的人口,则可以在几个有根据的猜测之间近似总人口。
-
确定误差幅度:也称为“置信区间”。边际误差表示您愿意允许样本均值和总体均值之间的差异大小。
-
选择置信度:置信水平表示您对实际均值在所选误差范围内的确信程度。最常见的置信水平是 90%、95% 和 99%。您指定的置信度对应于 z 分数。
Z-scores for the three most common confidence levels are:
90% = 1.645
95% = 1.96
99% = 2.576
选择偏差标准:接下来,您需要确定您的偏差标准,或您希望在收集的信息中看到的方差水平。如果您不知道预期的方差有多大,0.5 的标准差通常是一个安全的选择,可以确保您的样本数量足够大。
计算样本数量:最后,您可以使用这些值来计算样本数量。您可以通过使用公式或使用在线计算器使用样本数量来执行此操作。
样本量的计算
- 统计学中的抽样类型有哪些?
统计学中的四种主要数据抽样类型是:
📍 简单随机抽样:这种方法涉及纯随机除法。每个人都有相同的概率被选为样本的一部分。
简单随机抽样
📍 整群抽样:这种方法涉及将整个种群划分为集群。根据性别、年龄和位置等人口统计参数确定集群并将其包含在样本中。
📍 分层抽样:这种方法涉及将总体划分为代表整个总体的唯一组。在抽样时,可以对这些组进行组织,然后分别从每个组中抽取样本。
整群抽样
📍 系统抽样:这种抽样方法涉及根据随机起点从较大的样本成员中选择样本成员,但具有固定的周期性间隔,称为采样间隔。抽样间隔是通过按所需样本数量对总体进行潜水来计算的。这种类型的采样方法具有预定义的范围,因此耗时最少。
系统抽样
2.9 什么是贝塞尔修正?
在统计学中,贝塞尔校正是在几个公式中使用 n-1 而不是 n,包括样本方差和标准差,其中 n 是样本中的观测值数。此方法纠正了总体方差估计中的偏差。它还部分纠正了总体标准差估计中的偏差,从而提供了更准确的结果。
- 你对正态分布一词的理解是什么?
正态分布,也称为高斯分布,是钟形频率分布曲线。正态分布中的大多数数据值倾向于围绕均值聚类。
正态分布
2.11 什么是常态假设?
这种正态性假设表明,如果从总体中收集许多独立的随机样本并计算一些感兴趣的值(如样本均值),然后创建直方图来可视化样本均值的分布,则应观察到正态分布。
2.12. 如何将正态分布转换为标准正态分布?
标准正态分布,也称为 z 分布,是一种特殊的正态分布,均值等于 0,标准差等于 1。
任何非标准正态分布都可以通过将每个数据值 x 转换为 z 分数来标准化。
要使用以下公式将点从正态分布转换为 z 分数:
z = (x-µ) / σ
2.13 什么是左偏分布和右偏分布?
偏度是描述分布对称性的一种方法。
📍左偏(负偏)分布是指左尾巴长于右尾巴的分布。对于此分布,均值<中位数<众数。
📍同样,右偏(正偏)分布是右尾巴比左尾巴长的分布。对于此分布,均值>中位数>模式。
左偏分布和右偏分布
- 正态分布有哪些性质?
正态分布的一些属性如下:
📍 单峰:正态分布只有一个峰。(即一种模式)
📍对称:正态分布在其中心周围是完全对称的。(即,中心的右侧是左侧的镜像)
📍均值、众数和中位数都位于中心(即都相等)
📍渐近:正态分布是连续的,尾部是渐近的。曲线接近 x 轴,但从未接触。
正态分布
2.15 什么是二项分布公式?
二项分布公式适用于任何随机变量 X,由下式给出;
P(x; n, p) = nCx * px (1 – p)n – x
Where:
n = the number of trials
x = 0, 1, 2, ...
p = probability of success on an individual trial
q = 1 - p = probability of failure on an individual trial
2.16 二项分布必须满足哪些标准?
二项分布必须满足的 4 个标准是:
📍有固定数量的试验。
📍每项试验的结果都是相互独立的。
📍每条线索代表两种结果(“成功”或“失败”)之一。
📍在所有试验中,“成功”p的概率是相同的。
2.17 什么是异常值?
异常值是与数据集中的其他数据点有显著差异的数据点。异常值可能是由于测量的可变性,也可能表示实验误差。
异常值会极大地影响统计分析,并扭曲任何假设检验的结果。
异常
仔细识别数据集中的潜在异常值并适当处理它们以获得准确的结果非常重要。
18. 提及筛选数据集中异常值的方法。
📍在使用更复杂的方法之前,检查是否需要调查某些数据点的一种简单方法是排序方法。
数据中的值可以从低到高排序,然后扫描极低或极高的值。
📍可视化(例如箱形图)是一目了然地查看数据分布和检测异常值的有用方法。此图表突出显示了统计数据信息,例如数据的最小值和最大值(范围)、中位数和四分位数范围。查看箱形图时,异常值是箱形图晶须之外的数据点。
四分位距法
📍一种常用的方法是四分位距法。如果数据集的两端值很少,但不确定其中任何一个值是否算作异常值,则此方法非常有用。
四分位距 (IQR) 也称为中间分布,表示数据集中半部分的范围。IQR 可用于在数据周围创建“围栏”,然后,异常值可以定义为大于上围栏或小于下围栏的任何值。
要使用 IQR 方法,请执行以下操作:
Sort the data from low to high
Identify the first quartile (Q1), the median, and the third quartile (Q3).
Calculate the IQR; IQR = Q3 – Q1
Calculate the upper fence; Q3 + (1.5 * IQR) and the lower fence; Q1 – (1.5 * IQR)
Use the fences to highlight any outliers (all values that fall outside your fences).
📍识别异常值的另一种方法是使用 Z 分数。Z 分数就是与某个数据点的平均值相差多少个标准差。要计算 z 分数,请使用公式 z = (x-μ) / σ
如果 z 分数为正,则数据点高于平均水平。
如果 z 分数为负,则数据点低于平均水平。
如果 z 分数接近于零,则数据点接近平均值。
如果 z 分数高于或低于 3(假设 z 分数 = 3 被视为设置限制的截止值),则该值为异常值,数据点被视为异常值。
筛选异常值的其他方法包括隔离林和 DBScan 聚类。
19. 采样时会遇到哪些类型的偏差?
在调查或调查期间,当样本不能代表目标人群时,就会发生抽样偏差。采样时可能遇到的三个主要问题是:
📍选择偏倚:它涉及以非随机的方式选择单个或分组数据。
📍覆盖不足偏倚:当某些总体成员在样本中的代表性不足时,就会发生这种类型的偏差。
📍当样本专注于“幸存的”或现有的观察结果而忽略那些已经不复存在的观察结果时,就会发生幸存者偏差。这可能会以多种不同的方式导致错误的结论。
- 内联是什么意思?
inlier 是位于其他观测值的一般分布范围内但属于误差的数据值。内值很难与良好的数据值区分开来,因此,有时很难找到和纠正它们。
inlier 的一个示例可能是以错误单位记录的值。
- 什么是假设检验?
假设检验是一种统计推断,它使用样本中的数据来得出总体数据的结论。
在执行测试之前,需要对总体参数进行假设。此假设称为原假设,用 H0 表示。然后定义一个备择假设(表示为 Ha),它与原假设在逻辑上相反。
假设检验过程涉及使用样本数据来确定是否应拒绝 H0。对备择假设 (Ha) 的接受是在对原假设 (H0) 的拒绝之后进行的。
22. 假设检验中的 p 值是多少?
p 值是一个数字,用于描述当原假设 (H0) 为 True 时找到观察到的结果或更极端结果的概率。
P 值用于假设检验,以帮助决定是否拒绝原假设。p 值越小,应否定原假设的证据就越强。
23. 什么时候应该使用 t 检验与 z 检验?
📍T 检验询问两组均值之间的差异是否由于随机机会而不太可能发生。它通常用于处理样本量有限的问题 (n < 30)。
如果总体标准差已知,则样本数量小于或等于 30,或者如果总体标准差未知,则使用 T 检验。
📍另一方面,Z 检验将样本与定义的总体进行比较,通常用于处理与大样本相关的问题(即 n > 30)。
通常,当总体的标准差已知且样本数量超过 30 时,应使用 Z 检验。
24. 单尾假设检验和双尾假设检验有什么区别?
📍单尾测试允许在一个方向上产生影响的可能性。在这里,临界区域只位于一条尾巴上。
单尾假设检验
📍双尾检验测试在两个方向(正和负)上产生影响的可能性。在这里,临界区域是两条尾巴之一。
双尾假设检验
25. I 类错误与 II 类错误有什么区别?
📍当总体中的原假设为真被拒绝时,将发生 I 类错误。它也被称为假阳性。
📍当总体中为假的原假设未能被拒绝时,就会发生 II 类错误。它也被称为假阴性。
原假设
26. 什么是中心极限定理?
中心极限定理 (CLT) 指出,给定来自具有有限方差水平的总体的足够大的样本量,无论总体是否呈正态分布,均值的抽样分布都将是正态分布的。
中心极限定理
27.中心极限定理必须满足哪些一般条件才能成立?
中心极限定理指出,在以下条件下,均值的抽样分布将始终服从正态分布:
📍样本量足够大(即样本量为 n ≥ 30)。
📍样本是独立且分布相同的随机变量。
📍总体的分布具有有限方差。
28. 什么是统计学中的相关性和协方差?
📍相关性表示两个变量的相关性。两个变量之间的相关性值范围为 -1 到 +1。
-1 值表示高负相关,即如果一个变量中的值增加,则另一个变量中的值将减少。同样,+1 表示正相关,即一个变量的增加会导致另一个变量的增加。
而 0 表示没有相关性。
统计学中的相关性
📍另一方面,协方差是一种度量,用于指示一对随机变量相互变化的程度。数字越大表示依赖性越高。
统计学中的协方差
29. 点估计值和置信区间估计值有什么区别?
📍点估计值将单个值作为总体参数的估计值。例如,样本标准差是总体标准差的点估计值。
📍置信区间估计值给出了可能包含总体参数的值范围。它是最常见的区间估计类型,因为它告诉我们该区间包含总体参数的可能性。
点估计值和置信区间估计值
30. 提及标准误差和误差幅度之间的关系?
随着标准误差的增加,误差范围也会增加。
可以使用以下公式的标准误差来计算边际误差:
边际误差 = 临界值 * 样品的标准误差
31. 您如何定义峰度?
峰度是分布尾部值与分布中心不同的程度。
使用峰度在数据分布中检测异常值。峰度越高,数据中的异常值数就越多。
32. 不包含总体参数的置信区间比例是多少?
Alpha (α) 是置信区间中不包含总体参数的部分。
α = 1 – CL = 置信区间不包括总体参数的概率。
1 – α = CL = 总体参数在区间内的概率
例如,如果置信水平 (CL) 为 95%,则 α = 1 – 0.95,或 α = 0.05。
33. 统计学中的大数定律是什么?
根据统计中的大数定律,所进行的试验次数的增加将导致结果平均值的正比例增加,成为期望值。
例如,与掷转 0.5 次相比,掷出 100, 000 次时抛出一枚公平硬币并落地的概率接近 50。
34. A/B测试的目标是什么?
A/B 检验是统计假设检验。它是一种分析方法,用于根据样本统计量做出估计总体参数的决策。
目标通常是识别对网页的任何更改,以最大化或增加感兴趣的结果。A/B 测试是为您的企业找出最佳在线促销和营销策略的绝佳方法。
35. 您对敏感性和特异性的理解是什么?
📍灵敏度是衡量被预测为阳性(或真阳性)的实际阳性病例比例的指标。
📍特异性是衡量被预测为阴性(或真阴性)的实际阴性病例比例的指标。
灵敏度和特异性的计算非常简单;
敏感性和特异性
36. 什么是重采样,重采样的常用方法有哪些?
重抽样涉及从原始数据样本中随机选择替换案例,使抽取的每个样本数量都有几个与原始数据样本相似的案例。
重采样的两种常用方法是:
引导和正常重采样
交叉验证
37. 什么是线性回归?
在统计学中,线性回归是一种对一个或多个预测变量 (X) 和一个结果变量 (y) 之间的关系进行建模的方法。
如果存在一个预测变量,则称为简单线性回归。如果存在多个预测变量,则称为多元线性回归。
线性回归
38. 线性回归需要哪些假设?
线性回归有四个关键假设:
📍 线性关系:X 和 Y 的平均值之间存在线性关系。
📍 独立:观测值是相互独立的。
📍 常态:Y 沿 X 的分布应为正态分布。
📍 同方差性:对于任何 X 值,结果或响应变量的变化都是相同的。
39. 什么是ROC曲线?
受试者操作员特征 (ROC) 曲线是分类模型在各种阈值下的性能的图形表示。
该曲线绘制了不同分类阈值下的真阳性率 (TPR) 与假阳性率 (FPR)。
ROC曲线
40. 什么是成本函数?
成本函数是衡量给定数据集的机器学习模型性能的重要参数。
它衡量模型在估计输入和输出参数之间关系时的错误程度。
三、结论
本文讨论了为什么数据科学家应该掌握统计学以及一些重要且经常被问到的统计数据科学面试问题和答案。
综上所述,以下是本文的主要内容:
我们了解了抽样、不同类型的抽样以及如何计算所需的样本量。
我们介绍了集中趋势和概率分布。
我们讨论了变量之间的关系以及协方差和相关性之间的区别。
我们介绍了假设检验和 P 值,并讨论了何时使用 T 检验和 Z 检验。
我们讨论了回归和线性回归的假设。