《统计学简易速速上手小册》第1章：统计学基础（2024 最新版）

在这里插入图片描述

文章目录

1.1 数据类型和数据收集
- 1.1.1 基础知识
- 1.1.2 主要案例：顾客满意度调查
- 1.1.3 拓展案例 1：产品销售分析
- 1.1.4 拓展案例 2：员工绩效评估
1.2 描述性统计学
- 1.2.1 基础知识
- 1.2.2 主要案例：销售数据分析
- 1.2.3 拓展案例 1：客户满意度调查分析
- 1.2.4 拓展案例 2：员工绩效评分分析
1.3 概率论基础
- 1.3.1 基础知识
- 1.3.2 主要案例：产品质量控制
- 1.3.3 拓展案例 1：网站流量分析
- 1.3.4 拓展案例 2：市场风险评估

1.1 数据类型和数据收集

在统计学的海洋中，数据就像是基石，构建了我们理解世界的方式。在深入探索之前，让我们先来熟悉一下数据的基本类型，因为这会影响我们如何收集、分析和解释数据。

1.1.1 基础知识

数据类型

名义数据（Nominal Data）：这种类型的数据用于标记无序类别。例如，性别、国籍、品牌名称等。
序数数据（Ordinal Data）：序数数据不仅分类，还有一个明确的顺序。比如教育水平（小学、中学、高中）、顾客满意度（不满意、中等、满意）。
区间数据（Interval Data）：区间数据是数值型的，不仅有序，还可以计算差值，但没有真正的零点。常见例子包括温度（摄氏度、华氏度）。
比例数据（Ratio Data）：比例数据也是数值型的，具有所有区间数据的特性，并且有一个绝对零点，允许进行乘除运算。例如，收入、年龄、销售量。

数据收集

数据收集是统计分析的第一步，决定了分析的质量和可靠性。有效的数据收集方法包括调查问卷、实验设计、观察法等。

1.1.2 主要案例：顾客满意度调查

场景：一家餐厅想要了解顾客对其服务的满意度，以便改进服务质量。

步骤：

设计问卷：包含多个问题，既有选择题（名义数据），也有满意度评分（序数数据）。
收集数据：通过在线调查或在餐厅现场使用平板电脑进行。
使用 Python 分析：利用 pandas 库来整理数据，matplotlib 或 seaborn 库来可视化满意度分布。

Python 示例：

import pandas as pd
import matplotlib.pyplot as plt

# 假设 survey_results 是收集到的数据
survey_results = pd.read_csv('survey_results.csv')

# 查看满意度评分的分布
satisfaction_counts = survey_results['satisfaction'].value_counts()
satisfaction_counts.plot(kind='bar')
plt.title('Customer Satisfaction Survey Results')
plt.xlabel('Satisfaction Level')
plt.ylabel('Counts')
plt.show()

1.1.3 拓展案例 1：产品销售分析

场景：一家电子产品公司想要分析不同产品的销量数据，以优化库存和生产计划。

步骤：

收集数据：从销售系统中导出产品销量数据（比例数据）。
使用 Python 分析：计算每个产品的总销量，分析月销量趋势。

Python 示例：

sales_data = pd.read_csv('sales_data.csv')

# 计算每个产品的总销量
total_sales = sales_data.groupby('product_name')['quantity'].sum()

# 绘制销量图
total_sales.plot(kind='bar')
plt.title('Total Sales by Product')
plt.xlabel('Product Name')
plt.ylabel('Total Quantity Sold')
plt.show()

1.1.4 拓展案例 2：员工绩效评估

场景：公司HR部门想要通过员工的年度绩效评分（区间数据）来进行年终奖金的分配。

步骤：

收集数据：包括员工的姓名、部门、年度评分等。
使用 Python 分析：计算每个部门的平均绩效评分，识别表现最好和最差的部门。

Python 示例：

performance_data = pd.read_csv('

performance_data.csv')

# 计算每个部门的平均绩效评分
average_performance = performance_data.groupby('department')['score'].mean()

# 绘制平均绩效评分图
average_performance.plot(kind='barh')
plt.title('Average Performance Score by Department')
plt.xlabel('Average Score')
plt.ylabel('Department')
plt.show()

通过这些案例，我们可以看到 Python 在处理实际生产和工作中常用数据分析任务时的强大能力。从数据收集到处理分析，Python 提供了一系列工具和库，让数据分析变得既简单又高效。

在这里插入图片描述

1.2 描述性统计学

描述性统计学是统计学中一个至关重要的分支，它涉及到数据的汇总和描述。在深入分析数据之前，描述性统计学提供了一种方式来初步了解数据集的特征和形态。

1.2.1 基础知识

中心趋势度量：这包括平均数（mean）、中位数（median）、众数（mode），它们是描述数据集中心点或典型值的关键指标。
离散程度度量：包括范围（range）、四分位数间距（IQR）、标准差（standard deviation）、方差（variance），这些指标帮助我们理解数据点之间的差异和分散程度。
数据分布的形态：包括偏斜度（skewness）和峰度（kurtosis），它们描述了数据分布的形状。

1.2.2 主要案例：销售数据分析

场景：一家零售公司希望分析其各个门店的月销售数据，以了解销售情况并做出相应的业务调整。

步骤：

数据收集：收集过去一年内各个门店的月销售数据。
使用 Python 进行描述性统计分析：计算平均销售额、销售额的标准差以及销售额的中位数，并分析销售数据的分布特征。

Python 示例：

import pandas as pd

# 加载数据
sales_data = pd.read_csv('sales_data.csv')

# 计算描述性统计量
descriptive_stats = sales_data.describe()

# 打印结果
print(descriptive_stats)

# 计算偏斜度和峰度
skewness = sales_data.skew()
kurtosis = sales_data.kurt()

print('Skewness: ', skewness)
print('Kurtosis: ', kurtosis)

1.2.3 拓展案例 1：客户满意度调查分析

场景：公司进行了一项客户满意度调查，希望通过分析调查结果来改善产品和服务。

步骤：

收集数据：从调查问卷中收集客户的满意度评分。
使用 Python 分析：计算满意度评分的平均值、中位数和模式，以及评分的标准差，了解客户满意度的总体情况。

Python 示例：

import pandas as pd

# 加载数据
survey_data = pd.read_csv('customer_survey.csv')

# 计算描述性统计量
mean_score = survey_data['satisfaction_score'].mean()
median_score = survey_data['satisfaction_score'].median()
mode_score = survey_data['satisfaction_score'].mode()[0]
std_dev = survey_data['satisfaction_score'].std()

print(f'Mean Satisfaction Score: {mean_score}')
print(f'Median Satisfaction Score: {median_score}')
print(f'Mode Satisfaction Score: {mode_score}')
print(f'Standard Deviation: {std_dev}')

1.2.4 拓展案例 2：员工绩效评分分析

场景：人力资源部想要通过分析员工的年度绩效评分来识别表现出色的员工和需要改进的领域。

步骤：

收集数据：汇总员工的年度绩效评分。
使用 Python 进行分析：计算绩效评分的平均值、中位数、模式和标准差，以及分布的偏斜度和峰度，了解绩效评分的总体分布情况。

Python 示例：

import pandas as pd

# 加载数据
performance_data = pd.read_csv('employee_performance.csv')

# 计

算描述性统计量
performance_stats = performance_data['performance_score'].describe()
print(performance_stats)

# 计算偏斜度和峰度
performance_skewness = performance_data['performance_score'].skew()
performance_kurtosis = performance_data['performance_score'].kurt()

print(f'Skewness: {performance_skewness}')
print(f'Kurtosis: {performance_kurtosis}')

通过这些案例，我们可以看到描述性统计学在分析实际生产和工作中的数据时的应用价值。使用 Python 进行描述性统计分析不仅可以帮助我们快速了解数据的基本特征，还能深入挖掘数据背后的信息，为决策提供科学依据。

在这里插入图片描述

1.3 概率论基础

概率论是理解和分析随机现象的数学框架。它不仅是统计学的基础，也是数据科学和机器学习中不可或缺的组成部分。掌握概率论的基础知识，可以帮助我们更好地理解数据的随机性和不确定性。

1.3.1 基础知识

概率的定义：概率用于量化一个事件发生的可能性，通常表示为 0 到 1 之间的值，其中 0 表示事件绝对不会发生，1 表示事件必然发生。
条件概率：表示在另一个事件已经发生的条件下，一个事件发生的概率。
独立事件和相依事件：如果两个事件的发生互不影响，则这两个事件是独立的；反之，如果一个事件的发生影响到另一个事件的概率，则这两个事件是相依的。
常见概率分布：包括二项分布、正态分布、泊松分布等，每种分布都有其特定的应用场景和数学特性。

1.3.2 主要案例：产品质量控制

场景：一家制造公司希望通过分析产品缺陷率来评估其生产线的质量控制水平。

步骤：

收集数据：记录一定时间内生产的产品中缺陷产品的数量。
使用 Python 分析：假设产品缺陷呈泊松分布，计算一定时间内发现特定数量缺陷产品的概率。

Python 示例：

from scipy.stats import poisson

# 假设平均每天发现 2 个缺陷产品
lambda_ = 2  # λ = 2
# 计算一天内发现恰好 3 个缺陷产品的概率
prob = poisson.pmf(3, lambda_)

print(f'一天内发现恰好 3 个缺陷产品的概率为: {prob:.4f}')

1.3.3 拓展案例 1：网站流量分析

场景：一家电商平台想要分析其网站的访客流量，以优化用户体验和增加转化率。

步骤：

收集数据：统计每小时访问网站的用户数。
使用 Python 分析：假设访问量在不同小时内是独立且分布相同的，计算特定小时内达到特定访问量的概率。

Python 示例：

from scipy.stats import norm

# 假设网站访问量在每小时内的平均数为 300，标准差为 50
mean = 300
std_dev = 50
# 计算在一个小时内访问量超过 350 的概率
prob = 1 - norm.cdf(350, mean, std_dev)

print(f'一个小时内访问量超过 350 的概率为: {prob:.4f}')

1.3.4 拓展案例 2：市场风险评估

场景：金融分析师需要评估投资组合的潜在风险，以帮助投资者做出明智的投资决策。

步骤：

收集数据：收集投资组合中各资产的历史收益率数据。
使用 Python 分析：计算投资组合的预期收益率和波动率，进而评估在给定置信水平下的最大潜在损失（即价值在风险 VaR）。

Python 示例：

import numpy as np

# 假设投资组合中有三种资产的历史收益率数据
returns = np.array([0.01, -0.02, 0.015, -0.005, 0.01])
# 计算投资组合的平均收益率和标准差
mean_return = np.mean(returns)
std_dev_return = np.std(returns)
# 计算 95% 置信水平下的 VaR
VaR_95 = norm.ppf(0.05, mean_return, std_dev_return)

print(f'95% 置信水平下的最大潜在损失（VaR）为: {VaR_95:.4f}')