《统计学简易速速上手小册》第1章:统计学基础(2024 最新版)

news2024/10/6 20:41:01

在这里插入图片描述

文章目录

  • 1.1 数据类型和数据收集
    • 1.1.1 基础知识
    • 1.1.2 主要案例:顾客满意度调查
    • 1.1.3 拓展案例 1:产品销售分析
    • 1.1.4 拓展案例 2:员工绩效评估
  • 1.2 描述性统计学
    • 1.2.1 基础知识
    • 1.2.2 主要案例:销售数据分析
    • 1.2.3 拓展案例 1:客户满意度调查分析
    • 1.2.4 拓展案例 2:员工绩效评分分析
  • 1.3 概率论基础
    • 1.3.1 基础知识
    • 1.3.2 主要案例:产品质量控制
    • 1.3.3 拓展案例 1:网站流量分析
    • 1.3.4 拓展案例 2:市场风险评估

1.1 数据类型和数据收集

在统计学的海洋中,数据就像是基石,构建了我们理解世界的方式。在深入探索之前,让我们先来熟悉一下数据的基本类型,因为这会影响我们如何收集、分析和解释数据。

1.1.1 基础知识

数据类型

  • 名义数据(Nominal Data):这种类型的数据用于标记无序类别。例如,性别、国籍、品牌名称等。
  • 序数数据(Ordinal Data):序数数据不仅分类,还有一个明确的顺序。比如教育水平(小学、中学、高中)、顾客满意度(不满意、中等、满意)。
  • 区间数据(Interval Data):区间数据是数值型的,不仅有序,还可以计算差值,但没有真正的零点。常见例子包括温度(摄氏度、华氏度)。
  • 比例数据(Ratio Data):比例数据也是数值型的,具有所有区间数据的特性,并且有一个绝对零点,允许进行乘除运算。例如,收入、年龄、销售量。

数据收集

数据收集是统计分析的第一步,决定了分析的质量和可靠性。有效的数据收集方法包括调查问卷、实验设计、观察法等。

1.1.2 主要案例:顾客满意度调查

场景:一家餐厅想要了解顾客对其服务的满意度,以便改进服务质量。

步骤

  1. 设计问卷:包含多个问题,既有选择题(名义数据),也有满意度评分(序数数据)。
  2. 收集数据:通过在线调查或在餐厅现场使用平板电脑进行。
  3. 使用 Python 分析:利用 pandas 库来整理数据,matplotlibseaborn 库来可视化满意度分布。

Python 示例

import pandas as pd
import matplotlib.pyplot as plt

# 假设 survey_results 是收集到的数据
survey_results = pd.read_csv('survey_results.csv')

# 查看满意度评分的分布
satisfaction_counts = survey_results['satisfaction'].value_counts()
satisfaction_counts.plot(kind='bar')
plt.title('Customer Satisfaction Survey Results')
plt.xlabel('Satisfaction Level')
plt.ylabel('Counts')
plt.show()

1.1.3 拓展案例 1:产品销售分析

场景:一家电子产品公司想要分析不同产品的销量数据,以优化库存和生产计划。

步骤

  1. 收集数据:从销售系统中导出产品销量数据(比例数据)。
  2. 使用 Python 分析:计算每个产品的总销量,分析月销量趋势。

Python 示例

sales_data = pd.read_csv('sales_data.csv')

# 计算每个产品的总销量
total_sales = sales_data.groupby('product_name')['quantity'].sum()

# 绘制销量图
total_sales.plot(kind='bar')
plt.title('Total Sales by Product')
plt.xlabel('Product Name')
plt.ylabel('Total Quantity Sold')
plt.show()

1.1.4 拓展案例 2:员工绩效评估

场景:公司HR部门想要通过员工的年度绩效评分(区间数据)来进行年终奖金的分配。

步骤

  1. 收集数据:包括员工的姓名、部门、年度评分等。
  2. 使用 Python 分析:计算每个部门的平均绩效评分,识别表现最好和最差的部门。

Python 示例

performance_data = pd.read_csv('

performance_data.csv')

# 计算每个部门的平均绩效评分
average_performance = performance_data.groupby('department')['score'].mean()

# 绘制平均绩效评分图
average_performance.plot(kind='barh')
plt.title('Average Performance Score by Department')
plt.xlabel('Average Score')
plt.ylabel('Department')
plt.show()

通过这些案例,我们可以看到 Python 在处理实际生产和工作中常用数据分析任务时的强大能力。从数据收集到处理分析,Python 提供了一系列工具和库,让数据分析变得既简单又高效。

在这里插入图片描述


1.2 描述性统计学

描述性统计学是统计学中一个至关重要的分支,它涉及到数据的汇总和描述。在深入分析数据之前,描述性统计学提供了一种方式来初步了解数据集的特征和形态。

1.2.1 基础知识

  • 中心趋势度量:这包括平均数(mean)、中位数(median)、众数(mode),它们是描述数据集中心点或典型值的关键指标。
  • 离散程度度量:包括范围(range)、四分位数间距(IQR)、标准差(standard deviation)、方差(variance),这些指标帮助我们理解数据点之间的差异和分散程度。
  • 数据分布的形态:包括偏斜度(skewness)和峰度(kurtosis),它们描述了数据分布的形状。

1.2.2 主要案例:销售数据分析

场景:一家零售公司希望分析其各个门店的月销售数据,以了解销售情况并做出相应的业务调整。

步骤

  1. 数据收集:收集过去一年内各个门店的月销售数据。
  2. 使用 Python 进行描述性统计分析:计算平均销售额、销售额的标准差以及销售额的中位数,并分析销售数据的分布特征。

Python 示例

import pandas as pd

# 加载数据
sales_data = pd.read_csv('sales_data.csv')

# 计算描述性统计量
descriptive_stats = sales_data.describe()

# 打印结果
print(descriptive_stats)

# 计算偏斜度和峰度
skewness = sales_data.skew()
kurtosis = sales_data.kurt()

print('Skewness: ', skewness)
print('Kurtosis: ', kurtosis)

1.2.3 拓展案例 1:客户满意度调查分析

场景:公司进行了一项客户满意度调查,希望通过分析调查结果来改善产品和服务。

步骤

  1. 收集数据:从调查问卷中收集客户的满意度评分。
  2. 使用 Python 分析:计算满意度评分的平均值、中位数和模式,以及评分的标准差,了解客户满意度的总体情况。

Python 示例

import pandas as pd

# 加载数据
survey_data = pd.read_csv('customer_survey.csv')

# 计算描述性统计量
mean_score = survey_data['satisfaction_score'].mean()
median_score = survey_data['satisfaction_score'].median()
mode_score = survey_data['satisfaction_score'].mode()[0]
std_dev = survey_data['satisfaction_score'].std()

print(f'Mean Satisfaction Score: {mean_score}')
print(f'Median Satisfaction Score: {median_score}')
print(f'Mode Satisfaction Score: {mode_score}')
print(f'Standard Deviation: {std_dev}')

1.2.4 拓展案例 2:员工绩效评分分析

场景:人力资源部想要通过分析员工的年度绩效评分来识别表现出色的员工和需要改进的领域。

步骤

  1. 收集数据:汇总员工的年度绩效评分。
  2. 使用 Python 进行分析:计算绩效评分的平均值、中位数、模式和标准差,以及分布的偏斜度和峰度,了解绩效评分的总体分布情况。

Python 示例

import pandas as pd

# 加载数据
performance_data = pd.read_csv('employee_performance.csv')

# 计

算描述性统计量
performance_stats = performance_data['performance_score'].describe()
print(performance_stats)

# 计算偏斜度和峰度
performance_skewness = performance_data['performance_score'].skew()
performance_kurtosis = performance_data['performance_score'].kurt()

print(f'Skewness: {performance_skewness}')
print(f'Kurtosis: {performance_kurtosis}')

通过这些案例,我们可以看到描述性统计学在分析实际生产和工作中的数据时的应用价值。使用 Python 进行描述性统计分析不仅可以帮助我们快速了解数据的基本特征,还能深入挖掘数据背后的信息,为决策提供科学依据。

在这里插入图片描述


1.3 概率论基础

概率论是理解和分析随机现象的数学框架。它不仅是统计学的基础,也是数据科学和机器学习中不可或缺的组成部分。掌握概率论的基础知识,可以帮助我们更好地理解数据的随机性和不确定性。

1.3.1 基础知识

  • 概率的定义:概率用于量化一个事件发生的可能性,通常表示为 0 到 1 之间的值,其中 0 表示事件绝对不会发生,1 表示事件必然发生。
  • 条件概率:表示在另一个事件已经发生的条件下,一个事件发生的概率。
  • 独立事件和相依事件:如果两个事件的发生互不影响,则这两个事件是独立的;反之,如果一个事件的发生影响到另一个事件的概率,则这两个事件是相依的。
  • 常见概率分布:包括二项分布、正态分布、泊松分布等,每种分布都有其特定的应用场景和数学特性。

1.3.2 主要案例:产品质量控制

场景:一家制造公司希望通过分析产品缺陷率来评估其生产线的质量控制水平。

步骤

  1. 收集数据:记录一定时间内生产的产品中缺陷产品的数量。
  2. 使用 Python 分析:假设产品缺陷呈泊松分布,计算一定时间内发现特定数量缺陷产品的概率。

Python 示例

from scipy.stats import poisson

# 假设平均每天发现 2 个缺陷产品
lambda_ = 2  # λ = 2
# 计算一天内发现恰好 3 个缺陷产品的概率
prob = poisson.pmf(3, lambda_)

print(f'一天内发现恰好 3 个缺陷产品的概率为: {prob:.4f}')

1.3.3 拓展案例 1:网站流量分析

场景:一家电商平台想要分析其网站的访客流量,以优化用户体验和增加转化率。

步骤

  1. 收集数据:统计每小时访问网站的用户数。
  2. 使用 Python 分析:假设访问量在不同小时内是独立且分布相同的,计算特定小时内达到特定访问量的概率。

Python 示例

from scipy.stats import norm

# 假设网站访问量在每小时内的平均数为 300,标准差为 50
mean = 300
std_dev = 50
# 计算在一个小时内访问量超过 350 的概率
prob = 1 - norm.cdf(350, mean, std_dev)

print(f'一个小时内访问量超过 350 的概率为: {prob:.4f}')

1.3.4 拓展案例 2:市场风险评估

场景:金融分析师需要评估投资组合的潜在风险,以帮助投资者做出明智的投资决策。

步骤

  1. 收集数据:收集投资组合中各资产的历史收益率数据。
  2. 使用 Python 分析:计算投资组合的预期收益率和波动率,进而评估在给定置信水平下的最大潜在损失(即价值在风险 VaR)。

Python 示例

import numpy as np

# 假设投资组合中有三种资产的历史收益率数据
returns = np.array([0.01, -0.02, 0.015, -0.005, 0.01])
# 计算投资组合的平均收益率和标准差
mean_return = np.mean(returns)
std_dev_return = np.std(returns)
# 计算 95% 置信水平下的 VaR
VaR_95 = norm.ppf(0.05, mean_return, std_dev_return)

print(f'95% 置信水平下的最大潜在损失(VaR)为: {VaR_95:.4f}')

通过这些案例,我们可以看到概率论在实际生产和工作中的广泛应用,从产品质量控制到网站流量分析,再到市场风险评估。使用 Python 进行概率分析不仅可以帮助我们更好地理解和预测随机事件,还能为决策提供科学依据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1444789.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Spring源码分析】Spring的启动流程源码解析

阅读此需阅读下面这些博客先【Spring源码分析】Bean的元数据和一些Spring的工具【Spring源码分析】BeanFactory系列接口解读【Spring源码分析】执行流程之非懒加载单例Bean的实例化逻辑【Spring源码分析】从源码角度去熟悉依赖注入(一)【Spring源码分析】…

【python5】闭包/装饰器,

文章目录 1.闭包和装饰器:函数里return就是闭包2.解析eeprom:如下是二进制文件,C8是一个字节3.json/configparser/optparse:json.dumps(将字典转化为字符串,将json信息写进文件),jso…

PLC在物联网中位置—承上启下,与上位机下位机的关联。

谈到物联网,就绕不开PLC,本文着重介绍PLC的定义、与单片机的区分,价值、物联网中的位置,以及和上位机、下位机的关联,让友友们对PLC有个全面的认知。 一、什么是PLC PLC是可编程逻辑控制器(Programmable L…

Java:字符集、IO流 --黑马笔记

一、字符集 1.1 字符集的来历 我们知道计算机是美国人发明的,由于计算机能够处理的数据只能是0和1组成的二进制数据,为了让计算机能够处理字符,于是美国人就把他们会用到的每一个字符进行了编码(所谓编码,就是为一个…

python-自动化篇-终极工具-用GUI自动控制键盘和鼠标-pyautogui

文章目录 用GUI自动控制键盘和鼠标pyautogui 模块鼠标屏幕位置——移动地图——pyautogui.size鼠标位置——自身定位——pyautogui.position()移动鼠标——pyautogui.moveTo拖动鼠标滚动鼠标 键盘按下键盘释放键盘 开始与结束通过注销关闭所有程序 用GUI自动控制键盘和鼠标 在…

2024 CKS 题库 | 4、RBAC - RoleBinding

CKS 题库 4、RBAC - RoleBinding Context 绑定到 Pod 的 ServiceAccount 的 Role 授予过度宽松的权限。完成以下项目以减少权限集。 Task 一个名为 web-pod 的现有 Pod 已在 namespace db 中运行。 编辑绑定到 Pod 的 ServiceAccount service-account-web 的现有 Role&#…

shell脚本之文件处理命令及字符切片处理

目录 一、文件处理工具 1、tr命令 1.1 转换字符 1.2 压缩字符及删除字符 2、seq命令 3、cut命令 ​4、tac命令 5、rev命令 6、sort命令 ​​​​​7、uniq命令 ​8、echo命令 9、date命令 二、字符串切片处理 1、取字符串的长度 2、跳过字符串最前边的字符 3、…

利用Python和pandas库进行股票技术分析:移动平均线和MACD指标

利用Python和pandas库进行股票技术分析:移动平均线和MACD指标 介绍准备工作数据准备计算移动平均线计算MACD指标结果展示完整代码演示 介绍 在股票市场中,技术分析是一种常用的方法,它通过对股票价格和交易量等历史数据的分析,来…

LeetCode Python - 9.回文数

文章目录 题目答案运行结果 题目 给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。 回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。 例如&am…

Python基础语法(内置Python, pycharm配置方式)

一.工具安装与配置 1.Python解释器的安装 官网网址:https://www.python.org/ 选择downloads即可(Windows用户点击Windows, 苹果用户点击macOS) 找到最新版本, 并选择 Download Windows installer (64-bit) 下载完成后可在得到一个安装包进行安装(安装时间较长) 安装完成后…

Stable Diffusion 模型下载:DreamShaper(梦想塑造者)

文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八案例九案例十 下载地址 模型介绍 DreamShaper 是一个分格多样的大模型,可以生成写实、原画、2.5D 等多种图片,能生成很棒的人像和风景图。 条目内容类型大模型基础模型SD 1…

C++多态:定义、实现及原理/继承关系中的虚函数表

目录​​​​​​​ 一、多态的定义及实现 1.1多态的概念​​​​​​​ 1.2多态的构成条件 1.3virtual虚函数 1.4虚函数的重写 二、override和final 三、抽象类 3.1概念 3.2接口继承和实现继承 四、多态的原理 4.1虚函数表 4.2 多态的原理 4.3动态绑定与静态绑定…

自动化AD域枚举和漏洞检测脚本

linWinPwn 是一个 bash 脚本,可自动执行许多 Active Directory 枚举和漏洞检查。该脚本基于很多现有工具实现其功能,其中包括:impacket、bloodhound、netexec、enum4linux-ng、ldapdomaindump、lsassy、smbmap、kerbrute、adidnsdump、certip…

华为OD机试 - 最长子字符串的长度(一) (Python C C++ JavaGo JS PHP)

题目描述 给定一个字符串s,将其视为环形,要求找出其中出现偶数次的最长子字符串的长度。 输入描述 输入一个字符串s。 输出描述 输出一个整数,表示出现偶数次的最长子字符串的长度。 示例 解析题目 本题要求在给定的字符串中找出出现偶…

OpenCV入门:图像处理的基石

在数字图像处理领域,OpenCV(开源计算机视觉库)是一个不可或缺的工具。它包含了一系列强大的算法和函数,使得开发者可以轻松地处理图像和视频数据。本文将带你走进OpenCV的世界,了解其基本概念和常见应用。 1. OpenCV简…

Java 集合、迭代器

Java 集合框架主要包括两种类型的容器,一种是集合(Collection),存储一个元素集合,另一种是图(Map),存储键/值对映射。Collection 接口又有 3 种子类型,List、Set 和 Queu…

【EAI 015】CLIPort: What and Where Pathways for Robotic Manipulation

论文标题:CLIPort: What and Where Pathways for Robotic Manipulation 论文作者:Mohit Shridhar1, Lucas Manuelli, Dieter Fox1 作者单位:University of Washington, NVIDIA 论文原文:https://arxiv.org/abs/2109.12098 论文出处…

sheng的学习笔记-docker部署springboot

部署文章目录:目录 docker部署,原理,命令,可以参考:docker原理图,部署,命令 目录 将springboot部署到docker中 遇到过的问题: pom配置 操作步骤 生成jar 构建镜像 查看镜像d…

C语言之预处理详解

目录 1. 预定义符号2. #define定义常量3. #define定义宏练习 4. 带有副作用的宏参数5. 宏替换的规则6. 宏函数的对比宏和函数的一个对比 7. #和###运算符##运算符 8. 命名约定9. #undef10. 命令行定义11. 条件编译常见的条件编译 12. 头文件的包含头文件的包含方式库文件包含嵌…

移动端web开发布局

目录 flex布局: flex布局父项常见属性: flex布局子项常见属性: REM适配布局: 响应式布局: flex布局: 需要先给父类盒子设置display:flex flex是flexiblebox的缩写,意为"弹…