统计学极简入门——数据分布

news2025/2/21 22:12:36

3. 数据分布

t分布、F分布和卡方分布是统计学中常用的三种概率分布,它们分别用于样本均值的推断、方差的比较和数据的拟合优度检验。

总之这3个分布很有用,首次接触你可能理解不了,但没关系你知道很重要就行了,接着往下看,我们在介绍三大分布之前,先看一下正态分布和标准正态分布:

正态分布(Normal Distribution)

正态分布也被称为高斯分布,是统计学中最常见的概率分布之一。

正态分布具有钟形曲线的特征,均值和标准差是其两个重要的参数。

import numpy as np
import seaborn as sns

mean = 3  # 均值
std = 4  # 标准差
size = 1000  # 生成1000个随机数

data = np.random.normal(mean, std, size=size)
sns.histplot(data, kde=True)

标准正态分布(Standard Normal Distribution)

标准正态分布是一种特殊的正态分布,其均值为0,标准差为1。在统计学中,标准正态分布经常用于标准化数据或进行假设检验。

import numpy as np
import seaborn as sns

size = 1000  # 生成1000个随机数

data = np.random.standard_normal(size=size)
sns.histplot(data, kde=True)

t分布(t Distribution)

t分布是一种概率分布,用于小样本情况下对总体均值的推断。当样本容量较小或总体方差未知时,使用T分布进行推断更准确。T分布的形状类似于正态分布,但尾部较宽。T分布的自由度(degrees of freedom)决定了其形状。

import numpy as np
import seaborn as sns

df = 10  # 自由度
size = 1000  # 生成1000个随机数

data = np.random.standard_t(df, size=size)
sns.histplot(data, kde=True)

F分布(F Distribution)

F分布是一种概率分布,用于比较两个样本方差的差异。F分布常用于方差分析和回归分析中。F分布的形状取决于两个自由度参数,分子自由度和分母自由度。

import numpy as np
import seaborn as sns

dfn = 5  # 分子自由度
dfd = 10  # 分母自由度
size = 1000  # 生成1000个随机数

data = np.random.f(dfn, dfd, size=size)
sns.histplot(data, kde=True)

卡方分布(Chi-Square Distribution)

卡方分布是一种概率分布,用于检验观察值与理论值之间的拟合优度。卡方分布常用于拟合优度检验、独立性检验和方差分析中。卡方分布的自由度参数决定了其形状。

import numpy as np
import seaborn as sns

df = 5  # 自由度
size = 1000  # 生成1000个随机数

data = np.random.chisquare(df, size)
sns.histplot(data, kde=True)

番外篇:三大分布互相推导

注:本节作为延伸阅读,初学者简单了解即可

十九世纪中叶至二十世纪初,有三位统计学届杰出代表: 皮尔逊( Pearson) 、戈塞特( Gosset) 、费希尔( Fisher) 表,他们是统计学三大分布的始创者。

  • 皮尔逊(Pearson) 在创立拟合优度理论的过程中发现了 χ 2 χ^2 χ2 分布;

  • 戈塞特( Gosset) 发现 t t t 分布的过程正是 小样本理论 创立的过程;

  • 费希尔( Fisher) 在创立 方差分析 理论的过程中发现了 F F F 分布。

这便是著名的三大抽样分布包括: χ 2 \chi^2 χ2 分布、 t t t 分布和 F F F 分布

χ 2 \chi^2 χ2 分布是由 n n n个相互独立的标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1) 的平方和确定的分布,记作
χ 2 \chi^2 χ2 ~ χ 2 ( n ) χ^2(n) χ2(n) ,即

χ 2 = ∑ i = 1 n ( N ( 0 , 1 ) ) i 2 ∼ χ 2 ( n ) \chi^2=\sum_{i=1}^n(N(0,1))_i^2 \sim \chi^2(n) χ2=i=1n(N(0,1))i2χ2(n)

t t t 分布的分子是一个 N ( 0 , 1 ) N(0,1) N(0,1) ,分母是自由度为 n n n χ 2 χ^2 χ2 分布与自由度 n n n的比值再开方确定的分布,记作 t t t ~ t ( n ) t(n) t(n) ,即

t = N ( 0 , 1 ) χ 2 ( n ) / n ∼ t ( n ) t=\frac{N(0,1)}{\sqrt{\chi^2(n)/n}}\sim t(n) t=χ2(n)/n N(0,1)t(n)

F F F 分布是由两个 χ 2 \chi^2 χ2 分布与其自由度比值的比值确定的分布 ,记 作 F F F ~ F ( n 1 , n 2 ) F (n_1,n_2) F(n1n2) ,即

F = χ 2 ( n 1 ) / n 1 χ 2 ( n 2 ) / n 2 ∼ F ( n 1 , n 2 ) F=\frac{\chi^2\left(n_1\right) / n_1}{\chi^2\left(n_2\right) / n_2} \sim F\left(n_1, n_2\right) F=χ2(n2)/n2χ2(n1)/n1F(n1,n2)

三大分布的推导

三大分布的推导例题

下期预告:《Python统计学极简入门》第4节 区间估计

点击下方链接,观看下期内容。
https://edu.cda.cn/goods/show/3386

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/975851.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

6.xpath的基本使用

xpath是python做数据解析的库 目录 1 安装 2 解析本地的html文件 2.1 只有一个标签的情况 2.2 有多个标签的情况 3 解析网上的页面 4 xpath表达式 4.1 绝对路径 4.2 两个斜杠表示中间隔了0级或多级 4.3 通过属性查找 4.4 通过索引查找 4.5 获取文本内容…

JavaScript-----运算符与流程控制

目录 前言: 1. 运算符 1.1 算术运算符 1.2 赋值运算符 1.3 比较运算符 1.4 逻辑运算符 2.流程控制 1.1 分支结构 switch语句 1.2 循环结构 while 循环 for循环 循环控制 : 1.3代码示例 前言: 今天我们就开始学习JavaScript里面的运算符和流…

【校招VIP】测试开发之字符串算法

考点介绍: 字符串匹配看起来是个很简单、很成熟的问题,但在很多领域都有着很多的应用,比如模式匹配、特征提取等等。字符串算法是很经典的面试题,既考察了求职者的写用例水平又考察了软件测试求职者的编码水平。 测试开发之字符串…

景联文数据标注:AI大模型在教育和医疗领域的应用

8月31日消息,备受行业瞩目的首批大模型产品获批名单发布,首批通过备案的8家大模型公司分别是:百度(文心一言)、抖音(云雀大模型)、智谱AI(GLM大模型)、中科院&#xff08…

centos7上hive3.1.3安装及配置

1、安装背景; hive是基于hadoop的数据仓库软件,部署运行在linux系统之上,安装之前必须保证hadoop环境运行正常,hive本身不是分布式软件,它的分布式主要是借助hadoop实现,存储是hdfs,计算是mapr…

彻底学会Unity从网上加载资源到场景

使用类WWW 该类实例化的对象可以存储多种多媒体资源,只需要在构造函数中附上可访问的资源链接 Unity 中,WWW 类用于实例化互联网上的资源,如文本、图像、音频和视频等。WWW 实例化的对象可以存储多种多媒体素材。以下是一些常见的例子&…

Kubernetes(k8s) 架构原理一文详解

目录 一、k8s 概述 1.什么是k8s? 2.特性 3.主要功能 三、集群架构与组件 1.Master 组件 (1)Kube-apiserver (2)Kube-controller-manager (3)Kube-scheduler 2.配置存储中心 3.Node 组…

Cell Reports | 揭开METTL14在介导m6A修饰中的神秘面纱

m6A被认为是最丰富的mRNA修饰,广泛分布在大多数真核生物中,包括哺乳动物、植物、昆虫、酵母和某些病毒。m6A修饰的沉积和去除之间的动态平衡对于正常的生物过程和发育至关重要,如失调通常与癌症等疾病有关。m6A修饰由m6A甲基转移酶复合物&…

C++多态案例3----组装电脑含测试代码

案例描述: 电脑主要组成部件为 CPU (用于计算) ,显卡 (用于显示) ,内存条 (用于存储)将每个零件封装出抽象基类,并且提供不同的厂商生产不同的零件,例如Intel厂商和Lenovo厂商创建电脑类提供让电脑工作的函数,并且调用…

nc前端合计行、按钮组

nc前端合计行、按钮组 1.无表体和单表体的合计行加法 只要卡片下 如果是只有表头要合计行就只留ShowTotalLine;如果是只有表体要合计行就只留ShowTotalLineTabcodes 2.多表体的合计行加法 表头卡片下和列表下都要 3.档案的合计行加法 重写一下列表模板 …

9.4作业

服务器 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);servernew QTcpServer(this); }Widget::~Widget() {delete ui; }void Widget::on_pushButton_clicked(…

PhpStorm软件安装包分享(附安装教程)

目录 一、软件简介 二、软件下载 一、软件简介 PhpStorm是一款由JetBrains开发的专业PHP集成开发环境(IDE),旨在提供全面的PHP开发支持。它是基于IntelliJ IDEA平台构建的,具有强大的功能和工具,可以帮助开发人员提高…

VIOOVI解析:如何进行工时测定?什么工时测定软件比较准确?

通常来说,在正常的操作条件下,普通且熟练的工人用正常的作业速度完成工作所需要的时间,我们将之称为标准工时。 标准工时的准确性对整个企业的生产经营起着至关重要的作用。错误的工时测定,提供的数据往往会引发企业高层决策上的…

【Java】Java虚拟线程开启preview

JEP 425:虚拟线程(预览版)最近被提出。这是java中一个期待已久的特性。我想试一试。所以我下载了JDK的早期版本,其中包含了这个项目。然而,它还在预览阶段。 SDK19、IntelliJ IDEA Community Edition 2023.1.4 代码: package com.example.…

计算机竞赛 基于深度学习的人脸表情识别

文章目录 0 前言1 技术介绍1.1 技术概括1.2 目前表情识别实现技术 2 实现效果3 深度学习表情识别实现过程3.1 网络架构3.2 数据3.3 实现流程3.4 部分实现代码 4 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 基于深度学习的人脸表情识别 该项目较…

唯品会API接口解析,实现获得按关键字搜索vip商品

要解析唯品会API接口并实现按关键字搜索VIP商品,你需要进行以下步骤: 了解唯品会API接口文档:访问唯品会开放平台,找到API文档,了解唯品会提供的API接口以及相关的参数、返回值等信息。注册开发者账号:在唯…

【Unity-Cinemachine相机】虚拟相机旋转Composer属性详解

Look At和Aim本质是控制虚拟相机自身的旋转,并不一定非要看着,或者并不一定非要瞄着这里的游戏对象 Look At和Aim是以Look At里面的对象作为参考来旋转自身 Do nothing:表现出来的行为和Look At空出来一样 Composer:是一个标准的…

如何搭建“实战化”的统一系统脆弱性管理平台

面对层出不穷的漏洞,如何搭建“实战化”的统一系统脆弱管理平台,是网络安全厂商和客户比较头痛的事情。日前,国内专注于保密与非密领域的分级保护、等级保护、业务连续性安全和大数据安全产品解决方案与相关技术研究开发的领军企业——国联易…

微信小程序商城的定义、特点、优势、未来发展方向

微信小程序商城是一种新兴的电子商务模式,近年来风头火势,深受商家和消费者的喜爱。它是基于微信平台开发的一种小程序,用户可以通过微信进行搜索、购买商品或服务,实现线上购物的便利。本文将从微信小程序商城的定义、特点、优势…

5分钟带你了解什么是敏捷测试?难点显而易见!

随着敏捷开发模式的普及,越来越多的测试同仁也开始了敏捷测试。那么究竟什么是敏捷测试?敏捷测试与传统测试的主要区别是什么?敏捷测试的难点又是什么?本文会对这三个问题进行讲解。注意:本文只是讲解敏捷测试概念相关…