统计分析笔记3

news2025/1/19 11:27:46

文章目录

  • 统计检验
    • 选择正确的统计检验
      • 统计检验是做什么的?
      • 何时进行统计检验
      • 选择参数化测试:回归、比较或相关性
      • 选择非参数检验
    • 假设检验的假设条件
      • skewness
        • 什么是零偏度
        • right skew
        • left skew
        • 计算skewness
        • what to do if your data is skewed
      • kurtosis
        • 怎么计算kurtosis
    • t Tests
        • When to use a T test
        • What type of t test should I use?
        • 执行T检验

统计检验

选择正确的统计检验

统计检验用于假设检验。它们可以用来:

确定预测变量与结果变量是否有统计学上显著的关系。
估计两个或多个组之间的差异。
统计检验假设零假设为组间无关系或无差异。然后,它们确定观察到的数据是否落在零假设预测的值范围之外。

如果你已经知道你正在处理的变量类型,你可以使用流程图来为你的数据选择正确的统计检验。

统计检验是做什么的?

统计检验的工作原理是通过计算一个检验统计量——一个数字,描述你的测试中变量之间的关系与无关系的零假设相比有多大的不同。

然后,它计算一个 p 值(概率值)。p 值估计如果零假设(即变量之间无关系)为真,你看到由检验统计量描述的差异的可能性有多大。

如果检验统计量的值比从零假设计算出的统计量更极端,那么你可以推断出预测变量和结果变量之间存在统计学上显著的关系。

如果检验统计量的值不如从零假设计算出的那个极端,那么你可以推断预测变量和结果变量之间不存在统计学上显著的关系。

何时进行统计检验

你可以对以统计有效方式收集的数据进行统计检验——无论是通过实验还是通过使用概率抽样方法进行的观察。

为了使统计检验有效,你的样本量需要足够大,以近似所研究总体的真实分布。

要确定使用哪种统计检验,你需要知道:

  • 你的数据是否满足某些假设。
  • 你正在处理的变量类型。

统计假设
统计测试对它们正在测试的数据做出一些常见假设:

  • 观察的独立性(又称无自相关):你在测试中包含的观察/变量是不相关的(例如,对单一测试主体的多次测量不是独立的,而对多个不同测试主体的测量是独立的)。
  • 方差的同质性:被比较各组内的方差在所有组中是相似的。如果一个组的变异性比其他组大得多,它会限制测试的有效性。
  • 数据的正态性:数据遵循正态分布(又称钟形曲线)。这个假设只适用于定量数据。

如果你的数据不满足正态性或方差同质性的假设,你可能能进行非参数统计测试,这允许你在不对数据分布做任何假设的情况下进行比较。
如果你的数据不满足观察独立性的假设,你可能能使用考虑到你数据结构的测试(重复测量测试或包含阻塞变量的测试)。

变量类型
你拥有的变量类型通常决定了你可以使用什么类型的统计测试。

定量变量代表事物的数量(例如,森林中的树木数量)。定量变量的类型包括:

  • 连续变量(又称比率变量):代表测量值,通常可以划分为小于一的单位(例如,0.75克)。
  • 离散变量(又称整数变量):代表计数,通常不能划分为小于一的单位(例如,1棵树)。

分类变量代表事物的分组(例如,森林中不同的树种)。分类变量的类型包括:

  • 序数变量:代表有顺序的数据(例如,排名)。
  • 名义变量:代表组名称(例如,品牌或物种名称)。
  • 二元变量:代表有是/否或1/0结果的数据(例如,赢或输)。

选择适合你收集的预测变量和结果变量类型的测试(如果你正在做实验,这些是独立变量和依赖变量)。请参阅下面的表格,以查看哪个测试最符合你的变量。

选择参数化测试:回归、比较或相关性

参数化测试通常比非参数化测试有更严格的要求,并且能够从数据中做出更强的推断。它们只能用于符合统计测试常见假设的数据。

最常见的参数化测试类型包括回归测试、比较测试和相关性测试。

回归测试
回归测试寻找因果关系。它们可以用来估计一个或多个连续变量对另一个变量的影响。
在这里插入图片描述

比较测试
比较测试寻找组间平均值的差异。它们可以用来测试分类变量对某些其他特征的平均值的影响。

T检验用于比较恰好两组的平均值(例如,男性和女性的平均身高)。ANOVA(方差分析)和MANOVA(多元方差分析)测试用于比较两个以上组的平均值(例如,儿童、青少年和成人的平均身高)。
在这里插入图片描述

相关性测试
相关性测试检查变量之间是否存在关系,而不假设因果关系。

这些可以用来测试你想要在(例如)多元回归测试中使用的两个变量是否存在自相关。
在这里插入图片描述

选择非参数检验

非参数检验对数据的假设不那么多,当一个或多个常见的统计假设被违反时,它们是有用的。然而,它们做出的推论不如参数检验那样强。
在这里插入图片描述
在这里插入图片描述

假设检验的假设条件

skewness

偏度是分布不对称性的度量。当分布的左右两侧不是镜像关系时,该分布是不对称的。

分布可以有右偏(或正偏)、左偏(或负偏)或零偏度。右偏分布的右侧比峰值更长,左偏分布的左侧比峰值更长:
在这里插入图片描述
您可能想要计算分布的偏度以:

  • 描述变量的分布情况,与其他描述性统计量一同使用
  • 确定一个变量是否呈正态分布。正态分布的偏度为零,是许多统计程序的假设之一
什么是零偏度

当一个分布的偏度为零时,它是对称的。它的左右两侧是镜像的。

正态分布具有零偏度,但它们并不是唯一具有零偏度的分布。任何对称分布,如均匀分布或一些双峰(两个顶点)分布,也将具有零偏度。

检查一个变量是否有偏斜分布的最简单方法是将其绘制在直方图中。

该分布大致对称,观测值在其峰值的左右两侧分布相似。因此,该分布的偏度大约为零。
在这里插入图片描述

在偏度为零的分布中,均值和中位数相等。

零偏度:均值 = 中位数

right skew

在这里插入图片描述
Right skew: mean > median

left skew

在这里插入图片描述

Left skew: mean < median

计算skewness

在这里插入图片描述

what to do if your data is skewed

如果您的数据偏斜,您通常有三种选择,如果您的统计程序要求正态分布而您的数据偏斜:

  • 什么都不做。许多统计测试,包括t检验、方差分析(ANOVA)和线性回归,并不非常敏感于偏斜数据。特别是如果偏斜轻微或中等,最好忽略它。
  • 使用不同的模型。您可能想选择一个不假设正态分布的模型。非参数测试或广义线性模型可能更适合您的数据。
  • 转换变量。另一个选项是转换一个偏斜变量,使其偏斜程度减小。“转换”意味着对变量的所有观察值应用相同的函数。
    在这里插入图片描述

kurtosis

峰度是衡量分布尾部厚度的一个指标。尾部厚度是指异常值出现的频率。相对于正态分布的超额峰度是衡量分布尾部厚度的一个指标。

  • 具有中等峰度(中等尾部)的分布是中峰的。
  • 具有低峰度(薄尾部)的分布是扁峰的。
  • 具有高峰度(厚尾部)的分布是尖峰的。

尾部是分布两侧逐渐变细的末端。它们代表与均值相比极高或极低的值的概率或频率。换句话说,尾部代表异常值出现的频率。

在这里插入图片描述

怎么计算kurtosis

在这里插入图片描述
在这里插入图片描述
四阶标准矩 (Fourth order standardized moment)是峰度(Kurtosis),峰度是描述随机变量分布尖锐程度的统计量,衡量分布曲线在均值附近平坦或者是尖峰的程度。当峰度值等于3时,当前分布的峰态与正态分布一致;当峰度值大于3时,均值附近较尖锐,尾部较厚,高峰度分布;当峰度值小于3时,均值附近较平坦,尾部较薄,低峰度分布。

t Tests

T检验是一种用来比较两组均值的统计检验。它常用于假设检验中,以确定某个过程或治疗是否真的对感兴趣的总体有影响,或者两组之间是否存在差异。

t检验示例
您想知道根据其种类,鸢尾花的花瓣长度均值是否有差异。您在一个花园中找到两种不同的鸢尾花种类,并测量了每种种类的25朵花的花瓣。您可以使用t检验和零假设及备择假设来检验这两组之间的差异。
零假设(H0)是这两个组的均值之间的真实差异为零。
备择假设(Ha)是真实差异不为零。

When to use a T test

T检验仅在比较两组的均值时使用(也称为成对比较)。如果您想比较两个以上的组,或者想进行多个成对比较,请使用ANOVA检验或事后检验。

T检验是一种参数差异检验,这意味着它对数据做出了与其他参数检验相同的假设。T检验假设您的数据:

  • 是独立的
  • (大致)呈正态分布
  • 在每个被比较的组内有相似的方差量(也称为方差齐性)

如果您的数据不符合这些假设,您可以尝试T检验的非参数替代方法,如Wilcoxon符号秩检验,用于方差不等的数据。

What type of t test should I use?

在选择T检验时,您需要考虑两件事:被比较的组是否来自单一群体或两个不同群体,以及您是否想测试特定方向上的差异。

One-sample, two-sample, or paired t test?

  • 如果组来自单一群体(例如,在实验处理前后进行测量),进行配对T检验。这是一种被试内设计。
  • 如果组来自两个不同的群体(例如,两种不同的物种,或来自两个不同城市的人),进行两样本T检验(也称为独立T检验)。这是一种被试间设计。
  • 如果有一个组与标准值进行比较(例如,将液体的酸度与中性pH值7进行比较),进行单样本T检验。

One-tailed or two-tailed t test?

  • 如果你只关心两个群体是否不同,进行双尾T检验。
  • 如果你想知道一个群体的平均值是大于还是小于另一个群体,进行单尾T检验

t test example
在你测试花瓣长度是否因种类而异的实验中:
你的观测来自两个不同的群体(不同的种类),因此你进行了两样本T检验。
你不关心差异的方向,只关心是否存在差异,所以你选择使用双尾T检验。

执行T检验

T检验通过使用两组均值之差与两组的合并标准误之比来估计两组均值之间的真实差异。你可以使用公式手动计算,或使用统计分析软件。
在这里插入图片描述
较大的t值显示组均值之间的差异大于合并标准误,表明组之间的差异更显著。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1475591.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《大模型时代-ChatGPT开启通用人工智能浪潮》精华摘抄

原书很长&#xff0c;有19.3w字&#xff0c;本文尝试浓缩一下其中的精华。 知识点 GPT相关 谷歌发布LaMDA、BERT和PaLM-E&#xff0c;PaLM 2 Facebook的母公司Meta推出LLaMA&#xff0c;并在博客上免费公开LLM&#xff1a;OPT-175B。 在GPT中&#xff0c;P代表经过预训练(…

C++:类与对象(1)

创作不易&#xff0c;谢谢支持&#xff01; 一、面向过程和面向对象 1、C语言是面向过程的&#xff0c;关注的是过程&#xff0c;分析出求解问题的步骤&#xff0c;通过函数调用逐步解决问题。 如我们要实现洗衣服&#xff1a; 2、而C是基于面向对象的&#xff0c;关注的是…

跨境电商与支付介绍

1、跨境电商定义和分类&#xff1b; 2、国际贸易清结算&#xff1b; 3、跨境支付&#xff1b; 1、跨境电商定义和分类 跨境电商业务简单说就是指不同国家地域的主体通过电子商务进行交易的一种业务模式。同传统的电商不同&#xff0c;交易双方属于不同的国家。因此&#xff0…

积累:使用QPushButton模拟开关按键

1. 效果图 2. 源码实现 2.1 设置 QPushButton 默认样式 QPushButton{border:none;border-image: url(:/image/close.png); }2.2 主要实现源码 void MainWindow::on_switch_btn_clicked() {if(m_switchisopen){ui->switch_btn->setStyleSheet("QPushButton{\border…

可观测性在威胁检测和取证日志分析中的作用

在网络中&#xff0c;威胁是指可能影响其平稳运行的恶意元素&#xff0c;因此&#xff0c;对于任何希望避免任何财政损失或生产力下降机会的组织来说&#xff0c;威胁检测都是必要的。为了先发制人地抵御来自不同来源的任何此类攻击&#xff0c;需要有效的威胁检测情报。 威胁…

单片机蓝桥杯实训(一)—— 初步了解赛点(省赛)资源包

本篇文章是我在准备单片机蓝桥杯赛事中的第一篇文章&#xff0c;旨在记录初步了解该赛事省赛的赛点资源包&#xff0c;以便更好的提前准备和训练相关的模块代码。文章末尾附有资源包的链接。 一、赛点资源包 赛点资源包所提供的资源如下&#xff1a; 二、赛点资源包解读 这里…

Android+uniapp微信小程序的高校二手商品交易系统卖家vue+springboot/php/nodejs-python

高校的二手商品市场绝对是一个大市场&#xff0c;每年都有毕业生要毕业&#xff0c;每年都有新生来报到&#xff0c;二手商品网站为广大用户提供了一个很好的供需平台&#xff0c;人们可以将自己不用的东西放在网上&#xff0c;也可在网上找到自己需要的东西&#xff0c;物美价…

2024.2.28每日一题

LeetCode 使二叉树所有路径值相等的最小代价 2673. 使二叉树所有路径值相等的最小代价 - 力扣&#xff08;LeetCode&#xff09; 题目描述 给你一个整数 n 表示一棵 满二叉树 里面节点的数目&#xff0c;节点编号从 1 到 n 。根节点编号为 1 &#xff0c;树中每个非叶子节点…

RunnerGo UI自动化测试脚本如何配置

RunnerGo提供从API管理到API性能再到可视化的API自动化、UI自动化测试功能模块&#xff0c;覆盖了整个产品测试周期。 RunnerGo UI自动化基于Selenium浏览器自动化方案构建&#xff0c;内嵌高度可复用的测试脚本&#xff0c;测试团队无需复杂的代码编写即可开展低代码的自动化…

智能工业革新,自研工业操作系统携手AI解决行业痛点

一台银色的机械臂流畅地伸展出“手臂”&#xff0c;精准地从料框中抓取目标工件&#xff0c;并将其安装在指定位置进行固定。整个过程中&#xff0c;机械臂的动作顺滑&#xff0c;无一丝卡顿。这可不是什么科幻电影中的场景&#xff0c;而是真实发生在一家电力装备企业智能生产…

二次供水物联网:HiWoo Cloud助力城市水务管理升级

随着城市化的快速推进&#xff0c;二次供水系统作为城市基础设施的重要组成部分&#xff0c;其稳定运行和高效管理显得至关重要。然而&#xff0c;传统的二次供水管理方式在应对复杂多变的城市供水需求时&#xff0c;显得力不从心。为了破解这一难题&#xff0c;HiWoo Cloud平台…

MATLAB中的makeweight函数

W makeweight(dcgain,[freq,mag],hfgain) W makeweight(dcgain,[freq,mag],hfgain,Ts) W makeweight(dcgain,[freq,mag],hfgain,Ts,N) W makeweight(dcgain,wc,hfgain,___) W makeweight(dcgain,wc,hfgain&#xff0c;___)表示增益交叉频率wc。该语法相当于将…

高通 AI Hub 上手指南

文章介绍 2月26日&#xff0c;高通在2024年世界移动通信大会&#xff08;MWC2024&#xff09;上发布高通AI Hub&#xff0c; AI Hub 简化了AI 模型部署到边缘设备的过程。可以利用AI-hub云端托管 Qualcomm 设备上&#xff0c;在几分钟内完成模型的优化、验证和部署。本文以Pyto…

osi模型,tcp/ip模型(名字由来+各层介绍+中间设备介绍)

目录 网络协议如何分层 引入 osi模型 tcp/ip模型 引入 命名由来 介绍 物理层 数据链路层 网络层 传输层 应用层 中间设备 网络协议如何分层 引入 我们已经知道了网络协议是层状结构,接下来就来了解了解下网络协议如何分层 常见的网络协议分层模型是OSI模型 和 …

JavaEE:多线程(3):案例代码

多线程基础知识要点 案例一&#xff1a;单例模式 是一种设计模式 软件设计需要框架&#xff0c;这是硬性的规定&#xff1b;设计模式是软性的规定。遵循好设计模式&#xff0c;代码的下限就被兜住了 单例 单个实例&#xff08;对象&#xff09; 某个类在一个进程中只应该创…

【mysql】1812 - Tablespace is missing for table `job`.`xxl_job_log`.

打开表提示&#xff1a; 1812 - Tablespace is missing for table job.xxl_job_log. 1812-表“job”缺少表空间xxl_job_log。 尝试删除表重建表 DROP TABLE IF EXISTS job.xxl_job_log; 提示&#xff1a; 1051 - Unknown table job.xxl_job_log 1051-未知表“job.xxl_job_lo…

基于springboot实现二次元商品购物系统项目【项目源码+论文说明】

基于springboot实现二次元商品购物系统演示 摘要 时代的变化速度实在超出人类的所料&#xff0c;21世纪&#xff0c;计算机已经发展到各行各业&#xff0c;各个地区&#xff0c;它的载体媒介-计算机&#xff0c;大众称之为的电脑&#xff0c;是一种特高速的科学仪器&#xff0…

网站三合一缩略图片介绍展示源码

网站三合一缩略图片介绍展示源码&#xff0c;PHP源码&#xff0c;运行需要php环境支持&#xff0c;效果截图如下 蓝奏云下载&#xff1a;https://wfr.lanzout.com/ihY8y1pgim6j

pytorch 图像的卷积操作

目录 1.卷积核基本参数说明 2.卷积相关操作说明 3.卷积操作示例 1.卷积核基本参数说明 pytorch进行图像卷积操作之前&#xff0c;需要把图像素格式进行分离&#xff0c;比如一个图像为rgb格式&#xff0c;把R&#xff0c;G,B取出来作为一个ndarray&#xff0c;前文讲过&#…

kafka消费者接收不到消息

背景&#xff1a; 对kafka消息进行监听&#xff0c;生产者发了消息&#xff0c;但是消费端没有接到消息&#xff0c;监听代码 消费端&#xff0c;kafka配置 spring.kafka.bootstrap-serverskafka.cestc.dmp:9591 spring.kafka.properties.sasl.jaas.configorg.apache.kafka.…