统计学期末名词解释说明

news2024/11/17 5:47:30

  • 基本名词解释
  • P值、显著性、显著水平、样本量、三大分布等

20+基本名词详细解释:

√P值:

相关名词:显著性、显著性差异、0.01水平显著、0.05水平显著。

P值,也称显著性值或者Sig.值,用于描述某件事情发生的概率情况,其取值范围是0~1,不包括0和1,通常情况下,一般有三个判断标准一个是0.01、0.05以及0.1。一般说明:如果p值小于0.01,则说明至少有99%的把握,如果p值小于0.05(且大于或等于0.01),则说明至少有95%的把握,如果p值小于0.1(且大于或等于0.05),则说明至少有90%的把握。

在统计语言表达上,如果p值小于0.01,则称作0.01水平显著,例如,研究人员分析X对Y是否存在影响关系时,如果X对应的p值为0.00(由于小数位精度要求,展示为0.00)PS:展示0.0000,并不是p值为0,而是无限接近于0,则说明X对Y存在影响关系这件事至少有99%的把握,统计语言描述为X在0.01水平上呈现显著性。

√样本:

总体和样本:

  1. 总体:所有研究对象的集合,是研究者希望研究的全部个体。
  2. 样本:从总体中选取的一部分研究对象,用于代表和推断总体的特性。

比如:研究全国大学生的生活费,那么全国的所有大学生就构成了“总体”。但是由于只能选择一部分大学生进行调查,这部分被调查的大学生就是“样本”。

√描述分析统计量:

  1. 均值
    均值又称平均数,是最常用的一个数据代表值,均值既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准,易受极端值影响
  2. 中位数
    中位数是一组数据从小到大顺序排列后的中值,它与均值不同的一点在于,中位数不受极端值影响
  3. 标准差
    标准差是指数据集的离散程度大小(数据波动情况),标准差越小说明数据分布越集中,标准差越大说明数据分布越分散易受极端值影响(方差是标准差的平方)。
  4. 变异系数
    变异系数在分析观察值的差异性和异质性方面具有重要作用,主要用于比较不同组别数据的离散程度(适用于:随机变量的取值有量纲,或者取值大小有相对性的问题)。
  5. 众数
    出现次数最多的变量值(易受极端值影响,适用于分类变量)。
  6. 最值
    包括最大值和最小值,帮助研究者了解分析项的取值范围,比如可以查看是否有异常值等。
  7. 偏度
    偏度也称偏态它是对数据分布对称性的测度,偏度可以描述数据的分布情况,具体如下:

  1. 峰度
    峰度是对数据分布平峰或者尖峰程度的测度,测度峰态的统计量是峰态系数,当峰度大于0则为尖峰分布,当峰度小于0此时为扁平分布。
  2. 分位数

分位数中四分位数使用比较多,四分位差也称四分间距(IQR),一般是指上四分位数和下四分位数之差,四分位数一般反映了中间50%的数据的离散程度。

数值越小说明中间数据越集中。反之,数值越大说明数据越分散,四分位差在一定程度上说明了中位数对一组数据的代表程度,一般适用于定量变量。

四分位数是将一组数据由小到大排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1、Q2、Q3。

√三大分布:

  1. T分布
    t分布主要用于小样本情况下,根据样本数据来估计呈正态分布的总体的均值(适用情况:总体方差未知)
    拓展:当样本量较小时,t分布曲线较平坦,两侧尾部较高;当样本量较大时,t分布曲线逐渐逼近正态分布曲线(可看图)。

  1. F分布
    F分布是两个独立的卡方分布随机变量的比值分布,它的形状取决于两个自由度k1和k2的大小。

  1. 卡方分布

卡方分布是由一系列独立的标准正态随机变量的平方和所构成的分布。

√非负性

√可加性

图像:自由度越大,卡方分布越接近正态分布;自由度越小,卡方分布的偏斜程度越大。

三个分布的Venn图:

√正态性检验:

正态性检验方法:

在实际数据分析过程中,理论上的正态分布很难存在,首先使用图示法进行探索,如果数据基本满足正态分布,也可以考虑使用部分替换方法,如方差分析时要求因变量 Y 满足正态分布,如果因变量 Y 不满足正态分布,则改用非参数检验方法即可。

√相关分析:

  1. Pearson相关系数
    pearson 法则是一种经典的相关系数计算方法,主要用于表征线性相关性,假设2个变量服 从正态分布且标准差不为0,他的值介于-1到1之间,pearson相关系数的绝对值越接近于1,表明 2个变量的相关程度越高,即这2个变量越相似(需要满足正态分布)。
  2. Spearman相关系数

Spearman 相关性分析是对两组变量的等级大小作相关性分析,从而得到一个自变量与因变量之间的关系和自变量对因变量的影响强弱(不需要满足正态分布)。

√假设检验:

  1. 参数检验
    T检验
    研究定性数据和定量数据之间的差异性,定性数据特指两组,比如性别:男和女。
    方差分析
    研究定性数据和定量数据之间的差异性,定性数据特指两组以上,比如学历:专科、本科、硕士。
    Z检验
    Z检验假设适用于总体的标准差已知,但在实际中,我们往往不知道总体的标准差,只能根据样本数据来估计,这时可以考虑t检验等。
  2. 非参数检验

Mann-Whitney U检验

与t检验适用情况一致,但是不要求数据满足正态分布,检验效能低于t检验。

Kruskal-Wallis H检验

与方差分析适用情况一致,但是不要求数据满足正态分布,检验效能低于方差分析。

√回归方程

一般适用于研究影响关系,通过数据构建模型,得到对应变量之间的影响关系。常用的有线性回归和logistic回归,因变量为定量变量适合线性回归,定性变量适合logistic回归。

√量表:

量表答项类似于“非常同意”、“同意”、“不一定”、“不同意”、“非常不同意”等。大多数统计方法均只能针对量表,比如信度分析,效度分析,探索性因子分析等。

量表的尺度形式有多种,常见是五级量表,即五个答项,另外还会有七级量表,九级量表或者四级量表等。

√非量表:

不是量表题的题项,比如人口统计学、多选题、填空题、排序题等。

  • 数据类型
  • 定量数据
    数值型数据,可以比较数字大小,比如身高。

  • 定性数据

非数值型数据,不可以比较数字大小,比如是否购买。

  • 常考分析方法
  • 基本描述
    一般用于描述数据分析,常考计算,比如均值、中位数、分位数、变异系数等。定性数据也可以进行频数分析。
  • 相关关系
    常用于描述两个变量的相关性(需要为定量数据)。
  • 差异关系
    常用于描述不同组别之间的数据是否有差异(定量和定性)。常考的分析方法有方差分析、t检验、卡方检验、U检验和KW检验。
  • 影响关系

用于分析两个或多个变量之间的关系,特别是当一个变量(称为“因变量”或“响应变量”)被视为另一个变量(或多个变量)的函数时。可用于预测和解释变量之间的关系。

  • 指标计算
  • 基本描述
    腰围测定值为:71.0,73.5,81.0,72.5,76.5,75.5,76.0,69.0,76.5,72.5,79.5,74.0,66.0,69.0,73.0(计算背景)。
    均值
    均值,他是一组数据相加后除以数据个数得到的结果,均值是集中趋势的最主要测度值,它主要适用于定量数据而不适用于定类数据。其计算公式如下:
    所以案例的均值为:

    中位数
    中位数是一组数据排序后处于中间位置上的变量值,想要得到15名大学生腰围的中位数,就需要先将数据排序,找到中间位置上的数值,经排序后中位数为73.5。
    最大值
    最大值一般就是指一组数据中最大的值。这里为81.0。由于只有15个数据,所以结论比较直观,如果分析的数据过多一般可能需要借助数据分析工具进行查看更方便。
    最小值
    最小值一般就是指一组数据中最大的值。这里为66.0。由于只有15个数据,所以结论比较直观,如果分析的数据过多一般可能需要借助数据分析工具进行查看更方便。
    四分位差
    四分位差也称四分间距(IQR),一般是指上四分位数和下四分位数之差,四分位数一般反映了中间50%的数据的离散程度,数值越小说明中间数据越集中,反之,数值越大说明数据越分散,四分位差在一定程度上说明了中位数对一组数据的代表程度,一般适用于定量变量。四分位数是将一组数据由小到大排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1、Q2、Q3。分别为71和76.5,所以四分位差为5.5。
    方差
    方差是各变量值与平均数离差平方的平均数,方差能够很好的反映数据的离散程度,也是应用最广的离散测度值。其计算公式如下:
    所以案例的方差为:
    标准差
    标准差就是就是方差的平方根值,所以案例中的标准差为4.012。
    变异系数
    变异系数也叫离散系数,它是一组数据的标准差与其相应的平均数之比,变异系数是测度数据离散程度的统计量,主要用于比较不同样本数据的离散程度,变异系数大,说明离散程度大,变异系数小,说明数据的离散程度也小。其计算公式如下:

所以案例的变异系数为:
虽然集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称,偏斜程度等等,其中偏度和峰度就是对数据分布形状的测度。
偏度
偏度也称偏态它是对数据分布对称性的测度,偏度可以描述数据的分布情况,具体如下:

偏态系数的计算方法有很多,通常采用的公式如下:
案例的偏度如下:
峰度
峰度是对数据分布平峰或者尖峰程度的测度,测度峰态的统计量是峰态系数,当峰度大于0则为尖峰分布,当峰度小于0此时为扁平分布,其通常采用的计算公式如下:
案例的峰度如下:
最后峰度为-0.089。

  • 相关系数
  1. Pearson相关系数

  1. Spearman相关系数

  • 假设检验
  1. T值

t统计量计算

  1. 方差齐时:

其中n1、n2分别为两个样本的观测数目,分母是两个样本之差的标准误,其中的Sc是合并方差,其计算为:

(2)方差不齐时:

V1、V2分别为样本的方差。

  1. F值(自由度、均方)

01自由度
组间自由度df1=组别数-1=3-1=2;组内自由度df2=样本量-组别数量=12*2-3=33;
02均方
组间均方=组间平方和/组间自由度df1=7119.994/2=3559.997;
组内均方=组内平方和/组内自由度df2=1098.275/33=33.281;
03 F值
F值=组间均方/组内均方=3559.997/33.281=106.968;
04 p值
F值为统计量,p值结合F值和自由度计算得到。

  1. 卡方值

其中A代表某个类别的观察频数,E代表基于H0计算出的期望频数,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。当n比较大时,χ2统计量近似服从k-1个自由度的卡方分布。

  • 回归分析

R方、调整后的R方

R方计算的解读

2= / =∑( ^ − ¯)2∑( − ¯)2=1−∑( − ^ )2∑( − ¯)2

调整后的R方:

VIF值:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1883012.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

器件频频更换为哪桩

曾想象,在一家大型研发型企业里有如下案例: 硬件工程师设计电路选择了器件库中的某器件,在批量试产产品时,却发现没有库存,即时申请采购,却发现货期相当长,一时难以采购,甚至根本不…

【ElementPlus源码】Scrollbar 滚动条

文章目录 thumbclickThumbHandlerstartDragmouseMoveDocumentHandlermouseUpDocumentHandlerclickTrackHandler其他 barScrollbar导出的方法noresize更新滚动条相关属性 utilsruntime.tsbuildProps 看源码时候做的笔记。若有问题,请指出! 路径相关格式请…

什么是协程?协程和线程的区别

文章目录 前置知识应用程序和内核阻塞和非阻塞同步和异步并发和并行IO 发展历史同步编程异步多线程/进程异步消息 回调函数(响应式编程) 协程协程基本概念go 示例代码协程和线程的区别 个人简介 前置知识 在了解协程前,我们先理解一些相关的…

VBA数据库解决方案第十二讲:如何判断数据库中数据表是否存在

《VBA数据库解决方案》教程(版权10090845)是我推出的第二套教程,目前已经是第二版修订了。这套教程定位于中级,是学完字典后的另一个专题讲解。数据库是数据处理的利器,教程中详细介绍了利用ADO连接ACCDB和EXCEL的方法…

平安养老险陕西分公司参加2024上半年省级单位驻富平帮扶团联席会

6月28日,平安养老险陕西分公司工会副主席武媛携驻村工作队赴富平县庄里镇永安村参加2024上半年度省级单位驻富平帮扶团联席会议。 会议由省委金融办副主任、省委金融工委委员李嘉辉及省委金融办选派挂职干部、富平县副县长席玮共同主持。 会上,席玮县长带…

全球AI新闻速递6.28

全球AI新闻速递 1.首款 Transformer 专用 AI 芯片 Sohu 登场。 2.钉钉:宣布对所有AI大模型厂商开放,首批7家接入。 3.华为联合清华大学发布《AI 终端白皮书》。 4.国家卫生健康委:推动AI技术在制定个性化营养、运动干预方案中的应用。 …

地下水电站3D虚拟仿真展示平台

借助先进的VR技术,我们将水电站的每一个角落、每一处细节都以三维全景的形式真实呈现。您可以自由穿梭于水电站的各个区域,无论是发电机组、巍峨的水坝,还是错综复杂的输水管道,都近在咫尺。感受水流的澎湃力量,聆听机…

中文TeX,各种数学符号和表格

\documentclass{article} \usepackage{amsmath,amssymb,amsfonts} \usepackage{CJKutf8} \begin{document}\begin{CJK}{UTF8}{gkai}%正文放在此行下与\end{CJK}之间就行你好, LaTeX!平方根 $\sqrt{x}$立方根 $\sqrt[3]{x}$分数的代码是 $\frac{a}{b}$求和的代码是 $\sum_{i1}^{…

自闭症儿童能不能用药

在星贝育园自闭症儿童康复学校,我们一直秉持着谨慎且保守的态度对待自闭症儿童的用药问题。我们坚定地认为,在大多数情况下,药物并非自闭症儿童康复的首选。 自闭症是一种神经发育障碍,其核心症状包括社交沟通障碍、重复刻…

API-元素尺寸与位置

学习目标: 掌握元素尺寸与位置 学习内容: 元素尺寸与位置仿京东固定导航栏案例实现bilibili点击小滑块移动效果 元素尺寸与位置: 使用场景: 前面案例滚动多少距离,都是我们自己算的,最好是页面滚动到某个…

快钱支付股东全部股权已被质押!

根据近期工商信息,第三方支付机构快钱支付清算信息有限公司(简称“快钱支付”)实际控股方快钱金融服务(上海)有限公司(简称“快钱金融”),作为出质股权标的企业,被出质给…

MQTT协议详述

MQTT 概述 消息队列遥测传输(英语:Message Queuing Telemetry Transport,缩写:MQTT),是基于发布(Publish)/订阅(Subscribe)范式的消息协议,位于…

qt QTreeView的简单使用(多级子节点)

MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), ui(new Ui::MainWindow) {ui->setupUi(this);setWindowTitle("QTreeView的简单使用");model new QStandardItemModel;model->setHorizontalHeaderLabels(QStringList() << "left&q…

解决OneDrive “拒绝访问文件” 问题

问题描述&#xff1a; 在尝试将其他文件拖入oneDrive或是打开OneDrive中的文件时。出现如下报错&#xff1a; 拒绝访问文件 无法访问XXXXXXX中的文件。可能已移动或删除了此文件&#xff0c;或者受制于文件权限而不能访问。 ERR_ACCESS_DENIED 解决办法&#xff1a; 1. 找到O…

统计学三学习笔记

一&#xff0c;t分布 二&#xff0c;置信区间 最终要用② n越大&#xff0c;s越小&#xff0c;置信区间越小 三&#xff0c;配对样本t检验 假如有两个族群&#xff1a;

2024-07-01_外语学习

文章目录 前言1、Los Angeles至于单个los 是什么意思&#xff1f;我们可以逐词翻译这个西班牙语句子 2. Extraneous non-props attributes (style) were passed to component but could not be automatically inherited because component renders fragment or text root nodes…

【UE5.1】Chaos物理系统基础——02 场系统的应用

目录 步骤 一、运用临时场&#xff08;外部张力&#xff09;破裂几何体集 二、使用构造场固定几何体集 步骤 在上一篇中&#xff08;【UE5.1】Chaos物理系统基础——01 创建可被破坏的物体&#xff09;我们已经创建了可被破碎的几何体集&#xff0c;在最后我们防止几何体集…

python(6)numpy的使用详细讲解

在numpy中&#xff0c;最基本的数据结构是数组&#xff0c;因此我们首先需要了解如何创建一个数组。numpy提供了多种数组创建方法&#xff0c;包括从列表或元组创建、从文件中读取数据、使用特定函数创建等。下面是一些常用的创建方法&#xff1a; 一、创建数组 1. 从列表或元…

【YOLOv5/v7改进系列】更换损失函数为CIOU、GIOU、SIOU、DIOU、EIOU、WIOUv1/v2/v3、Focal C/G/S/D/EIOU等

一、导言 在目标检测任务中&#xff0c;损失函数的主要作用是衡量模型预测的边界框&#xff08;bounding boxes&#xff09;与真实边界框之间的匹配程度&#xff0c;并指导模型学习如何更精确地定位和分类目标。损失函数通常由两部分构成&#xff1a;分类损失&#xff08;用于…