数据分析知识图谱

news2024/10/5 18:30:07

在做数据分析时,经常会有这样的困扰:面对几种相似的方法,既不清楚它们各自的使用场景,也无法分清它们之间的差别,一念之差就可能选错方法。如果你也有这样的困扰,建议按照SPSSAU知识图谱目录顺序检索对应的研究方法,理清不同方法的区别与使用场景,以便选出正确的方法进行分析。SPSSAU知识目录如下:

1、基本描述统计

基本描述统计分析包括频数分析、描述分析、分类汇总;用于对收集的数据进行基本的说明。

 

  • 频数分析:用于分析定类数据的选择频数和百分比分布。
  • 描述分析:用于分析定量数据的集中趋势、波动情况和分布状况等;常见的指标有平均值、中位数、标准差等;更深入的描述指标包括百分位数、峰度、偏度、变异系数等。
  • 分类汇总:用于交叉研究,展示两个或者更多变量的交叉信息,可以将不同组别下的数据进行汇总统计。

下方链接均会跳转至SPSSAU帮助手册:

频数分析

描述分析

分类汇总

2、信度分析

信度分析的方法主要有以下三种:Cronbach α信度系数法、折半信度法、重测信度法

  • Cronbach α信度:最常使用的方法,通过Cronbach α信度系数测量测验或量表的信度是否达标。
  • 折半信度:是将所有量表题项分为两半,计算两部分各自的信度以及相关系数,进而估计整个量表的信度的测量方法。
  • 重测信度:是指同一批样本,在不同时间点做了两次相同的问题,然后计算两次回答的相关系数,通过相关系数去研究信度水平。

下方链接均会跳转至SPSSAU帮助手册:

Cronbach α信度

折半信度法

重测信度(使用相关系数分析)

3、效度分析

效度有很多种,可分为四种类型:内容效度、结构效度、区分效度、聚合效度。

  • 内容效度:用文字描述量表的有效性,比如具有参考文献来源,量表经过专家认可等。
  • 结构效度:因子与测量项对应关系是否符合预期,如果符合预期则说明具有结构效度。
  • 区分效度:强调本不应该在同一因子下的测量项,确实不在同一因子下面。
  • 聚合效度:强调本应该在同一因子下面的测量项,确实在同一因子下面。

下方链接均会跳转至SPSSAU帮助手册:

结构效度

区分效度&聚合效度

4、差异关系研究

常见的差异关系研究方法包括方差分析、t检验、卡方检验、非参数检验

  • t 检验:X为定类数据,Y为定量数据之间的关系情况,且X只能为2个类别。
  • 方差分析:X为定类数据,Y为定量数据,且组别多于2组时可使用方差分析。
  • 交叉卡方:分析定类数据和定类数据之间的关系情况,可使用交叉卡方分析。
  • 非参数检验:数据不正态或者方差不齐时,可使用非参数检验。

提示:t检验和方差分析均属于参数检验范围,一般需要数据满足正态性、方差齐性。与参数检验相对的是非参数检验,非参数检验不对总体的分布形态做假定,所以当数据不正态或方差不齐时,可使用非参数检验进行差异性研究。

下方链接均会跳转至SPSSAU帮助手册:

t检验
方差分析交叉卡方非参数检验

5、t检验

t检验,用于分析定类数据与定量数据之间的差异情况,按照研究内容和数据类型等不同,可分为以下几类:

  • 单样本t检验:对比一组定量数据与某个数字的差异。
  • 独立样本t检验:对比X定类数据与Y定量数据之间的差异。
  • 配对t检验:对比两组配对数据之间的差异。

下方链接均会跳转至SPSSAU帮助手册:

单样本t检验

独立样本t检验

配对t检验

6、方差分析

方差分析用于进行定类数据与定量数据之间的差异关系研究;按照研究内容和数据类型等不同,可分为以下几类:

 

  • 单因素方差分析:如果X为一个,则使用单因素方差分析。
  • 双因素方差分析:当X个数为2个,则使用双因素方差分析。
  • 多因素方差分析:当X个数超过2个,使用多因素方差分析。
  • 事后多重比较:是基于方差分析基础上进行,如果X的组别超过两组,可用事后多重比较进一步分析两两组别之间的差异。
  • 协方差分析:如果研究中有干扰因素(控制变量),可使用协方差分析。
  • 重复测量方差分析:相关领域(比如医学研究时)常常需要对同一观察单位重复进行多次测量,此时使用重复测量方差分析。


下方链接均会跳转至SPSSAU帮助手册:

单因素方差分析

双因素方差分析

多因素方差分析

事后多重比较

协方差分析

重复测量方差分析

7、卡方检验

卡方检验,用于分析定类数据与定类数据之间的差异情况,按照研究内容和数据类型等不同,可分为以下几类:

 

  • 卡方检验:定类数据与定类数据之间的差异情况。
  • 配对卡方:两组配对定类数据之间的差异情况。
  • 卡方拟合优度:研究类别定类数据的实际比例与预期比例是否一致。
  • 分层卡方:分层卡方是在卡方检验基础上,进一步考虑分层项的干扰。
  • Fisher卡方:在分析样本量较少(比如小于40),也或者期望频数出现小于5时,使用fisher卡方检验较为适合。

下方链接均会跳转至SPSSAU帮助手册:

卡方检验

配对卡方

卡方拟合优度

分层卡方

Fisher卡方

8、非参数检验

非参数检验用于研究定类数据与定量数据之间的关系情况。如果数据不满足正态性或方差不齐,可用非参数检验。

  • 单样本Wilcoxon检验:是当数据不服从正态分布时,可检验数据是否与某数字是否有明显的区别。
  • MannWhitney:对于不服从正态分布的变量进行差异性分析,如果X的组别为两组,则使用MannWhitney统计量。
  • Kruskal-Wallis:如果组别超过两组,则应该使用Kruskal-Wallis统计量。
  • 配对样本Wilcoxon检验:如果是配对数据,则使用配对样本Wilcoxon检验。
  • 多样本Friedman检验/Cochran's Q 检验:对于多个关联样本的差异情况。
  • Ridit分析:如果是研究定类数据与定量(等级)数据之间的差异性,还可以使用Ridit分析。


下方链接均会跳转至SPSSAU帮助手册:

单样本wilcoxon检验

MannWhitney、Kruskal-Wallis(非参数检验)
配对样本Wilcoxon检验

多样本Friedman检验/Cochran's Q 检验Ridit分析

9、相关分析研究

相关分析可分为简单相关分析、偏相关分析、典型相关分析三类。

  • 相关分析:简单相关分析是分析对两个变量之间的相关关系。
  • 偏相关分析:当两个变量都与第三个变量相关时,为了消除第三个变量的影响,只关注这两个变量之间的关系情况,此时可使用偏相关分析。
  • 典型相关分析:研究两组变量(多个指标组成)之间的整体相关性,可用典型相关分析。

下方链接均会跳转至SPSSAU帮助手册:

相关分析

偏相关分析

典型相关分析

10、线性回归研究

Y为定量数据时,可以使用线性回归研究X对Y的影响。常用的线性回归方法有以下几种:

  • 线性回归:研究X对Y(定量数据)的影响关系情况。
  • 逐步回归:如果X很多时,可使用逐步回归自动找出有影响的X。
  • 岭回归:用于解决线性回归中自变量共线性的研究算法。
  • 分层回归:如果需要研究多个线性回归的层叠变化情况,此时可使用分层回归。
  • Robust回归:如果数据中有异常值,可使用Robust回归进行研究。

下方链接均会跳转至SPSSAU帮助手册:

线性回归

逐步回归

岭回归

分层回归

Robust回归

11、logistic回归研究

Y为定类数据时,可以使用logistic回归研究X对Y的影响。

  • 二元logit回归:Y为定类数据且只有两类
  • 多分类logit:Y为定类数据且大于2类
  • 有序logit:Y为定类数据且有序

下方链接均会跳转至SPSSAU帮助手册:

二元logit回归

有序logit回归

多分类logit回归

12、多选题研究

多选题分析可分为四种类型包括:多选题、单选-多选、多选-单选、多选-多选。

  • 多选题分析:是针对单个多选题的分析方法,可分析多选题各项的选择比例情况。
  • 单选-多选:是针对X为单选,Y为多选的情况使用的方。
  • 多选-单选:是针对X为多选,Y为单选的情况使用的方法。
  • 多选-多选:是针对X为多选,Y为多选的情况使用的方法。


下方链接均会跳转至SPSSAU帮助手册:

多选题分析
单选-多选多选-单选多选-多选
 

13、聚类分析方法

聚类分析以多个研究标题作为基准,对样本对象进行分类。

  • K-means聚类:只能处理数值型数据。
  • K-modes聚类:对分类属性数据进行聚类的方法。
  • K-prototype聚类:处理混合属性数据的方法。
  • 分层聚类:对给定数据对象的集合进行层次分解,根据分层分解采用的分解策略,仅针对定量数据进行分层聚类。

下方链接均会跳转至SPSSAU帮助手册:

聚类分析(K-means、K-modes、K-prototype)

分层聚类

14、信息浓缩方法

当研究中包括有很多题目或很多变量时,可通过信息浓缩的方法,把数据浓缩成一个或多个变量,以便用于后续的分析。

  • 主成分分析和因子分析:都是信息浓缩的方法,即将多个分析项信息浓缩成几个概括性指标。如果希望进行将指标命名,SPSSAU建议使用因子分析。原因在于因子分析在主成分基础上,多出一项旋转功能,该旋转目的即在于命名。
  • 平均值和求和:也是信息浓缩的常用方法,比如要将多个题项合并成一个变量,可通过求平均值概括成一个题项。
  • 中位数:当数据不满足正态,存在极端值时,可用中位数代替平均值。

下方链接均会跳转至SPSSAU帮助手册:

因子分析

主成分分析

15、一致性研究方法

一致性检验的目的在于比较不同方法得到的结果是否具有一致性。检验一致性的方法有很多比如:Kappa检验、ICC组内相关系数、Kendall W协调系数等。

  • ICC组内相关系数:用于分析多次数据的一致性情况,分析定量或定类数据均可。
  • Kappa一致性检验:适用于两次方法之间比较一致性,通常要求数据为定类数据。
  • Kendall协调系数:分析多个数据之间关联性的方法,适用于定量数据,尤其是定序等级数据。

下方链接均会跳转至SPSSAU帮助手册:

Kappa一致性检验

Kendall协调系数

ICC组内相关系数

16、权重研究

权重研究是用于分析各因素或指标在综合体系中的重要程度,最终构建出权重体系。权重研究有多种方法:

  • AHP层次分析法:是一种主观加客观赋值的计算权重的方法。先通过专家打分构造判断矩阵,然后量化计算每个指标的权重。
  • 熵值法:是利用熵值携带的信息计算每个指标的权重,通常可配合因子分析或主成分分析得到一级权重,利用熵值法计算二级权重。
  • TOPSIS法:是一种评价多个样本综合排名的方法,用于比较样本的排名情况。
  • 因子分析:可将多个题项浓缩成几个概括性指标(因子),然后对新生成的各概括性指标计算权重。
  • 主成分分析:利用方差解释率值计算各概括性指标的权重。
  • 其他:熵权topsis法、优序图法、CRITIC权重、独立性权重、信息量权重等。

下方链接均会跳转至SPSSAU帮助手册:

AHP层次分析法

熵值法

TOPSIS法

因子分析

主成分分析

17、模型研究方法

当需要研究多个变量之间的关系情况时,通常可构建统计模型用于分析及预测。

  • 线性回归:当研究X对Y的影响关系,其中Y为定量数据,可使用线性回归分析。
  • logistic回归:研究X对Y的影响关系,其中Y为定类数据,可使用Logistic分析。
  • 典型相关:研究1组X与一组Y之间的关系情况,可使用典型相关分析。
  • PLS回归:研究多个X与多个Y之间的影响关系情况,且样本量较小(通常小于200),可使用PLS回归分析。
  • 路径分析:如需分析多个X对多个Y的影响关系,以及具体哪些X对哪些Y有影响、如何影响,可使用路径分析。
  • 结构方程模型:需要同时研究测量关系和影响关系,可使用结构方程模型。

下方链接均会跳转至SPSSAU帮助手册:

线性回归

logistic回归

典型相关

PLS回归

路径分析

结构方程模型

18、数据分布研究

判断数据分布是选择正确分析方法的重要前提。

  • 正态性:很多分析方法的使用前提都是要求数据服从正态性,比如线性回归分析、相关分析、方差分析等,可通过直方图、P-P/Q-Q图、正态性检验查看数据正态性。
  • 随机性:抽样调查有一个最基本的前提假设,就是抽样必须满足“随机性要求”,游程检验是一种非参数性统计假设的检验方法,可用于分析数据是否为随机。
  • 方差齐性:方差齐检验用于分析不同定类数据组别对定量数据时的波动情况是否一致,即方差齐性。方差齐是方差分析的前提,如果不满足则不能使用方差分析。
  • 卡方拟合优度检验:卡方拟合优度检验是一种非参数检验方法,其用于研究实际比例情况,是否与预期比例表现一致,但只针对于类别数据。
  • Poisson分布:如果要判断数据是否满足Poisson分布,可通过Poisson检验判断或者通过特征进行判断是否基本符合Poisson分布(三个特征即:平稳性、独立性和普通性)

下方链接均会跳转至SPSSAU帮助手册:

正态性检验

游程检验

方差齐检验

卡方拟合优度

Possion检验

19、机器学习

SPSSAU目前机器学习模块有以下6类方法。

  • 决策树:常用于研究类别归属和预测关系的模型。
  • 随机森林:实质上是多个决策树模型的综合,决策树模型只构建一棵分类树,但是随机森林模型构建非常多棵决策树。
  • KNN:是一种简单易懂的机器学习算法,其原理是找出挨着自己最近的K个邻居,并且根据邻居的类别来确定自己的类别情况。
  • 朴素贝叶斯:是基于贝叶斯定量,并且加上条件(特征之间独立)的一种模型。
  • 支持向量机:是一种二分类模型。
  • 神经网络:是一种模拟人脑神经思维方式的数据模型。

下方链接均会跳转至SPSSAU帮助手册:

决策树

随机森林

KNN

朴素贝叶斯

支持向量机

神经网络

20、可视化分析方法

常用的可视化分析方法如下:

  • 散点图:用于考察定量数据之间的关系情况。
  • 箱线图:直观地识别数据中的异常值、判断数据离散分布情况。
  • 误差线图:用于展示数据的不确定性程度,显示潜在的误差或每个数据标志的不确定程度。
  • ROC曲线:用于研究X对Y的预测准确率情况。
  • 其他:P-P图/Q-Q图、直方图、象限图、帕累托图、簇状图、气泡图、核密度图、小提琴图等。

下方链接均会跳转至SPSSAU帮助手册:

散点图

箱线图

误差线图

Roc曲线

其他

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/699126.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【万字】一文教会你关于“生成对抗网络GAN”的所有知识

1 GAN基本概念 1.1 GAN介绍 GAN的英文全称是Generative Adversarial Network,中文名是生成对抗网络。它由两个部分组成,生成器和鉴别器(又称判别器),生成网络(Generator)负责生成模拟数据&…

深度分析我国“智慧+”养老模式的发展情况

随着我国的老龄化人口结构的不断加深,传统旧的养老服务模式已经无法全面适应当前的养老市场的需求,因此需要寻求更加新型的、多元化的模式来解决老年人的不同层次的需求,“智慧”养老的服务模式从而成为了新养老产业发展的主要导向。 “智慧…

【1089. 复写零】

目录 一、题目解析二、算法原理三、代码实现 一、题目解析 二、算法原理 三、代码实现 class Solution { public:void duplicateZeros(vector<int>& arr){//找出最后一个数int dest-1,cur0;for(;;cur){if(arr[cur]){dest;}else{dest2;}if(dest>arr.size()-1){bre…

GPT-4:AI的新突破,重塑芯片设计领域

随着人工智能&#xff08;AI&#xff09;的快速发展&#xff0c;其在各个领域的应用也日益广泛。最近&#xff0c;纽约大学Tandon工程学院的研究人员利用OpenAI的GPT-4模型&#xff0c;成功设计出了一个芯片&#xff0c;这标志着AI在硬件设计领域的重大突破。 GPT-4通过简单的英…

华为战略方法论:BLM模型之差距分析(限制版)

目录 说明 差距类型 1、业绩差距 2、机会差距 3、对标差距 专栏列表 个人简介 说明 今天就来谈谈 BLM 模型中的第一把钥匙&#xff0c;也就是差距分析。 从本质上来看。 BLM 模型中的差距与你在日常生活中听到或用到的差距在意义都是一样的。 不同之处就在于问题的复…

数据迁移工具,用这8种!

前言 最近有些小伙伴问我&#xff0c;ETL数据迁移工具该用哪些。 ETL(是Extract-Transform-Load的缩写&#xff0c;即数据抽取、转换、装载的过程)&#xff0c;对于企业应用来说&#xff0c;我们经常会遇到各种数据的处理、转换、迁移的场景。 今天特地给大家汇总了一些目前…

chatgpt赋能python:Python遍历n中所有数字

Python 遍历 n 中所有数字 Python 是一种高级编程语言&#xff0c;它被广泛用于许多应用程序和领域&#xff0c;如机器学习、人工智能和数据可视化等。Python 在处理数字时非常方便&#xff0c;因为它支持大量的数字操作和运算。在这篇文章中&#xff0c;我们将讨论如何使用 P…

C++制作简易计算器

C简易计算器 C简易计算器栈栈(Stack)的特点栈的相关概念栈的常用操作为栈的常见分类实例计算器概念代码实现测试 效果展示 简易计算器实现的功能&#xff1a; 基本的加减乘除、表达式错误判断、除法运算分母不能为0、支持多项式表达计算&#xff0c;自己封装一个模板栈、封…

介绍 9 个研发质量度量指标

研发质量管理中的 MTTR、MTBF、MTTF、MTTD 都是什么&#xff1f;今天我们从生产事件的全生命周期出发&#xff0c;认识研发质量管理的 9 个度量指标——「MT 家族」。 01 Mean Time To ALL 「MT」是 Mean Time 的缩写&#xff0c;意为平均时间&#xff0c;「MT 家族」则是 Li…

OpenStack(T版)——仪表板(Horizon)服务介绍与安装

文章目录 OpenStack(T版)——仪表板(Horizon)服务介绍与安装安装和配置Horizon仪表板服务组件(1)安装软件包(2)修改配置文件(3)修改httpd文件完成安装 访问 OpenStack(T版)——仪表板(Horizon)服务介绍与安装 Openstack项目中的Horrizon仪表板服务组件是以Web界面形式展示各项…

【shell脚本百炼成魔】shell脚本之函数实战

前言 文章目录 前言函数的概念函数的基本语法1.使用关键字 function&#xff1a;2.直接使用函数名和大括号&#xff1a; 函数的简单案例案例一&#xff0c;欢迎函数案例二&#xff1a;购物清单 函数的传参1. 位置参数2. 命令替换3. 数组参数 函数的返回值1. 判断函数的执行结果…

SVNKit 1.10.8: svn add和svn commit方法总结

SVNKit 1.10.8: svn add和svn commit方法实现总结&#xff1a; doAdd(java.io.File path, boolean force, boolean mkdir, boolean climbUnversionedParents, SVNDepth depth, boolean depthIsSticky, boolean includeIgnored, boolean makeParents) 参数是的含义及作用&…

实现淘宝母婴订单实时查询和可视化|Flink-Learning实战营

为进一步帮助开发者学习使用 Flink&#xff0c;Apache Flink 中文社区近期发起 Flink-Learning 实战营项目。本次实战营通过真实有趣的实战场景帮助开发者实操体验 Flink&#xff0c;课程包括实时数据接入、实时数据分析、实时数据应用的场景实。并结合小松鼠助教模式&#xff…

K8s组件:etcd安装、使用及原理(Linux)

K8s组件&#xff1a;etcd安装、使用及原理&#xff08;Linux&#xff09; 1 介绍及安装 1.1 介绍 分布式系统架构中对一致性要求很高&#xff0c;etcd就满足了分布式系统中的一致性要求。 实现了分布式一致性键值对存储的中间件&#xff0c;支持跨平台&#xff0c;有活跃的…

交互式标注工具-Paddlelabel

PaddleLabel 是基于飞桨 PaddlePaddle 各个套件功能提供的配套标注工具。目前支持对分类、检测、分割、OCR 四种常见的计算机视觉任务数据集进行标注和管理&#xff0c;除基础的手动标注功能外也支持深度学习辅助标注&#xff0c;可以有效地提升标注效率。重点是free free free…

玩转代码|那些实用的JavaScript单行代码,帮你轻松工作

目录 数组去重 从url获取参数并转为对象 检查对象是否为空 反转字符串 生成随机十六进制 检查当前选项卡是否在后台 检测元素是否处于焦点 检查设备类型 文字复制到剪贴板 获取选定的文本 查询某天是否为工作日 转换华氏/摄氏 两日期之间相差的天数 将 RGB 转换为…

并发-编程之JMMvolatile详解

并发三大特性&#xff1a;可见性、原子性、有序性 并发都是数据【多线程对一个变量进行连续加1】 线程A和B都对count进行连续加1&#xff0c;因为count不是原子性&#xff0c;如果再执行countcount1之前cpu执行权被抢占&#xff0c;就会阻塞住&#xff0c;这时候线程B完成count…

基于Java车库智能管理平台设计实现(源码+lw+部署文档+讲解等)

博主介绍&#xff1a;✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专…

Java | 使用切面AOP拦截并修改Controller接口请求参数

关注common wx&#xff1a; CodingTechWork 引言 在开发过程中&#xff0c;会有一些需求将controller层的一些方法入参进行全量转换&#xff0c;最容易想到的可能是在调用下层service方法时&#xff0c;调用公共的方法进行入参转换&#xff0c;这时带来的唯一问题就是代码不雅…

TCP的粘包、拆包、解决方案以及Go语言实现

什么是粘包&#xff0c;拆包&#xff1f; TCP的粘包和拆包问题往往出现在基于TCP协议的通讯中&#xff0c;比如RPC框架在使用TCP进行数据传输时&#xff0c;由于TCP是基于字节流的协议&#xff0c;而不是基于消息的协议&#xff0c;可能会出现粘包&#xff08;多个消息粘在一起…