方差分析 / 主成分分析 / 因子分析 / 聚类分析

news2024/11/24 4:01:43

一.方差分析

水平:因素的不同状态,分组是按照因素的不同水平划分的

因变量:在分组试验中,对试验对象所观测记录的变量,它是受各因素影响的变量

常见的方差分析类型:单因素方差分析,多因素方差分析

单因素方差分析:是指检验由单一因素影响一个因变量的组间差异是否显著

多因素方差分析:对一个响应变量是否受多个因素影响进行分析,常用的是双因素方差分析

方差分析的基本思路就是判断样本均值的变异是由于因素的不同水平造成的,还是纯粹由于随机因素造成的

总变差:总体数据的离差平方和,包括组间离差平方和以及组内离差平方和

组间离差平方和:反映的是组间之间的差异程度

组内离差平方和:反映的是组内变量之间的差异程度

我们知道,所有样本数据的离差肯定和样本个数有关,所以为了消除样本个数对离差平方和的影响,需要将其除以个数进行平均,这就是均方。具体的计算方法就是用离差平方和除以相应的自由度

组间方差受因素A和随机因素影响

组内方差只受随机因素影响

自由度:是指样本中独立或者能自由变化的自变量的个数

在估计总体的平均数时,由于样本中的N个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以自由度为N

但在估计总体方差时,使用的是离差平方和

在估计总体方差前,均值就已经确定了,如果知道了其中N-1个数的离差平方和,第N个数的离差平方和也就确定了

这里,均值就相当于一个限制条件,由于加了这个限制条件,所以总体方差的自由度为N-1

组间方差就是用组间离差平方和除以自由度,这里的自由度是R-1,其中R是因素水平个数,也就是总体数据分成了多少组。因为确定了R-1个组之后,第R个组就确定了,所以这里的自由度就是R-1

组内方差就是利用组内离差平方和除以自由度N-R。因为组内方差求的是组内的差异,每个组内数据不需要和自身计算离差,一共R个组,所以自由度就是用总体数据N减去R

了解了数据间的组内差异和组间差异之后,我们需要借助一个统计量来检验因素对结果的显著影响,我们用组间差异除以组内差异来表示,也就是检验统计量F

双因素方差分析有两种类型:无交互作用的双因素方差分析和有交互作用的双因素方差分析

无交互作用的双因素方差分析:它假定因素A和因素B的效应之间是相互独立的,不存在相互关系

有交互作用的双因素方差分析:它假定因素A和因素B的结合会产生出一种新的效应

二.主成分分析

主成分分析和因子分析都是多元分析中的一种降维的统计方法,在我们的日常应用中很常见,而且应用也非常广泛

这种方法的原理就是可以有效地找出数据中最主要的元素和结构,去除噪音和冗余,揭示隐藏在复杂数据背后的简单结构

过度拟合的模型实际上包含了错误的信息,预测能力很差

因为模型和软件,会把噪音当成了信息进行拟合,使得拟合优度超过了理论的最优拟合度

将多个变量浓缩成少量变量,就涉及到主成分分析

作用:减少特征数;减少噪音和冗余;减少过度拟合的可能性

如果用多个指标分析一个问题的时候,由于某些指标反映的是问题的同一方面,这样如果把全部指标都同等地纳入模型,就会导致结果失真

在几何图形上,主成分分析是如何实现降维的呢?

首先看三维数据是如何转化成二维数据

三维立体空间内的任意一点都可以用(x1,x2,x3)来表示,我们将这些点映射到二维平面上,这个平面就是(x1,x2)组成的平面

同样的,一组二维数据也可以转化成一维数据

比如说,下面左边这个图是一个平面空间的二维表,平面上每个点都可以用坐标(x1,x2)来表示,我们按照逆时针旋转坐标系,旋转一定的角度之后得到右边这张图

在旋转过程中,尽量使这些点在一个方向上,只保留一个坐标轴,使纵向的坐标轴的数据尽可能都为0,这样我们就可以将一组二维数据转化成一组一维数据

对于二维平面的数据,我们将x1轴和x2轴先平移,再同时按逆时针方向旋转一定的角度,得到新坐标轴C1,C2,其中C1,C2是两个新变量

在旋转的过程中,我们尽量让数据在C1方向上的方差最大,所以在新坐标中,数据的发散程度主要在C1方向上,C1是原始数据变差最大的方向,而在C2方向上,数据相对集中

结论:主成分分析在几何意义上就是旋转坐标轴,使数据在这个坐标轴上的方差最大

三.因子分析

因子分析也是多元统计方法中常见的一种,和主成分分析一样,也是采用降维的思想,而且已经被各行业广泛应用

虽然两者都是降维的思想,但在实际的应用中,这两种方法又有自己不同的侧重点

主要思路:降维,简化数据结构

目的:将(具有错综复杂关系的)变量综合为(数量较少的)因子,以再现原始变量与因子的关系

原理:人的心理结构具有层次性,即分为外显和内隐。一个人的内在自我会在相当程度上决定他的外在行为特征,表现为某些行为倾向具有高度的一致性或相关性。反过来说,我们可以通过对个体进行系统的观察和测量,从一组高度相关的行为倾向(可观测)中,探索到某种稳定的内在心理结构(潜在的)

这种内在规律的探索,就是因子分析所能做的

四.聚类分析

能干的聚类专家善于在细微处见功夫,善于找出某些子集的特色,把大集合中的对象凝聚成若干个特色小簇,小集合,使得簇内相似度大,簇间相似度小

聚类技术的应用非常广泛,中文中有很多类似“同某”的词汇,如同学,同乡,同事,同胞,还有数学上的同态,同构,都是聚类技术的具体应用

像“同学”,“同乡”等名词,对应英文单词attribute(属性),在敬酒技巧中可泛称为同A技巧

它是用来表明:我们之间是有共同属性的,目的是借此来拉近彼此的距离

一句话:敬酒就是通过套近乎是自己进入到某个簇中

需要说明的是:对于聚类,我们既可以用某一项指标来分类,也可以同时考虑多项指标来分类

分类:就是按照某种标准,给对象贴标签,再根据标签来区分归类

聚类:是指事先没有“标签”,而是通过某种成因分析找出事物之间聚集的原因

聚类和分类的区别

分类是按照事先定义好的分类体系进行分类;聚类不存在分类体系,类别在聚类过程中自动生成

分类是被动的,聚类是主动的:分类代表了人们主观意志对分类过程的监督,它是被动的划分类别;聚类遵循的是“物以类聚,人以群分”的道理,所以聚类对象是主动自发

聚类分析的目的:根据某种准则(最短距离法,最长距离法,中间距离法,重心法),使同一类内的差别较小,而类与类之间的差别较大,将相似的事物归类,从而简化分析对象

随着人类科学技术的发展,对分类的要求越来越高,以致于仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,之后就形成了聚类分析

聚类分析是通过建立一种分类,将一批样本按照在性质上的亲疏程度,在没有先验知识的情况下自动进行分类的过程

其中:类内个体具有较高的相似性,类间的差异性较大

亲疏程度:指的是数据间的相似程度或差异程度,距离越近,越亲密,聚成一类,距离越远,越疏远,分别属于不同的类

分类:系统聚类或分层聚类,快速聚类,两步聚类

1.系统聚类

定义:将若干个体分成若干类的方法

基本思想:先将每一个体各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止

系统聚类不需要事先规定好分几类,开始时有多少点就是多少类

2.K均值聚类

也叫快速聚类

它要求事先说好要分多少类,所以看起来有些主观

步骤:假定分3类,K均值聚类要求事先确定3个点为“聚类种子”,也就是说,把这3个点作为三类中每一类的基石;然后根据和这三个点的距离远近,把所有点分成三类;再把这三类的中心(均值)作为新的基石或种子(原来的种子就没用了),重新按照距离分类

系统聚类通常用于数据量较少的情况下,如果数据太大,系统聚类会很慢很低效,而且系统聚类无需事先指定分成几类

K均值聚类法占内存少,计算量小,处理速度快,特别适合处理大样本数据,而且数据量越大,准确性越高,但是需要我们事先指定聚成几类

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/91062.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RK3568平台开发系列讲解(调试篇)如何跟踪系统事件

🚀返回专栏总目录 文章目录 一、ltrace二、strace三、ptrace沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本文我们要介绍 Linux 上两个非常有用的工具:ltrace 和 strace。在分析软件的运行过程、调试疑难 Bug、执行性能分析和调优等方面,它们都是非常有用的辅助…

肠道核心菌属——优/真杆菌属(Eubacterium),你为什么要关心它?

谷禾健康 Eubacterium 通常翻译为真杆菌属或优杆菌属 Eubacterium,革兰氏阳性细菌,属于真杆菌科,厚壁菌门。 Eubacterium 是在健康人结肠中发现的一种重要的肠道细菌,它是人类肠道微生物群的核心菌属之一,并显示…

SPI通信协议详解

一,SPI的简介 SPI,是英语Serial Peripheral interface的缩写,顾名思义就是串行外围设备接口。是Motorola首先在其MC68HCXX系列处理器上定义的。SPI接口主要应用在 EEPROM,FLASH,实时时钟,AD转换器&#xff…

【力扣刷题】预测赢家

🔗 题目链接 题目描述 给你一个整数数组 nums 。玩家 1 和玩家 2 基于这个数组设计了一个游戏。 玩家 1 和玩家 2 轮流进行自己的回合,玩家 1 先手。开始时,两个玩家的初始分值都是 0 。每一回合,玩家从数组的任意一端取一个数…

leetcode热题HOT100汇总——持续更新中

文章目录前言1. 两数之和2. 两数相加3.无重复字符的最长子串4. 寻找两个正序数组的中位数5. 最长回文子串10. 正则表达式匹配11. 盛最多水的容器15. 三数之和17. 电话号码的字母组合19. 删除链表的倒数第 N 个结点20. 有效的括号21. 合并两个有序链表前言 为了学习本文捋顺lee…

再多学一点Spring之过滤器与拦截器的区别

学习和使用Spring这么久了,我们都用过过滤器和拦截器,但是真要被问到过滤器和拦截器有什么区别,我又一脸懵逼了,回答不上来。今天我们就来学习一下,过滤器和拦截器。 过滤器 通过实现javax.servlet.Filter接口来自定义…

网站被篡改 收录一些非本网站快照跳转如何解决

在实际的网站运营维护过程中&#xff0c;经常发生网站被HACK攻击等情况&#xff0c;尤其网站的标题被篡改为中文关键词<title>&#xff0c;使得网站在百度搜索的索引结果非常的明显&#xff0c;直接在浏览器里打开网站&#xff0c;用肉眼看到的是未被篡改的首页标题。根据…

计算机学徒等级划分

目录 第一级&#xff1a;菜鸟级 第二级&#xff1a;新手级 第三级&#xff1a;入门级 第四级&#xff1a;精通级 第五级&#xff1a;巅峰级 第一级&#xff1a;菜鸟级 概述&#xff1a;你问他计算机是干什么的&#xff1f;他说&#xff1a;“打游戏的&#xff0c;看电影的…

地下水监测系统的构成,优势是什么?

平升电子地下水监测系统由地下水自动监测站监测设备和监测中心平台软件组成。监测设备自动采集、存储地下水水位、水温、水量、水质数据&#xff0c;通过4G/NB-IoT/北斗无线通信网络定时上报至省/市/县级监测中心平台&#xff0c;平台自动接收和存储数据&#xff0c;并对地下水…

排查 Edge WebView2 在某个设备上不出图像的问题

我们在 Windows 应用内嵌入 Edge WebView2&#xff0c;来展示部分用网页实现的界面。总得来说还是不错的&#xff0c;比如&#xff1a; 渲染很快&#xff0c;基本上内置网页100毫秒以内控件样式很清爽&#xff0c;没有多余界面开发需要调用的 API 也不多 但是最近在某个用户那…

2022年山东最新建筑施工架子工(建筑特种作业)模拟题库及答案

百分百题库提供特种工&#xff08;架子工&#xff09;考试试题、特种工&#xff08;架子工&#xff09;考试预测题、特种工&#xff08;架子工&#xff09;考试真题、特种工&#xff08;架子工&#xff09;证考试题库等,提供在线做题刷题&#xff0c;在线模拟考试&#xff0c;助…

21天学Python --- 打卡12:python执行jar包

21天学Python --- 打卡12:Python执行jar包1. Subprocess1.1 Method1.2 Execure Jar2. Jpype2.1 Install2.2 Execute Simple Jar2.2.1 Java Code2.2.2 Python Code2.3 Execute Maven Jar3. Awakening1. Subprocess subprocess 是 Python 2.4 中新增的一个模块 1.1 Method subpro…

第二证券|医药板块短期轮动加快 机构看好后市机会

作为现在商场行情继续性最强的职业板块&#xff0c;医药股昨日早盘呈现回调&#xff0c;午后继续反弹&#xff0c;体现出较强的承接动能。机构以为&#xff0c;本轮新冠医治概念主线行情或仍将延续&#xff0c;但个股或将继续分解。 在本轮反弹行情中&#xff0c;医药板块表现较…

postgres 源码解析 44 btree插入流程 btinsert

基于前两篇对btree的基础介绍&#xff0c;本文将从源码角度讲解btree的插入流程&#xff0c;相关至内容见&#xff1a; postgres源码解析41 btree索引文件的创建–1 postgres源码解析42 btree索引文件的创建–2 数据结构 /** BTStackData -- As we descend a tree, we push t…

干货 | 鸿翼&深信服之内容安全3大应用场景实践

随着企业数字化转型的推进&#xff0c;在企业内容管理层面&#xff0c;面临着数据爆发式增长&#xff0c;内容安全合规、海量非结构化数据分散存储&#xff0c;业务系统重建数据难以整合&#xff0c;无法统一管理等问题。 在数据安全层面&#xff0c;随着新威胁层出不穷&#…

Docker的CICD

&#x1f38f;⭕引言 回顾使用docker进行项目部署的步骤&#xff1a; 将项目通过maven进行编译打包将文件上传到指定的服务器中将war包放到tomcat的目录中通过Dockerfile将Tomcat和war包转成一个镜像&#xff0c;由DockerCompose的docker-compose.yml去运行容器 以上操作&#…

frp内网穿透详细安装步骤以及使用

frp是一款内网穿透工具&#xff0c;首先要一台服务器用作服务端&#xff08;Linux&#xff09;&#xff0c;将自己的(WIN10)电脑用作客户端&#xff0c;我将通俗的讲解详细的安装以及使用过程&#xff0c;废话不多直接开始。 Linux要开放 7000 7500 9600端口&#xff0c;一…

Android入门第48天-静态BroadCast之接受开机广播

简介 我们在之前的BroadCast章节中写了动态BroadCast。但我们提过一笔BroadCast也有静态之分&#xff0c;而静态的BroadCast主要用于监听一些如&#xff1a;开机广播、SIM卡拨出插入等广播。这些广播都为静态注册广播事件。因此我们今天就以一个App监听Android开机广播为例子说…

[附源码]Node.js计算机毕业设计高校科研项目申报管理信息系统Express

项目运行 环境配置&#xff1a; Node.js最新版 Vscode Mysql5.7 HBuilderXNavicat11Vue。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分离等等。 环境需要 1.运行环境&#xff1a;最好是Nodejs最新版&#xff0c;我…

三次握手四次挥手和SSL/TLS握手

http(TCP)三次握手四次挥手&#xff1a; 三次握手&#xff1a; SYN&#xff1a;同步位。SYN1 表示进行一个连接请求。 ACK&#xff1a;确认位。ACK1 表示确认有效&#xff0c;ACK0 表示确认无效。 ack&#xff1a;确认号。等于对方发送的序号1。 seq&#xff1a;序号。 握手…