spss分析方法-聚类分析

news2024/10/5 16:19:01

聚类分析是根据研究对象的特征,按照一定标准对研究对象进行分类的一种分析方法。
下面我们主要从下面四个方面来解说:

 

  • 实际应用
  • 理论思想
  • 建立模型
     
  • 分析结果


 

一、实际应用


 

聚类分析的目标就是在相似的基础上收集数据来分类。

聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

商业上:

聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择试验的市场,并作为多元分析的预处理。
 

生物上:
聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识。


 

地理上:

聚类能够帮助在地球中被观察lei的数据库趋于的相似性。


 

保险行业上:
聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。


 

因特网上:

聚类分析被用来在网上进行文档归类来修复信息。


 

电子商务上:
聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。



 



 

二、理论思想



 

聚类分析是基于数据之间的距离远近,对研究变量进行聚类分组,聚类分析事先不知道分组情况,是一种探索性分析。


 

聚类分析就是分析如何对样品(或变量)进行量化分类的问题。

按照研究对象的不同,聚类分析一般分为样本聚类和变量聚类。


 

样本聚类又称Q型聚类,它针对实测量进行分类,将特征相近的实测量分为一类,特征差异较大的实察量分在不同的类。

变量聚类又称R型聚类,它针对变量分类,将性质相近的变量分为一类,将性质差异较大的变量分在不同的类。


 

聚类常见类型有系统聚类、K-means聚类和两步聚类:

系统聚类:

先将n个样品或变量看成n个分类,然后将距离接近(样品聚类)或性质接近(变量聚类)的两类合并为一类,再从n-1类中继续寻找最接近的两类合并为一类,如此继续,最终将所有类别合并为一类。


 

K-means聚类,又称快速聚类:

n个数值变量参与快速聚类,则n个变量组成一个n维的空间,每个样品是空间中的一个点,最终按照事先要求聚类聚成K个类别。聚类前计算机随机产生初始的聚类中心,计算各个点到中心的距离,然后计算机迭代新的聚类中心。如果各个点到第二次聚类中心的距离比第一次小,则放弃第一次中心,留取第二次中心。接着计算机继续迭代寻找第三次聚类中心,直至各个点到前后聚类中心的距离之差为零,此时认为已经无法再进一步优化,即找到最佳的聚类中心。


 

两步聚类:

利用统计量作为距离进行聚类,两步聚类顾名思义分为两步,先进行预聚类,然后在预聚类基础上,根据AICBIC最小原则,自动判定聚类数目。两步聚类算法复杂,但软件实现起来也不复杂。


 

一般可以根据以下的条件选中聚类方法:


 




 

三、建立模型


模型建立的步骤:

构建模型的步骤如下:

1)数据预处理;

2)为衡量数据点间的相似度定义一个距离函数;

3)聚类或分组;

4)评估输出;

5)优化模型。


快速聚类案例:
 

题目:以下我国2006年各地区能源消耗的情况。根据不同省市的能源消耗情况,对其进行分类,分析我国不同地区的能源消耗情况。


一、数据输入

二、操作步骤1、进入SPSS,打开相关数据文件,选择分析”|“分类 ”|“K-均值聚类命令2选择进行聚类分析的变量。在对话框的左侧列表框中,选择“地区”进入“个案标注依据”列表框,选择“Zscore(单位地区生产总值煤消耗量)”“Zscore(单位地区生产总值电消耗量)”“Zscore(单位工业增加值煤消耗量)”3个变量进入“变量”列表框;在“聚类数”中,输入聚类分析的类别数3

3、设置输出及缺失值处理方法。

单击“K均值聚类分析对话框中的选项按钮。在统计选项组中,选中全部的3个复选框;缺失值选择默认值。

设置完毕后,单击继续按钮返回“K均值聚类分析对话框。

4、其余设置采用系统默认值即可。单击确定按钮,等待输出结果。





 

四、结果分析



1、初始聚类中心可以知道初始聚类中心。
2、聚类成员分析可以知道每个地区属于哪一类,还可以知道每个地区到最终聚类中心的距离。

3、最终聚类中心表可以看出,3类的中心位置同初始位置相比,均发生了变化。

4、每个聚类中的样本数可以知道,聚类1所包含样本数最多,聚类3所包含样本数最少。
分析结论:(获取更多知识,前往gz号程式解说)
通过K中心聚类分析,可以对我国不同地区的能源消耗情况有一个基本的了解。我们可以将不同地区的能源消耗情况分成3类;其中,第一类地区包含的省市最多,有24个,其他两类包含省市较少。通过分析也可以知道每个地区属于哪一类。


 

参考案例数据:
 

1spss统计分析与行业应用案例详解(第四版杨维忠,张甜,王国平  清华大学出版社

收录于合集 #spss

 13

上一篇spss分析方法-回归分析

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/662124.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安装虚幻引擎

1、下载和安装 Epic Games启动程序。 下载地址:https://www.unrealengine.com/zh-CN/download 进入网站你可以看到下载信息和推荐系统要求等: 点击“下载启动程序”即可下载,或者直接点击下载链接:https://epicgames-download1.ak…

37岁985硕士,投上千份简历无人问津......该何去何从

前言 简单自我介绍一下,我老刘,37岁失业的985硕士 ,13年其实可以直接入编的我,其实都不需要考试了,可以直接入职,但是我并没有选择去,后面直接选择了新闻周刊干了四年,后面换了一家…

【福利】不用考试可以增持CSPM-2证书?有PMP证书才行!

2021年10月,中共中央、国务院发布的《国家标准化发展纲要》明确提出构建多层次从业人员培养培训体系,开展专业人才培养培训和国家质量基础设施综合教育。建立健全人才的职业能力评价和激励机制。由中国标准化协会(CAS)组织开展的项…

CSS查缺补漏之《过渡效果与动画效果》

过渡 过渡效果使用transition属性表示&#xff0c;设置在需要过渡效果的元素上&#xff0c;它可以在让元素从一种样式平滑过渡为另一种样式。下面会依次介绍其属性值~ 示例代码如下&#xff1a; <div class"box">世界你好 </div> .box {width: 200px…

多态下,为什么使用virtual修饰析构函数

多态下,为什么使用virtual修饰析构函数 问题&#xff1a; 用virtual修饰的析构函数和非虚函数的析构函数有什么区别&#xff1f; 当时以为&#xff1a;只有经过virtual修饰的析构函数&#xff0c;派生类生命周期结束时&#xff0c;才会自动的先调用派生类的析构函数&#xff0…

mybatisplus连接sqlserver配置

目录 前言&#xff1a; 一&#xff1a;所需依赖&#xff1a; 二&#xff1a;application.yml 三:分页插件 前言&#xff1a; 本文主要讲解连接sqlserver的配置 一&#xff1a;所需依赖&#xff1a; <?xml version"1.0" encoding"UTF-8"?> &l…

hutool工具包的实用方法简单介绍

说明&#xff1a;Hutool是一个小而全的Java工具类库&#xff08;详细参考&#xff1a;https://hutool.cn/docs/#/&#xff09;&#xff0c;使用前需要先添加依赖 &#xff08;添加依赖&#xff09; <dependency><groupId>cn.hutool</groupId><artifactId…

Redis从入门到精通进阶篇之持久化RDB

文章目录 RDB持久化工作原理 Redis 6的持久化机制主要有两种&#xff1a;RDB&#xff08;Redis DataBase&#xff09;和AOF&#xff08;Append Only File&#xff09;。本文将详细介绍这两种持久化方式的工作原理和配置要点。 RDB持久化 RDB持久化是将当前进程的数据生成快照…

项目经理,35岁以后就很难再有竞争力了吗?

早上好&#xff0c;我是老原。 知乎热榜上有一个问题吸引了我的注意&#xff1a; 说句公道话&#xff0c;35岁确实是个坎&#xff0c;这个坎在吃青春饭的行业来说&#xff0c;格外明显。 体力和精力都大不如年轻人&#xff0c;从性价比的角度来说&#xff0c;公司还是不会用…

2.2ORBSLAM3之几种特征点提取方法

0.简介 本节对ORB特征、SIFT特征、SURF特征、Harris角点、Shi-Tomas角点的提取与描述子计算原理进行总结&#xff0c;其中Harris角点、Shi-Tomas角点是关键点&#xff0c;没有对应的描述子&#xff0c;一般用于光流跟踪(Vins系列算法)。 综合所有的特征检测算法来看&#xff…

win设置静态IP

win设置静态IP地址 前言 局域网&#xff0c;IP地址的管理方式主要有静态分配方式和动态分配方式。 静态分配IP地址是指给每一台计算机都分配一个固定的IP地址&#xff0c;优点是便于管理&#xff0c;特别是在根据IP地址限制网络流量的局域网中&#xff0c;以固定的IP地址或IP地…

Django高级扩展之tinymce富文本实现

目录 安装 在站点中使用 注册富文本应用 添加配置文件 创建模型类 生成迁移文件 执行表迁移 配置站点 富文本不显示解决 修改主题 修改语言设置 自定义视图使用 设置路由 视图 创建模板 总结 安装 pip install django-tinymce 安装过程如下&#xff1a; 在站点…

宾军志:数据管理能力成熟度模型建设历程

4月27日在2023数据治理新实践峰会上&#xff0c;中国电子信息行业联合会数据资产管理专委会秘书长宾军志先生为大家分享了《数据管理能力成熟度模型建设历程》主题演讲。 以下为宾军志先生的演讲实录&#xff0c;为了方便阅读&#xff0c;小编做了一些字句修改和文本优化。大家…

JDK安装2023最完整教程与配置(零基础)

一、JDK简介 学习Java&#xff0c;需要下载并安装JDK&#xff0c;即Java Development Kit、Java开发工具包&#xff0c;为了能够打开java程序&#xff0c;就需要按照操作系统的要求进行环境变量的配置。 二、JDK下载 要想运行java开发的程序&#xff0c;必须先下载jdk&#…

io.netty学习 (一)Netty入门

目录 前言 Java原生API之痛 Netty的优势 非阻塞 I/O 丰富的协议 异步和事件驱动 精心设计的API 丰富的缓冲实现 高效的网络传输 Netty 核心概念 核心组件 传输服务 协议支持 Netty简单应用 总结 前言 关于Netty的学习&#xff0c;最近看了不少有关视频和书籍&am…

【git】VSCode 上的文件夹如何上传到 github 上?

一、重要意义 VSCode 上的文件夹上传到github有什么意义&#xff1f; 版本控制&#xff1a;通过将文件夹上传到GitHub&#xff0c;您可以使用Git进行版本控制。这意味着您可以记录每个文件的修改历史&#xff0c;并轻松地切换到以前的版本。如果您犯了错误或需要回滚更改&…

数据结构与算法·第10章【内部排序】

概念 排序问题可以分为内部排序和外部排序。若整个排序过程不需要访问外存便能完成&#xff0c;则称此类排序问题为内部排序&#xff1b;反之&#xff0c;若参加排序的记录数量很大&#xff0c;整个序列的排序过程不可能在内存中完成&#xff0c;则称此类排序问题为外部排序。…

成为一名成功的项目经理,你需要了解这些

作为一名有抱负的项目经理&#xff0c;你需要了解自己的职责和任务。你的职责不仅仅是确保项目的成功&#xff0c;更要负责带领团队制定可靠的执行计划&#xff0c;并确保所有工作按计划有序进行。因此&#xff0c;你必须具备身兼多职的能力&#xff0c;以确保项目能够顺利完成…

机器视觉初步5-2:图像增强专题

图像增强是一种提高图像质量和信息量的技术&#xff0c;常用于图像处理、计算机视觉和机器学习中。常见的图像增强方法包括直方图均衡化、高斯滤波、锐化、对比度拉伸、图像平滑、图像锐化、图像滤波、图像金字塔等。 以下是一些常见的图像增强方法的示例代码&#xff0c;使用H…

数据结构——顺序表(文字+代码+带图详细讲解)

在 C 语言中&#xff0c;顺序表可以使用数组来实现。顺序表是一种线性表&#xff0c;其中的元素在物理上连续存储&#xff0c;可以通过下标访问任意元素。 顺序表的基本操作包括插入、删除、查找、遍历和初始化等。 这段代码定义了一个顺序表的结构体&#xff0c;其中包括三个…