使用R语言进行聚类分析

news2024/11/15 0:09:09

一、样本数据描述

城镇居民人均消费支出水平包括食品、衣着、居住、生活用品及服务、通信、文教娱乐、医疗保健和其他用品及服务支出这八项指标来描述。表中列出了2016年我国分地区的城镇居民的人均消费支出的原始数据,数据来源于2017年的《中国统计年鉴》,现要求对下面的数据进行聚类分析。

x1:食品烟酒支出,x2:衣着支出,x3:居住支出,x4:生活用品和服务支出,

x5:交通通信支出,x6:教育文化娱乐支出,x7:医疗保健支出,x8:其他用品和服务支出

City,X1,X2,X3,X4,X5,X6,X7,X8
北京,8070.4,2643,12128,2511,5077.9,4054.7,2629.8,1140.6
天津,8679.6,2114,6187.3,1663.8,3991.9,2643.6,2172.2,892.2
河北,4991.6,1614.4,4483.2,1351.1,2664.1,1991.3,1549.9,460.4
山西,3862.8,1603,3633.8,951.6,2401,2439,1651.6,450.1
内蒙古,6445.8,2543.3,4006.1,1565.1,3045.2,2598.9,1840.2,699.9
辽宁,6901.6,2321.3,4632.8,1558.2,3447,3018.5,2313.6,802.8
吉林,4975.7,1819,3612,1107.1,2691,2367.5,2059.2,534.9
黑龙江,5019.3,1804.4,3352.4,1018.9,2462.9,2011.5,2007.5,468.3
上海,10014.8,1834.8,13216,1868.2,4447.5,4533.5,2839.9,1102.1
江苏,7389.2,1809.5,6140.6,1616.2,3952.4,3163.9,1624.5,736.6
浙江,8467.3,1903.9,7385.4,1420.7,5100.9,3452.3,1691.9,645.3
安徽,6381.7,1491,3931.2,1118.4,2748.4,2233.3,1269.3,432.9
福建,8299.6,1443.5,6530.5,1393.4,3205.7,2461.5,1178.5,492.8
江西,5667.5,1472.2,3915.9,1028.6,2310.6,1963.9,887.4,449.6
山东,5929.4,1977.7,4473.1,1576.5,3002.5,2399.3,1610,526.9
河南,5067.7,1746.6,3753.4,1430.2,1993.8,2078.8,1524.5,492.8
湖北,6294.3,1557.4,4176.7,1163.8,2391.9,2228.4,1792,435.6
湖南,6407.7,1666.4,3918.7,1384.1,2837.1,3406.1,1362.6,437.4
广西,5937.2,886.3,3784.3,1032.8,2259.8,2003,1065.9,299.3
海南,7419.7,859.6,3527.7,954,2582.3,1931.3,1399.8,341
重庆,6883.9,1939.2,3801.1,1466,2573.9,2232.4,1700,434.4
四川,7118.4,1767.5,3756.5,1311.1,2697.6,2008.4,1423.4,577.1
贵州,6010.3,1525.4,3793.1,1270.2,2684.4,2493.5,1050.1,374.6
云南,5528.2,1195.5,3814.4,1135.1,2791.2,2217,1526.7,414.3
陕西,5422,1542.2,3681.5,1367.7,2455.7,2474,2016.7,409
甘肃,5777.3,1776.9,3752.6,1329.1,2517.9,2322.1,1583.4,479.9
青海,5975.7,1963.5,3809.4,1322.1,3064.3,2352.9,1750.4,614.9
宁夏,4889.2,1726.7,3770.5,1245.1,3896.5,2415.7,1874,546.6
新疆,6179.4,1966.1,3543.9,1543.8,3074.1,2404.9,1934.8,581.5
广东,9421.6,1583.4,6410.4,1721.9,4198.1,3103.4,1304.5,870.1
西藏,8727.8,1812.5,3614.5,983.0,2198.4,922.5,585.3,596.5

二、读入数据

df<-read.csv('f:/桌面/人均消费支出.csv')

head(df)

 head(df)
    city     x1     x2      x3     x4     x5     x6     x7     x8
1   北京 8070.4 2643.0 12128.0 2511.0 5077.9 4054.7 2629.8 1140.6
2   天津 8679.6 2114.0  6187.3 1663.8 3991.9 2643.6 2172.2  892.2
3   河北 4991.6 1614.4  4483.2 1351.1 2664.1 1991.3 1549.9  460.4
4   山西 3862.8 1603.0  3633.8  951.6 2401.0 2439.0 1651.6  450.1
5 内蒙古 6445.8 2543.3  4006.1 1565.1 3045.2 2598.9 1840.2  699.9
6   辽宁 6901.6 2321.3  4632.8 1558.2 3447.0 3018.5 2313.6  802.8

三、使用系统聚类法进行聚类分析

使用R语言中的hclust()进行聚类分析,调用格式为

hclust(d,method='comlete',member=NULL)

默认使用最长距离法,还可以使用下面几种方法:

1、类平均法(average linkage)2、重心法(centroid method)3、中间距离法(median method)4、最长距离法(complete method)5、最短距离法(single method)6、离差平方和法(ward method)7、密度估计法(density method)

attach(df)
df.hc<-hclust(dist(df[,2:9]))  #将聚类结果保存在变量df.hc中

plot(df.hc,hang=-1)   #绘制树状聚类图,使用默认的最长距离法进行聚类分析。

将样本数据分为3类

re<-rect.hclust(df.hc,k=3)

得到把分类框起来的聚类图:

从聚类图中可以看到:北京上海为第一类,江苏福建浙江天津广东为第二类,其余为第三类。

df.id<-cutree(df.hc,k=3)
df.id

df.id
 [1] 1 2 3 3 3 3 3 3 1 2 2 3 2 3 3 3 3 3 2 3 3 3 3 3 3 3 3 3 3 3 3

得到了31个样本具体的分类数据。

四、使用模糊聚类的方法进行聚类分析

row.names(df)<-df[,1]

df<-df[,-1]

library(cluster)
fy<-fanny(df,3)

运行得到:

 summary(fy)
Fuzzy Clustering object of class 'fanny' :                      
m.ship.expon.        2
objective     15896.27
tolerance        1e-15
iterations          49
converged            1
maxit              500
n                   31
Membership coefficients (in %, rounded):
       [,1] [,2] [,3]
北京     51   25   25
天津     65   17   17
河北     10   45   45
山西     14   43   43
内蒙古   13   44   44
辽宁     24   38   38
吉林      9   46   46
黑龙江    9   45   45
上海     49   25   25
江苏     54   23   23
浙江     69   16   16
安徽      8   46   46
福建     58   21   21
江西      9   46   46
山东     10   45   45
河南      9   45   45
湖北      8   46   46
湖南     13   43   43
广东     67   16   16
广西     10   45   45
海南     17   41   41
重庆     11   45   45
四川     13   44   44
贵州      7   46   46
云南      7   46   46
西藏     27   36   36
陕西      7   46   46
甘肃      5   47   47
青海      7   47   47
宁夏     14   43   43
新疆      8   46   46
Fuzzyness coefficients:
dunn_coeff normalized 
 0.4172668  0.1259002 


Membership coefficients (in %, rounded):运行得到了模糊矩阵的系数,也就是各样品的分类系数,那么如果该样本在这三个类中的某类系数最大,该样本就属于该类。
Closest hard clustering:为按照分类系数在各类取值的大小得到的聚类结果。很明显该聚类结果和系统聚类法得到的结果存在显著差异。
plot(fy)
运行得到:
1、样本的主成分分类图
31个样本在两个主成分得分绘制在直角坐标系中所描述的点,每个样本在图中用不同的标记标出,每一类都被框起来。从图中可以看到第一类7个样本为最右上角的图形和第二类三类可以明显区分,第二类和第三类不能明显区分。

2、样本的侧影图,从下图侧影图中可以直观的看出各类包含哪些样本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1502871.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

传递函数硬件化

已知一个系统的传递函数&#xff0c;如何进行硬件化呢&#xff1f; 只需要将传递函数离散化&#xff0c;得到差分方程&#xff0c;就可以根据差分方程进行硬件设计。 通过例子说明&#xff1a; 得到差分方程后&#xff0c;其中y(k)/y(k-1)/y(k-2)/u(k-1)/u(k-2)等代表不同周期…

【Spring】Spring状态机

1.什么是状态机 (1). 什么是状态 先来解释什么是“状态”&#xff08; State &#xff09;。现实事物是有不同状态的&#xff0c;例如一个自动门&#xff0c;就有 open 和 closed 两种状态。我们通常所说的状态机是有限状态机&#xff0c;也就是被描述的事物的状态的数量是有…

BC161 大吉大利,今晚吃鸡

一&#xff1a;题目 二&#xff1a;思路 三&#xff1a;代码 #include<bits/stdc.h>using namespace std;long long cnt;//柱子定义为x, y, z void move(int n, char x, char y, char z) {if(n 1){//printf("%c -> %c\n", x, y);//最大盘从x->y//prin…

git远程仓库分支推送与常见问题

1.查看远程仓库分支情况 git fetch origin git branch -r2.删除远程仓库中的某一分支(如master) git push origin --delete master问: 如果我的本地文件只有一个分支main,而远程仓库有两个分支Main和CubeMX, 若要将本地文件中新增的文件Test1.txt更改放入CubeMX中&#xff0c…

大数据开发-Hadoop分布式集群搭建

大数据开发-Hadoop分布式集群搭建 文章目录 大数据开发-Hadoop分布式集群搭建环境准备Hadoop配置启动Hadoop集群Hadoop客户端节点Hadoop客户端节点 环境准备 JDK1.8Hadoop3.X三台服务器 主节点需要启动namenode、secondary namenode、resource manager三个进程 从节点需要启动…

Linux操作系统项目上传Github代码仓库指南

文章目录 1 创建SSH key2.本地git的用户名和邮箱设置3.测试连接4.创建仓库5.终端项目上传 1 创建SSH key 1.登录github官网,点击个人头像,点击Settings,然后点击SSH and GPG keys,再点击New SSH key。 Title 可以随便取&#xff0c;但是 key 需要通过终端生成。 Linux终端执行…

窄带波束形成

阵列信号处理有以下三个研究方向&#xff1a; 检测入射信号是否存在&#xff0c;以及入射信号的数目检测入射信号的到达方向&#xff08;DOA)角增强某个感兴趣方向的信号&#xff0c;抑制其他方向的干扰&#xff08;beamforming) 波束形成&#xff08;beamforming&#xff09;…

福州·名城银河湾220㎡现代简约风装修案例分享。福州中宅装饰,福州装修

以手作维度构境, 跳脱约定成俗的风格, 转化内外地域分际, 于静谧中凝聚丰厚的美学能量, 谦虚且沉默以对。 平面设计图 项目信息 项目名称 | 名城银河湾 设计地址 | 福建福州 项目面积 | 220㎡ 项目户型 | 5室2厅2厨3卫 设计风格 | 现代轻奢 首席设计师丨欧阳光玉 中…

STM32 | STM32F407ZE(LED寄存器开发续第二天源码)

上节回顾 STM32 | STM32时钟分析、GPIO分析、寄存器地址查找、LED灯开发(第二天)STM32 | Proteus 8.6安装步骤(图文并茂)一、 LED灯开发 1、理解led灯原理图 LED0连接在PF9 PF9输出低电平(0),灯亮;PF9输出高电平(1),灯灭;(低电平有效) 2、打开GPIOF组时钟 //将…

随机输一次(Python3)

大家应该都会玩“锤子剪刀布”的游戏&#xff1a;两人同时给出手势&#xff0c;胜负规则如图所示&#xff1a; 现要求你编写一个控制赢面的程序&#xff0c;根据对方的出招&#xff0c;给出对应的赢招。但是&#xff01;为了不让对方意识到你在控制结果&#xff0c;你需要隔 K …

网络安全相关证书有哪些?

从事于信息安全工作的人们&#xff0c;在面对繁杂问题的时候&#xff0c;往往会有焦虑和烦躁的表现。一部分可能来自于系统和流程的实际漏洞&#xff0c;一方面可能是自身的能力还有部分短板。许多人认为庞杂的问题或多或少的难以下手&#xff0c;如果有好的方式能够同时解决这…

Linux报错排查-刚安装好的ubuntu系统无法ssh连接

Linux运维工具-ywtool 目录 一.问题描述二.问题解决2.1 先给ubuntu系统配置阿里云源2.2 安装openssh-server软件2.3 在尝试ssh连接,可以连接成功了 三.其他命令 一.问题描述 系统:ubuntu-18.04-desktop-amd64 系统安装完后,想要通过xshell软件连接系统,发现能Ping通系统的IP,但…

计算布尔二叉树的值

题目 题目链接 . - 力扣&#xff08;LeetCode&#xff09; 题目描述 代码实现 class Solution { public:bool evaluateTree(TreeNode* root) {if(root->left nullptr && root->right nullptr) return root->val;bool left evaluateTree(root->left)…

CubeMX使用教程(6)——ADC模拟输出

本篇将利用CubeMX开发工具学习ADC&#xff08;模拟输出&#xff09;的使用 我们还是利用上一章的工程进行二次开发&#xff0c;这样方便 首先打开CubeMX进行相关配置 通过查看G431RBT6开发板有关模拟输出部分的原理图可知&#xff0c;模拟输出用到的IO口是PB15和PB12 接着我…

11、Linux-安装和配置Redis

目录 第一步&#xff0c;传输文件和解压 第二步&#xff0c;安装gcc编译器 第三步&#xff0c;编译Redis 第四步&#xff0c;安装Redis服务 第五步&#xff0c;配置Redis ①开启后台启动 ②关闭保护模式&#xff08;关闭之后才可以远程连接Redis&#xff09; ③设置远程…

接口自动化测试框架搭建:基于python+requests+pytest+allure实现

众所周知&#xff0c;目前市面上大部分的企业实施接口自动化最常用的有两种方式&#xff1a; 1、基于代码类的接口自动化&#xff0c;如&#xff1a; PythonRequestsPytestAllure报告定制 2、基于工具类的接口自动化&#xff0c;如&#xff1a; PostmanNewmanJenkinsGit/svnJme…

【Kotlin】类和对象

1 前言 Kotlin 是面向对象编程语言&#xff0c;与 Java 语言类似&#xff0c;都有类、对象、属性、构造函数、成员函数&#xff0c;都有封装、继承、多态三大特性&#xff0c;不同点如下。 Java 有静态&#xff08;static&#xff09;代码块&#xff0c;Kotlin 没有&#xff1…

和数软件:区块链技术的爆发与冲击

什么是区块链&#xff1f;它是如何发展而来的&#xff1f;应用在哪些领域&#xff1f;将会对我国的社会经济产生哪些重大影响&#xff1f; 什么是区块链 区块链作为一种底层技术&#xff0c;最早的实践是数字货币。根据最早的中本聪定义&#xff0c;区块链实质上是一种基于网…

人工智能|机器学习——Canopy聚类算法(密度聚类)

1.简介 Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值T1 > T2 处理。 Canopy聚类很少单独使用&#xff0c; 一般是作为k-means前不知道要指定k为何值的时候&#…

借助产品说明书模板,让你轻松制作产品说明书

产品说明书是一种普遍存在的文档&#xff0c;在我们日常生活和工作中&#xff0c;您可能需要为自己的产品或服务创建一个。这是因为产品说明书是介绍产品特性、使用说明、维护方式以及注意事项等内容的有效工具。然而&#xff0c;制作产品说明书可能是一个复杂且困难的过程&…