【Python】基于KMeans的航空公司客户数据聚类分析

news2024/11/20 2:42:32

💐大家好!我是码银~,欢迎关注💐:
CSDN:码银
公众号:码银学编程

实验目的和要求

  • 会用Python创建Kmeans聚类分析模型
  • 使用KMeans模型对航空公司客户价值进行聚类分析
  • 会对聚类结果进行分析评价

实验环境

  • pycharm2020
  • Win11
  • Python3.7
  • Anaconda2019

KMeans聚类算法简介

KMeans聚类算法是一种基于中心点的聚类方法,其目标是将数据点划分为K个簇,使得每个簇内的数据点与簇中心的距离之和最小。算法的基本步骤包括:

  1. 初始化:随机选择K个数据点作为初始簇中心。
  2. 分配:将每个数据点分配到最近的簇中心,形成K个簇。
  3. 更新:重新计算每个簇的中心点。
  4. 迭代:重复步骤2和3,直到簇中心不再变化或达到最大迭代次数。

数据的加载和分析

数据集的获取:搜索微信公众号“码银学编程”。回复:航空数据集
在这里插入图片描述
ZL:入会至当前时长,反映客户的活跃时间。
ZR:最近消费时间间隔,反映客户的最近活跃程度。
ZF:消费频次,反映客户的忠诚度。
ZM:消费里程总额,反映客户对航空公司服务的依赖程度。
ZC:舱位等级对应折扣系数,通常舱位等级越高,折扣系数越大。

首先,使用Pandas库加载CSV格式的环境监测数据文件。

def load_data(filepath):
    """加载CSV数据文件"""
    return pd.read_csv(filepath, header=0)

聚类分析

接着,使用Scikit-learn库中的KMeans模型对数据进行聚类分析。通过设置不同的参数,如最大迭代次数、簇的数量等,可以对模型进行调整以适应不同的数据集。

def perform_kmeans(data, n_clusters):
    """执行KMeans聚类分析"""
    model = KMeans(max_iter=300, n_clusters=n_clusters, random_state=None, tol=0.0001)
    model.fit(data)
    return model

结果可视化

为了直观展示聚类结果,使用Matplotlib库绘制聚类图。通过将数据点和簇中心在二维平面上表示,可以清晰地观察到数据的分布和簇的划分情况。

def plot_clusters(model, data):
    """绘制聚类结果"""
    plt.figure(figsize=(10, 6))  # 设置图表大小
    plt.xlabel("ZL-ZR-ZF-ZM-ZC")  # 假设环境指标
    plt.ylabel("Cluster-center-value")
    plt.title("聚类分析结果图")
    colors = ['r', 'g', 'y', 'b', 'k']
    for i in range(model.n_clusters):
        plt.plot(data.columns, model.cluster_centers_[i], label=f'Cluster {i}', color=colors[i], marker='o')
    plt.legend()
    plt.grid(True)
    plt.show()

在这里插入图片描述

主函数

def main():
    # 加载数据
    data = load_data("air_data.csv")
    print("数据形状:", data.shape)
    print("数据前五行:")
    print(data.head())

    # 聚类分析
    kmodel = perform_kmeans(data, 5)
    print("聚类类别数目统计:")
    print(pd.Series(kmodel.labels_).value_counts())

    # 聚类中心
    cluster_centers = pd.DataFrame(kmodel.cluster_centers_)
    print("聚类中心:")
    print(cluster_centers)

    # 聚类中心与类别数目
    cluster_info = pd.concat([cluster_centers, pd.Series(kmodel.labels_).value_counts()], axis=1)
    cluster_info.columns = list(data.columns) + ['Cluster Count']
    print("聚类中心与类别数目:")
    print(cluster_info)

    # 绘制聚类结果图
    plot_clusters(kmodel, data)

if __name__ == "__main__":
    main()

结果图

分析与讨论

这个结果展示了使用K-Means聚类算法对航空公司客户数据进行分析后得到的聚类中心和每个聚类的样本数量。每一列(ZL、ZR、ZF、ZM、ZC)代表数据集中的一个特征,这些特征分别表示:

  • ZL:入会至当前时长,反映客户的活跃时间。
  • ZR:最近消费时间间隔,反映客户的最近活跃程度。
  • ZF:消费频次,反映客户的忠诚度。
  • ZM:消费里程总额,反映客户对航空公司服务的依赖程度。
  • ZC:舱位等级对应折扣系数,通常舱位等级越高,折扣系数越大。

聚类中心(Cluster Centers)是每个聚类中所有点的均值,可以看作是该聚类的“代表”或“典型”客户。在这个例子中,我们有5个聚类中心和它们的统计数据:

  1. 第一个聚类中心(Cluster 0)的ZL值较低,ZR值较高,ZF和ZM值较低,ZC值也较低。这可能代表一群活跃时间较短、最近消费间隔较长、消费频次和里程较低的客户,他们可能对航空公司的忠诚度和依赖程度不高。

  2. 第二个聚类中心(Cluster 1)的ZL值较高,ZR值较低,ZF值较低,ZM值较低,ZC值较低。这可能代表一群活跃时间较长但最近不太活跃的客户,他们的消费频次和里程也较低。

  3. 第三个聚类中心(Cluster 2)的ZL和ZR值都较低,ZF值较低,ZM值较低,ZC值较高。这可能代表一群活跃时间较短且最近消费间隔较长的客户,他们的消费频次和里程较低,但可能购买了较高舱位等级的机票。

  4. 第四个聚类中心(Cluster 3)的ZL和ZR值都较高,ZF和ZM值较高,ZC值也较高。这可能代表一群活跃时间较长、最近消费频繁、消费里程高且购买了较高舱位等级机票的客户,他们对航空公司的忠诚度和依赖程度很高。

  5. 第五个聚类中心(Cluster 4)的ZL值较低,ZR值较低,ZF值较低,ZM值较低,ZC值较高。这可能代表一群最近活跃且购买了较高舱位等级机票的客户,但他们的总体消费频次和里程较低。

完整代码

import pandas as pd
from matplotlib import pyplot as plt
from sklearn.cluster import KMeans

def load_data(filepath):
    """加载CSV数据文件"""
    return pd.read_csv(filepath, header=0)

def perform_kmeans(data, n_clusters):
    """执行KMeans聚类分析"""
    model = KMeans(max_iter=300, n_clusters=n_clusters, random_state=None, tol=0.0001)
    model.fit(data)
    return model

def plot_clusters(model, data):
    """绘制聚类结果"""
    plt.figure(figsize=(10, 6))  # 设置图表大小
    plt.xlabel("ZL-ZR-ZF-ZM-ZC")
    plt.ylabel("Cluster-center-value")
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 确保中文标签正常显示
    plt.title("聚类分析结果图")

    cluster_centers = model.cluster_centers_
    colors = ['r', 'g', 'y', 'b', 'k']
    for i in range(len(cluster_centers)):
        plt.plot(data.columns, cluster_centers[i], label=f'Cluster {i}', color=colors[i], marker='o')

    plt.legend()
    plt.grid(True)  # 添加网格线
    plt.show()

def main():
    # 加载数据
    data = load_data("air_data.csv")
    print("数据形状:", data.shape)
    print("数据前五行:")
    print(data.head())

    # 聚类分析
    kmodel = perform_kmeans(data, 5)
    print("聚类类别数目统计:")
    print(pd.Series(kmodel.labels_).value_counts())

    # 聚类中心
    cluster_centers = pd.DataFrame(kmodel.cluster_centers_)
    print("聚类中心:")
    print(cluster_centers)

    # 聚类中心与类别数目
    cluster_info = pd.concat([cluster_centers, pd.Series(kmodel.labels_).value_counts()], axis=1)
    cluster_info.columns = list(data.columns) + ['Cluster Count']
    print("聚类中心与类别数目:")
    print(cluster_info)

    # 绘制聚类结果图
    plot_clusters(kmodel, data)

if __name__ == "__main__":
    main()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1899674.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot 社区垃圾回收处理小程序-计算机毕业设计源码71905

摘要 在数字化高速发展的今天,随着Spring Boot等轻量级框架的广泛应用,各种小程序、微服务如雨后春笋般涌现,极大地丰富了我们的软件生态系统。然而,伴随着这些应用的迅速增加,垃圾回收处理成为了一个不可忽视的问题。…

Mybatis原生使用

一、MyBatis初次使用 2.1 环境搭建步骤 MyBatis 的 API : https://mybatis.org/mybatis-3/zh/getting-started.html 1.引入依赖包 2.准备核心配置件 db.properties drivercom.mysql.cj.jdbc.Driver urljdbc:mysql://123.57.206.19:3306/demo?useUnicodetrue&am…

步进电机改伺服电机

步进电机: 42:轴径5mm 57:轴径8mm 86:轴径14mm 【86CME120闭环】// 12牛米 伺服电机: 40: 60: 80: 86: ECMA——C 1 0910 R S 4.25A 轴径…

26.5 Django模板层

1. 模版介绍 在Django中, 模板(Templates)主要用于动态地生成HTML页面. 当需要基于某些数据(如用户信息, 数据库查询结果等)来动态地渲染HTML页面时, 就会使用到模板.以下是模板在Django中使用的几个关键场景: * 1. 动态内容生成: 当需要根据数据库中的数据或其他动态数据来生…

Hook 实现 Windows 系统热键屏蔽(二)

目录 前言 一、介绍用户账户控制(UAC) 1.1 什么是 UAC ? 2.2 UAC 运行机制的概述 2.3 分析 UAC 提权参数 二、 NdrAsyncServerCall 函数的分析 2.1 函数声明的解析 2.2 对 Winlogon 的逆向 2.3 对 rpcrt4 的静态分析 2.4 对 rpcrt4…

240705_昇思学习打卡-Day17-基于 MindSpore 实现 BERT 对话情绪识别

240705_昇思学习打卡-Day17-基于 MindSpore 实现 BERT对话情绪识别 近期确实太忙,此处仅作简单记录: 模型简介 BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers)&#xff0c…

14-32 剑和诗人6 - GenAI 重塑 SRE 和云工程实践

在不断发展的软件开发和运营领域,各种学科的融合催生了新的范式和实践,旨在简化流程、加强协作和推动创新。DevSecOps、站点可靠性工程 (SRE)、平台工程和云工程已成为支持现代软件系统的重要支柱,每个支柱都解决了独特的挑战和要求。 然而&…

Fastapi 项目第二天首次访问时数据库连接报错问题Can‘t connect to MySQL server

问题描述 Fastapi 项目使用 sqlalchemy 连接的mysql 数据库,每次第二天首次访问数据库相关操作,都会报错:sqlalchemy.exc.OperationalError: (pymysql.err.OperationalError) (2003, “Can’t connect to MySQL server on ‘x.x.x.x’ ([Err…

【Unity数据交互】Unity中使用二进制进行数据持久化

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 专栏交流🧧&…

2.4G无线收发芯片 XL2401D,SOP16封装,集成单片机,高性价比

XL2401D 芯片是工作在2.400~2.483GHz世界通用ISM频段,片内集成了九齐 NY8A054E单片机的SOC无线收发芯片。芯片集成射频收发机、频率收生器、晶体振荡器、调制解调器等功能模块,并且支持一对多组网和带ACK的通信模式。发射输出功率、工作频道以及通信数据…

vue3自定义全局指令和局部指令

1.全局指令 el:指令绑定到的DOM元素,可以用于直接操作当前元素,默认传入钩子的就是el参数,例如我们开始实现的focus指令,就是直接操作的元素DOM binding:这是一个对象,包含以下属性:…

Zynq系列FPGA实现SDI视频编解码,基于GTX高速接口,提供5套工程源码和技术支持

目录 1、前言工程概述免责声明 2、相关方案推荐本博已有的 SDI 编解码方案本方案在Xilinx--Kintex系列FPGA上的应用 3、详细设计方案设计原理框图SDI 输入设备Gv8601a 均衡器GTX 解串与串化SMPTE SD/HD/3G SDI IP核BT1120转RGB图像缓存视频读取控制HDMI输出RGB转BT1120Gv8500 驱…

玩转云服务:Oracle Cloud甲骨文永久免费云服务器注册及配置指南

上一篇,带大家分享了:如何薅一台腾讯云服务器。 不过,只有一个月免费额度,到期后需要付费使用。 相对而言,海外云厂商更加慷慨一些,比如微软Azure、甲骨文、亚马逊AWS等。 甲骨文2019年9月就推出了永久免…

信用卡没逾期就万事大吉了吗?

6月28日,中国人民银行揭晓了《2024年第一季度支付体系概览》,数据显示,截至本季度末,信用卡及借贷合一卡的总量为7.6亿张,与上一季度相比,这一数字微降了0.85个百分点。同时,报告还指出&#xf…

华为OD机试 - 跳马 - 广度优先搜索BFS(Java 2024 D卷 200分)

华为OD机试 2024D卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(D卷C卷A卷B卷)》。 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测…

JMeter:循环控制器While Controller的用法小结

前言 在之前的博文“JMeter案例优化:测试执行结束后,实现tearDown的几种方式”中,尝试了JMeter的循环控制器While Controller,发现还有点小复杂,将学习过程记录下来,免得遗忘。 注:我使用的是…

【机器学习】机器学习与自然语言处理的融合应用与性能优化新探索

引言 自然语言处理(NLP)是计算机科学中的一个重要领域,旨在通过计算机对人类语言进行理解、生成和分析。随着深度学习和大数据技术的发展,机器学习在自然语言处理中的应用越来越广泛,从文本分类、情感分析到机器翻译和…

「ETL趋势」分区支持PostgreSQL、Greenplum、Gauss200, 定时任务支持Kettle

FineDataLink作为一款市场上的顶尖ETL工具,集实时数据同步、ELT/ETL数据处理、数据服务和系统管理于一体的数据集成工具,进行了新的维护迭代。本文把FDL4.1.9最新功能作了介绍,方便大家对比:(产品更新详情:…

tobias实现支付宝支付

tobias是一个为支付宝支付SDK做的Flutter插件。 如何使用 你需要在pubspec.yaml中配置url_scheme。url_scheme是一个独特的字符串,用来重新启动你的app,但是请注意字符串“_”是不合法的。 在iOS端,你还需要配置并传入一个universal link。…

PCL 点云压缩算法-Octree空间分割算法

点云压缩 一、概述1.1 算法概念1.2 算法描述1.3 参数解释二、代码实现三、结果示例🙋 效果展示 一、概述 1.1 算法概念 Octree点云压缩算法:是一种用于表示三维空间中的点云数据结构。它将空间划分为一个八叉树,每个节点可以有最多八个子节点,代表了一个正方形的子空间…