基于Python的k-means聚类分析算法的实现与应用,可以用在电商评论、招聘信息等各个领域的文本聚类及指标聚类,效果很好

news2025/1/13 17:45:41

以微博考研话题为例

思路步骤:

数据清洗:

使用pandas读取数据文件,并进行数据清洗和预处理,包括去除重复值、数据替换等。

数据处理实现:

数据处理的过程如下:

数据清洗主要包括去重和数据转换两个步骤。

首先,通过使用drop_duplicates函数对原始数据进行去重操作。在代码中,根据内容这一列进行去重,并将去重后的结果重新赋值给新的DataFrame。这样可以确保每条内容的唯一性,避免出现重复的数据。

接下来,进行数据转换的步骤。转换主要是针对性别和是否认证两个数据,将字符串通过map函数都替换为数值,从而实现清洗效果。

数据清洗是数据分析的前提和基础,通过去重和替换等步骤,可以对原始数据进行初步的处理和整理,为后续的数据分析和挖掘提供高质量、准确的数据基础。清洗后的数据具有更好的可用性和可靠性,能够提供更准确、可靠的结果和结论,从而支持决策和解决实际问题的需求。

聚类分析(main.py):

聚类数量的选择和评估使用拐点法和轮廓系数法实现。通过评估不同聚类数量下的总的簇内离差平方和,可以找到一个合适的聚类数量,以便在K-Means算法(k-means.py)中应用于考研数据的聚类分析。选择最佳的聚类数量有助于获得更准确且有意义的聚类结果,并提供对数据的更深入理解和洞察。

拐点法:

1.聚类数量的选择:

通过调整K值(簇的个数),探索不同聚类数量下的聚类效果。在代码中,通过设置clusters参数来确定聚类数量的范围。例如,设置clusters = 15表示尝试聚类数量从1到15的情况。

2.总的簇内离差平方和(Total SSE)的评估:

使用K-Means算法进行聚类,并计算每个簇的样本离差平方和(SSE)。然后,将每个簇的SSE求和,得到总的簇内离差平方和(Total SSE)。在代码中,通过自定义函数k_SSE绘制了不同聚类数量(K值)与总的簇内离差平方和之和的折线图。

3.拐点法选择最佳聚类数量:

在折线图中观察聚类数量(K值)与总的簇内离差平方和之和的关系。寻找一个拐点,即曲线开始趋于平缓的位置。这个拐点对应的聚类数量通常被认为是最佳的聚类数量。在代码中,通过绘制折线图来观察聚类数量与总的簇内离差平方和之和之间的关系,并根据拐点法选择最佳的聚类数量,拐点法得出的结果如图所示可知,该方法的拐点为3。

轮廓系数法

在选择合适的聚类数量时,使用了轮廓系数法。具体做法是,对于聚类数量从2到14的范围内的每个值,计算对应聚类数量下的轮廓系数得分。轮廓系数(silhouette score)是一种用于评估聚类质量的指标,其取值范围为[-1, 1],越接近1表示聚类效果越好。通过绘制轮廓系数得分随聚类数量变化的曲线图,可以观察到不同聚类数量下的聚类效果,并选择最佳的聚类数量。

最后,代码使用matplotlib库绘制了轮廓系数得分随聚类数量变化的曲线图,横坐标为聚类数量(N 簇),纵坐标为轮廓系数得分(score)。根据曲线图可以进行观察和判断,选择合适的聚类数量,轮廓系数法得到的结果如图可知最合适聚类数=3.

聚类分析实现与结果可视化

实现聚类分析的过程,首先读取数据,并进行数据清洗和预处理。清洗部分包括删除含有空值的数据,预处理部分对数据进行了格式修改和标准化处理。

接下来,使用轮廓系数法选择合适的聚类数量,并绘制了聚类数量与轮廓系数得分之间的曲线图。通过观察曲线图,可以选择最佳的聚类数量。

然后,根据选择的聚类数量,使用KMeans算法进行聚类,并将聚类结果可视化。代码中通过降维算法t-SNE对数据进行降维,然后绘制了降维后的数据和聚类中心的散点图,并根据聚类结果进行着色。最后完成了数据的聚类分析,帮助理解数据在不同特征上的聚类情况,聚类结果如图,其中横坐标是数据降维之后点数据与中心点距离的横坐标,Y轴是数据降维之后点数据与中心点距离的纵坐标,图中的+代表每一个类的中心点

根据对微博内容的聚类分析,可以看出用户在微博中主要讨论了考研相关话题。其中包括考研备考经历、学习进度记录、各学校考研信息分享等内容。用户们在微博中表达了对考研的焦虑、努力学习的决心以及对未来的期待。有些用户分享了自己的学习计划和成果,也有用户寻求学习伙伴互相督促。此外,还有用户分享了考研资讯、心得体会和对未来的展望。整体来看,这些微博内容反映了考研群体的学习状态和情绪,展现了他们对考研目标的追求和努力,同时也体现了他们之间的互动和支持,共同面对考研的压力和挑战。

类别一:考研备考经历分享

这类微博内容主要包括用户对自己考研备考过程中的心情体验、努力学习的决心以及对未来的期待和规划的分享。用户们在微博中记录了自己的学习进度、备考经历和成果,表达了对考研的焦虑和对未来的期

类别二:学习进度记录和资讯分享

这类微博内容主要涵盖用户的学习进度记录、复习计划安排、学习资料整理和考研资讯分享等内容。用户们在微博中分享了自己的学习计划、复习笔记、真题练习情况,也有用户分享了各学校考研信息和最新动态。

类别三:寻求学习伙伴和互相督促

这类微博内容主要是用户在微博上寻找学习伙伴,希望能够互相督促、分享学习经验和生活感悟。用户们希望通过微博平台找到志同道合的伙伴,共同努力学习,互相支持和鼓励。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1708397.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安卓 view淡入淡出(fade in fade out) kotlin

文章目录 前言一、布局文件二、kotlin扩展方法1.fadeOutAnimation 淡出动画2.fadeInAnimation 淡入动画 三、使用总结 前言 好久没写文章了,简单码一个淡入淡出,我们先上效果图 那么接下来上代码 一、布局文件 我这边直接将activity_main.xml改为下列代码,可以看到其中包含一…

利用sql注入对某非法网站的渗透

本文仅用于技术讨论,切勿用于违法途径,且行且珍惜, 所有非经授权的渗透,都是违法行为 前言 这段时间一直在捣鼓sql注入,最近又通过一个sql注入点,成功进入某个非法网站的后台,拿到整个网站的…

具有固定宽度的盒子:\makebox, \parbox

makebox \makebox 是 LaTeX 中的一个命令&#xff0c;用于创建一个具有固定宽度的盒子&#xff0c;并在该盒子内放置内容。这个命令可以用于控制文本或对象的位置和对齐。 语法如下&#xff1a; \makebox[<width>][<alignment>]{<content>}其中&#xff1…

世界改变了我?还是我在改变着这个世界?-教育的魅力

目录 一、背景二、过程1.拥抱不确定性的心态2.应对变数的积极3.螺旋向上的能力4.突破自我的意志 三、总结 一、背景 现在这个时代唯一确定的就是不确定&#xff0c;社会发展太快了&#xff0c;尤其是中国的发展速度&#xff1b;大国生态人口生态。 有时候隐约中我自己也觉得和…

短剧解说一键生成原创文案的快速方法

如今短剧创作火的一塌糊涂&#xff0c;它们以其简洁明了的剧情、生动有趣的角色和紧凑的节奏&#xff0c;吸引了大量观众的关注。因此&#xff0c;它所带来的流量是非常巨大&#xff0c;不少人将流量的获取瞄准了短剧创作领域以及短剧解说领域。而对于短剧解说人员来讲&#xf…

FreeRtos进阶——消息队列的操作逻辑

消息队列&#xff08;queue&#xff09; 在不同的任务之间&#xff0c;如果我们需要互相之间通信&#xff0c;使用全局变量进行通信&#xff0c;是一种不安全的通信的方式。为保证线程安全&#xff0c;我们需要引入消息队列的通信方式。 粗暴的消息队列 为保证线程的安全&am…

数字化工厂怎么收集,处理数据?

数字化工厂的数据收集与处理 数字化工厂是现代化工厂&#xff0c;利用数字技术和数据分析提高效率和优化流程。数据分析作为数字化工厂的核心技术&#xff0c;对数据的获取与处理至关重要。在数字化工厂中&#xff0c;数据的来源包括企业内部信息系统、物联网信息以及外部信息&…

VSCode安装platformio插件

文章目录 一、安装VSCode二、安装platformio&#xff08;一&#xff09;整理文件夹&#xff08;二&#xff09;整理Python环境&#xff08;三&#xff09;安装platformio 三、创建ESP8266项目四、使用命令行创建项目五、创建项目太久怎么办六、参考链接 一、安装VSCode VSCode…

探寻导师:2024年最新研究生导师评价汇总

随着考研热潮的不断升温&#xff0c;对于研究生导师的选择变得愈发重要。导师不仅关系到研究生的学术成长&#xff0c;还直接影响到未来的职业发展。然而&#xff0c;如何找到一位合适的导师成为许多考生头疼的问题。为了帮助广大考生更好地选择导师&#xff0c;整理了最新最全…

如何破解navicat16

先安装好没破解的navicat16 以管理员身份运行 ‘无限试用Navicat.bat’ 复制这个 点击属性 打开文件所属位置 把复制的文件粘贴进去 直接启动navicat16

提升(或降低)插入的内容的位置:\raisebox

\raisebox 是 LaTeX 中的一个命令&#xff0c;用于提升&#xff08;或降低&#xff09;插入的内容&#xff08;如文本、图像等&#xff09;的位置。该命令可以用于调整垂直位置&#xff0c;使内容相对于周围内容上下移动。 语法如下&#xff1a; \raisebox{<distance>}…

论文阅读笔记:Task-Customized Mixture of Adapters for General Image Fusion

论文阅读笔记&#xff1a;Task-Customized Mixture of Adapters for General Image Fusion 1 背景2 创新点3 方法4 模块4.1 任务定制混合适配器4.2 提示生成4.3 提示驱动融合4.4 互信息正则化MIR4.5 任务定制化损失 5 实验5.1 VIF任务5.2 MEF任务5.3 MFF任务5.4 消融实验5.5 性…

设计模式19——观察者模式

写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用&#xff0c;主要是下面的UML图可以起到大作用&#xff0c;在你学习过一遍以后可能会遗忘&#xff0c;忘记了不要紧&#xff0c;只要看一眼UML图就能想起来了。同时也请大家多多指教。 观察者模式&#xff08;Observ…

Java程序员必备技能之MySQL数据库 图解整理/快速入门

恭喜大家来到全新的篇章——MySQL数据库,这一篇我们将学会MySQL数据库的原理、使用sql对数据库的增删改查操作、以及对MySQL数据库的权限管理和用户管理等内容。请大家耐心看下去,相信大家在看完这篇文章后,一定可以学会MySQL数据库(不会Java也可以学会!)。 ps:想要补充…

AAA实验配置

一、实验目的 掌握AAA本地认证的配置方法 掌握AAA本地授权的配置方法 掌握AAA维护的方法 1.搭建实验拓扑图 2.完成基础配置&#xff1a; 3.使用ping命令测试两台设备的连通性&#xff1a; 二、配置AAA 1.打开R1&#xff1a;配置AAA方案 这两个方框内的可以改名&#xff0c…

5.26 基于UDP的网络聊天室

需求&#xff1a; 如果有人发送消息&#xff0c;其他用户可以收到这个人的群聊信息 如果有人下线&#xff0c;其他用户可以收到这个人的下线信息 服务器可以发送系统信息实现模型 模型&#xff1a; 代码&#xff1a; //chatser.c -- 服务器端实现 #include <stdio.h>…

php TP8 阿里云短信服务SDKV 2.0(跳大坑)

安装&#xff1a;composer require alibabacloud/dysmsapi-20170525 2.0.24 官方文档&#xff1a;短信服务_SDK中心-阿里云OpenAPI开发者门户 (aliyun.com) 特别注意&#xff1a;传入参数获得值形式 这样也不行 $sendSmsRequest new SendSmsRequest($addData); 还有一个大坑…

PLC远程调试

随着工业自动化的快速发展&#xff0c;PLC&#xff08;可编程逻辑控制器&#xff09;已经成为现代工业生产线的核心控制设备。然而&#xff0c;传统的PLC调试方式往往受限于地理位置和物理连接&#xff0c;使得工程师在调试过程中面临诸多不便。在这个背景下&#xff0c;HiWoo …

SpringSecurity登录和校验流程简述

认证&#xff1a; 验证当前访问系统的是不是本系统的用户&#xff0c;并且要确认具体是哪个用户 授权&#xff1a; 经过认证后判断当前用户是否有权限进行某个操作 一、入门案例实现 搭建springboot工程后&#xff0c;创建启动类和Controller&#xff0c;引入SpringSecurity依…

C++模板——非类型模板参数、模板的特化以及模板的分离编译

目录 非类型模板参数 模板的特化 概念 函数模板特化 类模板特化 全特化 偏特化 模板的分离编译 什么是分离编译 模板的分离编译 解决方法 模板总结 非类型模板参数 模板参数可分为类型形参和非类型形参。类型形参&#xff1a; 出现在模板参数列表中&#xff0c;跟…