机器学习实战11-基于K-means算法的文本聚类分析,生成文本聚类后的文件

news2025/1/5 15:17:05

大家好,我是微学AI,今天给大家介绍机器学习实战11-基于K-means算法的文本聚类分析,生成文本聚类后的文件。文本聚类分析是NLP领域的一个核心任务,通过将相似的文本样本分组,可以帮助我们发现隐藏在文本数据中的模式和结构。

在本项目中,我将利用K-means算法实现文本聚类分析。K-means算法是一种常用的聚类算法,它通过迭代地将样本分配到K个簇中,并通过最小化各簇内样本的平方误差之和来确定最佳的簇划分。通过将文本数据转化为向量表示,并利用K-means算法对向量进行聚类,我们可以实现文本的自动分类和分组。

目录
一、引言
二、文本聚类分析的基础知识
三、文本聚类分析项目的设计与实施
四、文本聚类分析实现代码案例
五、文本聚类分析的优缺点与挑战
六、文本聚类分析的未来发展趋势
七、结论

一、引言

文本聚类分析是一种将文本数据进行分类和组织的技术,它通过发现文本之间的相似性和关联性,将相似的文本归为一类。文本聚类在实际应用中具有重要意义,能够帮助我们理解大规模文本数据的结构和内容,从而发现隐藏在其中的信息和模式。

二、文本聚类分析的基础知识

文本聚类是指将文本数据集分成若干个不相交的类别,使得同一类内的文本相似度较高,不同类之间的相似度较低。常用的文本聚类算法包括K-means算法和层次聚类算法。K-means算法通过迭代优化,将文本数据划分为K个簇,每个簇具有相似性;层次聚类算法则通过计算不同文本之间的相似度,逐步合并最相似的文本,直到形成一个完整的聚类树。

在文本聚类中,文本表示是一个关键问题。常用的文本表示方法包括词袋模型和TF-IDF。词袋模型将文本表示为一个向量,其中每个维度表示某个特定词汇在文本中的出现次数;TF-IDF则考虑了词汇的频率和在整个文本集中的重要性。

K-means算法的数学原理可以通过以下公式表示:

给定一个包含n个样本的数据集 X = { x 1 , x 2 , . . . , x n } X=\{x_1, x_2, ..., x_n\} X={x1,x2,...,xn},其中每个样本 x i x_i xi是一个d维向量 ( x i 1 , x i 2 , . . . , x i d ) (x_{i1}, x_{i2}, ..., x_{id}) (xi1,xi2,...,xid)。K-means算法旨在将这些样本分为K个簇,其中每个样本属于一个且仅属于一个簇。

首先,我们需要选择K个初始聚类中心 μ = { μ 1 , μ 2 , . . . , μ K } \mu=\{\mu_1, \mu_2, ..., \mu_K\} μ={μ1,μ2,...,μK},其中每个聚类中心是一个d维向量。

然后,算法的迭代过程如下:

  1. 对于每个样本 x i x_i xi,计算其与各个聚类中心的距离(通常使用欧氏距离或其他距离度量方法),并将其归类到离它最近的聚类中心所对应的簇。
  2. 对于每个簇,计算其所有样本的平均值作为新的聚类中心。
  3. 重复步骤1和步骤2,直到满足停止条件(例如,达到最大迭代次数或聚类中心不再发生明显变化)。

K-means算法的优化目标是最小化所有样本与其所属簇中心的距离之和,也就是最小化以下目标函数:
J = ∑ i = 1 n ∑ j = 1 K r i j ∣ ∣ x i − μ j ∣ ∣ 2 J = \sum_{i=1}^{n} \sum_{j=1}^{K} r_{ij} ||x_i - \mu_j||^2 J=i=1nj=1Krijxiμj2
其中, r i j r_{ij} rij表示样本 x i x_i xi归属于簇 j j j的指示变量,若 x i x_i xi属于簇 j j j r i j = 1 r_{ij}=1 rij=1,否则 r i j = 0 r_{ij}=0 rij=0

通过迭代的优化过程,K-means算法将不断更新聚类中心,直到找到一组使目标函数 J J J最小化的最终聚类结果。

需要注意的是,K-means算法对于不同的初始聚类中心选择可能收敛到不同的局部最优解。为了克服这个问题,可以使用多次运行或其他启发式方法来改善聚类结果。

三、文本聚类分析项目的设计与实施

在进行文本聚类分析项目时,首先需要进行数据收集与预处理。数据可以来自各种渠道,如新闻报道、社交媒体等,但需要进行清洗和去除噪声。接下来是文本特征提取与表示,可以使用词袋模型或TF-IDF方法将文本转化为向量表示。然后需要选择适合的聚类算法,并进行参数调优。最后,对聚类结果进行评估指标和可视化展示,以便更好地理解和解释聚类结果。

四、文本聚类分析实现代码案例

这里可以给出一个具体的文本聚类分析实现代码案例,例如使用Python语言和scikit-learn库实现K-means聚类算法,将新闻文本数据集进行聚类。

#coding utf-8
import csv
import jieba
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
import os
import re
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 对中文文本进行分词
def tokenize_text(text):
    return " ".join(jieba.cut(text))

# 去除标点符号
def remove_punctuation(text):
    punctuation = '!"#,。、$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'
    text = re.sub(r'[{}]+'.format(punctuation), '', text)
    return text

# 将分词后的文本转化为tf-idf矩阵
def text_to_tfidf_matrix(texts):
    tokenized_texts = [tokenize_text(remove_punctuation(text)) for text in texts]
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(tokenized_texts)
    return tfidf_matrix

# 聚类函数
def cluster_texts(tfidf_matrix, n_clusters):
    kmeans = KMeans(n_clusters=n_clusters)
    kmeans.fit(tfidf_matrix)
    return kmeans.labels_

# 保存聚类结果到新的CSV文件
def save_clusters_to_csv(filename, texts, labels):
    base_filename, ext = os.path.splitext(filename)
    output_filename = f"{base_filename}_clusters{ext}"
    with open(output_filename, "w", encoding="utf-8", newline="") as csvfile:
        csvwriter = csv.writer(csvfile)
        for text, label in zip(texts, labels):
            csvwriter.writerow([text, label])
    return output_filename

# 输出聚类结果
def print_cluster_result(texts, labels):
    clusters = {}
    for i, label in enumerate(labels):
        if label not in clusters:
            clusters[label] = []
        clusters[label].append(texts[i])

    for label, text_list in clusters.items():
        print(f"Cluster {label}:")
        for text in text_list:
            print(f"  {text}")

def text_KMeans(filename,n_clusters):
    df = pd.read_csv(filename, encoding='utf-8')  # 读取csv文件
    texts = df['text'].tolist()  # 提取文本数据为列表格

    print(df.iloc[:, [0, -1]])
    # 将文本转化为tf-idf矩阵
    tfidf_matrix = text_to_tfidf_matrix(texts)
    # 进行聚类
    labels = cluster_texts(tfidf_matrix, n_clusters)
    clusters = []
    for i, label in enumerate(labels):
        clusters.append(label)

    df['cluster'] = clusters

    output = 'data_clustered.csv'
    df.to_csv('data_clustered.csv', index=False, encoding='utf-8')

    return output,labels,tfidf_matrix

def pca_picture(labels,tfidf_matrix):
    # 进行降维操作并将结果保存到DataFrame中
    pca = PCA(n_components=3)
    result = pca.fit_transform(tfidf_matrix.toarray())
    result_df = pd.DataFrame(result, columns=['Component1', 'Component2', 'Component3'])

    # 将聚类结果添加到DataFrame中
    result_df['cluster'] = labels

    # 绘制聚类图形
    fig = plt.figure()
    ax = fig.add_subplot(111, projection='3d')
    colors = ['red', 'blue', 'green']
    for i in range(3):
        subset = result_df[result_df['cluster'] == i]
        ax.scatter(subset['Component1'], subset['Component2'], subset['Component3'], color=colors[i], s=50)
    ax.set_xlabel("Component 1")
    ax.set_ylabel("Component 2")
    ax.set_zlabel("Component 3")
    plt.show()

if __name__ == "__main__":
    # 加载中文文本
    filename = "data.csv"
    n_clusters =3
    output,labels,tfidf_matrix = text_KMeans(filename, n_clusters)
    pca_picture(labels, tfidf_matrix)

运行利用PCA算法生成3D图像:
在这里插入图片描述

五、文本聚类分析的优缺点与挑战

文本聚类分析具有以下优点:能够提供洞察力,帮助我们了解文本数据的结构和内容;能够实现自动化聚类,减少人工干预;能够高效处理大规模数据,加快分析速度。

然而,文本聚类也存在一些缺点:由于聚类是基于相似性的,因此对于主观性较强的文本数据,可能会出现分类不准确的情况;聚类算法通常需要标注数据进行训练和调优,这在某些场景下可能难以获取;处理噪声和冗余信息也是一个挑战。

此外,文本聚类还面临一些挑战:高维度问题,即当文本特征维度较高时,聚类结果可能不准确或难以解释;语义相似性问题,由于自然语言的复杂性,文本之间的语义相似性难以捕捉;类别不平衡问题,即不同类别的文本样本数量差异较大,可能影响聚类的效果。

六、文本聚类分析的未来发展趋势

未来,文本聚类分析可能朝着以下方向发展:(可以提出一些观点,如结合深度学习方法改进文本特征表示、应用领域的拓展等)

七、结论

文本聚类分析是一种重要的技术,能够帮助我们理解和组织大规模文本数据。通过选择合适的算法和特征表示方法,并克服相关挑战,我们可以获得准确和可解释的聚类结果。随着技术的不断进步,文本聚类分析在各个领域都有着广泛的应用前景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/781769.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker概述 镜像-容器基本操作

Docker 概述 Docker是一个开源的应用容器引擎&#xff0c;基于go语言开发并遵循了apache2.0协议开源。 Docker是在Linux容器里运行应用的开源工具&#xff0c;是一种轻量级的“虚拟机”。 Docker 的容器技术可以在一台主机上轻松为任何应用创建一个轻量级的、可移植的、自给自足…

Redis应用(7)——Redis的项目应用(六):布隆过滤器---白名单 ----> Reids的问题,雪崩/ 击穿 / 穿透【重要】 布隆过滤器

目录 引出Redis的问题缓存雪崩&#xff1a;key不存在缓存击穿&#xff1a;热点key缓存穿透【重要】 穿透的解决方案&#xff1a;布隆过滤器问题&#xff1a;如何存储100w纯数字布隆过滤器项目应用&#xff1a;布隆过滤器≈白名单htool工具包案例 Redis项目应用&#xff08;六&a…

OpenCV4图像处理-图像交互式分割-GrabCut

本文将实现一个与人&#xff08;鼠标&#xff09;交互从而分割背景的程序。 GrabCut 1.理论介绍2. 鼠标交互3. GrabCut 1.理论介绍 用户指定前景的大体区域&#xff0c;剩下为背景区域&#xff0c;还可以明确指出某些地方为前景或者背景&#xff0c;GrabCut算法采用分段迭代的…

蓝桥杯专题-真题版含答案-【星系炸弹】【隔行变色】【手链样式】【生日蜡烛】

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列 &#x1f449;关于作者 专注于Android/Unity和各种游…

Python爬虫-进入浏览器控制台就出现无限debugger,怎么解决?

前言 本文是该专栏的第53篇,后面会持续分享python爬虫干货知识,记得关注。 对于控制台出现无限debugger的情况,笔者之前在“JS逆向-常见反调试之“无限Debugger”,怎么解决?”里面有详细介绍过。而本文,针对控制台调试出现无限debugger的另一种情况,笔者来详细介绍该问…

C语言的自定义类型(结构体、枚举、联合体)

“虽然前方拥堵&#xff0c;但您仍在最优路线上” ——高德地图 文章目录 一、结构体类型 1.结构体类型的定义 2.结构体变量的初始化 3.结构体类型变量的定义 4.结构体内存对齐 5.结构体实现位段 二、枚举类型 三、联合体类型 大家好&#xff0c;我是纪宁。 这篇文章主…

【数据结构】--八大排序算法【完整版】

匠心制作&#xff0c;后续有问题会加以修改的 &#xff0c;全文均是自己写的&#xff0c;几张图有参考网络 ———————————————— 目录 一、直接插入排序 二、希尔排序(直接插入排序的改良版) 三、选择排序&#xff08;直接选择排序&#xff09; 四、堆排序 …

通过YOLOV5实现:王者荣耀百里守约自瞄

前期提要&#xff1a; 本文章仅供技术讨论使用。 关于如何通过YOLOV5去检测到王者中的敌方人物&#xff0c;在网上有很多相关的文章和教学视频我在这里就不过多的阐述&#xff0c;本篇文章主要讲的是在实现中比较难处理的一些技术点&#xff1a;如何获取高刷新率的手机屏幕、…

Hive 调优集锦(1)

一、前言 1.1 概念 Hive 依赖于 HDFS 存储数据&#xff0c;Hive 将 HQL 转换成 MapReduce 执行&#xff0c;所以说 Hive 是基于Hadoop 的一个数据仓库工具&#xff0c;实质就是一款基于 HDFS 的 MapReduce 计算框架&#xff0c;对存储在HDFS 中的数据进行分析和管理。 1.2 架…

贤鱼的刷题日常(数据结构链表学习)-1748:约瑟夫问题--题目详解

&#x1f3c6;今日学习目标&#xff1a; &#x1f340;例题讲解1748:约瑟夫问题 ✅创作者&#xff1a;贤鱼 ⏰预计时间&#xff1a;15分钟 &#x1f389;个人主页&#xff1a;贤鱼的个人主页 &#x1f525;专栏系列&#xff1a;c &#x1f341;贤鱼的个人社区&#xff0c;欢迎你…

NLP实战8:图解 Transformer笔记

目录 1.Transformer宏观结构 2.Transformer结构细节 2.1输入 2.2编码部分 2.3解码部分 2.4多头注意力机制 2.5线性层和softmax 2.6 损失函数 3.参考代码 &#x1f368; 本文为[&#x1f517;365天深度学习训练营]内部限免文章&#xff08;版权归 *K同学啊* 所有&#…

Okhttp-LoggingInterceptor的简单使用

概述 Okhttp除了提供强大的get,post网络请求外&#xff0c;还包含请求日志的拦截器&#xff0c;可以监视&#xff0c;重写&#xff0c;重试调用请求。 简单使用 我们在构造OkHttpClient时&#xff0c;通过addInterceptor()方法添加我们需要的过滤器。 object OkhttpUtils{……

SpringBoot知识范围-学习步骤【JSB系列之000】

语言视频选择收录专辑链接C张雪峰推荐选择了计算机专业之后-在大学期间卷起来-【大学生活篇】JAVA黑马B站视频JAVA部分的知识范围、学习步骤详解JAVAWEB黑马B站视频JAVAWEB部分的知识范围、学习步骤详解SpringBootSpringBoot知识范围-学习步骤【JSB系列之000】微信小程序详细解…

【stable diffusion】保姆级入门课程04-Stable diffusion(SD)图生图-局部重绘的用法

目录 0.本章素材 1.什么是局部重绘 2.局部重绘和涂鸦有什么不同 3.操作界面讲解 3.1.蒙版模糊 3.2.蒙版模式 3.3.蒙版蒙住的内容 3.4.重绘区域 4.局部重绘的应用&#xff08;面部修复&#xff09; 5.课后训练 0.本章素材 chilloutmix模型(真人模型)百度地址&#xf…

数据结构—树状数组

树状数组 单点修改、区间查询区间修改、单点查询区间修改、区间查询 单点修改、区间查询 这里讲解树状数组的最基本操作单点修改、区间查询&#xff0c;当然能做到单点修改、区间查询&#xff0c;肯定就能做到单点修改、单点查询了。树状数组是用来快速求前缀和的&#xff0c;…

MGRE之OSPF实验

目录 题目&#xff1a; 步骤二&#xff1a;拓扑设计与地址规划​编辑 步骤三&#xff1a;IP地址配置 步骤四&#xff1a;缺省路由配置 步骤五&#xff1a;NAT的配置 步骤六&#xff1a;MGRE配置 中心站点R1配置 分支站点配置 中心站点R5 R1配置 分支站点配置 检测&…

UE 材质学习补充

Add Name Reroute Node ...&#xff08;本地变量&#xff09; 该节点可以整理节点&#xff0c;优化界面 Texture Texture(纹理图像)&#xff0c;一般由RGB三个通道混合构成&#xff0c;RGB三个通道的值代表亮度&#xff0c;RGB三个通道分别都是0-1&#xff08;0-255&#xff09…

征服FarmerJohn(二) Naptime【USACO05JAN】

题解目录 前言题目内容题目描述输入输出样例题目思路示例代码AC图片 后记往期精彩 前言 在上一期征服FarmerJohn&#xff08;一&#xff09;三角形【USACO2020FEB-B】结束之后&#xff0c;我们来看一道难度有所提升的DP问题&#xff0c;也就是常说的动态规划&#xff0c;今天我…

Please set the ROCKETMQ_HOME variable in your environment!

原因 启动ROCKETMQ执行命令start mqnamesrv.cmd时报错 翻译意思是请在您的环境中设置ROCKETMQ_HOME变量&#xff01; 查看mqnamesrv.cmd可以看到如果"%ROCKETMQ_HOME%\bin\runserver.cmd"不存在会报此错误 配置上环境变量ROCKETMQ_HOME即可

《深入理解计算机系统》(美)布赖恩特(Bryant,R.E.) 等

适合对象&#xff1a;对计算机感兴趣的朋友。 需要相关资料的可私信我。 持续更新中&#xff1a; 第一章&#xff1a;计算机系统漫游 主要知识点&#xff1a;解读全书结构框架&#xff0c;解释OS的原理和相关硬件软件。计算机系统是由硬件和系统软件组成&#xff0c;共同协作…