传统机器学习 基于TF_IDF的文本聚类实现

news2025/1/17 3:17:49

简介

使用sklearn基于TF_IDF算法,实现把文本变成向量。再使用sklearn的kmeans聚类算法进行文本聚类。

个人观点:这是比较古老的技术了,文本转向量的效果不如如今的 text2vec 文本转向量好。
而且sklearn 不支持GPU加速,处理大量数据速度极慢。

实现

项目完整可运行代码:https://github.com/JieShenAI/csdn/blob/main/machine_learning/TF-IDF%20sklearn聚类.ipynb

import re
import random
import jieba
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfTransformer, TfidfVectorizer
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import gensim
from gensim.models import Word2Vec
from sklearn.preprocessing import scale
import multiprocessing

语料库如下

corpus = [
    '花呗更改绑定银行卡',
    '我什么时候开通了花呗',
    'A man is eating food.',
    'A man is eating a piece of bread.',
    'The girl is carrying a baby.',
    'A man is riding a horse.',
    'A woman is playing violin.',
    'Two men pushed carts through the woods.',
    'A man is riding a white horse on an enclosed ground.'
]

jieba 分词
jieba.add_word("花呗"),给jieba添加花呗, 不然 jieba 会把花呗拆分成'花', '呗'

分词模型,用起来还是有点麻烦

jieba.add_word("花呗")

def preprocess_text(content_lines, sentences):
    for line in content_lines:
        try:
            segs=jieba.lcut(line)
            segs = [v for v in segs if not str(v).isdigit()]#去数字
            segs = list(filter(lambda x:x.strip(), segs))   #去左右空格
            segs = list(filter(lambda x:len(x)>1, segs)) #长度为1的字符
            # segs = list(filter(lambda x:x not in stopwords, segs)) #去掉停用词
            sentences.append(" ".join(segs))
        except Exception:
            print(line)
            continue

sentences = []
# 处理语料,语料的处理结果存放在sentences
preprocess_text(corpus, sentences)

jieba 分词结果如下:
在这里插入图片描述

利用 TF_IDF 算法把分词结果转成向量

vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5)
#统计每个词语的tf-idf权值
transformer = TfidfTransformer()
# 第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵
tfidf = transformer.fit_transform(vectorizer.fit_transform(sentences))
# 获取词袋模型中的所有词语
word = vectorizer.get_feature_names_out()
# 将tf-idf矩阵抽取出来,元素w[i][j]表示j词在i类文本中的tf-idf权重
weight = tfidf.toarray()
#查看特征大小
print ('Features length: ' + str(len(word)))

如下图所示,向量矩阵过于稀疏了,没有worc2vec编码的向量稠密。
在这里插入图片描述

编码的向量是33纬;
在这里插入图片描述

模型

为了方便使用,在JieKmeans类中封装了,kmeans聚类训练、预测和绘图功能。

from sklearn.decomposition import PCA

class JieKmeans:
    def __init__(self, numClass=4, n_components=10, func_type='PCA'):
        #这里也可以选择随机初始化init="random"

        self.PCA = PCA(n_components=n_components)
        if func_type == 'PCA':
            self.func_plot = PCA(n_components=2)
        elif func_type == 'TSNE':
            from sklearn.manifold import TSNE
            self.func_plot = TSNE(2)

        self.numClass = numClass

    def plot_cluster(self, result, newData):

        plt.figure(2)
        Lab = [[] for i in range(self.numClass)]
        index = 0
        for labi in result:
            Lab[labi].append(index)
            index += 1
        color = ['oy', 'ob', 'og', 'cs', 'ms', 'bs', 'ks', 'ys', 'yv', 'mv', 'bv', 'kv', 'gv', 'y^', 'm^', 'b^', 'k^',
                    'g^'] * 3

        for i in range(self.numClass):
            x1 = []
            y1 = []
            for ind1 in newData[Lab[i]]:
                # print ind1
                try:
                    y1.append(ind1[1])
                    x1.append(ind1[0])
                except:
                    pass
            plt.plot(x1, y1, color[i])

        #绘制初始中心点
        x1 = []
        y1 = []
        for ind1 in self.model.cluster_centers_:
            try:
                y1.append(ind1[1])
                x1.append(ind1[0])
            except:
                pass
        plt.plot(x1, y1, "rv") #绘制中心
        plt.show()


    def train(self, data):
        tmp = self.PCA.fit_transform(data)
        self.model = KMeans(
            n_clusters=self.numClass,
            max_iter=10000, init="k-means++", tol=1e-6)
        s = self.model.fit(tmp)
        print("聚类算法训练完成\n", s)



    def predict(self, data):
        t_data = self.PCA.fit_transform(data)
        result = list(self.model.predict(t_data))
        return result


    def plot(self, weight):
        t_data = self.PCA.fit_transform(weight)
        result = list(self.model.predict(t_data))
        plot_pos = self.func_plot.fit_transform(weight)
        self.plot_cluster(result, plot_pos)
net = JieKmeans(
    numClass=3, # 聚类类别
    n_components=5,
    func_type='PCA' # 绘图降纬方法
    )

net.train(weight)
# net.plot(weight)

聚类可视化

net.plot(weight)

在这里插入图片描述

如上图所示,上图的可视化显示聚类效果很好,但是由于TF-IDF文本转向量的效果不是很好,所以上述聚类出来的结果可能并不是我们想要的。

预测结果:

p = net.predict(weight)

class_data = {
    i:[]
    for i in range(3)
}

for text,cls in zip(corpus, p):
    class_data[cls.item()].append(text)

class_data

聚类结果如下:
在这里插入图片描述

进一步阅读

点击即可阅读,基于word2vec 和 kmeans_pytorch 的文件聚类实现,利用GPU加速提高聚类速度
该文使用text2vec通过cuda加速,加快文本转向量的速度。使用kmeans_pytorch包,基于pytorch在GPU上计算,提高聚类速度。
如下是其基于word2vec的聚类结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1515628.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

交流回馈老化测试负载如何实现这些功能的

交流回馈老化测试负载是一种用于模拟电力系统中各种负载特性的装置,它可以对电力设备进行长时间的老化测试,以确保其在实际运行中的稳定性和可靠性。交流回馈老化测试负载主要通过以下几个方面实现这些功能: 1. 模拟负载特性:交流…

基于YOLOv8深度学习的野外火焰烟雾检测系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

Python 界面逻辑分离示例

本示例使用的发卡设备:https://item.taobao.com/item.htm?id615391857885&spma1z10.5-c.w4002-21818769070.11.6cc85700Robi3x 一、Python 安装PyQt5,运行 Qt Designer 新建窗体文件,在窗体中拖放控件 完成界面设计,保存为…

模拟信号隔离放大器导轨式直流信号转换器0-5V0-10V4-20mA0-75mV0-20mA负载能力0-85mA/0-165mA /0-200mA

概述 导轨安装DIN11HVI 系列模拟信号隔离放大器是一种将输入信号隔离放大、转换成按比例输出的直流信号混合集成厚模电路。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等需要直流信号隔离测控的行业。此系列产品内部采用了线性光电隔离技术相比电磁隔离具有更…

UI 设计师的工作职责是什么?需要掌握哪些技能?

什么是 UI 设计? UI 设计是设计用户界面的一门学科。用户界面是一个人与应用程序、网站或软件之间的联系。类似于平面设计和网页设计,UI 设计者是一种视觉设计师。 即时设计 - 可实时协作的专业 UI 设计工具即时设计是一款支持在线协作的专业级 UI 设计…

算法思想总结:二分查找算法

创作不易,感谢三连!! 一、二分查找算法思路总结 大家先看总结,然后再根据后面的题型去慢慢领悟 二、二分查找(easy) . - 力扣(LeetCode)二分查找 思路:(模…

哪个牌子的大路灯对学生的视力好?一文带你了解大路灯

大路灯在如今市场中销量越来越高,与传统台灯相比,大路灯采用LED灯和专业的护眼技术,可以有效缓解用眼疲劳、帮助放松和舒适照明。但需要注意的是,目前市场中品牌类型较多,也有很多劣质的产品,比如网红或跨界…

吴恩达CNN之卷积初学习---二维卷积

1、卷积的实现 从左到右的矩阵可以看作:一幅图像、过滤器filter(核)、另一幅图像 编程中卷积的实现:支持卷积的深度学习框架都会有一些函数实现这个卷积运算 python:conv_forward函数 TensorFlow:tf.nn.…

ZStack Cloud云平台承载都江堰市人民医院核心业务

三甲医院都江堰市人民医院通过ZStack Cloud云平台对医院信息化架构进行了全面升级改造:一期通过ZStack Cloud云平台分布式存储,承载OA、短信、数字图书馆、餐厅消费系统、体检服务等一般业务;二期通过ZStack Cloud云平台承载医院HIS管理系统、…

18个惊艳的可视化大屏(第23辑):电子政务,一目了然如胸。

数据展示与监控: 可视化大屏可以将政务数据以图表、地图、仪表盘等形式展示出来,直观地呈现政务工作的进展、趋势和关键指标。通过大屏监控,政府部门可以实时了解各项指标的情况,及时发现问题并采取相应措施。 决策支持&#xff…

wifi的5G和3GPP的5G

wifi 5G 跑的是802.11的协议。 wifi的5G指的就是频率,例如wifi2.4G,其频段处于2.400GHz~2.4835GHz之间,wifi5G的频率范围为5.15GHz到5.875GHz,其中包括多个频道。 这里有个误区,并不是运行在5GHz频段的WI-FI就是5G …

鸿蒙:文本滑动选择器弹窗

根据指定的选择范围创建文本选择器,展示在弹窗上。 该组件从API Version 8开始支持 TextPickerDialog.show show(options?: TextPickerDialogOptions) 定义文本滑动选择器弹窗并弹出。 TextPickerDialogOptions参数: 参数名 参数类型 必填 参数…

第四百回 channel

文章目录 1. 知识回顾2. 示例代码3. 经验总结 我们在上一章回中介绍了MethodChannel的使用方法,本章回中将介绍EventChannel的使用方法.闲话休提,让我们一起Talk Flutter吧。 1. 知识回顾 我们在前面章回中介绍了通道的概念和作用,并且提到了…

探索数据可视化:Matplotlib 高级绘图功能(四)

3D图形 线形图&散点图 import numpy as np import matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d.axes3d import Axes3Dx np.linspace(0,60,300) y np.sin(x) z np.cos(x)fig plt.figure(figsize(9,6)) a3 Axes3D(fig) # 二维变成3D a3.plot(x,y,z)plt.figure…

SecureCRT出现乱码的解决方法

SecureCRT是一个商业终端连接工具,它支持多种自定义设置。默认设置下,通过SecureCRT连接SSH服务器可能出现中文乱码的情况。这是由于SecureCRT字符编码与服务器的字符编码不一致造成的。 当然解决这个问题也很简单,将SecureCRT字符编码设置成…

原型模式(Clone)——创建型模式

原型模式(clone)——创建型模式 什么是原型模式? 原型模式是一种创建型设计模式, 使你能够复制已有对象, 而又无需依赖它们所属的类。 总结:需要在继承体系下,实现一个clone接口,在这个方法中以本身作为拷…

Cesium--基于材质旋转图片

材质部分的代码如下 // 自定义材质const customMaterial new Cesium.Material({translucent: true,fabric: {uniforms: {image:circle_img,speed:30.0,},source: czm_material czm_getMaterial(czm_materialInput materialInput){czm_material material czm_getDefaultMateri…

spring中事务失效的场景有哪些?

异常捕获处理 在方法中已经将异常捕获处理掉并没有抛出。 事务只有捕捉到了抛出的异常才可以进行处理,如果有异常业务中直接捕获处理掉没有抛出,事务是无法感知到的。 解决:在catch块throw抛出异常。 抛出检查异常 spring默认只会回滚非检…

Unity Timeline学习笔记(1) - 创建TL和添加动画片段

Timeline在刚出的时候学习了一下,但是因为一些原因一直都没用在工作中使用。 版本也迭代了很久不用都不会用了,抽时间回顾和复习一下,做一个笔记后面可以翻出来看。 创建Timeline 首先我们创建一个场景,放入一个Plane地板&#…

SSA-LSTM多输入分类预测 | 樽海鞘优化算法-长短期神经网络 | Matlab

目录 一、程序及算法内容介绍: 基本内容: 亮点与优势: 二、实际运行效果: 三、算法介绍: 四、完整程序下载: 一、程序及算法内容介绍: 基本内容: 本代码基于Matlab平台编译&am…