基于TF-IDF+KMeans聚类算法构建中文文本分类模型(附案例实战)

news2024/10/6 20:37:26

 3f6a7ab0347a4af1a75e6ebadee63fc1.gif

🤵‍♂️ 个人主页:@艾派森的个人主页

✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+


目录

1.TF-IDF算法介绍

2.TF-IDF算法步骤

3.KMeans聚类 

4.项目实战

4.1加载数据

4.2中文分词

4.3构建TF-IDF模型

4.4KMeans聚类

4.5可视化

5.总结


 

1.TF-IDF算法介绍

        TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。简单来说就是:一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。这也就是TF-IDF的含义。

50ac51ba2c4f4f31bd3317896db25db8.png

TF(Term Frequency)

词频(TF)表示词条(关键字)在文本中出现的频率。

这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。

公式:

6ea46a15d63d43caa167d8e8e5992e58.png

 (术语 t 在文档中出现的次数) / (文档中的术语总数)

        但是,需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作。

IDF(Inverse Document Frequency)

        逆向文件频率 (IDF) :某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。

6058ee5cade448bdb82c5ff73e730b3c.png

log_e(文档总数/包含术语 t 的文档数)

        其中,|D| 是语料库中的文件总数。 |{j:ti∈dj}| 表示包含词语 ti 的文件数目(即 ni,j≠0 的文件数目)。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用 1+|{j:ti∈dj}|。

        IDF用于衡量一个术语的重要性。在计算 TF 时,所有项都被认为同样重要。然而,众所周知,某些术语,如"是","的"和"那个",可能会出现很多次,但并不重要。

TF-IDF(Term Frequency-Inverse Document Frequency)

        某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语,表达为 :

aa21993d1208476a957ed98e9cb02d61.png

 注: TF-IDF算法非常容易理解,并且很容易实现,但是其简单结构并没有考虑词语的语义信息,无法处理一词多义与一义多词的情况。

2.TF-IDF算法步骤

第一步,计算词频:

57a5aebae70440bb82587733396e0c57.png

考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。

d6e3f20934da4ef180725fa53ba60b17.png

第二步,计算逆文档频率:

这时,需要一个语料库(corpus),用来模拟语言的使用环境,

15beb2c703374b7081335bfd72b9b2f9.png

如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

第三步,计算TF-IDF:

60b9338a0d8a41fcb6e69278bb3753e1.png

可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。 

3.KMeans聚类 

06bf949de8444fca8880340b2be37191.png

 什么是聚类任务

  • 1 无监督机器学习的一种
  • 2 目标将已有数据根据相似度划分到不同的簇
  • 3 簇内样本彼此之间越相似,不同簇的样本之间越不相似,就越好

为什么叫KMeans聚类

  • 1 也可以叫K均值聚类
  • 2 K是最终簇数量,它是超参数,需要预先设定
  • 3 在算法计算中会涉及到求均值

 KMeans流程

  • 1 随机选择K个簇中心点
  • 2 样本被分配到离其最近的中心点
  • 3 K个簇中心点根据所在簇样本,以求平均值的方式重新计算
  • 4 重复第2步和第3步直到所有样本的分配不再改变

 如何计算样本到中心点的距离

1. 欧氏距离测度 Euclidean Distance Measure

0643c3e7b4904e6fb8b4264d0fa92741.png

 欧氏距离越大,相似度越低

96ad62a6e1ae4021be60941e44dc2baa.png

2. 余弦距离测度 Cosine Similarity Measure

4f0fcad05e81473c85cae4caaaf2ec02.png

夹角越大,余弦值越小,相似度越低 

cea910ccffd44ec3b877f2e8221a183f.png

         因为是cosine,所以取值范围是-1到1之间,它判断的是向量之间的 方向而不是大小;两个向量有同样的方向那么cosine相似度为1,两 个向量方向相对成90°那么cosine相似度为0,两个向量正相反那么 cosine相似度为-1,和它们的大小无关。

选择Cosine相似度还是欧氏距离

7cb0d9d2bbe04a99bb88b1bd638fb2a7.png

        总体来说,欧氏距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。

        例如,统计两部剧的用户观看行为,用户A的观看向量为(0, 1),用户B为(1,0);此时二者的余弦距离很大,而欧氏距离很 小;我们分析两个用户对于不同视频的偏好,更关注相对差异,显 然应当使用余弦距离。 而当我们分析用户活跃度,以登陆次数(单位:次)和平均观看时长 (单位:分钟)作为特征时,余弦距离会认为(1,10)、(10, 100)两个用户距离很近;但显然这两个用户活跃度是有着极大差 异的,此时我们更关注数值绝对差异,应当使用欧氏距离。

KMeans算法目标函数23b579178c464683b35574dd5060d827.png

        上面的公式既是要去最小化的目标函数,同时也可以作为评价 KMeans聚类效果好坏的评估指标。 

 KMeans算法不保证找到最好的解

        事实上,我们随机初始化选择了不同的初始中心点,我们或许会获 得不同的结果,就是所谓的收敛到不同的局部最优;这其实也就从事实上说明了目标函数是非凸函数。

99fce5494ecd4551ae6566ce0ded7a40.png

一个通常的做法就是运行KMeans很多次,每次随机初始化不同的 初始中心点,然后从多次运行结果中选择最好的局部最优解。 

KMeans算法K的选择

没有所谓最好的选择聚类数的方法,通常是需要根据不同的问题, 人工进行选择的。 

肘部法则(Elbow method)

改变聚类数K,然后进行聚类,计算损失函数,拐点处即为推荐的聚 类数 (即通过此点后,聚类数的增大也不会对损失函数的下降带来很大的影响,所以会选择拐点)。

目标法则

如果聚类本身是为了有监督任务服务的(例如聚类产生features 【譬如KMeans用于某个或某些个数据特征的离散化】然后将 KMeans离散化后的特征用于下游任务),则可以直接根据下游任务的metrics进行评估更好。

4.项目实战

4.1加载数据

实验环境:Python3.9  

编辑工具:jupyter notebook

首先导入实验用到的第三方库并加载数据

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.manifold import TSNE
from sklearn.cluster import KMeans
import jieba
import matplotlib.pyplot as plt
import pandas as pd
import re
import warnings
warnings.filterwarnings('ignore')

data = pd.read_csv('data.csv')
data.head()

756f9900a928478192e9cae8317cd091.png

 查看各个类型新闻的大小

print(data.shape) # 查看数据大小
data['类型'].value_counts()

30e420590c6f4c2cace1816be35f4009.png

从结果中可以发现本次数据集共有25000条数据,其中有5个量相等新闻类型。

4.2中文分词

这一步需要构建语料库并进行中文分词(去除异常符号、分词、去停用词)

def chinese_word_cut(mytext):
    # 文本预处理 :去除一些无用的字符只提取出中文出来
    new_data = re.findall('[\u4e00-\u9fa5]+', mytext, re.S)
    new_data = " ".join(new_data)

    # 文本分词
    seg_list_exact = jieba.cut(new_data, cut_all=True)
    result_list = []
    # 加载停用词库
    with open('停用词库.txt', encoding='utf-8') as f: # 可根据需要打开停用词库,然后加上不想显示的词语
        stop_words = set()
        for i in f.readlines():
            stop_words.add(i.replace("\n", "")) # 去掉读取每一行数据的\n
    # 去除停用词
    for word in seg_list_exact:
        if word not in stop_words and len(word) > 1:
            result_list.append(word)      
    return " ".join(result_list)

data['分词结果'] = data['内容'].apply(chinese_word_cut)
data.head()

71fe1636e35145fd9c6de1b368d2dc04.png

4.3构建TF-IDF模型

vectorizer = CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(data['分词结果']))
tfidf_weight = tfidf.toarray()

运行上述代码时,如果你的磁盘分配内存不够会出现以下报错:

52010f73dcef431eaecd39014cc4af44.png

 具体解决方法可以参考:成功解决Windows MemoryError: Unable to allocate 6.38 GiB for an array with shape (38_王壹浪的博客-CSDN博客_memoryerror: unable to allocate 240. mib for an ar

由于使用上述代码最后会造成词袋长度过大,导致维度灾难,所以我对上述代码进行修改,加上了降维的操作,使得离散的特征能集中化,也能提高最后模型分类的准确率。

from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import Normalizer
from sklearn.pipeline import make_pipeline
vectorizer = CountVectorizer()
svd = TruncatedSVD(5000)  # 降到5000维
normalizer = Normalizer(copy=False)  # 标准化
lsa = make_pipeline(svd,normalizer)
X = lsa.fit_transform(vectorizer.fit_transform(data['分词结果']))
X.shape

ad9c241d23684f4491cd534ac1700cfb.png

 接着再构建TF-IDF模型

transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)
tfidf_weight = tfidf.toarray()
tfidf_weight

a7e84ed67e0f4ca1a4da9663d71e0a87.png

4.4KMeans聚类

因为在前面我们已经知道了该数据集是分为5类的,所里这里的K选取5

# 指定分成5个类
kmeans = KMeans(n_clusters=5)
kmeans.fit(tfidf_weight)
# 打印出各个簇的中心点
print("中心点坐标:")
print(kmeans.cluster_centers_)
for index, label in enumerate(kmeans.labels_, 1):
    print("index: {}, label: {}".format(index, label))
# 样本距其最近的聚类中心的平方距离之和,用来评判分类的准确度,值越小越好
# k-means的超参数n_clusters可以通过该值来评估
print("效果评估值:")
print("inertia: {}".format(kmeans.inertia_))

04bb550a964746f08f4c01db6203641e.png

我们还可以将聚类的结果保存为excel文件

# 保存结果至excel
data['label'] = kmeans.labels_
data.to_excel("data_labeled.xlsx",index=False)

cae972ee03444bc6b14857f8e6143034.png

4.5可视化

前面我们已经使用了KMeans进行了聚类,现在我们将聚类的结果进行可视化。由于聚类结果是5类,如果需要在二维平面展示,则先要降到2维。

# 使用T-SNE算法,对权重进行降维,准确度比PCA算法高,但是耗时长
tsne = TSNE(n_components=2)
decomposition_data = tsne.fit_transform(tfidf_weight)

x = []
y = []

for i in decomposition_data:
    x.append(i[0])
    y.append(i[1])

fig = plt.figure(figsize=(10, 10))
ax = plt.axes()
plt.scatter(x, y, c=kmeans.labels_, marker="x")
plt.xticks(())
plt.yticks(())
plt.show()

 e73844ce63d246308111ab33278fe061.png

 从可视化图中可以大致看出,聚类效果还可以,5个类别5种颜色。

因为本数据集中原始就有类别,所以我们可以将分类的类别和原始类别进行比较得出模型的分类准确率。从前面保存的ecxel文件中可以看出,0是科技类,1是财经类,2是时政类,3是体育类,4是娱乐类。

data['类型'].replace(to_replace={'科技':0,'财经':1,'时政':2,'体育':3,'娱乐':4},inplace=True)
right = 0
error = 0
for i,j in zip(data['类型'],data['label']):
    if i == j:
        right+=1
    else:
        error+=1
print('模型分类准确率:',right/(right+error))

e44e1eaba5444f58a729ea3bf380d5fd.png

 从结果看出模型的准确率为70%,模型效果一般,还有待提高。

5.总结

        本次实验使用TF-IDF+KMeans聚类实现文本分类,聚类是一种无监督学习,数据集中只保留文本数据就可以训练得出类别,实验中我保留原始类别是最后可以通过原始类别来检测模型的准确率。最后的模型准确率为70%,效果还有待提高。在词向量后降维那里,5000是我随便想的数字,通过调节这个数字可以提高模型准确率。还有就是调节KMeans模型的参数,实验中我全都用的是默认参数。

        以上就是本次项目实战的分享,过程中有疑问的小伙伴可以随时来联系我。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/424548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UHD安装教程

UHD Universal Hardware Driver,即USRP驱动。 UHD,Windows平台安装教程 uhd驱动安装 http://files.ettus.com/binaries/misc/erllc_uhd_winusb_driver.zip 安装LibUSBx http://files.ettus.com/binaries/uhd/latest_release 下载默认C盘 环境配置 将…

Android FrameWork 知识点与面试题整合~

1.如何对 Android 应用进行性能分析 android 性能主要之响应速度 和UI刷新速度。 首先从函数的耗时来说,有一个工具TraceView 这是androidsdk自带的工作,用于测量函数耗时的。 UI布局的分析,可以有2块,一块就是Hierarchy Viewe…

面试-Sqrt(x)

题目 给你一个非负整数 x ,计算并返回 x 的 算术平方根 。 由于返回类型是整数,结果只保留 整数部分 ,小数部分将被 舍去 。 注意:不允许使用任何内置指数函数和算符,例如 pow(x, 0.5) 或者 x ** 0.5 。 思路 二分查…

项目管理:项目进度难以把控,项目经理应该怎么办?

项目管理中,对进度的管理也是保障整个项目顺利完成的重要条件。项目进度难以把控,项目常常延期,项目经理怎么办?如何跟进整个项目的进度? 对于如何做好项目进度管理,有几点建议,希望能对大家有…

Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载

文章目录一、业务背景二、实现思路二、准备工作1.准备data模板.xlsx2.引入poi相关依赖,用于操作excel3.针对WorkBookZIP压缩输入/输出流,相关方法知识点要有所了解三、完整的项目代码四、可能遇到的问题错误场景1:java.io.IOException: Strea…

【RabbitMQ】SpringBoot整合RabbitMQ实现延迟队列、TTL、DLX死信队列

目录 一、TTL 1、什么是TTL 2、设置TTL的两种方式 3、控制台设置TTL 4、SpringBoot实现两种方式设置TTL 1.给消息设置过期时间 2.给队列设置过期时间 二、DLX死信队列 1、什么是死信交换机与死信队列 2、消息何时会成为死信 3、队列如何绑定死信交换机与死信队列 4…

vscode“检测到 #include 错误,请更新 includepath。”的问题解决办法

目录 一.报错更新includepath​编辑 二.原因 三.解决方法 一.报错更新includepath 如图 二.原因 1.没有安装gcc 2.没有配置好环境 winR打开cmd,输入gcc -v,如果安装了gcc,会返回版本 三.解决方法 1.安装MinGW 2.添加MinGW环境变量 将bin文件夹的位置添加到系统环境变量中…

三分钟搭建个人博客技术栈Nuxt3+vite+mysql+koa2

最近也是想入一下Nuxt3的坑,然后就写了一个博客系统,目前已开源github,欢迎大家star!!! 效果预览 网址:http://180.76.121.2:3000/ github地址 https://github.com/ztzzhi/ztzzhi-nuxt3-vite…

MySQL事物(基础篇)

MySQL事务事物的基本概念事物的ACID属性事务的使用事务隔离级别MVCC&ReadViewMySQL是否还存在幻读事物的基本概念 Transaction作为关系型数据库的核心组成,在数据安全方面有着非常重要的作用,本文会一步步解析事务的核心特性,以获得对事…

多云数据存储,理想与现实之间还差着什么?

去年底,“数据二十条”正式颁布,数据要素全面提速已是指日可待。 无疑,数据作为数字经济的基础,其价值的释放依赖于数据的流动、共享和应用。数据要素只有充分地流动和应用起来,才能够实现价值的最大化。 换而言之&a…

VPN、IPSEC、AH、ESP、IKE、DSVPN

目录 1.什么是数据认证,有什么作用,有哪些实现的技术手段? 2.什么是身份认证,有什么作用,有哪些实现的技术手段? 3.什么VPN技术? 4. VPN技术有哪些分类? 5. IPSEC技术能够提供哪些安全服务? 6. IPSEC的技术架构是什么?…

idea中使用git工具

目录一、IDEA中配置git二、git操作将项目设置成git仓库一、IDEA中配置git 打开idea,点击File–>Settings 点击版本控制,然后点击git 将你的git.exe安装目录填到下面位置 点击test可以看到显示了版本,说明配置成功 二、git操作 将项目设置…

geoserver更换默认的端口、修改默认密码

geoserver默认的端口是8080,有的时候会与其他的项目相冲突,我们的目标是将端口修改为8888,如何更改呢?geoserver正常安装的默认用户名密码为admin/geoserver,如何做一个修改呢将默认密码修改为其他的。 修改端口 分两种情况: (一)如果安装的时候,指定了端口,修改s…

elasticsearch基础教程

elasticsearch安装 有些软件对于安装路径有一定的要求,例如:路径中不能有空格,不能有中文,不能有特殊符号,等等。 为了避免不必要的麻烦,也懒得一一辨别踩坑,我们人为作出「统一的约定」&…

2023_深入学习HTML5

H5 基于html5和 css3和一部分JS API 结合的开发平台(环境) 语义化标签 header : 表示头部,块级元素 footer : 表示底部,块级元素 section :区块 nav : 表示导航链接 aside : 表示侧边栏 output &am…

Flume系列:Flume组件架构

目录 Apache Hadoop生态-目录汇总-持续更新 一:Flume 概述 二:Flume 基础架构 2.1:Agent 2.2:Source 2.3:Sink 2.4:Channel 1) Memory Channel 2) File Channel 3) Kafka Channel 2.5&#xff1a…

AI 绘画 API 超详细使用教程 - 附微信小程序接入代码

写在前面 【AI绘画/AI图像生成】已成为现下炙手可热的话题,AI 大模型训练的成本高昂,算法研究时间周期较长,对于大多数人来说,自研一套算法模型还是非常困难的,因此 AI 绘画 API 就应运而生,直接调用 AI 绘…

MRI图像配准技术及其未来

前言 早在20世纪40年代数字革命开始之前,图像配准就已经成为一个具有重要现实意义的过程。这技术首次应用于彩印,即将几种单色图案叠加在一起形成多色图案。为了生成最终所需的多色印刷品,各个层相对于另一个层的对齐必须是精确的。若个别层…

linux PAM模块简介

PAM模块简介1. 介绍1.1 概念1.2 验证过程简述2. 配置文件介绍2.1 PAM的模块类型2.2 PAM的控制标记2.3 PAM的模块路径3. 验证机制3.1 login的验证机制流程3.2 pam相关文件4. 示例4.1 ssh远程登录控制4.2 禁止账号间使用su命令切换4.3 限制root从tty1,tty2,tty5登录1.…

墨菲安全入选网络安全全景图,将持续深耕软件供应链安全垂直领域

2023年4月7日,中国网络安全领域的专业媒体安全牛正式发布第十版网络安全行业全景图,展现了我国网络安全行业的应用发展与变革创新,所有申请企业通过多个维度审核考量。墨菲安全作为一家专注于软件供应链安全领域的创新企业,以开发…