【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】

news2025/1/15 6:36:29

请添加图片描述


👉博__主👈:米码收割机
👉技__能👈:C++/Python语言
👉公众号👈:测试开发自动化【获取源码+商业合作】
👉荣__誉👈:阿里云博客专家博主、51CTO技术博主
👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。


【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】


目录

  • 【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】
  • 一、设计要求
  • 二、功能展示
    • 2.1. 去除停用词
    • 2.2 关键词提取
    • 2.3. 聚类群集
    • 2.4. 聚类可视化
  • 三、代码解析
      • 1. 导入库和设置基本信息
      • 2. 读取中文停用词
      • 3. 文本预处理函数
      • 4. 提取文件夹内所有文件的预处理文本
      • 5. 使用TF-IDF进行向量化
      • 6. 执行KMeans聚类
      • 7. 输出每个文件的聚类结果
      • 8. 关键词提取
      • 9. 展示每个文本的关键词
      • 10. 使用PCA进行降维并绘制聚类结果


一、设计要求

新闻文本数据存储于文件“新闻文本”文件夹中

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

使用Python完成如下内容:

(1)使用代码打开给定文件夹中的文本文件进行内容读取,提取摘要内容(AB
标签内容)进行文本预处理(分词、停用词“中文停用词.txt”去除等),并展示结果;

(2)提取每个 text 文本的关键词(词频或其他方法)并展示结果;

(3)使用词频或其他方法对每个 txt 进行向量表示,并基于此对文档进行聚类。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈


二、功能展示

2.1. 去除停用词

在这里插入图片描述

2.2 关键词提取

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

2.3. 聚类群集

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

2.4. 聚类可视化

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈


三、代码解析

1. 导入库和设置基本信息

import os
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import numpy as np

plt.rcParams["font.sans-serif"] = ["SimHei"]

folder_path = r'.\新闻文本'

首先,导入了所需的库,并设置了文件夹路径。代码中使用了jieba进行中文分词,TfidfVectorizer进行TF-IDF特征提取,KMeans进行文本聚类,matplotlib进行可视化,以及PCA进行数据降维。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

2. 读取中文停用词

with open('中文停用词.txt', 'r', encoding='utf-8') as f:
    stop_words = [line.strip() for line in f.readlines()]

这部分代码读取了中文停用词表,并将其存储在stop_words列表中。停用词通常是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的字词。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

3. 文本预处理函数

def preprocess_text(file_path, stop_words):
    with open(file_path, 'r', encoding='gbk') as file:
        text = file.read()
        # 略....
        words = [word for word in words if word not in stop_words]
        return ' '.join(words)

该函数接收文件路径和停用词列表作为参数,读取文件内容,然后使用jieba进行中文分词,最后去除停用词并返回处理后的文本。

4. 提取文件夹内所有文件的预处理文本

texts = []
for file_name in os.listdir(folder_path):
    if file_name.endswith('.txt'):
        file_path = os.path.join(folder_path, file_name)
        try:
            # 略....
        except:
            continue

这部分代码遍历指定文件夹内的所有.txt文件,对每个文件调用预处理函数,并将处理后的文本添加到texts列表中。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

5. 使用TF-IDF进行向量化

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(texts)

这里使用TfidfVectorizer对预处理后的文本进行TF-IDF向量化,将文本转换为TF-IDF特征矩阵。

6. 执行KMeans聚类

num_clusters = 5
km = KMeans(n_clusters=num_clusters)
# 略....

使用KMeans算法对TF-IDF特征矩阵进行聚类,将文本数据分为预设的5个类别(num_clusters=5)。

7. 输出每个文件的聚类结果

clusters = km.labels_.tolist()
for file_name, cluster in zip(file_names, clusters):
    print(f'{file_name} 属于群集 {cluster}')

这部分代码输出了每个文件所属的聚类结果。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

8. 关键词提取

def extract_keywords(tfidf_matrix, vectorizer, top_n=5):
    indices = tfidf_matrix.toarray().argsort(axis=1)
    feature_names = vectorizer.get_feature_names_out()
    # 略....
    return keywords_list

这个函数用于从TF-IDF特征矩阵中提取关键词,选取每个文本中TF-IDF分数最高的词作为关键词。

9. 展示每个文本的关键词

keywords = extract_keywords(tfidf_matrix, vectorizer)
for file_name, keyword in zip(file_names, keywords):
    print(f'{file_name} 的关键词: {keyword}')

这部分代码展示了每个文本的关键词。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

10. 使用PCA进行降维并绘制聚类结果

pca = PCA(n_components=2)
two_dim_data = pca.fit_transform(tfidf_matrix.toarray())

这里使用PCA将TF-IDF特征矩阵降维到2维,以便于可视化展示。

plt.figure(figsize=(10, 10))
for i in range(num_clusters):
    points = two_dim_data[np.array(clusters) == i]
    plt.scatter(points[:, 0], points[:, 1], label=f'Cluster {i}')

centers = pca.transform(km.cluster_centers_)
plt.scatter(centers[:, 0], centers[:, 1], s=100, c='black', marker='x', label='Centers')

plt.title('KMeans聚类可视化')
plt.xlabel('PCA Feature 1')
plt.ylabel('PCA Feature 2')
plt.legend()
plt.show()

这段代码绘制了聚类结果的可视化图像,每个聚类用不同颜色表示,聚类中心用黑色叉号标记。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1618127.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【UE5.1 C++】VS2022下载安装

目录 步骤 一、Visual Studio下载安装 二、Visual Studio Integration Tool插件安装 先看一下UE和VS的兼容性 (虚幻5:为虚幻引擎C项目设置Visual Studio开发环境) (虚幻4:设置虚幻引擎的Visual Studio&#xff0…

生产数据采集系统

在数字化浪潮的推动下,生产数据采集系统已经成为企业提升生产效率、优化运营管理的关键工具。那么,什么是生产数据采集系统呢?简单来说,生产数据采集系统是指通过一系列技术手段,实时收集、处理和分析生产线上的各类数…

[负债学习]支线Python4.21

三的东西,一个是环境,一个是基础语法,第3个是代码的案例。 我们先从头开始讲一下计算机,它主要由4个部分组成cpu的中央处理器和一个储存和一个输出和出。而储存的话主要是由内存和外存而cpu,中央处理器全称叫做通用计…

vuex和pinia转态管理工具介绍

文章目录 一、介绍二、使用1、pinia使用2、Vuex使用 一、介绍 相同点: 都是Vue.js的状态管理工具 不同点: 区别PiniaVuex支持Vue2和Vue3都支持Vue3写法需要额外配置Mutation只有 state, getter 和 action,无Mutationaction异步、Mutation …

【学习】服务器解决:重新分配同样端口号后,连不上VScode

原来服务器分配的环境有问题,重新分配了一下。还是同样的端口号,Xshell和xftp能够连接上,但是VScode连接不上。 问题解决: 清除本地 SSH 缓存中与远程主机相关的条目可以通过编辑 known_hosts 文件来实现。这个文件包含了您曾经连接过的远程主…

1分钟带你学会Series显式索引和隐式索引

1.Series的索引 Series是Pandas库中的一种一维数据结构对象,与常规的一维数组相比,其最显著的特点在于拥有显式的索引结构。这种显式索引使得Series在数据处理和分析中更具灵活性和便利性。 显式索引指的是Series中每个元素除了值之外,还关…

sketchup{su}安装错误1402

错误如图 解决方法如下 打开autoremove,点击扩展,输入1402,点击搜索 等待修复成功既可尝试重新安装su 软件每周六选择其他方式登录免费使用

Python 高质量类编写指南

原文:https://www.youtube.com/watch?vlX9UQp2NwTk 代码:https://github.com/ArjanCodes/examples/tree/main/2023/classguide Python 高质量类编写指南 我们将通过一些方法增加类的可读性和易用性。 通过(按照属性或行为)拆分类…

前端实现将二进制文件流,并下载为excel文件

目录 一、关于二进制流二、项目实践三、常见问题及解决 一、关于二进制流 含义:二进制流是一种计算机文件格式,它的数据以二进制形式存储,与文本文件不同。 二进制文件可以包含任意类型的数据,例如:图像、音频、视频…

Linux thermal框架介绍

RK3568温控 cat /sys/class/thermal/thermal_zone0/temp cat /sys/class/thermal/thermal_zone1/temp cat /sys/class/thermal/cooling_device0/cur_state cat /sys/class/thermal/cooling_device1/cur_state cat /sys/class/thermal/cooling_device2/cur_state thermal_zone…

文件File类的学习

File类 File类创建File实例创建文件删除文件创建目录 Reader小结 File类 在java中,通过java.io.File类来对一个文件进行抽象的描述. 下面我们来看看File类的构造方法:签名说明File(File parent, String child)根据父目录孩子文件路径,创建出一个新的File实例File(String pathn…

web--crlf注入,url重定向,web资源处理

crlf漏洞 正常的数据包 更改过 就变成这样了 配合xss 然后那个xss脚本就会被启用 crlffuzz url重定向 后面有url地址 改成baidu.com然后再访问,他就会自动访问baidu 实例 web资源处理 对于一张图片 当我们这样 加载的时候,会 无限解压缩包 这是一个…

vue快速入门(三十四)组件data定义方法

注释很详细&#xff0c;直接上代码 上一篇 新增内容 数据绑定方法照常数据定义方法需要作为函数返回值 源码 MyTest.vue <template><div><h1>我的功德&#xff1a;{{merits}} </h1><button click"meritsnum1">功德加一</button>…

什么是用户体验(UX)文案,为什么它很重要?

网上购物如今比以往任何时候都更加相关。所以我们将以此为例说明什么是用户体验&#xff08;UX&#xff09;文案&#xff0c;以及为什么它很重要。 假设你去了一个在线商店。你需要执行一系列操作&#xff1a; 找到合适的部分选择你感兴趣的产品弄清楚它们是什么&#xff0c;…

(超级详细)JAVA之Stream流分析-------持续更新喔!!!

学习目标&#xff1a; 掌握 Java Stream流的相关api 掌握 Java Stream流的基本实现 掌握 java Stream流的使用场景 代码已经整理上传到了gitee中&#xff0c;有需要的小伙伴可以取查看一下源码点个小心心喔 大家也可以帮我提交一点案例喔&#xff01;&#xff01;&#xff01;&…

java:观察者模式

java&#xff1a;观察者模式 1 前言 观察者模式&#xff0c;又被称为发布-订阅&#xff08;Publish/Subscribe&#xff09;模式&#xff0c;他定义了一种一对多的依赖关系&#xff0c;让多个观察者对象同时监听某一个主题对象。这个主题对象在状态变化时&#xff0c;会通知所…

本地部署Docker容器可视化图形管理工具DockerUI并实现无公网IP远程访问——“cpolar内网穿透”

文章目录 前言1. 安装部署DockerUI2. 安装cpolar内网穿透3. 配置DockerUI公网访问地址4. 公网远程访问DockerUI5. 固定DockerUI公网地址 前言 DockerUI是一个docker容器镜像的可视化图形化管理工具。DockerUI可以用来轻松构建、管理和维护docker环境。它是完全开源且免费的。基…

从0到1带你玩转pandas

学习 pandas 的过程可以分为几个阶段&#xff0c;每个阶段都围绕着不同的核心技能和概念。下面是一个为初学者设计的学习大纲&#xff1a; 一. 基础介绍 学习如何安装和设置 pandas 以及了解它的基本概念是开始使用 pandas 进行数据分析的第一步。下面我将详细介绍这些步骤&am…

overleaf如何使用中文(超简单)

LaTeX默认都是不支持中文的&#xff0c;有时候我们想输入中文。 1、编译器配置为XeLaTeX 菜单-编译器-XeLaTeX 2、代码开头添加宏包 \usepackage[UTF8]{ctex}

STM32 ADC转换器

一、ADC简介 ADC&#xff08;Analog-Digital Converter&#xff0c;模拟-数字转换器&#xff09;&#xff0c;可以将引脚上连续变化的模拟量转换为内存中存储的数字量&#xff0c;建立模拟电路到数字电路的桥梁 模拟量&#xff1a;时间和幅值均连续的信号&#xff0c;例如&…