使用Python和jieba库生成中文词云

news2024/10/6 16:25:51

使用Python和jieba库生成中文词云

在文本分析和数据可视化的领域中,词云是一种展示文本数据中关键词频率的直观方式。Python作为一种强大的编程语言,提供了多种库来帮助我们生成词云,如wordcloudjieba。在本文中,我们将通过一个简单的示例,展示如何使用Python生成中文词云。

环境准备

首先,确保您的Python环境中安装了以下库:

  • jieba:用于中文分词。
  • wordcloud:用于生成词云。
  • matplotlib:用于显示词云图像。

如果尚未安装,可以通过以下命令进行安装:

pip install jieba 
pip install wordcloud 
pip install matplotlib

示例代码

以下是生成中文词云的完整代码示例:

import jieba
import wordcloud
import matplotlib.pyplot as plt

# 读取文本文件
with open('斗破苍穹第一章.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# 使用jieba进行分词
words = jieba.cut(text)
result = ' '.join(words)

# 定义停用词集合
stopwords = set([
    # 停用词列表...
])

# 创建词云对象
wc = wordcloud.WordCloud(
    font_path='C:\\Windows\\Fonts\\simhei.ttf',  # 指定字体路径
    background_color='white',
    max_words=100,  # 最大显示词数
    max_font_size=100,  # 字体最大大小
    random_state=42,  # 使结果可复现
    stopwords=stopwords  # 停用词集合
)

# 生成词云
wc.generate(result)

# 使用matplotlib显示词云
plt.figure(figsize=(8, 6))
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
plt.show()
    stopwords={
        '了', '的', '和', '是', '我', '你', '这', '就', '有', '在', '也', '一', '不', '人', '都', '一个',
        '我们', '他', '她', '得', '地', '很', '到', '说', '要', '去', '上', '说', '知道', '能', '看',
        '自己', '出来', '过', '着', '听', '觉得', '但是', '而且', '因为', '所以', '虽然', '如果', '就是',
        '只有', '可以', '什么', '哪', '哪个', '那些', '什么', '怎么', '怎样', '这么', '那么', '这样', '那样',
        '一点', '一些', '一点', '一些', '一下', '一下', '一会儿', '一点儿', '现在', '然后', '再', '曾经',
        '曾经', '曾经', '曾经', '或者', '或者', '以及', '或者', '跟', '跟', '同', '和', '与', '跟', '同',
        '跟', '与', '跟', '和', '与', '而且', '并且', '或者', '还是', '或者', '或者', '又', '也', '还',
        '再', '另外', '那',
        '然后',
        '接着',
        '之后',
        '起来',
        # ... 其他词 ...
    }

代码解析

  1. 读取文本:首先,我们读取了《斗破苍穹》第一章的文本内容。
  2. 中文分词:使用jieba库对文本进行分词处理。
  3. 定义停用词:创建了一个包含常见中文语气助词和虚词的停用词集合,以提高词云的质量。
  4. 生成词云:通过wordcloud.WordCloud类创建词云对象,并使用分词后的结果生成词云。
  5. 显示词云:使用matplotlib库显示生成的词云图像。

小结

通过上述步骤,我们成功地生成了一个中文词云。这种方法可以应用于任何中文文本分析项目,帮助我们快速识别文本中的关键信息。词云不仅是一种美观的数据可视化手段,也是探索和理解文本数据的有效工具。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1865476.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

谷歌SEO是什么意思?

谷歌SEO(Search Engine Optimization)是通过优化网站内容和结构,使其在谷歌搜索引擎中排名更高的策略和技术。这不仅仅是提高网站排名,更是吸引目标受众、增加流量并最终提升业务转化的关键方法之一。谷歌搜索引擎优化&#xff08…

在win7系统电脑安装node16的版本(已成功安装运行)

很多银行的项目行方都要求内网开发,但是我遇到的几个银行基本都是win7系统的电脑,而前端的项目又是需要高版本的node才能跑起来,所有就记录此解决方案文章! 这是下载node安装包的地址:Index of /dist/ 在这里先下载自…

C# unknow column “p0.TaskTypeId‘ in ‘field list‘

这个问题就是数据库出现问题,去 日志中去看 ,找个具体表去 看实体类,与数据库中的表,是否存在字段。

【Qt】初识QtQt Creator

一.简述Qt 1.什么是Qt Qt 是⼀个 跨平台的 C 图形⽤⼾界⾯应⽤程序框架 。它为应⽤程序开发者提供了建⽴艺术级图形界⾯所需的所有功能。它是完全⾯向对象的,很容易扩展。Qt 为开发者提供了⼀种基于组件的开发模式,开发者可以通过简单的拖拽和组合来实现…

【Java Web】Tomcat服务器

目录 一、Tomcat是什么 二、Tomcat安装 三、Tomcat相关目录 四、Web项目标准目录结构规范 五、Tomcat项目部署方式 六、IDEA关联本地Tomcat 七、HTTP协议 7.1 http的交互方式 7.1.1 http长连接和短连接 7.1.2 http1.1缓存机制 7.2 http数据报文格式 八、常见响应状态码 一、Tom…

大数据平台需要存算分离吗?某保险集团:以 ZBS 优化资源利用率,缩短业务用时超一半

金融机构普遍采用“存算一体”架构支撑基于 Hadoop 框架的大数据平台。而随着金融业务的多元化发展,不同业务对计算和存储的需求差异较大,由于“存算一体”架构共享存储与计算资源,经常会出现资源需求不均衡、资源利用率低下、难以灵活调度等…

贪吃蛇项目:GameRun与GameEnd部分:游戏的主体运行与善后部分

准备工作:打印得分信息 在进行GameStart之前,我们需要在地图的右侧打印帮助信息,以及目前玩家的得分情况和一个食物在当前速度下的得分情况(加速的状态下按比例增加食物的分数,减速的状态下则相反)&#xf…

历史与未来的交响曲:历史建筑保护与现代技术的完美融合

在时间的长河中,历史建筑如同凝固的诗篇,记录着过往的辉煌与沧桑。然而,岁月的侵蚀、自然灾害的威胁以及现代化进程的冲击,使这些宝贵的文化遗产面临前所未有的挑战。作为建筑设计领域的探索者,我们肩负着保护历史记忆…

多空分歧中,盘点全球“新股王”背后的这些在港概念股

冲榜成功。6月18日收盘,英伟达(NVDA.US)股价创新高,报135.58美元,总市值3.34万亿美元,一举超越微软、苹果公司,成为全球“新股王”。 不过,随着这一历史性时刻的出现,由于当前无法准确预估市场…

vue配置中的process.env

项目中的.env开头的文件是否知道是干什么的呢 主要是为了区分测试环境还是生产环境env.development为测试环境 # 测试环境 NODE_ENV development VUE_APP_BASE_API http://xxxxxxxxx // 命名一定要以 VUE_APP_ 开头,要不然根本取不到 .env.production为生产环境…

浏览器扩展V3开发系列之 chrome.runtime 的用法和案例

【作者主页】:小鱼神1024 【擅长领域】:JS逆向、小程序逆向、AST还原、验证码突防、Python开发、浏览器插件开发、React前端开发、NestJS后端开发等等 chrome.runtime API 提供了一系列的方法和事件,可以通过它来管理和维护 Chrome 扩展的生命…

用两个钟,我又在VMWARE上搞了一套内部网配置

最近要学es,所以打算自己用虚拟机搞个NAT,又搞了两个钟。为了不再费劲尝试,也为了造福大众,所以选择搞一份NAT笔记!!!! 1.初始化网关和DNS 我们给网关配置一个地址192.168.96.1&…

计算机图形学入门20:加速光线追踪

1.前言 前文说了Whitted-style光线追踪技术的原理以及光线与平面的交点计算方式,对于现在应用最广的Polygon Mesh显式曲面来说,一个复杂场景中的多边形面总数可能达到千万甚至亿万以上,如果每个像素发射光线都和场景中每个平面进行求交点计算…

植物大战僵尸杂交版v2.1最新直装版,苹果+安卓+PC+防闪退工具+修改工具+高清工具+通关存档整合包更新

今天我要和各位聊聊一款让全网疯狂的游戏——《植物大战僵尸杂交版》。这可不是简单的游戏,它可是让B站的UP主“潜艇伟伟迷”一夜成名的大作,让无数玩家为之疯狂的魔改神作! 记得2009年,《植物大战僵尸》横空出世,那时…

SpringBoot优点达项目实战:登录功能实现(四)

SpringBoot优点达项目实战:登录功能实现(四) 文章目录 SpringBoot优点达项目实战:登录功能实现(四)1、查看接口2、查看数据库3、代码实现1、创建实体类2、controller实现3、service层实现4、Mapper层 4、测…

IPFoxy Tips:匿名海外代理IP的使用方法及注意事项

在互联网上,隐私和安全问题一直备受关注。为了保护个人隐私和数据安全,使用匿名代理IP是一种常用的方法。匿名代理IP可以隐藏用户的真实IP地址,使用户在访问网站时更加隐秘和安全。 本文将介绍匿名代理IP的基本原理和核心功能。 基本原则 匿…

Power BI 占比函数

1,普通层级结构占比 占比1 DIVIDE([sum_qty], CALCULATE([sum_qty],ALLSELECTED(Item[ITEM_CODE]))) //按照line为一个整理展示数据占比2 SWITCH( true(),ISINSCOPE(Item[ITEM_CODE]),DIVIDE([sum_qty], CALCULATE([sum_qty],ALLSELECTED(Item[ITEM_CODE]))), IS…

前端 CSS 经典:mix-blend-mode 属性

前言&#xff1a;这是一个混合属性&#xff0c;作用是将两个颜色混合生成一个新颜色。可以将视频和文字相融合&#xff0c;产生动态文字效果。 效果 实现代码 <!DOCTYPE html> <html lang"en"><head><meta charset"utf-8" />&l…

数据资产风险管理与合规性:全面识别、科学评估并有效应对数据风险,确保企业数据资产的安全性与合规性,为企业稳健发展提供坚实保障

一、引言 在数字化时代&#xff0c;数据资产已成为企业运营和决策的核心要素。然而&#xff0c;随着数据量的快速增长和技术的不断演进&#xff0c;数据资产面临的风险也日益增多&#xff0c;如数据泄露、数据篡改、数据滥用等。同时&#xff0c;数据保护法律法规的不断完善&a…

文华财经盘立方均线-支撑压力自动画线多空声音预警指标公式源码

文华财经盘立方多空均线-支撑压力自动画线指标公式源码&#xff1a; //MA5:MA(C,5); //MA10:MA(C,10); MA20:MA(C,20),COLORRED; MA60:MA(C,60),COLORGREEN; TY:CLOSE; HD:FILTER(BACKSET(FILTER(REF(TY,10)HHV(TY,2*101),10),101),10); LD:FILTER(BACKSET(FILTER(REF(T…