【小白必看】Python词云生成器详细解析及代码实现

news2024/11/15 6:44:36

文章目录

  • 前言
  • 导入所需库
  • 将存好的Excel词频表读取成字典
  • 循环处理每个词频Excel文件
  • 定义词云样式和生成词云图
  • 完整代码
    • 运行效果截图
    • 知识点
  • 结束语

在这里插入图片描述

前言

本文介绍了如何使用Python编写代码来生成词云图。在生成词云图之前,我们需要导入一些必需的库,包括numpy、wordcloud、PIL、matplotlib.pyplot和openpyxl。其中,numpy用于数据处理,wordcloud用于生成词云,PIL用于图像处理,matplotlib.pyplot用于在笔记本中显示图片,openpyxl用于读取词频Excel文件。此外,还需要准备一个背景图片作为词云的背景。

我们通过读取存放词频Excel文件的文件夹路径,获取文件夹下的所有文件,并将文件名与路径拼接起来,存放在一个列表中。然后,我们使用PIL库中的Image.open()函数读取背景图片,并将其转换为numpy.array格式。

使用循环依次处理每个词频Excel文件。首先,使用load_workbook()函数加载词频Excel文件,并通过wb.active获取活动工作表。然后,初始化一个空的字典wordFreq,用于存储每个单词及其对应的频率。通过遍历活动工作表中的行,获取单词和频率,并将它们存储到wordFreq字典中。

定义了词云的样式,并根据wordFreq字典生成词云图。生成的词云图将保存在指定文件夹下,并在notebook中显示出来。

导入所需库

在这里插入图片描述

import numpy as np  # numpy数据处理库
import wordcloud  # 词云库
from PIL import Image  # 图像处理库,用于读取背景图片
import matplotlib.pyplot as plt  # 图像展示库,以便在notebook中显示图片
from openpyxl import load_workbook  # 读取词频Excel文件
import os  # 获取词频Excel文件路径
  • numpy:用于处理数据的库。
  • wordcloud:用于生成词云的库。
  • PIL:用于图像处理的库,这里主要用于读取背景图片。
  • matplotlib.pyplot:用于在notebook中显示图片。
  • openpyxl:用于读取词频Excel文件的库。
  • os:用于获取词频Excel文件的路径。

将存好的Excel词频表读取成字典

在这里插入图片描述

path = '词频'  # 文件所在文件夹
files = [path + "/" + i for i in os.listdir(path)]  # 获取文件夹下的文件名,并拼接完整路径
maskImage = np.array(Image.open('background.png'))  # 定义词频背景图
  • path:存放Excel词频表的文件夹的路径。
  • files:使用列表解析式获取文件夹下的所有文件名,并将文件名与路径拼接起来,存放在files列表中。
  • maskImage:使用PIL库中的Image.open()函数读取一张背景图片,并将其转换为numpy.array格式。

循环处理每个词频Excel文件

在这里插入图片描述

for file in files:
    wb = load_workbook(file)  # 加载词频Excel文件
    ws = wb.active  # 获取活动工作表
    wordFreq = {}  # 存储单词和对应的频率的字典
    for i in range(2, ws.max_row + 1):
        word = ws["A" + str(i)].value  # 获取单词
        freq = ws["B" + str(i)].value  # 获取频率
        wordFreq[word] = freq  # 将单词和频率存储到字典中
  • 遍历files列表中的每个文件名,用load_workbook()函数加载词频Excel文件。
  • 使用wb.active获取活动工作表。
  • 初始化一个空的字典wordFreq,用于存储每个单词及其对应的频率。
  • 遍历活动工作表中的行(从第2行到最后一行),通过ws["A" + str(i)].valuews["B" + str(i)].value分别获取单词和频率,并将它们存储到wordFreq字典中。

定义词云样式和生成词云图

在这里插入图片描述

wc = wordcloud.WordCloud(
    font_path='../PingFangBold.ttf',  # 设置字体
    mask=maskImage,  # 设置背景图
    max_words=500,  # 最多显示词数
    max_font_size=100  # 字号最大值
)

wc.generate_from_frequencies(wordFreq)  # 根据字典生成词云图
wc.to_file("词云图/{}.png".format(file.split("/")[1][:4]))  # 将词云图保存到指定文件夹
plt.imshow(wc)  # 显示词云图
plt.axis('off')  # 关闭坐标轴
plt.show()  # 显示图像
  • 创建一个词云对象wc,通过传入参数设置词云的样式,包括字体、背景图、最多显示词数和字号最大值等。
  • 使用generate_from_frequencies()方法根据字典wordFreq生成词云图。
  • 使用to_file()方法将词云图保存到指定文件夹下,文件名以原始文件名的前四个字符命名。
  • 使用plt.imshow()显示词云图。
  • 使用plt.axis('off')关闭坐标轴。
  • 使用plt.show()显示图像。

完整代码

import numpy as np # numpy数据处理库
import wordcloud # 词云库
from PIL import Image # 图像处理库,用于读取背景图片
import matplotlib.pyplot as plt # 图像展示库,以便在notebook中显示图片
from openpyxl import load_workbook #读取词频Excel文件
import os #获取词频Excel文件路径

#将存好的Excel词频表读取成字典
path='词频'  #文件所在文件夹
files = [path+"/"+i for i in os.listdir(path)] #获取文件夹下的文件名,并拼接完整路径
maskImage = np.array(Image.open('background.png')) # 定义词频背景图

for file in files:
    #将词频Excel文件读取为字典
    wb = load_workbook(file)
    ws = wb.active
    wordFreq = {}
    for i in range(2,ws.max_row+1):
        word = ws["A"+str(i)].value
        freq = ws["B"+str(i)].value
        wordFreq[word] = freq

    #定义词云样式
    wc = wordcloud.WordCloud(
        font_path='../PingFangBold.ttf', # 设置字体
        mask= maskImage, # 设置背景图
        max_words=500, # 最多显示词数
        max_font_size=100) # 字号最大值

    #生成词云图
    wc.generate_from_frequencies(wordFreq) # 从字典生成词云
    #保存图片到指定文件夹
    wc.to_file("词云图/{}.png".format(file.split("/")[1][:4]))
    #在notebook中显示词云图
    plt.imshow(wc) # 显示词云
    plt.axis('off') # 关闭坐标轴
    plt.show() # 显示图像

运行效果截图

在这里插入图片描述

知识点

font_path:字体路径。字体存在的目录,在想要的字体上点右键,选择“属性”可查看其名称,然后连同路径复制,赋给font_path即可。比如本例使用的黑体。需要注意的是,若是中文词云,需要选中文字体。

width,height:画布的宽度和高度,单位为像素。若没设置mask值,才会使用此默认值400*200。
margin:词间距。
ranks_only:文档未说明。
prefer_horizontal:词语横排显示的概率(默认为90%,则竖排显示概率为10%)
mask:用于设定绘制模板,需要是一个nd-array(多维数组),所以在用Image.open()读取图片后,需要用np.array转换成数组。另外mask参数有设定的话,画布的大小会由词频背景图的大小决定。这个经常使用,因为我们更倾向于自定义模板。
scale:比例尺,用于放大画布的尺寸。一般使用默认值。
color_func:颜色函数,一般不用。
max_words:词云图中最多显示词的字数,设定一个值,可让那些出现次数极少的词不显示出来。
min_font_size:字号最小值。
stopwords:设置不想显示的词。
random_state:文档未说明。
background_color:词云图背景色,默认为黑色。可根据需要调整。
max_font_size:字号最大值。
font_step:字体的步长,一般使用默认。大于1的时候可提升运算速度,但匹配较差。
mode:当设置为"RGBA" 且background_color设置为"None"时可产生透明背景。
relative_scaling:词频对字体大小的影响度,一般使用默认。
regexp:正则表达式分割输入的字符。一般是先处理好才给到wordcloud,所以基本不用。
collocations:是否包含两个词的搭配,若使用了generate_from_frequencies方法则忽略此参数。一般不用。
colormap:每个词对应的颜色,若设置了color_func则忽略此参数。
normalize_plurals:是否移除英文复数单词末尾的s,比如可将wordwords视同为一个词,并将词频算到word头上。如果使用了generate_from_frequencies方法则忽略此参数。
contour_width:如果mask有设置,且contour_width>0,将会绘制mask轮廓。
contour_colormask轮廓的颜色,默认为黑色。
repeat:当词不足以满足设定的max_words时,是否重复词或短语以使词云图上的词数量达到max_words
include_numbers:是否将数字作为词。
min_word_length:设置一个词包含的最少字母数量。
collocation_threshold:界定英文中的bigrams,对于中文不适用。

结束语

本文介绍了如何使用Python编写代码来生成词云图。首先导入所需的库,然后通过循环处理每个词频Excel文件,将它们读取成字典。接下来定义词云的样式并生成词云图。最后将生成的词云图保存到指定文件夹,并在notebook中显示出来。通过本文的学习,我们可以轻松地使用Python生成词云图,从而更好地分析文本数据中的词频信息。

资源
代码中所涉及的资源 可以在文章顶部下载 , 已上传

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/802326.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中断控制器的驱动解析

这里主要分析 linux kernel 中 GIC v3 中断控制器的代码(drivers/irqchip/irq-gic-v3.c)。 设备树 先来看下一个中断控制器的设备树信息&#xff1a; gic: interrupt-controller51a00000 {compatible "arm,gic-v3";reg <0x0 0x51a00000 0 0x10000>, /* GI…

Python(四十四)嵌套循环

❤️ 专栏简介&#xff1a;本专栏记录了我个人从零开始学习Python编程的过程。在这个专栏中&#xff0c;我将分享我在学习Python的过程中的学习笔记、学习路线以及各个知识点。 ☀️ 专栏适用人群 &#xff1a;本专栏适用于希望学习Python编程的初学者和有一定编程基础的人。无…

【C++详解】——智能指针

目录 为什么需要智能指针 抛异常引发内存泄漏 内存泄漏 什么是内存泄漏&#xff0c;内存泄漏的危害 内存泄漏分类 检测内存泄漏常用工具 如何避免内存泄漏 智能指针的使用及原理 RAII 智能指针的原理 各类智能指针介绍 auto_ptr unique_ptr shared_ptr weak_ptr …

vue3-Cannot use ‘in‘ operator to search for ‘path‘ in undefined

在创建vue3的路由时&#xff0c;报了这样的错&#xff1a;Cannot use ‘in’ operator to search for ‘path’ in undefined&#xff0c;经过多次排查发现是我在路由文件里面用错了createWebHashHistory()方法&#xff0c;将它用成了 变量。 一、报错情况 二、报错原因及解…

Kepware Modbus驱动简介

1. Modbus驱动能够解决什么问题&#xff1f; 它是Modbus设备驱动的集合&#xff0c;为用户提供一种方便快捷的Modbus设备数采解决方案。 只需要通过简单的配置就可以将常见的例如Modbus TCP/IP Ethernet、RTU Serial 和 ASCII Serial等协议设备无缝连接到 HMI/SCADA、MES/His…

react-router-dom和react-router的区别

react-router-dom和react-router的区别 前言 在使用react-router-dom的时候&#xff0c;经常会和react-router搞混了&#xff0c;搞不清楚它们哪个跟哪&#xff0c;到底有什么关系&#xff0c;今天来总结一下。 结论 react-router-dom是在react-router的基础上开发的&#…

Mybatis-Plus学习笔记,包含mybatis-plus基本使用,各种插件使用等等

&#x1f600;&#x1f600;&#x1f600;创作不易&#xff0c;各位看官点赞收藏. 文章目录 Mybatis-Plus笔记1、简介2、Mybatis-Plus Demo 程序3、Mybatis-Plus 常见注解4、Mybatis-Plus 条件构造器 Wrapper5、Mybatis-Plus 插件5.1、乐观锁插件5.2、分页插件5.3、逻辑删除插件…

Vue + Element-ui组件上传图片报错问题解决方案

在前端开发中&#xff0c;我们经常需要模拟网络请求以进行单元测试或开发调试。而在模拟网络请求时&#xff0c;我们常常会使用到MockXMLHttpRequest对象。MockXMLHttpRequest对象是一个用于模拟XMLHttpRequest对象的工具&#xff0c;它提供了一种简单的方式来模拟网络请求&…

【uniapp】实现买定离手小游戏

前言 最近玩了一个小游戏&#xff0c;感觉挺有意思&#xff0c;打算放进我的小程序【自动化小助手】里面&#xff0c;“三张押一张&#xff0c;专押花姑娘&#xff01;”&#xff0c;从三张卡牌&#xff0c;挑选一张&#xff0c;中奖后将奖励进行发放&#xff0c;并且创建下一…

【Linux线程】第一章||理解线程概念+创建一个线程(附代码加讲解)

线程概念 &#x1f335;什么是线程&#x1f332;线程和进程的关系&#x1f384;线程有以下特点&#xff1a;&#x1f333; 线程的优点&#x1f334; 线程的缺点&#x1f331;线程异常&#x1f33f;线程用途 ☘️手动创建一个进程&#x1f340;运行 &#x1f335;什么是线程 在L…

【需求响应DR】一种新的需求响应机制DR-VCG研究(Python代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

【技术架构】技术架构的演进

文章目录 前言1.名词解释(常见概念)1.1 应用&#xff08;Application&#xff09; / 系统&#xff08;System&#xff09;1.2 模块&#xff08;Module&#xff09; / 组件&#xff08;Component&#xff09;1.3 分布式&#xff08;Distributed&#xff09;1.4 集群&#xff08;…

AOP概念 和 使用

目录 AOP的概念 什么是AOP? 什么是SpringAOP? 为什要⽤ AOP? AOP的作用&#xff1f; AOP的组成 通知 AOP的实现 1. 添加 Spring AOP 框架⽀持。 2. 定义切面和切点。 3. 定义通知。 切点表达式 AOP的概念 什么是AOP? AOP&#xff08;Aspect Oriented Programm…

工程师分享:如何解决传导干扰?

电磁干扰 EMI 中电子设备产生的干扰信号是通过导线或公共电源线进行传输&#xff0c;互相产生干扰称为传导干扰。传导干扰给不少电子工程师带来困惑&#xff0c;如何解决传导干扰&#xff1f; 找对方法&#xff0c;你会发现&#xff0c;传导干扰其实很容易解决&#xff0c;只要…

献给大一新生的JavaSE入门篇章 大三秋招JavaSE

Java反射 反射实现有哪些? Class.forName(“com.jdbc.cj.Driver.mysql”) 类名.class 对象名.getClass() 反射优缺点有哪些? 优点: 能够动态的获取类的实例&#xff0c;提高灵活性 缺点: 会降低性能&#xff0c;解决办法: 1. 如果多次创建某个对象的实例&#xff0c;使用…

Pixelmator Pro 3.3.10 Mosaic (macOS Universal) - 专业图像编辑工具

Pixelmator Pro 3.3.10 Mosaic (macOS Universal) - 专业图像编辑工具 请访问原文链接&#xff1a;https://sysin.org/blog/pixelmator-pro-3/&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者主页&#xff1a;sysin.org Pixelmator Pro 真正基于 Apple M…

机器学习算法实现(基于numpy)

《机器学习公式推导与代码实现》学习笔记&#xff0c;记录一下自己的学习过程&#xff0c;详细的内容请大家购买作者的书籍查阅。 这篇博客是将笔者边学边刷《机器学习公式推导与代码实现》的模型跟代码记录下来&#xff0c;部分地方结合自己的思考对原作者的代码有一定的改动…

【自定义图库】

sld文件 前段时间,有网友委托我帮他做一个家具的图库。 首先,做图库的方法有很多,最简单的是MFC拖控件然后自己把做好的bmp图贴进去就可以了,麻烦一点的是sld文件,最麻烦 是用blockview做。 下面先说说3种办法的区别: 首先,如果用MFC拖控件的办法,最简单也最方便,用st…

安全帽检测+反光衣检测+工作服检测数据集

安全帽检测反光衣检测工作服检测数据集下载地址分享:https://download.csdn.net/download/qq_34717531/88112870

AF 350 tyramide,AlexaFluor350 TSA,AF350酪胺,荧光标记试剂

文章资料汇总来源于&#xff1a;陕西新研博美生物科技有限公司小编MISSwu​ PART1----产品描述 AF350 tyramide&#xff08;AlexaFluor350酪酰胺&#xff09;&#xff0c;用于荧光标记的试剂&#xff0c;Tyramide信号放大&#xff08;TSA&#xff09;已被证明是一种特别通用且…