文本可视化之词云图的使用

news2024/9/21 1:47:33
环境安装:
pip install  wordcloud -i  https://pypi.tuna.tsinghua.edu.cn/simple/ 
conda install  wordcloud
# -i 后面加镜像源网站

WordCloud(background_color,repeat,max_words=600,height=480, width=584, max_font_size,font_path colormap,mask,mode,collocations, prefer_horizontal)

相关参数:

  • background_color=‘white’, # 词云图的背景颜色,默认为 "black"
  • repeat=False, # 是否重复
  • max_words=600, # 词云图中显示的最大词语数量,默认为 200
  • height=480, width=584, # 图片尺寸
  • max_font_size=200, # 词云图中显示的最大字体大小,默认为 None
  • font_path=“C:/Windows/Fonts/FZSTK.TTF”, # 指定字体文件的路径,用于显示中文字符
  • colormap=“Reds”, # 指定词云图的颜色方案,默认为 "viridis"、“Reds”“Blues”“Greens”
  • mask=mask, # 词云图的形状,可以使用一个图片作为模板,一般结合imread(),将图片中不是白色的地方作为轮廓。
  • mode=“RGBA”, # 词云图的模式,可以设置为 "RGB""RGBA"
  • collocations=False# 否考虑词语搭配,默认为 True
  • prefer_horizontal=1# 控制词语水平摆放的频率,默认为 0.9

官方文档:https://github.com/amueller/word_cloud

英文词云图:
import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 这里是模拟读取文件 
text="""Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 创建词云对象
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)

# 绘制词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
plt.show()

在这里插入图片描述

注意:英文分隔符是默认空格,所有我们不用对英文进行拆分处理。但是如果是中文,就需要使用jieba分词,需要拆分文字。

其实上面这个例子不是特别全面,应该进行停用词处理,这里给大家讲一下官方给出的例子:

from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import os

from wordcloud import WordCloud, STOPWORDS
# 获取当前脚本文件的目录路径,或者如果在IPython笔记本中运行,则获取当前工作目录。
d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()

# 读取文件
text = open(path.join(d, 'alice.txt')).read()
# 读取模板图像(就是你可以自定义词云图的样子)
alice_mask = np.array(Image.open(path.join(d, "alice_mask.png")))
# 创建了一个停用词的集合,并添加了一个自定义的停用词"said"
stopwords = set(STOPWORDS)
stopwords.add("said")
# 创建词云图对象
wc = WordCloud(background_color="white", max_words=2000, mask=alice_mask,
               stopwords=stopwords, contour_width=3, contour_color='steelblue')

wc.generate(text)
# 存储
wc.to_file(path.join(d, "alice.png"))
# show
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.figure()
plt.show()

在这里插入图片描述

注意模板图像一般是黑色的,相当于只填充黑色的地方,我们看一下结果:

在这里插入图片描述

十分优美!

中文词云图:
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
from PIL import Image
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来显示中文,不然会乱码
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
text = """"
人生苦短,我用Python。Python是一门简单易学的编程语言,
广泛应用于数据分析、人工智能和Web开发领域。Python拥有丰富的第三方库和生态系统,
为开发者提供了很多便利。学习Python,让你的编程之路更加愉快。
"""

# 使用jieba进行中文分词
seg_list = jieba.cut(text, cut_all=False)
seg_text = ' '.join(seg_list)
print(seg_text)

# 创建词云对象   
wordcloud = WordCloud(font_path=r'msyh.ttc',width=800, height=400, background_color='white').generate(seg_text)
# wordcloud = WordCloud(font_path=r'C:/Windows/Fonts/FZSTK.TTF',width=800, height=400, background_color='white').generate(seg_text)
# 绘制词云图 
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
# 保存词云图为图片文件
wordcloud.to_file("wordcloud.png")
plt.show()

在这里插入图片描述

读取本地文件:
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from imageio import imread
text = """Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 读取图像并转换为数组

mask=np.array(Image.open("./img.png"))

# 创建词云对象,并设置 mask 参数
wordcloud = WordCloud(mask=mask,width=800, height=400, background_color='white')

# 生成词云图
wordcloud.generate(text)

# 显示词云图
plt.axis("off")
plt.imshow(wordcloud, interpolation="bilinear")
plt.show()

在这里插入图片描述

自定义词云形状:
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from imageio import imread
text = """Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 读取图像并转换为数组

x, y = np.ogrid[:300, :300]

mask = (x - 150) ** 2 + (y - 150) ** 2 > 130 ** 2
mask = 255 * mask.astype(int)

# 创建词云对象,并设置 mask 参数
wordcloud = WordCloud(mask=mask,width=800, height=400, background_color='white')

# 生成词云图
wordcloud.generate(text)

# 显示词云图
plt.axis("off")
plt.imshow(wordcloud, interpolation="bilinear")
plt.show()

在这里插入图片描述

总结:

​ 通过本文的介绍,我们深入了解了词云图的使用和相关参数,并学会了生成中文词云图、英文词云图以及自定义词云图的样式。词云图作为一种强大的数据可视化工具,可以帮助我们直观地了解文本数据的关键词和主题。无论是从事数据分析、文本挖掘还是对话题进行可视化呈现,词云图都能提供有价值的信息。

​ 在创建词云图时,我们可以根据需求调整不同的参数,如背景颜色、词数限制和停用词等,以达到最佳效果。此外,我们还可以通过选择合适的字体、设置自定义形状和调整颜色、轮廓等来创建独特的词云图。

​ 希望本文对你理解词云图的基本原理和应用提供了帮助,并激发了你在数据可视化方面的创造力。无论是在学术研究、商业分析还是个人项目中,词云图都是一种强大而灵活的工具,能够使你的数据更具有吸引力和可解释性。

​ 开始探索词云图的奇妙世界吧!让我们用词云图来揭示文本背后的故事,展示文字的魅力,带领读者进入一个充满词语和想象力的视觉盛宴。无论是文字的力量还是数据的美感,词云图都能为我们带来全新的体验。让我们一起用词云图来发现和分享这个世界上的无限可能性!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1366104.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【React系列】React生命周期、setState深入理解、 shouldComponentUpdate和PureComponent性能优化、脚手架

本文来自#React系列教程:https://mp.weixin.qq.com/mp/appmsgalbum?__bizMzg5MDAzNzkwNA&actiongetalbum&album_id1566025152667107329) 一. 生命周期 1.1. 认识生命周期 很多的事物都有从创建到销毁的整个过程,这个过程称之为是生命周期&…

建筑模板每平方价格怎么算?

在建筑行业中,建筑模板是一种常用的辅助材料,主要用于浇筑混凝土时形成所需的结构形状。了解建筑模板的定价方式对于预算控制和成本估算至关重要。本文将详细介绍建筑模板每平方米价格的计算方法。 1. 建筑模板的类型和特点建筑模板的种类繁多&#xff0…

大模型笔记【2】 LLM in Flash

Apple最近发表了一篇文章,可以在iphone, MAC 上运行大模型:【LLM in a flash: Efficient Large Language Model Inference with Limited Memory】。 主要解决的问题是在DRAM中无法存放完整的模型和计算,但是Flash Memory可以存放完整的模型。…

DRF-源码解析-1.2-CBV流程(视图函数执行流程)

在DRF中,所有drf的操作都是在路由匹配完成后,即视图函数执行前和执行后做文章的。 一、代码准备 演示的视图: class TestAPIView(APIView):def get(self,request)return Respponse({code:200,msg:测试通过}) 演示的路由: path…

Samtec卓越应用 | SEARAY:最大限度提高设计灵活性和密度

【摘要/前言】 SEARAY™是Samtec 的高速、高密度栅格阵列连接器系列。SEARAY™为设计人员提供了大量的设计灵活性,远远超过业内任何其他阵列产品。 【灵活性】 SEARAY™ 是一种 1.27 毫米 X 1.27 毫米的栅格。它是一种开放式引脚字段栅格阵列,即引脚不…

Jmeter扩展函数?年薪50W+的测试大佬教你怎么玩

很多同学,都问我:“老师,我的 jmeter 里面,怎么没有 MD5 函数,base64 函数也没有,我是不是用了假的 jmeter?” 哈哈哈,不是的。jmeter 的函数,有自带函数和扩展函数两大…

Apollo 9.0搭建问题记录

虚拟机安装 可以看这个:https://blog.csdn.net/qq_45138078/article/details/129815408 写的很详细 内存 为了学习 Apollo ,所以只是使用了虚拟机,内存得大一点(128G),第一次,就是因为分配内…

Python办公自动化 – 对数据进行正则表达式匹配

Python办公自动化 – 对数据进行正则表达式匹配 以下是往期的文章目录,需要可以查看哦。 Python办公自动化 – Excel和Word的操作运用 Python办公自动化 – Python发送电子邮件和Outlook的集成 Python办公自动化 – 对PDF文档和PPT文档的处理 Python办公自动化 – …

2023年度总结:技术沉淀、持续学习

2023年度总结:技术沉淀、持续学习 一、引言 今年是我毕业的第二个年头,也是完整的一年,到了做年终总结的时候了 这一年谈了女朋友,学习了不少技术,是充实且美好的一年! 首先先看年初定的小目标&#xf…

安达发|基于APS排程系统的PDM功能

APS系统(Advanced Planning and Scheduling,先进计划与排程)是一种基于APS系统(Advanced Planning and Scheduling,先进计划与排程)是一种基于供应链管理和生产管理的综合性软件系统。它通过整合企业内外部…

C# Winform 在低DPI创建窗体后,在高DPI运行时,窗体会自动拉伸,导致窗体显示不全

C# Winform 在低DPI创建窗体后,在高DPI运行时,窗体会自动拉伸,导致窗体显示不全, 比如在分辨率为100% 的电脑创建C#项目,当运动到分辨率为125%的电脑运行时,后者运行的窗体会自动拉伸,窗体显示…

C++ OpenGL 3D Game Tutorial 2: Making OpenGL 3D Engine学习笔记

视频地址https://www.youtube.com/watch?vPH5kH8h82L8&listPLv8DnRaQOs5-MR-zbP1QUdq5FL0FWqVzg&index3 一、main类 接上一篇内容&#xff0c;main.cpp的内容增加了一些代码&#xff0c;显得严谨一些&#xff1a; #include<OGL3D/Game/OGame.h> #include<i…

5分钟使用Hologres实时湖仓加速分析挑战赛来袭

活动简介 5分钟快速使用Hologres实时湖仓能力&#xff0c;加速分析数据湖OSS上Hudi、Delta、Paimon、ORC等格式数据&#xff0c;赢取精美礼品 活动入口&#xff1a;Hologres实时湖仓分析挑战赛-阿里云开发者社区 或点击文末【阅读全文】参与挑战 活动时间 2024年1月4日-202…

第7章-第4节-Java中的Set集合和自然排序compareble

1、HashSet&#xff1a; 1&#xff09;、 Set集合的特点 元素存储可以有序&#xff0c;可以无序&#xff08;要看选择的具体子类 HashSet 无序 LinkedHashSet&#xff08;有序&#xff09;,TreeSet&#xff08;排序&#xff09;&#xff09; 没有索引&#xff0c;不能通过索引…

109.第一个qt项目

今天正式开始qt的学习。在安装完qt开发环境之后&#xff0c;下面我们来使用QtCreator创建项目。 1.创建项目 创建基于窗口的qt应用程序。选择编译套件, 编译套件用于项目文件的编译, 如果安装了多个编译套件, 在这里选择其中一个就可以了。选择版本控制工具。 2.项目文件&…

狂拿offer,这12道性能测试面试题你会多少?不要再被挖坑了

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、性能测试包含了…

使用Scrapy框架和代理IP进行大规模数据爬取

目录 一、前言 二、Scrapy框架简介 三、代理IP介绍 四、使用Scrapy框架进行数据爬取 1. 创建Scrapy项目 2. 创建爬虫 3. 编写爬虫代码 4. 运行爬虫 五、使用代理IP进行数据爬取 1. 安装依赖库 2. 配置代理IP和User-Agent 3. 修改爬虫代码 4. 运行爬虫 六、总结 一…

Verilog学习记录

目录 一、Verilog简介 &#xff08;一&#xff09;Verilog 的主要特性 &#xff08;二&#xff09;Verilog的主要应用 &#xff08;三&#xff09;Verilog设计方法 二、Verilog基础语法 &#xff08;一&#xff09;标识符和关键字 &#xff08;二&#xff09;Verilog数据…

多模态推荐系统综述:一、特征交互 Bridge

一、特征交互 挑战1.如何融合不同语义空间中的模态特征并获得每种模态的偏好。GNN注意力 挑战2.如何在数据稀疏的情况下获得推荐模型的全面表示。对比学习解缠学习 挑战3. 如何优化轻量级推荐模型和参数化模态编码器。 1. Bridge 侧重于考虑多模态信息来捕获用户和项目之间的…

Camtasia2024中文绿色版本下载安装详细步骤教程

Camtasia2024是一款功能强大的屏幕录制和视频编辑软件。它可以帮助用户轻松地记录电脑屏幕上的任何操作&#xff0c;并可以将录制的视频进行编辑和制作成高质量的视频教程、演示文稿、培训课程等。 Camtasia具有直观的界面和易于使用的工具&#xff0c;包括添加文本、音频、动…