Python 制作词云图

news2024/10/5 15:06:56

在这里插入图片描述
💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。
在这里插入图片描述

  • 推荐:「stormsha的主页」👈,持续学习,不断总结,共同进步,为了踏实,做好当下事儿~

  • 专栏导航

    • Python系列: Python面试题合集,剑指大厂
    • Git系列: Git操作技巧
    • GO系列: 记录博主学习GO语言的笔记,该笔记专栏尽量写的试用所有入门GO语言的初学者
    • 数据库系列: 详细总结了常用数据库 mysql 技术点,以及工作中遇到的 mysql 问题等
    • 运维系列: 总结好用的命令,高效开发
    • 算法与数据结构系列: 总结数据结构和算法,不同类型针对性训练,提升编程思维

    非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。💝💝💝 ✨✨ 欢迎订阅本专栏 ✨✨

    💖The Start💖点点关注,收藏不迷路💖

    📒文章目录

      • 词云图简介
      • 环境准备
      • 词云图的基本制作流程
        • 1. 文本数据准备
        • 2. 文本清洗
        • 3. 生成词云图
        • 4. 显示和保存词云图
        • 5. 完整代码
        • 6. 效果图
      • 技巧与最佳实践
        • 1. 词云图形状
        • 2. 词云图颜色
        • 3. 词云图字体
        • 4. 词云图布局
        • 5. 词云图的交互性


在数据可视化领域,词云图以其独特的视觉冲击力和信息传达能力,成为开发者和数据分析师展示文本数据的重要工具。本文将深入探讨如何使用 Python 制作词云图,并分享一些实用的技巧和最佳实践。

词云图简介

词云图是一种将文本数据中的关键词以不同大小、颜色和字体显示在图形中的可视化技术。关键词的字体大小通常与其在文本中出现的频率成正比,从而突出显示文本中的重要信息。

环境准备

在开始制作词云图之前,我们需要准备 Python 环境,并安装一些必要的库。主要使用的库包括 matplotlib 用于绘图,PIL 用于图像处理,以及 wordcloud 用于生成词云图。

pip install wordcloud

词云图的基本制作流程

1. 文本数据准备

首先,我们需要准备或获取文本数据。这些数据可以是网页内容、文章、评论等。例如,我们可以使用 Python 的 requests 库来获取网页内容。

import requests

url = 'https://stormsha.blog.csdn.net/article/details/138405944/'
response = requests.get(url)
html_content = response.text

2. 文本清洗

获取文本后,需要进行清洗,去除无用的符号、停用词等,以提高词云图的质量。

import re
from wordcloud import STOPWORDS

# 使用BeautifulSoup解析网页内容  
soup = BeautifulSoup(html_content, 'html.parser')  
  
# 使用get_text()方法去除HTML标签,并将结果转换为字符串  
text = soup.get_text()  

text = re.sub(r'\W+', ' ', text)
stopwords = set(STOPWORDS)
text = ' '.join([word for word in text.split() if word not in stopwords])

3. 生成词云图

使用 wordcloud 库生成词云图。我们可以自定义词云图的形状、颜色、字体等属性。

from wordcloud import WordCloud

wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)

4. 显示和保存词云图

最后,使用 matplotlib 库显示和保存词云图。

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()
wordcloud.to_file('word_cloud.png')

5. 完整代码

import matplotlib  
import requests  
import re  
from wordcloud import STOPWORDS, WordCloud  
import matplotlib.pyplot as plt  
from bs4 import BeautifulSoup  
  
matplotlib.use('TkAgg')  
url = 'https://stormsha.blog.csdn.net/article/details/138405944/'  
response = requests.get(url)  
html_content = response.text  
  
# 使用BeautifulSoup解析网页内容  
soup = BeautifulSoup(html_content, 'html.parser')  
  
# 使用get_text()方法去除HTML标签,并将结果转换为字符串  
text = soup.get_text()  
  
text = re.sub(r'\W+', ' ', text)  
stopwords = set(STOPWORDS)  
text = ' '.join([word for word in text.split() if word not in stopwords])  
word_cloud = WordCloud(width=800, height=400, background_color='white').generate(text)  
plt.figure(figsize=(10, 5))  
plt.imshow(word_cloud, interpolation='bilinear')  
plt.axis('off')  
plt.show()  
word_cloud.to_file('word_cloud.png')

6. 效果图

![[Figure_1.png]]

技巧与最佳实践

1. 词云图形状

默认的词云图是矩形的,但我们可以自定义词云图的形状,如使用公司 logo 或特定图形作为词云的轮廓。

from PIL import Image
image_coloring = np.array(Image.open('shape.png'))
wordcloud = WordCloud(mask=image_coloring).generate(text)

2. 词云图颜色

颜色对于词云图的视觉效果至关重要。我们可以根据文本内容或个人喜好调整颜色。

wordcloud = WordCloud(colormap='viridis').generate(text)

3. 词云图字体

选择合适的字体可以增强词云图的可读性和美观性。我们可以使用本地字体或在线字体。

wordcloud = WordCloud(font_path='path_to_font.ttf').generate(text)

4. 词云图布局

通过调整词云图的 max_font_sizemax_words 参数,我们可以控制词云图的布局和密度。

wordcloud = WordCloud(max_font_size=110, max_words=200).generate(text)

5. 词云图的交互性

为了使词云图更加生动有趣,我们可以添加交互性,如鼠标悬停显示单词频率。

from wordcloud import get_single_color_func

def color_func(word, font_size, position, orientation, random_state=None, **kwargs):
    return "hsl(0, 100%, %d%%)" % (100 - (font_size / max_font_size) * 100)

wordcloud = WordCloud(color_func=color_func).generate(text)

🔥🔥🔥道阻且长,行则将至,让我们一起加油吧!🌙🌙🌙

💖The End💖点点关注,收藏不迷路💖

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1813697.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LabVIEW处理大量数据时,怎样确保数据的准确性和完整性?

在LabVIEW处理中,确保大量数据的准确性和完整性至关重要。以下是详细的多角度分析和建议,以确保在LabVIEW中处理大量数据时,数据的准确性和完整性: 1. 数据采集阶段 1.1 高精度硬件选择 选择高精度的数据采集硬件,如…

C++设计模式---装饰器模式

1、介绍 装饰器(Decorator)模式是一种结构型设计模式,它允许你动态地给一个对象添加额外的职责。 装饰器模式主要用于扩展对象的功能,而又不改变其原有结构。在C中,装饰器模式主要应用于那些需要为对象动态添加功能或改…

STM32定时器输出pwm的几种模式

目录 定时器 输出脉冲模式: PWM模式(PWM Mode) 输出比较模式(Output Compare Mode) 总结 占空比: 输出比较模式与占空比 PWM模式与占空比 输出比较模式与PWM模式的结合 输出比较模式实例&#xf…

C++ Primer Plus第五版笔记(p201-250)

第六章 函数(下) 在含有return语句的循环后面应该也有一条return语句 不要返回局部对象的引用或指针,当函数结束时临时对象占用的空间也就随之释放掉了,所以两条return语句都指向了不再可用的内存空间。 如果函数返回指针、引用…

甲板上的战舰|模拟?|每日一题|chatgpt结合更正

文章目录 我的天免费的4o太好用了我的天免费的4o太好用了我的天免费的4o太好用了题目详情思路:关键:chatGPT配合纠正错误思路正确代码: 我的天免费的4o太好用了 我的天免费的4o太好用了 我的天免费的4o太好用了 重要的事情说三遍 题目详情…

螺栓拧紧力矩标准

据德国VOITH提供Nm换算所得 螺栓扭矩表 (单位:Nm、Kgm) Nm0.101972mKg M6~M24螺钉或螺母的拧紧力矩操作者参考 ★对于设计图纸有明确力矩要求的;应按图纸要求执行… 套管螺母紧固力矩Q/STB B07833-1998 材料 HPb63-3Y2 直通式压注油杯 Q/STB B07020-1998螺纹M6、…

CD工具AWX之作业模板与工作流模板

一、概要 本文以php和h5项目为示例,讲述从初始化项目到更新发布的实现详情。 它们跟java/go等进程程序不同,只需要下发.php等静态文件即可,不涉及进程的重启。 对于php项目,除了php文件外,还包括.env配置文件。&…

【C++】STL空间配置器

STL空间配置器 一、什么是空间配置器二、为什么需要空间配置器三、SGI-STL空间配置器实现原理1、 一级空间配置器2、二级空间配置器 四、优缺点分析 一、什么是空间配置器 STL 有六大组件分别是:容器,算法,迭代器, 空间配置器&am…

【最新鸿蒙应用开发】——类Web开发范式2——前端语法

兼容JS的类Web开发范式 JS FA应用的JS模块(entry/src/main/js/module)的典型开发目录结构如下: 1. 项目基本结构 1.1. 目录结构 1.2. 项目文件分类如下: .hml结尾的HML模板文件,这个文件用来描述当前页面的文件布局结构。 .css结尾的CSS样…

Wall国内开源程序照片墙,支持VR全景及安装教程

下载 GitHub官网:https://github.com/zhang-tong-yao/wall 软件下载:https://github.com/zhang-tong-yao/wall/releases,推荐下载最新的版本。 演示效果 目前支持PC端和移动端自适应。 演示地址:https://demo-wall.ityao.cn …

芯片键合电阻器

引线键合电阻器(绑定电阻器)超稳定,可靠性高。激光修整至严格公差。可自定义的值和该值的唯一标记。该器件非常适合但不限于混合电路应用。与二极管芯片,MOS芯片,IGBT芯片键合封装。 芯片键合电阻器优势和特点 顶部触…

探索AOSP中的RRO:运行时资源覆盖的奥秘

探索AOSP中的RRO:运行时资源覆盖的奥秘 在Android开发中,为了提供更大的灵活性和可定制性,Android提供了一种关键特性:运行时资源覆盖(Runtime Resource Overlay,简称RRO)。本文将深入探讨RRO在Android开源项目(AOSP)中的作用及其实现方法。 什么是运行时资源覆盖(…

Vue19-key的原理

一、v-for中key的作用 给节点进行一个标识&#xff0c;类似于身份证号。 1-1、需求1&#xff1a; 点击按钮&#xff0c;在<li>的最前面添加一个老刘的信息 <body><div id"root"><h1>人员信息</h1><button click.once"add&qu…

A股上市公司长短期并购绩效CAR、BHAR数据(2008-2022年)

数据简介&#xff1a; 短期并购绩效以首次公告日前后5个交易日内持有并购方股票的累计超额回报率[CAR(-5,5)]作为短期并购绩效的衡量指标。为计算并购方的累计超额回报率&#xff0c;定义首次公告日前的150个交易日至首次公告日前的30个交易日为估计窗口期&#xff0c;以窗口期…

今日成果2024-6-7 TrustZone TEE安全SDK开发指南

Rockchip Vendor Storage Application Note.pdf OK 开机下&#xff0c;可以实现Vendor Storage的读写。 0ms时同步RTC时间 OK Rockchip_Developer_Guide_TEE_SDK_CN.pdf 什么是TrustZone 此系统方法意味着可以保护安全内存、加密块、键盘和屏幕等外设&#xff0c;从而可确…

c++中string用法详解

目录 二、案例需求 三、案例实现 1.首先获取strData中的角色数量 2.创造结构体数组&#xff0c;定义两个索引值 3.循环遍历对结构体User中的Id和Exp进行赋值 4.对结构体数组userArr进行排序 5.展示结果以及最终代码 ​四、最后 一、前言 在C中&#xff0c;std::string …

可视化剪辑,账号矩阵管理,视频分发,聚合私信多功能一体化营销工具 源代码开发部署方案

可视化剪辑&#xff0c;账号矩阵管理&#xff0c;视频分发&#xff0c;聚合私信多功能一体化营销工具 源代码开发部署方案 可视化剪辑&#xff1a; 可视化剪辑开发是一种通过图形化界面和拖放操作&#xff0c;以可视化的方式进行影片剪辑和编辑的开发方法。它可以让非专业用户…

什么是校园抄表系统?

1.校园抄表系统的简述 校园抄表系统是当代高校管理中的一个重要组成部分&#xff0c;主要运用于全自动搜集、管理方法与分析校园里的电力能源使用数据&#xff0c;如水电煤等。它通过先进的方式方法&#xff0c;完成了对能源消耗的实时监控系统&#xff0c;提升了电力能源管理…

maven基本操作和配置(idea版基础版)

写在前面&#xff1a;为一位朋友写的一个博客&#xff0c;有需要都可以查看&#xff01; 一、maven是什么&#xff1f; 一句话&#xff1a;管理依赖工具&#xff0c;统一项目结构便于开发&#xff0c;把项目开发和管理的过程抽象成对象模型来管理&#xff08;pom模型&#xf…

@JsonValue和@JsonCreator使用

当实体类中的属性为枚举类型时&#xff0c;将其序列化成json字符串传给前端&#xff0c;传递的应该是有效的值而不是枚举常量。 1. Get-Started Data public class Student {private Long id;private String userName;private String telephone;private String email;private …