wordcloud制作词云图

news2024/9/20 20:21:15

wordcloud制作词云图

  • wordcloud
    • 中文方框问题
  • jieba(分词)
    • jieba库分词的三种模式


wordcloud

WordCloud(font_path=None, width=400, height-200,margin=2,mask=None, max_words=200, min_font_size=4, stopwords=None,background_color='black', max_font_size=None, font_step=1)
  • font_path:字体路径,默认不支持中文,可通过该参数指定字体,支持OTF和TTF 格式;
  • width、 height:画布的宽度和高度,单位为像素
  • margin:文字之间的边距
  • mask:指定图片的形状,忽略白色部分,通常为 ndarray
  • max_words:最多显示的词的数量,默认为200
  • min_font_size、max_font_size:最小字体大小、最大字体大小
  • font_step:字体大小增加步长,默认为1
  • background_color:词云图的背景颜色,默认为黑色
  • generate (text):根据文本生成词云图,返回当前对象本身;
  • to_image():将词云对象转化为图片
  • to_file(文件名):将词云对象转化为文件
  • to_array():将词云对象转化为数组
import wordcloud as wc
import random
word_cloud = wc.WordCloud()
res = random.choices(["Python","Hello","中国","人民","World","program","first","PHP"], k=100)
text = " ".join(res)
print(text)
word_cloud.generate(text)
word_cloud.to_file("abab.png")

中文方框问题

当字符串中有中文时,生成的词云图会变成方框。
在这里插入图片描述

这是因为不支持中文,我们需要添加字体文件。我们可以去c盘中(C:\Users\Administrator\AppData\Local\Microsoft\Windows\Fonts)复制一个字体文件放在python目录(D:\code\python\python37\libs)中。

在这里插入图片描述
然后在代码中指定font路径。

word_cloud = WordCloud(font_path=r'D:\code\python\python37\libs\simfang.ttf')

显示图片

import matplotlib.pyplot as plt
# 显示词云图
plt.imshow(word_cloud)
plt.show()

jieba(分词)

jieba库分词的三种模式

(1) 精准模式:把文本精准地分开,不存在冗余
(2) 全模式:把文中所有可能的词语都扫描出来,存在元余(2)
(3) 搜索引擎模式:在精准模式的基础上,再次对长词进行切分

  • jieba.cut(sentence, cut_all=False, HMM=True) :sentence表示需要分词的句子,cut_all表示是否采用全模式,HMM 表示是否使用 HMM ( 隐马尔可夫模型 )模型
  • jieba.cut_for_search(sentence, HMM=True) :sentence表示需要分词的句子,HMM表示是否使用 HMM模型,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细;
  • jieba.cut()方法和 jieba.cut_for_search() 方法返回的结果都是可迭代对象,可使用 for 循环获取分词后得到的每一个词语,此外,jieba.lcut()jieba.lcut_for_search()效果分别和jieba.cut()jieba.cut_for_search()效果类似,直接返回列表
  • add_word(word, freq=None, tag=None)del_word(word) 可在程序中动态修改词典
import jieba
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 读取图片
mask = np.array(Image.open("ciyun1.png"))
# 创建词云
words = WordCloud(font_path="msyh.ttc",mask=mask,background_color="black",width=1000,height=700,min_font_size=6)
with open("text.txt","r+",encoding="utf-8") as fp:
    text = fp.read() # 读取文件内容
text = " ".join(jieba.lcut(text))#通过空格连接分好的词
words.generate(text) # 生成词云
words.to_file('abc.png') # 保存词云图
plt.imshow(words) # 显示图片
plt.axis("off")#不显示坐标轴
plt.show()# #显示图

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/480989.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

js中setinterval怎么用?怎么才能让setinterval停下来?

setinterval()是定时调用的函数,可按照指定的周期(以毫秒计)来调用函数或计算表达式。 setinterval()的作用是在播放动画的时,每隔一定时间就调用函数,方法或对象。 setInterval() 方法会不停地调用函数,…

浙大数据结构与算法一些有意思的理论基础题

堆栈 有人给出了堆栈用数组实现的另一种方式,即直接在函数参数中传递数组和top变量(而不是两者组成的结构指针),其中Push操作函数设计如下。这个Push函数正确吗?为什么? #define MaxSize 100 ElementTyp…

Three.js--》Gsap动画库基本使用与原理

目录 Gsap动画库使用讲解 Gsap动画库基本使用 修改自适应画面及双击进入全屏 设置stats性能监视器 Gsap动画库使用讲解 GSAP的全名是GreenSock Animation Platform,是一个从flash时代一直发展到今天的专业动画库,今天将其与three.js进行结合&#x…

【DevOps视频笔记】1. DevOps的诞生

视频官网 目录 一、DevOps介绍 定义: 作用: 核心: 二、软件开发流程 三、流程图 一、DevOps介绍 定义: Development & Operations的缩写,也就是开发&运维DevOps 是一个不断提高效率并且持续不断工作的…

GPIO输出——LED闪烁、LED流水灯、蜂鸣器

1、STM32F1 GPIO 简介 GPIO ( General Purpose Input Output )通用输入输出口 可配置为 8 种输入输出模式 引脚电平: 0V~3.3V ,部分引脚可容忍 5V 输出模式下可控制端口输出高低电平,用以驱动 LED 、控制蜂鸣器、模拟通…

Spring 统一功能处理(拦截器)

文章目录 Spring拦截器1.统一用户登录权限校验1) SpringAOP 用户统一验证的问题2) Spring拦截器3) 拦截器实现原理4)同一访问前缀添加 2. 统一异常处理3. 统一数据返回格式1)统一数据返回的好处2)统一数据返回实现 Spring拦截器 SpringBoot统…

第13章 项目合同管理

文章目录 13.2.1 按信息系统 范围 划分的合同分类 4451、总承包合同2、单项工程承包合同3、分包合同 13.2.2 按项目 付款方式 划分的合同分类 4461、总价合同2、成本补偿合同(卖方有利)3、工料合同 13.3.1 项目合同的内容 44713.3.2 项目合同签订的注意事…

【设计模式】我终于读懂了迭代器模式。。。

看一个具体的需求 编写程序展示一个学校院系结构:需求是这样 要在一个页面中展示出学校的院系组成, 一个学校有多个学院, 一个学院有多个系。 如图: 传统的设计方案(类图) 传统的方式的问题分析 将学院看做是学校的子类&#xf…

深度学习(23):SmoothL1Loss损失函数

0. 基本介绍 SmoothL1Loss是一种常用的损失函数,通常用于回归任务中,其相对于均方差(MSE)损失函数的优势在于对异常值(如过大或过小的离群点)的惩罚更小,从而使模型更加健壮。 SmoothL1Loss的公式为: l o s s ( x , y ) { 0.5 …

机器人中的数值优化(三)—— 无约束最优化方法基础、线搜索准则

本系列文章主要是我在学习《数值优化》过程中的一些笔记和相关思考,主要的学习资料是深蓝学院的课程《机器人中的数值优化》和高立编著的《数值最优化方法》等,本系列文章篇数较多,不定期更新,上半部分介绍无约束优化,…

eureka自我保护模式详解(全网最全)

1. 什么叫自我保护模式? 当微服务客户端启动后,会把自身信息注册到Eureka注册中心,以供其他微服务进行调用。一般情况下,当某个服务不可用时(一段时间内没有检测到心跳或者连接超时等),那么Eure…

spring3:更简单的读取和存入对象

目录 1.存储 Bean 对象 1.1 前置⼯作:配置扫描路径(重要) 1.2 添加注解存储 Bean 对象 1.2.1.Controller[控制器] 1.2.2 Service[服务] 1.2.3 repoistory[仓库] 1.2.4 Configuration[配置] 1.2.5 Component[组件] 1.3为什么要这么多类…

Spring 创建和使用

文章目录 什么是 Bean ?1. 创建 Spring 项目1.创建一个 Maven 项目2. 添加 Spring 依赖1.配置 Maven 国内源2.添加 Maven 依赖 3.添加启动项 2.存储Bean对象1.创建 Bean2.注册 Bean3.获取并使用 Bean 对象1. 得到 Spring 对象常见方式有两种: 2. 获取 Bean 对象Bean 的三种获取…

SpringMVC中使用LocalDateTime、LocalDate等参数作为入参数据转换问题

1、接收GET请求方式及POST请求表单方式时间类型传参,需要自定义参数转换器或者使用ControllerAdvice配合initBind,不设置的话表单方式会报以下错误: 这种情况要和时间作为Json字符串时区别对待,因为前端json转后端pojo底层使用的是…

什么是Auto GPT-4? OpenAI 最新语言模型概览

动动发财的小手,点个赞吧! 人工智能正在快速发展,近年来最令人兴奋的发展之一是创建可以生成类似人类文本的语言模型。领先的人工智能研究机构 OpenAI 最近发布了其最新的语言模型 Auto GPT-4。 在什么是 Auto GPT-4? OpenAI 最新…

【Java笔试强训 29】

🎉🎉🎉点进来你就是我的人了博主主页:🙈🙈🙈戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔🤺🤺🤺 目录 一、选择题 二、编程题 🔥求正数数…

AtCoder Beginner Contest 300(D-G)

D - AABCC (atcoder.jp) (1)题目大意 给你个数N,问你不超过N的三个质数abc组成的数有多少个。 (2)解题思路 考虑到枚举的数不会特别多,因此预处理出1e6的质因子,暴力枚举即可。 (3&a…

在体育新闻文本中提取关键词可以使用什么技术

在体育新闻文本中提取关键词可以使用以下技术: 1. 领域词典: 通过构建体育领域的词汇表,将其中的词语作为关键词,可以较好地提取体育新闻中的关键词。 就当下的研究情况,国内外有哪些体育领域的词汇表http://t.csdn…

Reactive Streams介绍与应用分析

目录 一、Reactive Streams基本知识 (一)基本介绍 (二)反应式流的特点 基本特性1:事件驱动&变化传递 基本特性2:数据流 基本特性3:声明式 高级特性1:流量控制(回压) 高级特性2:异步边界 &…

ALBEF:基于动量蒸馏的视觉语言表示学习

Align before Fuse:Vision and Language Representation Learning with Momentum Distillation ALBEF:基于动量蒸馏的视觉语言表示学习 摘要 大规模的视觉和语言表征学习在各种视觉-语言任务上显示出有希望的改进。大多数现有的方法采用了基于Transform…