wordcloud

WordCloud(font_path=None, width=400, height-200,margin=2,mask=None, max_words=200, min_font_size=4, stopwords=None,background_color='black', max_font_size=None, font_step=1)

font_path：字体路径，默认不支持中文，可通过该参数指定字体，支持OTF和TTF 格式;
width、 height：画布的宽度和高度，单位为像素
margin：文字之间的边距
mask：指定图片的形状，忽略白色部分，通常为 ndarray
max_words：最多显示的词的数量，默认为200
min_font_size、max_font_size：最小字体大小、最大字体大小
font_step：字体大小增加步长，默认为1
background_color：词云图的背景颜色，默认为黑色
generate (text)：根据文本生成词云图，返回当前对象本身;
to_image()：将词云对象转化为图片
to_file(文件名)：将词云对象转化为文件
to_array()：将词云对象转化为数组

import wordcloud as wc
import random
word_cloud = wc.WordCloud()
res = random.choices(["Python","Hello","中国","人民","World","program","first","PHP"]， k=100)
text = " ".join(res)
print(text)
word_cloud.generate(text)
word_cloud.to_file("abab.png")

中文方框问题

当字符串中有中文时，生成的词云图会变成方框。
在这里插入图片描述

这是因为不支持中文，我们需要添加字体文件。我们可以去c盘中（C:\Users\Administrator\AppData\Local\Microsoft\Windows\Fonts）复制一个字体文件放在python目录（D:\code\python\python37\libs）中。

在这里插入图片描述
然后在代码中指定font路径。

word_cloud = WordCloud(font_path=r'D:\code\python\python37\libs\simfang.ttf')

显示图片

import matplotlib.pyplot as plt
# 显示词云图
plt.imshow(word_cloud)
plt.show()

jieba（分词）

jieba库分词的三种模式

（1）精准模式：把文本精准地分开，不存在冗余
（2）全模式：把文中所有可能的词语都扫描出来，存在元余(2)
（3）搜索引擎模式：在精准模式的基础上，再次对长词进行切分

jieba.cut(sentence, cut_all=False, HMM=True) ：sentence表示需要分词的句子，cut_all表示是否采用全模式，HMM 表示是否使用 HMM ( 隐马尔可夫模型 )模型
jieba.cut_for_search(sentence, HMM=True) ：sentence表示需要分词的句子，HMM表示是否使用 HMM模型，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细;
jieba.cut()方法和 jieba.cut_for_search() 方法返回的结果都是可迭代对象，可使用 for 循环获取分词后得到的每一个词语，此外，jieba.lcut()和 jieba.lcut_for_search()效果分别和jieba.cut() 和 jieba.cut_for_search()效果类似，直接返回列表
add_word(word, freq=None, tag=None)和 del_word(word) 可在程序中动态修改词典

import jieba
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 读取图片
mask = np.array(Image.open("ciyun1.png"))
# 创建词云
words = WordCloud(font_path="msyh.ttc",mask=mask,background_color="black",width=1000,height=700,min_font_size=6)
with open("text.txt","r+",encoding="utf-8") as fp:
    text = fp.read() # 读取文件内容
text = " ".join(jieba.lcut(text))#通过空格连接分好的词
words.generate(text) # 生成词云
words.to_file('abc.png') # 保存词云图
plt.imshow(words) # 显示图片
plt.axis("off")#不显示坐标轴
plt.show()# #显示图