Python爬虫案例五:将获取到的文本生成词云图

news2024/11/15 12:44:15

基础知识:

# 词云图 wordcloud
# 1、导包 jieba  wordcloud
import jieba
from wordcloud import WordCloud
data = '全年经济社会发展主要目标任务圆满完成'
data_list = list(jieba.cut(data))
# print(data_list)  # generator数据类型

# 2、构造词云图样式  ===》虚拟的词云图
wb = WordCloud(
    width=500,
    height=500,
    background_color='white',
    font_path='C:\Windows\Fonts\msyh.ttc'  //window中找到此路径,字体为微软雅黑
)
# 3、添加数据
wb.generate(' '.join(data_list))  # 这里的字符串是否已经进行了切割
# 4、虚拟词云图保存到本地,注意:名字必须要用png,png属于无损压缩,jpg属于有损压缩
wb.to_file('xxx.png')  

案例实战:

源码:
# 抓取政府工作报告的文本
import requests, os, jieba, numpy
from lxml import etree
from wordcloud import WordCloud
from PIL import Image  # 装库:pip install pillow
class OneSpider(object):
    def __init__(self):
        pass
    def  request_start_url(self):
        # 爬虫部分
        start_url = 'https://www.ynbdm.cn/news.php'
        cookies = {
            'PHPSESSID': 'rpkr2o2rots8pe0mr9dp0kn0d1',
        }
        headers = {
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
            'accept-language': 'zh-CN,zh;q=0.9',
            'cache-control': 'max-age=0',
            # 'cookie': 'PHPSESSID=rpkr2o2rots8pe0mr9dp0kn0d1',
            'priority': 'u=0, i',
            'sec-ch-ua': '"Not/A)Brand";v="8", "Chromium";v="126", "Google Chrome";v="126"',
            'sec-ch-ua-mobile': '?0',
            'sec-ch-ua-platform': '"Windows"',
            'sec-fetch-dest': 'document',
            'sec-fetch-mode': 'navigate',
            'sec-fetch-site': 'none',
            'sec-fetch-user': '?1',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36',
        }
        params = {
            'id': '31039',
        }
        response = requests.get(start_url, params=params, cookies=cookies, headers=headers).text
        self.parse_response(response)

    def parse_response(self, response):
        # 解析响应
        A = etree.HTML(response)
        # bt = A.xpath('//title/text()')[0].replace('!', '')
        nr = A.xpath('//div[@class="content_show"]//text()')
        nr = ''.join(nr)
        with open('政府工作报告.txt', 'w', encoding='utf-8') as f:
            f.write(nr)
        print('ok -- 政府工作报告.txt')

    def show_image(self):
        # 词云图部分
        # --------1、读文本-------------
        data = open('政府工作报告.txt', 'r', encoding='utf-8').read()
        # --------2、jieba切割-----------
        data_list = list(jieba.cut(data))
        # --------3、粗略处理文本---------
        data_list = [i for i in data_list if len(i) != 1]
        # --------4、精确处理文本(过滤敏感信息,称为停用词)----------
        tyc = open('../stop_words.txt', 'r', encoding='utf-8').read()
        tyc = tyc.split('\n')
        data_list = [i for i in data_list if i not in tyc]
        # print(data_list)
        # ------------------5、文本变字符串-------------
        TEXT = ' '.join(data_list)
        # --------6、添加一个背景图片------------------
        img = Image.open('../Y.jpg')  # 此处的image为一个数据类型
        mask = numpy.array(img)  # 得到矩阵形式的图片,[255 255 255 ... 255 255 255]代表RGB的含量
        # --------7、建立词云图样式------------------------
        wb = WordCloud(
            width=500,
            height=500,
            background_color='white',
            mask=mask,
            font_path='C:\Windows\Fonts\msyh.ttc',
        )
        # -------8、添加数据---------------
        wb.generate(TEXT)
        #--------9、生成本地效果-------------
        wb.to_file('第二个.png')
        print('------词云图生成完毕-----------')

    def main(self):
        if not os.path.exists('政府工作报告.txt'):
            self.request_start_url()
        else:
            self.show_image()


if __name__ == '__main__':
    on = OneSpider()
    on.main()

运行效果:

# 样式

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2096035.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LabVIEW与Python联合图像处理

LabVIEW可以将图片作为参数传递给Python进行处理。可以通过LabVIEW调用Python脚本,并传递图片数据。以下是如何实现这个功能的基本思路: 1. 在LabVIEW中读取图像 首先,使用LabVIEW中的图像处理函数(如NI Vision Development Modu…

多态【C++】

文章目录 概念概念虚函数 定义及实现构成条件虚函数的重写override和final重载/重定义(隐藏)/重写(覆盖)的区别 抽象类概念接口继承和实现继承 多态的原理虚函数表 多继承关系的虚函数表 概念 概念 通俗来说,就是多种…

用TCC来解决多个第三方系统数据一致性问题

对于做集成的公司来说,会集成各种第三方系统,要么是通过第三方系统的api,要么直接集成第三方系统的设备。如果是通过api集成,单次请求只调用一个三方系统没问题,同步调用就行,但如果同时要调用多个三方系统…

C++中AVL树的底层逻辑原理及其实现原理和过程

小编在学习完AVL树之后觉得AVL树的底层逻辑原理不是很难,在实现AVL树的过程中可能在调整过程中经过旋转调整会有点难,但是小编可以给大家讲解清楚,结合旋转过程的详细解图,相信大家一定可以学会并且理解AVL树的底层逻辑原理及其实…

[论文阅读]JTORO in NOMA-based VEC:A game-theoretic DRL approach

论文:Joint task offloading and resource optimization in NOMA-based vehicular edge computing: A game-theoretic DRL approach ​​​​​​​​​​​​​​基于 NOMA 的车载边缘计算中的联合任务卸载和资源优化:一种博弈论的 DRL 方法 代码地址…

Salesforce标准RestAPI用法总结,看这一篇就够了(附Java代码实现)

引言 Salesforce提供给外部系统的标准RestAPI类型,还是非常丰富的,能满足用户基本的增删改查的操作。 就是由于提供的RestAPI多,所以本文旨在为salesforce开发者或者是集成开发者,提供一个RestAPI的用法总结,以及基本的java代码实现用例。 目录 第一部分,Salesforce R…

【个人学习】JVM(12):垃圾回收相关概念

垃圾回收相关概念 System.gc() 的理解 在默认情况下,通过System.gc()者Runtime.getRuntime().gc() 的调用,会显式触发Full GC,同时对老年代和新生代进行回收,尝试释放被丢弃对象占用的内存。 然而System.gc()调用附带一个免责声明,无法保证对垃圾收集器的调用(不能确保立…

大语言模型的超参数含义: Top-P 采样; Top-P 采样;logit_bias:

目录 大语言模型的超参数含义 Top-P 采样 频率惩罚(Frequency Penalty) top_k: logit_bias: top_logprobs: max_tokens: 大语言模型的超参数含义 Top-P 采样 含义:一种采样替代方法,称为核采样。模型考虑top_p概率质量的token结果。例如,0.1表示仅考虑组成前10%…

【学习笔记】卫星通信NTN 3GPP标准化进展分析(四)- 3GPP Release18内容

一、引言: 本文来自3GPP Joern Krause, 3GPP MCC (May 14,2024) Non-Terrestrial Networks (NTN) (3gpp.org) 本文总结了NTN标准化进程以及后续的研究计划,是学习NTN协议的入门。 【学习笔记】卫星通信NTN 3GPP标准化进展分析(一&#xff…

2166. 子树的大小及深度

代码 #include<bits/stdc.h> using namespace std; vector<int> a[110]; int d[110],s[110]; int dfs(int x,int y) {int i;s[x]1;d[x]d[y]1;for(i0;i<a[x].size();i)if(a[x][i]!y)s[x]s[x]dfs(a[x][i],x);return s[x]; } int main() {int n,x,y,i;cin>>…

字符集介绍

在计算机科学中&#xff0c;字符集 (Character Set) 是指一组用于表示文本中字符的集合。字符集通过特定的编码方式&#xff0c;将字符与其在计算机内存或存储设备中的二进制表示联系起来。字符集在文本处理、文件传输、网络通信等场景中起着至关重要的作用。 1. 字符与编码的…

Redis(13)| 缓存与数据库数据一致性问题

本文讨论的前提&#xff1a; 不是一个事务&#xff0c;永远无法满足数据库和缓存的强一直性的;文中会列举不一致的逻辑场景;一定是依解决业务问题&#xff0c;和业务达成的共同目标为前提&#xff1b; 前言 只要用到多数据源存储同一份相同的数据&#xff0c;在更新时&#…

计算方法——插值法程序实现(一)

例题 给出的函数关系表&#xff0c;分别利用线性插值及二次插值计算的近似值。 0.10.20.30.40.51.1051711.2214031.3498591.4918251.648721 参考代码一&#xff1a;Python代码实现&#xff08;自编码&#xff09; import math """ :parameter用于计算插值多项…

linux-基础知识2

目录和文件的权限 修改目录和文件的拥有者 用root用户执行&#xff1a; chown -R 用户:组 目录和文件列表 -R选项表示连同各子目录一起修改 创建aa目录mkdir aa ,查看 ls -l 普通用户没有权限&#xff0c;不能删除 转移权限&#xff0c;chown -R mysal:deb /aa/aa 加上-R…

ModuleNotFoundError: No module named ‘cv2‘,python

ModuleNotFoundError: No module named cv2&#xff0c;python 报错如同&#xff1a; 解决方案&#xff1a; pip install opencv-python https://blog.csdn.net/zhangphil/category_9486298.html

陀螺仪LSM6DSV16X与AI集成(12)----SFLP获取四元数

陀螺仪LSM6DSV16X与AI集成.12--SFLP获取四元数 概述视频教学样品申请源码下载硬件准备SFLP生成STM32CUBEMX串口配置IIC配置CS和SA0设置ICASHE修改堆栈串口重定向参考程序初始换管脚获取ID复位操作BDU设置设置量程初始化SFLP步骤初始化SFLP读取四元数数据 概述 在现代的运动跟踪…

World of Warcraft [CLASSIC][80][Grandel]Sapphire Hive Drone

Sapphire Hive Drone 蓝玉虫巢雄蜂 蓝玉虫巢巨峰 索拉查盆地 实用性不强&#xff0c;好看是好看&#xff0c;模型很大&#xff0c;无奈栏位太少

面相对象的成员介绍

2.面相对象的成员 -> 类: a.类的定义&#xff1a; 1.类是对公共特点的抽象&#xff0c;其中包含了很多成员&#xff0c;如属性&#xff08;成员变量 &#xff09;、方法、构造器等.要想很好的定义类&#xff0c;就必须要好好的了解这些类的成员 b.访问修饰符 控制属性的…

stm32开发之rt-thread使SysTick处于微妙级运行时,出现的问题记录

前言 在使用rt-thread开发时&#xff0c;想将调度的时间间隔缩短到微妙级别。根据提示需要修改对应的宏定义即可。这里在修改宏定义时&#xff0c;发现进入中断太过频繁&#xff0c;以至于主逻辑一直无法执行。这里测试的环境如下: 相关环境介绍 开发工具使用的是CLION测试开…

《编译原理:编程语言的幕后魔法师》

《编译原理&#xff1a;编程语言的幕后魔法师》 在计算机科学的宏伟殿堂中&#xff0c;编译原理犹如一位神秘而强大的魔法师&#xff0c;默默地施展着魔法&#xff0c;将人类可读的编程语言转化为计算机能够理解的机器语言。它是连接高级编程语言和计算机硬件的重要桥梁&#…