一文生成猫眼电影热榜词云

news2025/1/8 11:40:30

1.爬取猫眼电影热榜数据

此次爬取的是电影票房的热榜电影名称,具体网站网址为猫眼电影热榜,经过实验观察后发现,此处的数据是通过ajax异步加载的,如果不相信可以使用request对当前网站网址发送请求,会发现无法获取电影热榜数据。
在这里插入图片描述
因此,我们需要按下F12打开开发者工具,选择网络,然后可以根据网页上的电影名搜索找到对应的ajax异步请求,根据异步请求找到对应数据所在的位置,最后获取我们所需要的电影热榜名单,写入python列表中即可。
在这里插入图片描述
找到热榜数据所在的位置后,可以直接编写python代码将其存入列表中,方便后序wordcloud库的使用,具体代码如下所示:

import requests
# 首先需要爬取热门电影
url = 'https://piaofang.maoyan.com/dashboard-ajax?orderType=0&uuid=18b09342ec12e-0604eb022bdfdc-26031e51-fa000-18b09342ec28d&timeStamp=1696666732579&User-Agent=TW96aWxsYS81LjAgKFdpbmRvd3MgTlQgMTAuMDsgV2luNjQ7IHg2NCkgQXBwbGVXZWJLaXQvNTM3LjM2IChLSFRNTCwgbGlrZSBHZWNrbykgQ2hyb21lLzExNy4wLjAuMCBTYWZhcmkvNTM3LjM2&index=97&channelId=40009&sVersion=2&signKey=b65748f33df1de3fa1385172cf22dd86'
# UA伪装
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
# 设置响应编码
response.encoding = 'utf-8'
# 访问url后返回的是json数据
movieList = response.json()['movieList']['data']['list']
words = []# 定义词云列表 将爬取到的热榜电影写入列表中
for movie in movieList:
    words.append(movie['movieInfo']['movieName'])
print(words)

2.生成词云

要根据Python列表中的词语生成词云,你可以使用wordcloud库。wordcloud库提供了创建和自定义词云图像的功能。
当然,要使用肯定首先需要安装wordcloud和matplotlib模块,wordcloud用于创建词云对象,而matplotlib用于绘制图像展示。

pip install wordcloud
pip install matplotlib

安装上述模块完成后,我们可以简单编写一个生成词云的代码体验一下,具体实例代码如下所示:

from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 词语列表
words = ["apple", "banana", "orange", "apple", "grape", "banana", "apple"]
# 将词语列表转换为以空格分隔的字符串
text = " ".join(words)
# 创建词云对象,并指定TrueType字体文件路径
font_path = "path/to/your/font.ttf"  # 指定TrueType字体文件路径 替换为自己的ttf文件
wordcloud = WordCloud(width=800, height=400, font_path=font_path).generate(text)
# 绘制词云图像
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

上述代码唯一需要注意的便是,你需要下载TrueType字体文件路径,普通的字体文件可能无法正常显示,这里推荐大家根据自己的需求去Google Fonts和DaFont下载符合自己需求的TrueType字体文件,同时,TrueType字体文件都是ttf后缀结尾的。
在这里插入图片描述

3.解决可能出现的问题

如果你发现你下载TrueType字体文件没有任何报错,那么就可以跳过本节,直接看最后一部分,如果出现问题,看看是不是和我遇到的一样。我在上述网页下载字体文件并正确引用后,还出现wordcloud词云报错ValueError: Only supported for TrueType fonts,如果真的是这种情况,不需要犹豫,那就是你的模块版本需要更新了,在终端运行下面的命令,更新对应的模块即可解决问题。

pip install --upgrade pip
pip install --upgrade wordcloud
pip install --upgrade pillow

具体可以参考博客参考博客1和参考博客2,我解决问题就是按照里面博客的内容来的。

4.最终代码以及结果展示

如果直接将上述1-2部分的代码根据要求合并,可能生出的词云有点丑,因此我们可以简单调整。
当生成词云图像时,你可以通过调整一些参数来改善样式,使其更好看。以下是一些可以尝试的样式调整:
背景颜色(background_color):你可以指定词云的背景颜色,例如将其设置为白色或其他适合的颜色。可以使用RGB值或预定义的颜色名称。例如,background_color='white’将背景颜色设置为白色。
最大词数(max_words):你可以限制词云中显示的最大词数。可以根据需要设置合适的值。例如,max_words=50将限制词云中显示的词数为50个。
颜色映射(colormap):你可以选择不同的颜色映射方案来为词云中的词语选择颜色。可以使用预定义的颜色映射名称,例如colormap=‘viridis’。你也可以使用自定义的颜色映射。
字体大小范围(min_font_size和max_font_size):你可以指定词云中词语的字体大小范围。你可以根据需要设置最小和最大字体大小值。
完整的代码如下所示:

from wordcloud import WordCloud
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
import requests
# 首先需要爬取热门电影
url = 'https://piaofang.maoyan.com/dashboard-ajax?orderType=0&uuid=18b09342ec12e-0604eb022bdfdc-26031e51-fa000-18b09342ec28d&timeStamp=1696666732579&User-Agent=TW96aWxsYS81LjAgKFdpbmRvd3MgTlQgMTAuMDsgV2luNjQ7IHg2NCkgQXBwbGVXZWJLaXQvNTM3LjM2IChLSFRNTCwgbGlrZSBHZWNrbykgQ2hyb21lLzExNy4wLjAuMCBTYWZhcmkvNTM3LjM2&index=97&channelId=40009&sVersion=2&signKey=b65748f33df1de3fa1385172cf22dd86'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
response.encoding = 'utf-8'
# 访问url后返回的是json数据
movieList = response.json()['movieList']['data']['list']
words = []# 定义词云列表 将爬取到的热榜电影写入列表中
for movie in movieList:
    words.append(movie['movieInfo']['movieName'])
print(words)

# 将词语列表转换为以空格分隔的字符串
text = " ".join(words)

# 创建词云对象,并指定TrueType字体文件路径
font_path = "./字体文件/Noto_Sans_SC/NotoSansSC-VariableFont_wght.ttf"  # 指定TrueType字体文件路径
# 加载字体文件
font_prop = FontProperties(fname=font_path)
# 创建词云对象,并指定字体属性和样式调整
wordcloud = WordCloud(
    width=800,
    height=400,
    font_path=font_path,
    background_color='white',  # 设置背景颜色为白色
    max_words=60,  # 限制词云中显示的最大词数为50个
    colormap='viridis',  # 使用颜色映射方案为viridis
    min_font_size=10,  # 设置词云中词语的最小字体大小
    max_font_size=200  # 设置词云中词语的最大字体大小
).generate(text)

# 绘制词云图像
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation="bilinear") #
plt.axis("off") #禁用坐标系
plt.show()

运行后的结果如下所示:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1066341.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于springboot实现职称评审管理系统演示【项目源码+论文说明】分享

基于springboot实现职称评审管理系统项目演示 摘要 不管是从事哪个行业、对于职称是对一个对个人的最高荣誉,有通过科技手段、农业、工业、教育等都有评职称,开发一套职称评审管理系统就很有必要了。职称评审管理系统是以实际运用为开发背景&#xff0c…

移远通信EG916Q-GL Cat 1 bis模组亮相MWC Las Vegas 2023

9月27日,在MWC Las Vegas 2023期间,全球领先的物联网整体解决方案供应商移远通信宣布,面向全球市场推出更具性价比的Cat 1 bis模组EG916Q-GL。该模组基于高通QCX216 LTE物联网调制解调器,非常适用于全球范围内的各种应用场景&…

人机言语交互模型的评估要素

智能客服中的言语交互模型评估要素,主要包括以下几个方面: 有效性:指模型能否准确识别和理解用户的言语意图,以及生成正确和合适的回答。可以通过比较模型生成的回答与人工回答的准确率来评估。流畅性:指模型在回答问…

力扣第572题 另一棵树的子树 c++深度(DFS)注释版

题目 572. 另一棵树的子树 简单 给你两棵二叉树 root 和 subRoot 。检验 root 中是否包含和 subRoot 具有相同结构和节点值的子树。如果存在,返回 true ;否则,返回 false 。 二叉树 tree 的一棵子树包括 tree 的某个节点和这个节点的所有…

ES6 class类关键字super

super关键字 在 JavaSCript 中,能通过 extends 关键字去继承父类 super 关键字在子类中有以下用法: 当成函数调用 super() 作为 "属性查询" super.prop 和 super[expr] super() super 作为函数调用时,代表父类的构造函数。 ES6 要求…

如何设计一条大型PLC生产线系统

今日话题,如何设计一条大型PLC生产线系统,设计一条大型PLC生产线系统实际上涉及通用系统设计的问题。以机床为例,它的核心架构包括数控面板和多台伺服机,这些伺服机具有很强的通用性,它们作为从站响应数控面板的信号。…

在原生html中使用less

引入less <link rel"stylesheet/less" href"./lessDemo.less" /><script src"./js/less.min.js"></script> less.min.js文件下载地址:https://github.com/less/less.js 注意&#xff1a;less文件在前&#xff0c;js文件在后…

Langchain-Chatchat项目:1-整体介绍

基于Langchain与ChatGLM等语言模型的本地知识库问答应用实现。项目中默认LLM模型改为THUDM/chatglm2-6b[2]&#xff0c;默认Embedding模型改为moka-ai/m3e-base[3]。 一.项目介绍 1.实现原理   本项目实现原理如下图所示&#xff0c;过程包括加载文件->读取文本->文本…

记一个src中危-图像大小与请求参数可修改

公众号&#xff1a;掌控安全EDU 分享更多技术文章&#xff0c;欢迎关注一起探讨学习 漏洞描述 服务器生成了一个具有客户端指定尺寸的图像&#xff0c;如果未实施任何限制&#xff0c;则可能导致拒绝服务攻击。 漏洞危害 攻击者不需要在此类攻击中投入资源&#xff0c;但服务器…

迅为RK3588开发板添加 RIL 驱动程序库

将 Quectel 提供的相应 RIL 库文件放入 Android 系统的以下路径。作者拷贝到了源码的android_build/device/fsl/imx8m/evk_8mm/lib 目录下&#xff0c;如下图所示&#xff1a; 然后将 apns-conf.xml 拷贝到 android_build/device/fsl/imx8m/evk_8mm/下&#xff0c;如下图所示&a…

设计模式 - 七大软件设计原则

目录 一、设计模式 1.1、软件设计原则 1.1.1、开闭原则 1.2.2、单一职责原则 1.2.3、里氏替换原则 1.2.4、迪米特原则 1.2.5、接口隔离原则 1.2.6、依赖倒转原则 1.2.7、合成/聚合复用原则 一、设计模式 1.1、软件设计原则 1.1.1、开闭原则 开闭原则&#xff1a;对扩…

chromedriver下载与安装方法

下载与安装: 1.查看Chrome浏览器版本 首先&#xff0c;需要检查Chrome浏览器的版本。请按照以下步骤进行&#xff1a; 打开Chrome浏览器。 点击浏览器右上角的菜单图标&#xff08;三个垂直点&#xff09;。 选择“帮助”&#xff08;Help&#xff09;。 在下拉菜单中选择“…

Swagger2的配置

Swagger2的配置&#xff1a; 1.要用到的依赖包&#xff1a; <!-- swagger2 依赖 --><dependency><groupId>io.springfox</groupId><artifactId>springfox-swagger2</artifactId><version>2.7.0</version></dependency>…

网络是什么?(网络零基础入门篇)

1.如何理解局域网和广域网&#xff1f; 2.路由器和交换机是怎么样工作的&#xff1f; 3.三层交换机能不能代替路由器&#xff1f; -- 局域网 广域网 -- 企业网架构&#xff0c;运营商架构&#xff0c;数据中心架构 -- 局域网 通过 交换机连接的 转发 相同的ip地址…

TSINGSEE青犀基于AI视频智能分析的客流统计分析场景方案

随着AI技术的不断发展与人类需求的不断提升&#xff0c;视觉目标的检测识别、智能监控在人们的生活中均有着广泛的应用。其中&#xff0c;智能安防视频监控是计算机视觉的重要应用领域&#xff0c;而AI客流统计则是近年来此领域大家关注热度较高的技术之一。 行业痛点 传统的客…

javaee SpringMVC文件上传 项目结构

引入依赖 <?xml version"1.0" encoding"UTF-8"?><project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0…

c++模板库容器list vector map set操作和性能对比

文章目录 listvectormapset性能比较总结 list 列表&#xff08;list&#xff09;是C STL中的一种容器类型&#xff0c;它是一个双向链表&#xff0c;可以在任意位置高效地添加、删除、移动元素。 以下是一些常用的列表操作&#xff1a; 创建列表 #include <list> std…

21.6 CSS 弹性布局

1. 弹性盒子 CSS弹性盒子(Flexbox)是一种布局模型, 用于创建灵活的, 自适应的网页布局. 它的目的是在不同屏幕尺寸和设备上实现一致的布局效果.引入弹性盒布局模型的目的是提供一种更加有效的方式来对一个容器中的子元素进行排列, 对齐和分配空白空间.弹性容器通过设置display…

c++视觉图像线性混合

图像线性混合 使用 cv::addWeighted() 函数对两幅图像进行线性混合。alpha 和 beta 是两幅图像的权重&#xff0c;它们之和应该等于1。gamma 是一个可选的增益&#xff0c;这里设置为0。 你可以通过调整 alpha 的值来改变混合比例。如果 alpha0.5&#xff0c;则两幅图像等权重…

扬尘在线监测是什么?如何实现?

扬尘在线监测技术是一种针对扬尘污染问题的环境监测技术&#xff0c;它通过实时监测和数据分析&#xff0c;为管理者提供准确及时的信息&#xff0c;以便他们可以采取有效的控制措施来减少扬尘污染对空气质量和人们健康的影响。 扬尘在线监测系统通常由传感器、数据采集仪器、…