使用selenium爬取猫眼电影榜单数据

news2024/9/21 16:42:16

文章目录

  • 前言
  • 导入所需的库:
  • 设置ChromeDriver的路径,并创建一个Chrome浏览器实例:
  • 打开目标网页,这里以猫眼电影榜单页面为例:
  • 使用XPath定位电影信息。通过查看网页源代码,发现电影信息所在的`<dd>`标签具有唯一的class属性名:
  • 遍历所有的`<dd>`标签,获取电影名称、导演和评分,并将数据保存到DataFrame中:
  • 将DataFrame导出为Excel文件:
  • 关闭浏览器:
  • 完整代码
    • 分点说明
  • 完结

前言

在这里插入图片描述

近年来,随着互联网的快速发展和人们对电影需求的增加,电影市场也变得日趋繁荣。作为观众或者投资者,我们时常需要了解最新的电影排行榜和票房情况。本文将介绍如何使用Python编写一个爬虫脚本,通过Selenium库自动化操作浏览器,爬取猫眼电影榜单数据,并保存为Excel文件。

导入所需的库:

在这里插入图片描述

  • import time:导入时间模块,用于添加延时等待。
  • from selenium import webdriver:导入Selenium库中的webdriver模块,用于创建浏览器实例和自动化操作。
  • from selenium.webdriver.common.by import By:导入Selenium库中的By模块,用于XPath定位元素。
  • import pandas as pd:导入pandas库,用于处理和分析数据。

设置ChromeDriver的路径,并创建一个Chrome浏览器实例:

在这里插入图片描述

driver_path = 'ChromeDriver的路径'
driver = webdriver.Chrome(driver_path)

打开目标网页,这里以猫眼电影榜单页面为例:

在这里插入图片描述

url = 'https://www.maoyan.com/board?timeStamp=1688716544141&sVersion=1&webdriver=false&index=3&signKey=44a722f975ab0b6750812bd0bf340b88&channelId=40011&requestCode=49793531118b4af79a95958d845ab0a7lgmud'
driver.get(url)
time.sleep(5)

使用XPath定位电影信息。通过查看网页源代码,发现电影信息所在的<dd>标签具有唯一的class属性名:

在这里插入图片描述

info = driver.find_element(By.CLASS_NAME, "board-wrapper")
ddlist = info.find_elements(By.TAG_NAME, "dd")

遍历所有的<dd>标签,获取电影名称、导演和评分,并将数据保存到DataFrame中:

data = pd.DataFrame(columns=['电影名称', '导演', '评分'])
i = 0
for item in ddlist:
    titles = item.find_element(By.CLASS_NAME, "board-item-main").find_element(By.CLASS_NAME, "name").text
    directors = item.find_element(By.CLASS_NAME, "star").text
    scores = item.find_element(By.CLASS_NAME, "releasetime").text
    data.loc[i] = [titles, directors, scores]
    i += 1
    print(f"电影名称:{titles},导演:{directors},评分:{scores}")

将DataFrame导出为Excel文件:

output_path = '猫眼.xlsx'
data.to_excel(output_path, index=False)

关闭浏览器:

driver.quit()

通过以上代码,我们成功实现了使用Python爬取猫眼电影榜单数据的功能。

完整代码

在这里插入图片描述

import time

from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd

# 设置ChromeDriver的路径
driver_path = ''

# 创建Chrome浏览器实例
driver = webdriver.Chrome(driver_path)

# 打开目标网页
url = 'https://www.maoyan.com/board?timeStamp=1688716544141&sVersion=1&webdriver=false&index=3&signKey=44a722f975ab0b6750812bd0bf340b88&channelId=40011&requestCode=49793531118b4af79a95958d845ab0a7lgmud'
driver.get(url)
time.sleep(5)
# 使用XPath定位电影信息
info = driver.find_element(By.CLASS_NAME, "board-wrapper")
ddlist = info.find_elements(By.TAG_NAME, "dd")
# print(ddlist)
data = pd.DataFrame(columns=['电影名称', '导演', '评分'])
i = 0
for item in ddlist:
    # print(item)
    # 获取所有电影信息
    titles = item.find_element(By.CLASS_NAME, "board-item-main").find_element(By.CLASS_NAME, "name").text
    directors = item.find_element(By.CLASS_NAME, "star").text
    scores = item.find_element(By.CLASS_NAME, "releasetime").text
    data.loc[i] = [titles, directors, scores]
    i += 1
    print(f"titles{titles}, directors{directors} , scores{scores}")

# # 将DataFrame导出为Excel文件
output_path = '猫眼.xlsx'
data.to_excel(output_path, index=False)
#
# # 关闭浏览器
driver.quit()

分点说明

  1. import time:导入时间模块,用于添加延时等待。

  2. from selenium import webdriver:导入Selenium库中的webdriver模块,用于创建浏览器实例和自动化操作。

  3. from selenium.webdriver.common.by import By:导入Selenium库中的By模块,用于XPath定位元素。

  4. import pandas as pd:导入pandas库,用于处理和分析数据。

  5. driver_path = '':设置ChromeDriver的路径,填写你的ChromeDriver路径。

  6. driver = webdriver.Chrome(driver_path):创建一个Chrome浏览器实例。

  7. url = 'https://www.maoyan.com/board?timeStamp=1688716544141&sVersion=1&webdriver=false&index=3&signKey=44a722f975ab0b6750812bd0bf340b88&channelId=40011&requestCode=49793531118b4af79a95958d845ab0a7lgmud':目标网页的URL。

  8. driver.get(url):打开目标网页。

  9. time.sleep(5):等待5秒,确保页面加载完成。

  10. info = driver.find_element(By.CLASS_NAME, "board-wrapper"):使用By.CLASS_NAME通过class名称定位电影信息所在的元素。

  11. ddlist = info.find_elements(By.TAG_NAME, "dd"):使用By.TAG_NAME通过标签名称定位所有电影信息所在的元素。

  12. data = pd.DataFrame(columns=['电影名称', '导演', '评分']):创建一个空的DataFrame,用于存储电影数据,并指定列名。

  13. i = 0:设置索引变量i。

  14. for item in ddlist::遍历所有电影信息。

  15. titles = item.find_element(By.CLASS_NAME, "board-item-main").find_element(By.CLASS_NAME, "name").text:通过XPath定位电影名称,并使用.text获取文本内容。

  16. directors = item.find_element(By.CLASS_NAME, "star").text:通过XPath定位导演信息,并使用.text获取文本内容。

  17. scores = item.find_element(By.CLASS_NAME, "releasetime").text:通过XPath定位评分信息,并使用.text获取文本内容。

  18. data.loc[i] = [titles, directors, scores]:将电影名称、导演和评分添加到DataFrame中的一行。

  19. i += 1:索引自增1。

  20. print(f"titles{titles}, directors{directors} , scores{scores}"):打印每部电影的名称、导演和评分。

  21. output_path = '猫眼.xlsx':指定输出Excel文件的路径。

  22. data.to_excel(output_path, index=False):将DataFrame保存为Excel文件,不包含索引列。

  23. driver.quit():关闭浏览器。

完结

点赞加关注下个代码有帮助
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/729381.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度学习之目标检测Faster RCNN模型算法流程详解说明(超详细理论篇)

1.Faster RCNN论文背景 2. Faster-RCNN算法流程 &#xff08;1&#xff09;Fast-RCNN算法流程 &#xff08;2&#xff09;特征提取conv layers &#xff08;3&#xff09;Region Proposal Networks(RPN) &#xff08;4&#xff09;ROI Pooling作用 &#xff08;5&#xff09;Cl…

Spring定时器调度实现的原理

1、使用Spring定时器任务实现 package com.suyun.modules.vehicle.timetask;import com.alibaba.schedulerx.worker.domain.JobContext; import com.alibaba.schedulerx.worker.processor.JavaProcessor; import com.alibaba.schedulerx.worker.processor.ProcessResult; impo…

arm学习cortex-A7中断按键控制led灯亮灭

main.c #include "key.h" extern void printf(const char *fmt, ...); void delay_ms(int ms) {int i,j;for(i 0; i < ms;i)for (j 0; j < 1800; j); } int main() {//rcc初始化 RCC->MP_AHB4ENSETR | (0x3 << 4);//初始化按键GPIOF模式为输入模式…

cyclo(-D-Ala-Val),15136-27-3,可以通过肽筛选发现的多肽

&#xff08;文章资料汇总来源于&#xff1a;陕西新研博美生物科技有限公司小编MISSwu&#xff09;​ 为大家介绍&#xff08;CAS&#xff1a;15136-27-3&#xff09;,试剂仅用于科学研究&#xff0c;不可用于人类&#xff0c;非药用&#xff0c;非食用。 英文名称&#xff1a…

从刷题到解决问题再到研究创新

题记&#xff1a;死的知识学再多也没大用。 明明自觉学会了不少知识&#xff0c;可真正开始做题时&#xff0c;却还是出现了“一支笔&#xff0c;一双手&#xff0c;一道力扣&#xff08;Leetcode&#xff09;做一宿”的窘境&#xff1f;你是否也有过这样的经历&#xff0c;题…

移动端H5页面引入高德地图的一些问题记录

web端显示 移动端显示 移动端和web端显示的地图范围一样大&#xff0c;并且在移动端地图的zoom和web端一致 这个问题是在公司开发邀请函的时候碰到的&#xff0c;因为要在移动端显示的范围足够大&#xff0c;使用zoom并不能满足需求了&#xff0c;例如如下代码 amap new AMa…

Sqlserver 中nchar(n)、varchar(n)、nvarchar(n)和nvarchar(max)的区别

nchar(n): 固定大小字符串数据。 n 用于定义字符串大小&#xff08;以双字节为单位&#xff09;&#xff0c;并且它必须是 1 到 4,000 之间的值。 存储大小为 n 字节的两倍。 varchar(n): 长度为 n 个字节的可变长度且非 Unicode 的字符数据。n 必须是一个介于 1 和 8,000 之间…

解决Rstudio server is taking longer than usual.

经常用Rstudio server访问服务器&#xff0c;但长时间使用未清理缓存时出现了以下界面&#xff1a; 点任何一个键都无法解决&#xff0c;查询了一下原因是由于当使用RStudio Server处理占内存极大的数据后&#xff0c;长时间不清理内存&#xff0c;当再次打开rstudio&#xff0…

IPC-核间通讯

1. IPC通讯是AUTOSAR体系结构中的核心组成部分&#xff0c;它使得不同的软件组件可以相互通信、协同工作&#xff0c;从而实现整车系统的功能。IPC可以理解为核间通讯&#xff0c;就是一个芯片有多个核&#xff0c;现在想让多核之间通信&#xff0c;达到下面几个目的&#xff1…

Docker自学记录笔记

安装联系Docker命令 1. 搜索镜像 docker search nagin 2. 下载镜像 3. 启动nginx 强调文本 强调文本 加粗文本 加粗文本 标记文本 删除文本 引用文本 H2O is是液体。 210 运算结果是 1024. 插入链接与图片 链接: link. 图片: 带尺寸的图片: 居中的图片: 居中并…

初识win32

很多人都说windows编程凉了&#xff0c;实则不然&#xff0c;因为微软不倒&#xff0c;我们还在使用微软提供的winddows操作系统&#xff0c;windows编程就不会消亡&#xff0c;MFC也是一样&#xff0c;不可否认其他编程语言的方便&#xff0c;强大&#xff0c;但是windows编程…

深入理解linux物理内存

目录 物理内存热插拔 从 CPU 角度看物理内存架构 内核如何管理 NUMA 节点 NUMA 节点物理内存区域的划分 NUMA 节点的状态 node_states 物理内存区域中的水位线 物理内存区域中的冷热页 内核如何描述物理内存页 匿名页的反向映射 物理内存热插拔 物理热插拔阶段&#xff…

『赠书活动 | 第十四期』《Spring Cloud Alibaba核心技术与实战案例》

&#x1f497;wei_shuo的个人主页 &#x1f4ab;wei_shuo的学习社区 &#x1f310;Hello World &#xff01; 『赠书活动 &#xff5c; 第十四期』 本期书籍&#xff1a;《Spring Cloud Alibaba核心技术与实战案例》 公众号赠书&#xff1a;第五期 参与方式&#xff1a;关注公…

【Linux 驱动篇(四)】设备树

文章目录 一、什么是设备树二、DTS、 DTB 和 DTC三、DTS 语法1. .dtsi 头文件2. 设备节点3. 标准属性3.1 compatible 属性3.2 model 属性3.3 status 属性3.4 #address-cells 和#size-cells 属性3.5 reg 属性 ...... 一、什么是设备树 设备树(Device Tree)&#xff0c;将这个词分…

为什么不建议企业用薪资系统来跟踪项目时间?

身处在一个每分钟都很重要的世界里&#xff0c;企业必须勤于管理时间和工资。 虽然使用薪资系统进行时间跟踪似乎是一个实用的解决方案&#xff0c;但这种方法可能导致许多问题。 本文将讨论专用的时间跟踪软件对任何组织都必不可少的原因&#xff0c;以及依靠薪资系统进行时…

推特、微博对手Threads软件的下载、注册、使用最新超详细教程

经过马斯克不断折腾&#xff0c;推特面临用户大量流失的风险&#xff0c;尤其近期限制推文阅读量&#xff0c;更是导致大量用户出走。 于是乎&#xff0c;Meta公司7月6日正式发布对标推特的新社交平台 Threads&#xff0c;当前Threads只能在 iOS、Android 平台上安装 APP 使用&…

【JAVA】爱心代码--java特供(可直接复制,亲测有效)

个人主页&#xff1a;【&#x1f60a;个人主页】 文章目录 前言爱心的数学原理爱心代码基本版本带二种 前言 回看过去我发现我的第一篇博客竟然是一篇关于C语言爱心代码的博客&#xff08;真是个奇怪的开始&#xff09;&#xff0c;不过这么长时间过去了&#xff0c;我的编程语…

软件设计模式与体系结构-设计模式-行为型软件设计模式-策略模式

目录 四、策略模式类图代码实例使用策略模式对中国的十二属相&#xff08;Chinese Zodiac&#xff09;设计查询系统。策略模式与状态模式课程作业 四、策略模式 类图 代码 策略模式&#xff08;Strategy Pattern&#xff09;是一种行为型设计模式&#xff0c;它定义了一系列算…

【Django】Django框架使用指南

Django使用指南 作者简介&#xff1a;嗨~博主目前是长安大学软件工程专硕在读&#x1f4d8;&#xff0c;喜欢钻研一些自己感兴趣的计算机技术&#xff0c;求关注&#x1f609;&#xff01; 框架简介&#xff1a;Django是一个基于Python语言的开源Web应用框架&#xff0c;采用 M…

路径规划算法:基于学生心理学优化的路径规划算法- 附代码

路径规划算法&#xff1a;基于学生心理学优化的路径规划算法- 附代码 文章目录 路径规划算法&#xff1a;基于学生心理学优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要&#xff1a;本文主要介绍利用智能…