Selenium与Web Scraping:自动化获取电影名称和评分的实战指南

news2024/11/15 15:26:36

亿牛云爬虫代理.png

背景/引言

在信息化高度发展的今天,获取数据的能力变得尤为重要。通过 Web Scraping,我们可以从动态网页中提取有价值的信息,例如在豆瓣电影中获取电影名称和评分。然而,随着网站反爬虫措施的不断增强,传统的抓取技术已不再奏效。Selenium 作为一个强大的网页自动化工具,可以模拟用户操作,帮助我们实现更复杂和更可靠的数据抓取。
本文将带您深入了解如何利用 Selenium 实现自动化获取豆瓣电影中的电影名称和评分,并展示如何通过代理 IP、User-Agent 和 Cookie 技术来提升爬虫的隐蔽性和稳定性。

正文
1. Selenium 简介与基本设置

Selenium 是一个用于自动化浏览器操作的开源工具,能够控制浏览器执行点击、输入、滚动等操作,非常适合处理动态加载的网页。为了确保在抓取豆瓣电影数据时不被识别为爬虫,我们将使用代理 IP、设置 User-Agent 和 Cookie 来伪装请求。

2. 代理 IP 的设置

使用代理 IP 是为了防止被目标网站限制。这里我们使用亿牛云爬虫代理的域名和端口,并提供用户名和密码进行认证。

3. User-Agent 和 Cookie 的设置

通过设置 User-Agent,可以让服务器认为请求来自某个特定的浏览器版本,而不是自动化脚本。Cookie 的使用可以保持登录状态或模拟用户的会话,以获取需要的数据。

4. 代码实现

以下是使用 Selenium 实现自动化抓取豆瓣电影中电影名称和评分的完整示例代码。代码中已加入代理 IP、User-Agent 和 Cookie 的设置。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# 设置代理IP相关信息 亿牛云爬虫代理 www.16yun.cn
proxy_host = "proxy.16yun.cn"  # 代理服务器
proxy_port = "3100"  # 代理端口
proxy_username = "你的用户名"
proxy_password = "你的密码"

# 配置 ChromeOptions
chrome_options = Options()
chrome_options.add_argument("--proxy-server=http://%s:%s@%s:%s" % (proxy_username, proxy_password, proxy_host, proxy_port))

# 设置 User-Agent 和禁用浏览器检测功能
chrome_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36")
chrome_options.add_argument("--disable-blink-features=AutomationControlled")
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument("--headless")  # 如果你希望无界面运行
chrome_options.add_argument("--no-sandbox")

# 设置 Cookies(这里假设你已经有一些 Cookie)
cookies = {
    "name": "your_cookie_name",
    "value": "your_cookie_value",
    "domain": "douban.com"
}

# 启动 WebDriver
service = Service(executable_path="你的ChromeDriver路径")
driver = webdriver.Chrome(service=service, options=chrome_options)

# 打开目标网页
driver.get("https://movie.douban.com")

# 添加 Cookie
driver.add_cookie(cookies)

# 刷新页面以使 Cookies 生效
driver.refresh()

try:
    # 等待页面元素加载
    wait = WebDriverWait(driver, 10)
    movie_name_elements = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//div[@class='title']")))
    rating_elements = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//span[@class='rating_num']")))

    # 提取电影名称和评分
    movie_names = [element.text for element in movie_name_elements]
    ratings = [element.text for element in rating_elements]

    # 打印结果
    for name, rating in zip(movie_names, ratings):
        print(f"电影名称: {name}, 评分: {rating}")

finally:
    # 关闭 WebDriver
    driver.quit()
实例

假设我们需要抓取豆瓣电影中的电影名称和评分,以上代码展示了如何利用 Selenium 配置代理 IP、设置 User-Agent 和 Cookie 来实现这一目标。通过代理IP提高成功率,设置合适的 User-Agent 伪装请求,以及使用 Cookie 保持登录状态,我们能够有效地应对网站的反爬虫措施,获取所需的数据。

结论

Selenium 是一个功能强大的网页自动化工具,尤其在处理复杂的动态网页时表现出色。通过结合代理 IP、User-Agent 和 Cookie 等技术,我们可以更有效地进行 Web Scraping,获取需要的网络数据。本文提供的代码示例展示了如何抓取豆瓣电影中的电影名称和评分,您可以根据实际需求对其进行扩展和优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2067129.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

001-springcloud-base工程创建

文章目录 前言SpringCloud与SpringBoot 对应版本SpringCloud与SpringCloudAlibaba对应版本官方文档 1 新建Project和Maven父工程1.1 Maven父工程步骤1.1.1 New Project1.1.2 聚合总父工程名字1.1.3 字符编码1.1.4 注解生效激活1.1.5 java编译版本选择JDK17 1.2 父工程POM文件1.…

ViT笔记学习

1.VIT ViT原理讲解 ViT结合代码 1.3 ViT模型架构 我们先结合下面的动图来粗略地分析一下ViT的工作流程,如下: 将一张图片分成patches将patches铺平将铺平后的patches的线性映射到更低维的空间添加位置embedding编码信息将图像序列数据送入标准Transfor…

Lagent 自定义你的 Agent 智能体

环境配置 开发机选择 30% A100,镜像选择为 Cuda12.2-conda。 首先来为 Lagent 配置一个可用的环境。 # 创建环境 conda create -n agent_camp3 python3.10 -y # 激活环境 conda activate agent_camp3 # 安装 torch conda install pytorch2.1.2 torchvision0.16.2 …

迷雾大陆辅助:VMOS云手机助力新手入门!玩法机制大全!

在《迷雾大陆》的神秘世界中,玩家们总是面临着层层挑战,而使用VMOS云手机能够极大地提升你的游戏体验。VMOS云手机专门为《迷雾大陆》打造了定制版云手机,内置游戏安装包,玩家无需重新下载安装,直接畅玩。此外&#xf…

【labview美化】

1.关闭前面板按钮,只会关闭运行状态而不是关闭面板界面 修改前面板vi的界面,以及自定义 可调前面板运行时大小 添加一个时间进去,左上角每200ms进入一次超时分支,1是获取计算机当前时间,2是设置时间的显示格式

高性能计算应用优化之运行参数优化

程序运行时系统的各项配置一般是按照普适性原则,尽可能满足大多数场景下的需求,并未针对特定场景进行优化,这虽然能够提高环境的通用性,但限制了性能提高的空间。运行时参数可以根据用户的需求来调整程序的运行方式和资源分配&…

Java 4.2 - MySQL

MySQL 基础 关系型数据库 关系型数据库就是建立在关系模型上的数据库。关系模型描述了实体属性以及实体和实体之间的关系。 在关系型数据库中,我们的数据都被存放在了各种表中(比如用户表),表中的每一行存放着一条数据。 常见…

QCheckBox 全部取消选中

当我有很多 QCheckBox 被选中后&#xff0c;如何批量全部取消勾选呐&#xff1f; 方法一&#xff1a;findChildren函数方法二&#xff1a;foreach循环效果展示&#xff1a; 方法一&#xff1a;findChildren函数 // 遍历所有 QCheckBox 并取消选中QList<QCheckBox*> check…

新冠期间,Raspberry Pi 400 在肯尼亚为2500名学生提供在线学习机会

学生需要设备进行远程学习&#xff0c;Raspberry Pi 400为他们提供了在线学习的机会。 当疫情来袭时&#xff0c;接受前线重要岗位培训的护理和助产专业学生不得不改用远程教学来完成部分学业&#xff0c;但许多人家里没有设备&#xff0c;无法访问在线资料。Wisenet 伸出援手&…

全面解读AI大模型:一文带你看懂发展脉络与未来走向!

引言 近年来&#xff0c;随着深度学习技术的迅猛发展&#xff0c;AI大模型已经成为人工智能领域的重要研究方向和热点话题。AI大模型&#xff0c;指的是拥有巨大参数规模和强大学习能力的神经网络模型&#xff0c;如BERT、GPT等&#xff0c;这些模型在自然语言处理、计算机视觉…

小区物业维修管理系统/小区居民报修系统

摘要 小区物业维修是物业公司的核心&#xff0c;是必不可少的一个部分。在物业公司的整个服务行业中&#xff0c;业主担负着最重要的角色。为满足如今日益复杂的管理需求&#xff0c;各类小区物业维修管理系统也在不断改进。本课题所设计的小区物业维修管理系统&#xff0c;使用…

SD-WAN企业组网解决方案能解决企业的哪些问题?

SD-WAN企业组网解决方案在现代企业网络建设中具有重要意义&#xff0c;能够有效解决企业面临的多项挑战&#xff0c;下文将对此进行详细描述&#xff1a; 首先&#xff0c;SD-WAN技术在节省企业网络建设和运维成本方面表现突出。相比传统网络架构依赖大量专线和昂贵设备的方式&…

ACM模式下算法题输入输出攻略【C++】

文章目录 [TOC] 1. 核心代码模式与ACM模式1.1 ACM模式介绍1.2 注意事项 2. C常用的输入输出方法2.1 输入2.1.1 cin注意事项2.1.2 getline()注意事项2.1.3 getchar()注意事项 2.2 输出 3. 案例3.1 一维数组输入3.1.1 固定长度的一维数组3.1.2 不固定长度的一维数组 3.2 二维数组…

Java学习_19_方法引用及异常

文章目录 前言一、方法引用方法引用实例引用静态方法引用成员方法引用构造方法使用类名引用成员方法引用数组的构造方法综合练习 二、异常异常是什么异常的作用处理方案默认异常捕获异常 异常对象的常用方法抛出异常 总结 前言 博客仅记录个人学习进度和一些查缺补漏。 学习内…

使用ckplayer控制视频播放

目录 1、加载视频流 1.1、html模块 1.2、js模块 2、其他功能 2.1、缩放窗口 2.2、旋转窗口 2.3、卸载播放器 2.4、监听播放时间进度 2.5、定位播放 3、初始化属性说明 4、使用功能一览 ckplayer是一款在网页上播放视频的软件&#xff0c;基于javascript和css&#xf…

黑神话:悟空!爆了很多猴头! 借力,借智,借势(深度好文)——早读(逆天打工人爬取热门微信文章解读)

黑神话&#xff1a;悟空 怎么这么多猴头呢&#xff1f; 引言Python 代码第一篇 洞见 借力&#xff0c;借智&#xff0c;借势&#xff08;深度好文&#xff09;第二篇 股市风云结尾 引言 天哪 我昨天忘记发了 原因有二 一是比较忙 大家明白那种 3000块工资干2W的活的感觉吧 一开…

PyTorch使用------模型的定义和保存方法(带你讯速掌握构建线性回归,保存模型的方法!!!)

&#x1f43b; PyTorch使用合集&#xff1a; PyTorch使用------张量的创建和数值计算-CSDN博客 PyTorch使用------张量的类型转换&#xff0c;拼接操作&#xff0c;索引操作&#xff0c;形状操作-CSDN博客 目录 &#x1f354; 模型定义方法 &#x1f498; 使用PyTorch构建线性…

RISC-V vector(1) --- vector的引入与register说明

Vector相较于SIMD的优势 这两种实现方案&#xff0c;都是为了实现数据级并行性&#xff08;存在大量的数据可供程序同时计算&#xff09;&#xff1b; SIMD&#xff08;Single Instruction Multiple Data&#xff09; SIMD是将数据宽度和操作类型&#xff0c;都放在了指令中&a…

网络初识部分

1.网络 单机时代-局域网时代-广域网时代-移动互联网时代 局域网时代&#xff1a;通过路由器把几个电脑连接起来。 广域网时代&#xff1a;把更多的局域网连接到一起&#xff0c;构成的网络更庞大&#xff0c;可能已经覆盖了一个城市/国家/全世界。 2.什么是路由器&#xff…

关于武汉芯景科技有限公司的多协议收发芯片XJ526(第二篇RS422模式)开发指南(兼容SP526)

一、设置芯片为RS422模式 SP526 包含高度集成的串行收发器。SP526 提供 RS-232 &#xff08;V.28&#xff09;、RS-423 &#xff08;V.10&#xff09;、RS-422 &#xff08;V.11&#xff09; 和 RS-485 的硬件接口模式。接口模式选择通过两个控制引脚D0、D1完成。 我们将D0接…