动态渲染页面爬取

news2024/11/25 5:00:15

我们可以直接使用模拟浏览器运行的方式来实现,这样就可以做到在浏览器中看到是什么样,抓取的源码就是什么样,也就是可见即可爬。这样我们就不用再去管网页内部的 JavaScript 用了什么算法渲染页面,不用管网页后台的 Ajax 接口到底有哪些参数。

要使用 selenium 必须先安装 chromedriver 驱动 驱动版本要和 chrome 版本一致:

  1. 首先禁止chorme 自动更新 host 文件配置 127.0.0.1 update.googleapis.com
  2. 下载一个历史版本的 chrome https://google-chrome.cn.uptodown.com/windows/download/1025823664
  3. 并下载对应的驱动 https://edgedl.me.gvt1.com/edgedl/chrome/chrome-for-testing/119.0.6045.105/win64/chromedriver-win64.zip # 119.0.6045.105 是可以修改成对应的版本号
  4. 这个可以拿到最新的驱动版本 https://blog.csdn.net/qq_42771102/article/details/142853514

Selenium介绍

Selenium 是一个强大的开源自动化测试工具,主要用于Web应用程序的测试。它支持多种浏览器(如Chrome, Firefox, Safari, Edge等)和操作系统(包括Windows, macOS, Linux等)。Selenium提供了一个名为WebDriver的API,允许开发者通过编写代码来控制浏览器行为,从而实现网页加载、表单填写、按钮点击等操作的自动化。

Selenium 主要用途:

  1. Web应用测试:Selenium最广泛的应用场景是用于自动化Web应用的功能测试。它可以模拟用户与网站或Web应用之间的交互过程,比如登录、导航到不同页面、提交表单等。
  2. 跨浏览器兼容性测试:由于Selenium支持多款主流浏览器,因此非常适合用来检查Web应用在不同浏览器环境下的表现是否一致。
  3. 持续集成(CI)环境:结合Jenkins、Travis CI等持续集成工具使用时,Selenium可以帮助团队自动运行测试用例,并及时反馈结果,提高软件开发效率。
  4. 爬虫技术:虽然不是其设计初衷,但有些人也会利用Selenium来进行网页数据抓取,特别是当目标网站采用了JavaScript渲染内容时,传统的HTTP请求方式可能无法获取完整信息。

Selenium 组件介绍:

  • Selenium WebDriver:这是目前最常用的组件之一,提供了丰富的接口供编程语言调用以操控浏览器。
  • Selenium IDE (Integrated Development Environment):一个浏览器插件形式存在的简易记录回放工具,适用于快速创建简单的测试脚本。
  • Selenium Grid:允许多台机器并行执行测试任务,提高了大规模测试的效率。
    总之,Selenium是一个非常灵活且功能强大的工具集,对于任何需要进行Web自动化的人来说都是不可或缺的好帮手。无论是专业的质量保证工程师还是希望提升工作效率的前端开发者,都可以从中受益。

打开浏览器

def open_browser():
    browser = webdriver.Chrome()
    try:
        browser.get('https://www.baidu.com')
        # 使用 find_element 方法和 By.ID
        input_box = browser.find_element(By.ID, 'kw')
        # 输入搜索内容
        input_box.send_keys('街拍')
        # 点击搜索按钮
        input_box.send_keys(Keys.ENTER)
        # 等待页面加载完成
        wait = WebDriverWait(browser, 10)
        wait.until(EC.presence_of_element_located((By.ID, 'content_left')))
        # 打印页面标题
        print(browser.current_url)  # 打印当前页面的 url
        print(browser.get_cookies())  # 打印 cookie
        print(browser.page_source)  # 打印页面源代码
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器

访问网页

def open_url():
    browser = webdriver.Chrome()
    try:
        browser.get('https://www.baidu.com')
        # 打印页面标题
        print(browser.title)  # 打印当前页面的标题
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器

查找节点

Selenium 可以驱动浏览器完成各 操作 ,比如填充表单、模拟点击等  Selenium 提供了 系列查找节点的方法,我们可以用这些方法来获取想要的节点,以便下一步执行一些动作或者提取信息

# find_element_by_id 方法可以根据 id 属性来查找节点

# find_element_by_name 方法可以根据 name 属性来查找节点

# find_element_by_xpath 方法可以根据 xpath 表达式来查找节点

# find_element_by_link_text 方法可以根据链接文本来查找节点

# find_element_by_partial_link_text 方法可以根据部分链接文本来查找节点

# find_element_by_tag_name 方法可以根据标签名来查找节点

# find_element_by_class_name 方法可以根据类名来查找节点

# find_element_by_css_selector 方法可以根据 CSS 选择器来查找节点
def find_element():
    browser = webdriver.Chrome()
    try:
        browser.get('https://www.xiaohongshu.com/user/profile/5768f3576a6a6977158b1e24?xsec_token=&xsec_source=pc_search')
        # 使用class name 查找头像框
        avatar = browser.find_element(By.CLASS_NAME,'avatar-wrapper')
        # 查找里面的<img>标签
        img = avatar.find_element(By.TAG_NAME,'img')
        # 获取图片的src属性
        print(img.get_attribute('src'))
        # 将图片保存到本地
        img.screenshot('avatar.png')
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器

查找多个节点

def find_elements():
    browser = webdriver.Chrome()
    try:
        browser.get('https://www.xiaohongshu.com/user/profile/5768f3576a6a6977158b1e24?xsec_token=&xsec_source=pc_search')
        # 使用class name 查找所有标签
        channels = browser.find_elements(By.TAG_NAME,'channel')
        for channel in channels:
            # 获取每个标签的文本内容
            print(channel.text)
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器
        ## 等待元素加载完成

动作链

def action_chains():
    browser = webdriver.Chrome()
    try:
        browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
        browser.switch_to.frame('iframeResult')
        source = browser.find_element(By.CLASS_NAME,'ui-draggable')
        target =  browser.find_element(By.CLASS_NAME,'ui-droppable')
        actions = ActionChains(browser)
        actions.drag_and_drop(source, target)
        actions.perform()
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器

执行某些 JavaScript 代码

def execute_js():
    browser = webdriver.Chrome()
    try:
        browser.get('https://www.zhihu.com/explore')
        browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
        browser.execute_script('alert("To Bottom")')
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器

#获取节点信息
#get_attribute 方法可以获取节点的属性值
# print(input.id)
#print(input.text)
#print(input.location)
#print(input.tag_name)
#print(input.size)
#调用其 id、location、tag_name、size 属性来获取对应的属性值。

其他的操作

切换Frame
切换到指定的Frame,可以使用 switch_to.frame 方法,参数可以是 frame 元素的 id、name、索引、WebElement 对象。
def switch_frame():
browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
try:
logo = browser.find_elements(By.CLASS_NAME,'logo')
except NoSuchElementException:
print('NO LOGO')
browser.switch_to.parent_frame()
logo = browser.find_elements(By.CLASS_NAME,'logo')
print(logo)
input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
browser.quit()  # 确保在最后关闭浏览器

前进和后退
前进和后退操作可以使用 back 和 forward 方法,前进和后退到历史记录中的某一页。
def forward_back():
browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.python.org/')
browser.back()
time.sleep(1)
browser.forward()
browser.close()

Cookies
可以使用 add_cookie 方法添加 cookie,并使用 get_cookies 方法获取所有 cookie。
def cookies():
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})
print(browser.get_cookies())
browser.delete_all_cookies()
print(browser.get_cookies())

选项卡管理
可以使用 window_handles 方法获取所有选项卡的句柄,并使用 switch_to.window 方法切换到指定选项卡。
def tab_management():
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles)
browser.switch_to.window(browser.window_handles[1])  # 切换到第二个选项卡
browser.get('https://www.taobao.com')
time.sleep(1)
browser.switch_to.window(browser.window_handles[0])  # 切换到第一个选项卡
browser.get('https://python.org')

tab_management()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2247079.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

InstantStyle容器构建指南

一、介绍 InstantStyle 是一个由小红书的 InstantX 团队开发并推出的图像风格迁移框架&#xff0c;它专注于解决图像生成中的风格化问题&#xff0c;旨在生成与参考图像风格一致的图像。以下是关于 InstantStyle 的详细介绍&#xff1a; 1.技术特点 风格与内容的有效分离 &a…

使用EFK收集k8s日志

首先我们使用EFK收集Kubernetes集群中的日志&#xff0c;本次实验讲解的是在Kubernetes集群中启动一个Elasticsearch集群&#xff0c;如果企业内已经有了Elasticsearch集群&#xff0c;可以直接将日志输出至已有的Elasticsearch集群。 文章目录 部署elasticsearch创建Kibana创建…

Rust 力扣 - 2266. 统计打字方案数

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 这题可以先求按了多少次相同连续的按钮&#xff0c;所有的连续相同按钮表示的方案数的乘积就是本题答案 我们的关键问题就转换成了按n个连续相同按钮表示的方案数 设f(i)表示按i个连续相同按钮表示的方案数 如…

[Redis#0] iredis: linux上redis超好用的环境配置

目录 Features 特征 Install 安装 Pip Brew Linux的 Download Binary 下载 Binary Usage 用法 Using DSN 使用 DSN Change The Default Prompt更改默认提示 Configuration 配置 Keys Development 发展 Release Strategy 发布策略 Setup Environment 设置环境 De…

flutter 专题十七 Flutter Flar动画实战

Flutter Flar动画实战 在Flare动面出现之前&#xff0c;Flare动画大体可以分为使用AnimationController控制的基础动画以及使用Hero的转场动画&#xff0c;如果遇到一些复杂的场景&#xff0c;使用这些动画方案实现起来还是有难度的。不过&#xff0c;随着Flutter开始支持Flar…

Wekan看板安装部署与使用介绍

Wekan看板安装部署与使用介绍 1. Wekan简介 ​ Wekan 是一个开源的看板式项目管理工具&#xff0c;它的配置相对简单&#xff0c;因为大多数功能都是开箱即用的。它允许用户以卡片的形式组织和跟踪任务&#xff0c;非常适合敏捷开发和日常任务管理。Wekan 的核心功能包括看板…

使用ENSP实现静态路由

一、双路由器静态路由 1.项目拓扑 2.项目实现 (1)路由器AR1配置 进入系统试图 sys将路由器命名为R1 sysname R1进入g0/0/0接口 int g0/0/0将g0/0/0接口IP地址配置为1.1.1.1/24 ip address 1.1.1.1 24进入g0/0/1接口 int g0/0/1将g0/0/1接口IP地址配置为192.168.1.1/24 ip ad…

3、集线器、交换机、路由器、ip的关系。

集线器、交换机、路由器三者的关系 1、集线器2、交换机&#xff08;每个交换机是不同的广播域&#xff0c;ip地址起到划分广播域的作用&#xff09;3、 路由器4、ip地址 1、集线器 一开始两台电脑通信就需要网线就可以&#xff0c;但是三台或者更多主机通信时&#xff0c;就需…

[Unity Demo]从零开始制作空洞骑士Hollow Knight第二十二集:制作游戏的对话系统

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、制作游戏的对话系统 1.通过转移点的门讲解制作对话系统2.以游戏的石碑为例制作确认能力界面总结 前言 hello大家好久没见&#xff0c;之所以隔了这么久…

ChatGPT 桌面版发布了,如何安装?

本章教程教大家如何进行安装。 一、下载安装包 官网地址地址&#xff1a;https://openai.com/chatgpt/desktop/ 支持Windows和MacOS操作系统 二、安装步骤 Windows用户下载之后&#xff0c;会有一个exe安装包&#xff0c;点击运行安装即可。 注意事项&#xff0c;如果Windows操…

Excel求和如何过滤错误值

一、问题的提出 平时&#xff0c;我们在使用Excel时&#xff0c;最常用的功能就是求和了&#xff0c;一说到求和你可能想到用sum函数&#xff0c;但是如果sum的求和区域有#value #Div等错误值怎么办&#xff1f;如下图&#xff0c;记算C列中工资的总和。 直接用肯定会报错&…

librdns一个开源DNS解析库

原文地址&#xff1a;librdns一个开源DNS解析库 – 无敌牛 欢迎参观我的个人博客&#xff1a;无敌牛 – 技术/著作/典籍/分享等 介绍 librdns是一个开源的异步多功能插件式的解析器&#xff0c;用于DNS解析。 源代码地址&#xff1a;GitHub - vstakhov/librdns: Asynchrono…

成都睿明智科技有限公司怎么样可靠不?

在这个日新月异的数字时代&#xff0c;电商行业如同一股不可阻挡的洪流&#xff0c;席卷着每一个消费者的生活。而抖音&#xff0c;作为短视频与电商完美融合的典范&#xff0c;更是为无数商家开辟了一片全新的蓝海。在这片充满机遇与挑战的海洋中&#xff0c;成都睿明智科技有…

栈的应用,力扣394.字符串解码力扣946.验证栈序列力扣429.N叉树的层序遍历力扣103.二叉树的锯齿形层序遍历

目录 力扣394.字符串解码 力扣946.验证栈序列 力扣429.N叉树的层序遍历 力扣103.二叉树的锯齿形层序遍历 力扣394.字符串解码 看见括号&#xff0c;由内而外&#xff0c;转向用栈解决。使用两个栈处理&#xff0c;一个用String,一个用Integer 遇到数字:提取数字放入到数字栈…

Vue3移动端-点餐项目

目录 一、项目构建 1、使用了vite构建vue3项目&#xff0c;其中支持如下图 2、其余路由配置、axios封装、组件封装 都与 后台管理系统 方式一致 二、Vant组件引入 1、安装 &#xff08;vue3使用vant4&#xff09;Vant官方文档 2、全局引入main.ts/js 3、如果是基于 Vite 的…

分词器的概念(通俗易懂版)

什么是分词器&#xff1f;分词器&#xff08;Tokenizer&#xff09;是自然语言处理&#xff08;NLP&#xff09;中的一个关键组件&#xff0c;它的主要功能是将文本数据分解成更小的单元&#xff0c;这些单元可以是单词、子词&#xff08;subword&#xff09;、字符或其他有意义…

【JavaEE进阶】 JavaScript

本节⽬标 了解什么是JavaScript, 学习JavaScript的常⻅操作, 以及使⽤JQuery完成简单的⻚⾯元素操作. 一. 初识 JavaScript 1.JavaScript 是什么 JavaScript (简称 JS), 是⼀个脚本语⾔, 解释型或即时编译型的编程语⾔. 虽然它是作为开发Web⻚⾯的脚本语⾔⽽出名&#xff0c;…

浮点数的表示—IEEE754标准

浮点数的表示—IEEE754标准 引言 我们知道&#xff0c;在计算机中&#xff0c;数字以0和1组成的二进制序列来表示。但是&#xff0c;对于非常大的数字以及非常接近0的数字&#xff0c;简单的存储方式往往会造成精度的丢失。 为了解决这个问题&#xff0c;提供更高效的浮点数…

uniapp vue2项目迁移vue3项目

uniapp vue2项目迁移vue3项目&#xff0c;必须适配的部分 一、main.js 创建应用实例 // 之前 - Vue 2 import Vue from vue import App from ./App Vue.config.productionTip false // vue3 不再需要 App.mpType app // vue3 不再需要 const app new Vue({ ...App }) …

计算机网络(14)ip地址超详解

先看图&#xff1a; 注意看第三列蓝色标注的点不会改变&#xff0c;A类地址第一个比特只会是0&#xff0c;B类是10&#xff0c;C类是110&#xff0c;D类是1110&#xff0c;E类是1111. IPv4地址根据其用途和网络规模的不同&#xff0c;分为五个主要类别&#xff08;A、B、C、D、…