第七步:简单爬虫与网页测试

news2025/3/10 18:20:07

Puppeteer

官方文档:https://puppeteer.bootcss.com/

1、安装

  • puppeteer是一个node插件
  • 安装命令:npm i puppeteer

2、概念

  • 无头浏览器:就是不打开浏览器的页面,直接进行浏览器后台操作

3、入门

  1. 引入:import puppeteer from "puppeteer"
  2. 创建浏览器:const browser = await puppeteer.launch([options])
  3. 创建新页面:const page = await browser.newPage()
  4. 然后就可以使用page进行页面的相关操作了
  5. 操作完成后就可以关闭:await browser.close()

4、puppeteer

  • puppeteer.launch([options]):打开一个浏览器,异步成功返回一个browser浏览器操作对象
    • headless:是否开启无头浏览器,默认true
    • defaultViewpord<object>: 为每个页面设置一个默认视图窗口大小,默认800*600
      • width:页面宽度
      • height:页面高度
      • deviceScaleFactor:dpr,默认为1
      • null:设置为null就禁用视图窗口
    • args<array>:给浏览器实例传递的其他参数
      • “–window-size=1920,1080”:将窗口调整为1920*1080

5、browser

  • browser.newPage():异步成功返回一个page页面操作对象
  • browser.close():异步关闭浏览器
  • browser.pages():异步返回打开的所有页面操作对象列表

6、page

  • page.goto(url, [options]):异步进入url地址的页面
    • timeout:跳转等待时间,默认30秒,30秒内没有打开页面就判断跳转失败
    • waitUntil:满足什么条件认为页面跳转完成,默认load
      • load:页面加载时触发
      • domcontentloaded:页面加载完成触发
      • networkidle0:页面不再有网络连接时触发
      • networkidle2:只有两个网络连接时触发
    • referer:设置请求头的referer,用来欺骗服务器的防盗链拦截
  • page.goBack([options]):操控页面后退路由,参数同上
  • page.goForward[options]:操控页面前进路由,参数同上
  • page.close():关闭当前页面
  • page.isClosed():返回页面是否被关闭
  • page.cookies():异步返回当前页面的cookie
  • page.screenshot(options):对页面进行截图
    • path:截图本地保存路径
    • fullpage:是否截取整个网站(就是下拉才能看清全部的真个),默认false
  • page.pdf(options):对页面保存为pdf
    • path:pdf本地保存路径
    • format:保存格式 可选值 - [“A4”]
  • page.evaluate(fn, [...args]):异步获取 在浏览器的控制台注入代码,代码执行后的结果
    • fn:在控制台运行的函数
      • 就相当于在浏览器的控制台执行JS脚本语言
      • 获取的结果可以用return返回结果
      • 注意,这个函数已经完全进入到浏览器控制台的作用域
    • args:给fn传递的参数
  • page.addScriptTag(options):异步 给网页注入JS代码
    • url:script标签的src属性值
    • path:注入的JS代码本地文件路径
    • content:以字符串的形式 注入的css代码内容
    • type:脚本引入类型 - [module]
  • page.addStyleTag(options):异步 给网页注入css代码
    • url:link标签的href属性值
    • path:注入的css代码本地文件路径
    • content:以字符串的形式 注入的css代码
  • page.waitForSelector(selector, [options]):异步等待页面某个元素加载完成
    • selector:元素css选择器
    • options:
      • visible:等待元素在dom中可见
      • hidden:等待元素在页面中消失
      • timeout:等待时间
  • page.waitForRequest(url, [options])
    • url:等待的请求地址
    • options:
      • timeout:等待时间
  • page.setCacheEnabled(false):设置请求缓存状态,默认启动缓存
  • page.select(selector):异步获取页面元素
  • page.click(selector, [options]):异步点击页面元素
    • selector:元素css选择器
    • options:
      • button:鼠标按键,默认left,值可为-[left, right, middle]
      • clickCount:点击次数
      • delay:鼠标按下和弹起之间的间隔时间,单位毫秒,默认为0
  • page.hover(selector):异步鼠标悬浮到某个元素
  • page.type(selector, text, [options]):异步在输入框输入内容
    • selector:元素css选择器
    • text:输入的内容
    • options:
      • dalay:每个字符输入的延迟,单位毫秒,默认0
  • page.focus(selector):异步聚焦到某个元素
  • page.keyboard.type(text):异步使用虚拟键盘模拟输入
  • page.keyboard.down(key):异步使用虚拟键盘模拟key键按下
  • page.keyboard.press(key):异步使用虚拟键盘模拟key键敲击
  • page.keyboard.up(key):异步使用虚拟键盘模拟key键弹起
  • page.mouse.click(x, y, [options]):异步使用虚拟鼠标模拟点击
    • x:x轴位置
    • y:y轴位置
    • options:
      • button:鼠标按键 - [left, right, middle]
      • clickCount:点击次数
      • delay:鼠标按下和弹起时间间隔
  • page.mouse.down(options):异步使用虚拟鼠标模拟按下,参数同上
  • page.mouse.up(options):异步使用虚拟鼠标模拟弹起,参数同上
  • page.mouse.move(x, y, [options]):异步使用鼠标模拟移动
    • x:移动到x轴位置
    • y:移动到y轴位置
    • options:
      • steps:每次移动的步长:默认为1,就意味着鼠标光标从原来位置到(x, y)位置之间闪现过去了。
  • page.touchscreen(x, y):异步模拟触摸

7、绕过拦截

  • 隐身插件:puppeteer-extrapuppeteer-extra-plugin-stralth

  • 使用:

    import puppeteer from "puppeteer-extra";
    import pluginStealth from "puppeteer-extra-plugin-stralth";
    puppeteer.use(pluginStealth()); // 像express使用中间件那样
    // ......
    

8、警告

本文档仅用于开发页面的爬虫测试,请不要使用本文档的内容做非法事情,谢谢。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2312826.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Golang学习笔记_44——命令模式

Golang学习笔记_41——观察者模式 Golang学习笔记_42——迭代器模式 Golang学习笔记_43——责任链模式 文章目录 一、核心概念1. 定义2. 解决的问题3. 核心角色4. 类图 二、特点分析三、适用场景1. 事务管理系统2. 多媒体遥控器3. 操作审计系统 四、Go语言实现示例五、高级应用…

【单片机通信技术】STM32 HAL库 SPI主从机通过串口发送数据

一、说明 使用STM32F103C8T6最小系统板&#xff0c;让板载SPI1与SPI2通信&#xff0c;通过串口收发数据。本文章说明了在配置与编写时遇到的一些问题&#xff0c;以及详细说明如何使用cubeMAX进行代码编写。 二、CubeMAX配置 1.时钟配置选择外部高速时钟 2.系统模式与时钟配…

laravel中 添加公共/通用 方法/函数

一&#xff0c;现在app 下面创建Common目录&#xff0c;然后在创建Common.php 文件 二&#xff0c;修改composer.json文件 添加这个到autoload 中 "files": ["app/Common/Common.php"]"autoload": {"psr-4": {"App\\": &quo…

Jetpack Compose — 入门实践

一、项目中使用 Jetpack Compose 从此节开始,为方便起见,如无特殊说明,Compose 均指代 Jetpack Compose。 开发工具: Android Studio 1.1 创建支持 Compose 新应用 新版 Android Studio 默认创建新项目即为 Compose 项目。 注意:在 Language 下拉菜单中,Kotlin 是唯一可…

P8686 [蓝桥杯 2019 省 A] 修改数组--并查集 or Set--lower_bound()的解法!!!

P8686 [蓝桥杯 2019 省 A] 修改数组--并查集 题目 并查集解析代码【并查集解】 Set 解法解析lower_bound代码 题目 并查集解析 首先先让所有的f&#xff08;i&#xff09;i&#xff0c;即每个人最开始的祖先都是自己&#xff0c;然后就每一次都让轮到那个数的父亲1&#xff08…

应用案例 | 精准控制,高效运行—宏集智能控制系统助力SCARA机器人极致性能

概述 随着工业4.0的深入推进&#xff0c;制造业对自动化和智能化的需求日益增长。传统生产线面临空间不足、效率低下、灵活性差等问题&#xff0c;尤其在现有工厂改造项目中&#xff0c;如何在有限空间内实现高效自动化成为一大挑战。 此次项目的客户需要在现有工厂基础上进行…

Greenplum6.19集群搭建

一&#xff0c;安装说明 1.1环境说明 1、首先确定部署的环境&#xff0c;确定下服务器的端口&#xff0c;一般默认是22的端口&#xff1b; 2、当前这份文档是服务器处于10022端口下部署的&#xff08;现场生产环境要求&#xff0c;22端口在生产环境存在安全隐患&#xff09;&…

胜软科技冲刺北交所一年多转港股:由盈转亏,毛利率大幅下滑

《港湾商业观察》施子夫 近期&#xff0c;山东胜软科技股份有限公司&#xff08;以下简称&#xff0c;胜软科技&#xff09;递表港交所获受理&#xff0c;独家保荐机构为广发证券&#xff08;香港&#xff09;。 在赴港上市之前&#xff0c;胜软科技还曾谋求过A股上市&#x…

Java零基础入门笔记:多线程

前言 本笔记是学习狂神的java教程&#xff0c;建议配合视频&#xff0c;学习体验更佳。 【狂神说Java】Java零基础学习视频通俗易懂_哔哩哔哩_bilibili 第1-2章&#xff1a;Java零基础入门笔记&#xff1a;(1-2)入门&#xff08;简介、基础知识&#xff09;-CSDN博客 第3章…

数据类设计_图片类设计之1_矩阵类设计(前端架构基础)

前言 学的东西多了,要想办法用出来.C和C是偏向底层的语言,直接与数据打交道.尝试做一些和数据方面相关的内容 引入 图形在底层是怎么表示的,用C来表示 认识图片 图片是个风景,动物,还是其他内容,人是可以看出来的.那么计算机是怎么看懂的呢?在有自主意识的人工智能被设计出来…

C++:入门详解(关于C与C++基本差别)

目录 一.C的第一个程序 二.命名空间&#xff08;namespace&#xff09; 1.命名空间的定义与使用&#xff1a; &#xff08;1&#xff09;命名空间里可以定义变量&#xff0c;函数&#xff0c;结构体等多种类型 &#xff08;2&#xff09;命名空间调用&#xff08;&#xf…

linux下 jq 截取json文件信息

背景&#xff1a;通过‘登录名‘ 获取该对象的其他个人信息如名字。 环境准备&#xff1a;麒麟操作系统V10 jq安装包 jq安装包获取方式&#xff1a;yum install jq 或 使用附件中的rpm 或 git自行下载 https://github.com/stedolan/jq/releases/download/ 实现过程介绍&am…

软件工程:软件需求之需求分析方法

目录 前言 需求分析方法 工具和方法 具体分析方法 对运行环境的影响 ​编辑 前言 本文重点介绍开展软件需求分析的方法。 需求分析方法 工具和方法 软件需求可以维护在ALM系统中&#xff0c;譬如&#xff1a;doors&#xff0c;codeBeamer等&#xff0c;JIRA适合互联网行…

【网络编程】WSAAsyncSelect 模型

十、基于I/O模型的网络开发 接着上次的博客继续分享&#xff1a;select模型 10.8 异步选择模型WSAAsyncSelect 10.8.1 基本概念 WSAAsyncSelect模型是Windows socket的一个异步I/O 模型&#xff0c;利用这个模型&#xff0c;应用程序 可在一个套接字上接收以Windows 消息为基…

视觉-语言模型-出发点CLIP--(精读论文)

阅读建议&#xff1a;配合这个源码分析阅读效果更加 研究背景和目的 介绍当前计算机视觉系统依赖固定类别标签训练的局限性&#xff0c;以及自然语言监督作为一种有潜力替代方式的研究现状。强调论文旨在探索从自然语言监督中学习可迁移视觉模型&#xff0c;实现零样本学习&a…

任务11:路由器配置与静态路由配置

目录 一、概念 二、路由器配置 三、配置静态路由CSDN 原创主页&#xff1a;不羁https://blog.csdn.net/2303_76492156?typeblog 一、概念 1、路由器的作用&#xff1a;通过路由表进行数据的转发。 2、交换机的作用&#xff1a;通过学习和识别 MAC 地址&#xff0c;依据 M…

Python实例:PyMuPDF实现PDF翻译,英文翻译为中文,并按段落创建中文PDF

基于PyMuPDF与百度翻译的PDF翻译处理系统开发:中文乱码解决方案与自动化排版实践 一 、功能预览:将英文翻译为中文后创建的PDF 二、完整代码 from reportlab.lib.pagesizes import letter from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle

LeeCode题库第四十六题

46.全排列 项目场景&#xff1a; 给定一个不含重复数字的数组 nums &#xff0c;返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&#xff1a;[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]]示例 2&am…

LangChain4j开发RAG入门示例

本文将详细介绍如何基于Java语言&#xff0c;使用Langchain4j开源框架、Milvus向量数据、阿里Qwen大模型&#xff0c;开发一个RAG入门级简单示例。本示例虽然简单&#xff0c;但涉及到多个知识点&#xff0c;包括&#xff1a;Milvus初始化、Embedding模型、文档切片、Springboo…

快速从C过度C++(一):namespace,C++的输入和输出,缺省参数,函数重载

&#x1f4dd;前言&#xff1a; 本文章适合有一定C语言编程基础的读者浏览&#xff0c;主要介绍从C语言到C过度&#xff0c;我们首先要掌握的一些基础知识&#xff0c;以便于我们快速进入C的学习&#xff0c;为后面的学习打下基础。 这篇文章的主要内容有&#xff1a; 1&#x…