pyppeteer模块常用方法

news2025/2/21 22:05:58

 

目录

await page.方法

设置相关

setUserAgent(str)

setCookie(cookie1, cookie2.......)

页面相关

goto(url)

reload()

goBack()/goForward()

执行js

evaluate(js_str)

截图

screenshot(dict)

保存pdf

pdf(dict)

获取内容

content()

cookies()

title()

获取元素

等待方式

获取ElementHandle里的属性或者文本

官方文档


await page.方法

设置相关

setUserAgent(str)

设置UserAgent

setCookie(cookie1, cookie2.......)

设置cookie

cookies 应该是包含这些字段的字典:
name(str):必填
value(str):必填
url (STR)
domain (STR)
path (STR)
expires (数字):Unix时间,以秒为单位
httpOnly (布尔)
secure (布尔)
sameSite(str):'Strict'或'Lax'

页面相关

goto(url)

访问网页

reload()

页面加载完毕

goBack()/goForward()

页面后退/页面前进

执行js

evaluate(js_str)

对于某个元素执行js

截图

screenshot(dict)

dictkey

path(str):保存图像的文件路径。屏幕截图类型将从文件扩展名中推断出来。 #基本上写个这个就够了

type(str):指定屏幕截图类型,可以是jpeg或 png。默认为png。

quality(int):图像的质量,在0-100之间。不适用于png图像。

fullPage(bool):如果为true,请截取完整的可滚动页面。默认为False。

clip(字典):指定页面剪切区域的对象。此选项应包含以下字段:

x (int):剪辑区域左上角的x坐标。

y (int):剪辑区域左上角的y坐标。

width (int):剪切区域的宽度。

height (int):剪切区域的高度。

omitBackground (bool):隐藏默认的白色背景并允许捕获具有透明度的屏幕截图。

保存pdf

pdf(dict)

返回: 返回生成的PDF bytes对象。

path (str):保存PDF的文件路径。

scale(float):网页渲染的比例,默认为1。

displayHeaderFooter(bool):显示页眉和页脚。默认为False。

headerTemplate(str):打印标题的HTML模板。应该是有效的HTML标记与以下类。

date:格式化的打印日期

title:文件名

url:文件位置

pageNumber:当前页码

totalPages:文档中的总页数

footerTemplate(str):打印页脚的HTML模板。应该使用相同的模板headerTemplate。

printBackground(bool):打印背景图形。默认为 False。

landscape(bool):纸张方向。默认为False。

pageRanges(字符串):要打印的纸张范围,例如“1-5,8,11-13”。默认为空字符串,表示所有页面。

format(str):纸张格式。如果设置,优先于 width或height。默认为Letter。

width (str):纸张宽度,接受标有单位的值。

height (str):纸张高度,接受标有单位的值。

margin(字典):纸张边距,默认为None。

top (str):上边距,接受标有单位的值。

right (str):右边距,接受标有单位的值。

bottom (str):底部边距,接受标有单位的值。

left (str):左边距,接受标有单位的值。

获取内容

content()

页面文本

print(await page.evaluate('document.body.textContent', force_expr=True)) 这样也行

cookies()

页面cookies

title()

标题

获取元素

返回都是ElementHandle或者None

print(await page.querySelector('div选择器'))    #获取第一个
print(await page.querySelectorAll("CSS选择器"))  #获取全部

querySelectorEval('css选择器','js_str','前面js需要的参数')  #获取第一个并对其执行js
querySelectorAllEval('css选择器','js_str','前面js需要的参数') #获取全部并对其执行js

await page.xpath('xpath选取器')

等待方式

# await page.waitForXPath('h3', timeout=300)
# await page.waitForNavigation(waitUntil="networkidle0")
# await page.waitForFunction('document.getElementByTag("h3")')
# await page.waitForSelector('.t')
# await page.waitFor('document.querySelector("#t")')
# await page.waitForNavigation(waitUntil='networkidle0')
# await page.waitForFunction('document.querySelector("").inner‌​Text.length == 7')

获取ElementHandle里的属性或者文本

await (await ElementHandle_obj.getProperty('属性')).jsonValue()
await (await ElementHandle_obj.getProperty('textContent')).jsonValue()  #文本

官方文档

https://pyppeteer.github.io/pyppeteer/reference.html#jshandle-class

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/979106.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Fragment的创建分析

之前的文章讨论了Fragment的销毁流程,初始状态为resume,然后经历pause -> stop -> destroyView -> destroy -> detach这么几个流程(本篇文章基于Support27.1.1来分析的)。清楚了Fragment的销毁,那也来看看…

《向量数据库指南》——AI原生向量数据库Milvus Cloud 2.3架构升级

架构升级 GPU 支持 早在 Milvus 1.x 版本,我们就曾经支持过 GPU,但在 2.x 版本中由于切换成了分布式架构,同时出于对于成本方面的考虑,暂时未加入 GPU 支持。在 Milvus 2.0 发布后的一年多时间里,Milvus 社区对 GPU 的呼声越来越高,再加上 NVIDIA 工程师的大力配合——为…

CTFHUB ICS(1)

1.异常的工程文件 把文件拖到kali里面去了 unzip 文件名解压文件 文件很多,我们先进到解压的文件夹里面 strings $(find . | xargs) | grep flag linux命令的作用是在当前目录及子目录下递归查找文件,提取文件中的字符串,然后用grep过滤 find . - 在当前目录及递…

cadence virtuoso bandgap温漂公式

先仿真温漂,然后将曲线send to calculate。 调用ymax,ymin,average函数。

PGInfo核心字段详解

PGInfo存在于PG的整个生命周期中,其在对象数据的写入、数据恢复、PG Peering过程中均发挥重要的作用。本章试图研究pg info在整个PG生命周期中的变化过程,从而对PG及PGInfo有一个更深入的理解。 class PG : DoutPrefixProvider { public:// pg statepg_…

Unable to remove Temporary User Data

错误截图 原因 项目的临时数据目录是存在了未授权的盘符,当删除它的时候,遇到了权限问题,没有权限没法删除。 解决方法 增加字段:userDataDir 解决

WSL使用技巧 / 虚拟机对比

WSL使用技巧 / 虚拟机对比 前言虚拟机比较VMware使用技巧WSL使用技巧官方文档工具安装WSL基本命令运行命令关闭卸载磁盘管理导入导出指定安装路径 前言 本文介绍了VMware和WSL的区别,并详细介绍了WSL的使用方法和技巧。 虚拟机比较 VMware 比较灵活,拥…

高压放大器该如何选择(高压放大器选型要求有哪些)

选择适合的高压放大器对于电子设备和实验中的特定应用非常重要。高压放大器通常用于放大高电压信号,如激光驱动、粒子加速器、电力系统和医学成像等领域。在选择高压放大器时,以下几个因素值得考虑。 首先,您需要确定所需的输出电压范围。不同…

Date.toLocaleString()不同系统语言之会返回不同的format(可能导致我查的出来数据别人查不出来)

最近发生了个Bug,访问部署在服务器上的服务,我选了时间之后查的出来数据,别人就不行,同样的条件,同样的时区。百思不得解。 直到看了 request里面的参数,发现怎么format不一致,都是访问的服务器部署的服务。…

Linux下的系统编程——进程的执行与回收(八)

前言: 前面我们对进程已经有了一个初步的了解与认识,现在让我们学习一下进程中一些函数的具体使用,比如exec可以执行一些指定的程序,wait / waitpid可以回收子进程,什么是孤儿进程,什么是僵尸进程&#xf…

性能测试实现天罗地网对各个中间件实现监控

名师出高徒,我亲自带你出征,直捣黄龙。高手都是顶峰相见!将军有剑 不斩苍蝇,将军赶路,不追小兔。赶紧上车 带你入行就是高手。

【ccf-csp题解】第1次csp认证-第三题-命令行选项-题解

题目描述 思路讲解 本题是一个简单的字符串模拟题,这种题目是csp认证第三题的常客 大致思路是用两个bool数组记录某一个选项(0--25下标对应小写字母a--z),第一个数组中无参选项为true,第二个数组中有参选项为true&a…

【算法系列篇】分治-归并

文章目录 前言什么是归并算法1. 排序数组1.1 题目要求1.2 做题思路1.3 Java代码实现 2. 数组中逆序对2.1 题目要求2.2 做题思路2.3 Java代码实现 3. 计算右侧小于当前元素的个数3.1 题目要求3.2 做题思路3.3 Java代码实现 4. 翻转对4.1 题目要求4.2 做题思路4.3 Java代码实现 总…

金融信创,软件规划需关注自主安全及生态建设

软件信创化,就是信息技术软件应用创新发展的意思(简称为“信创”)。 相信在中国,企业对于“信创化”这个概念并不陌生。「国强则民强」,今年来中国经济的快速发展,受到了各大欧美强国的“卡脖子”操作的影…

CNN(七):ResNeXt-50算法的思考

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者:K同学啊|接辅导、项目定制 在进行ResNeXt-50实战练习时,我也跟其他学员一样有这个疑惑,如下图所示: 反复查看代码,仍然有…

探讨前后端分离开发的优势、实践以及如何实现更好的用户体验?

随着互联网技术的迅猛发展,前后端分离开发已经成为现代软件开发的一种重要趋势。这种开发模式将前端和后端的开发工作分开,通过清晰的接口协议进行通信,旨在优化开发流程、提升团队协作效率,并最终改善用户体验。本文将深入探讨前…

Elasticsearch——Docker单机部署安装

文章目录 1 简介2 Docker安装与配置2.1 安装Docker2.2 配置Docker镜像加速器2.3 调整Docker资源限制 3 准备Elasticsearch Docker镜像3.1 下载Elasticsearch镜像3.2 自定义镜像配置3.3执行Docker Compose 4 运行Elasticsearch容器4.1 创建Elasticsearch容器4.2 修改配置文件4.3…

Mac 搭建本地服务器

文章目录 一、启动服务器二、添加文件到本地服务三、手机/其他电脑 访问本机服务器 MacOS 自带Apatch 服务器。所以我这里选择Apatch服务器搭建 一、启动服务器 在safari中输入 http://127.0.0.1/ ,如果页面出现 it works,则代表访问成功。启动服务器 …

开开心心带你学习MySQL数据库之第五篇

😺欢迎来到我的博客, 记得点赞👍收藏⭐️留言✍️🐱 🐉做为一个怪兽,我的目标是少消灭一个奥特曼🐉 📖希望我写的博客对你有所帮助,如有不足,请指正📖 chatgpt 是否能够代替程序猿?…

AI时代:探索机器学习与深度学习的融合之旅

文章目录 1. 机器学习和深度学习简介1.1 机器学习1.2 深度学习 2. 为什么融合是必要的?2.1 数据增强2.2 模型融合 3. 深入分析:案例研究3.1 传统机器学习方法3.2 深度学习方法3.3 融合方法 4. 未来展望结论 🎉欢迎来到AIGC人工智能专栏~AI时代…