python爬虫自动库DrissionPage保存网页快照mhtml/pdf/全局截图/打印机另存pdf

news2024/11/24 21:04:30

目录

      • 一、保存网页快照的三种方法
      • 二、利用打印机保存pdf的方法

  • 最近星球有人问如何使用页面打印功能,另存为pdf
    在这里插入图片描述

一、保存网页快照的三种方法

  • 解决方案已经放在星球内:https://articles.zsxq.com/id_55mr53xahr9a.html
  • 当然也可以看如下代码,如下三种保存快照的方法,分别是保存pdf、保存mhtml文件、保存全局截图,的方法,具体看网页加载情况可以设置滚动到底部再进行如下操作等
from DrissionPage import ChromiumPage
from urllib.parse import urlparse
browser = ChromiumPage()

url = "https://www.baidu.com/"
file_name = urlparse(url).netloc.split(':')[0].lstrip('www.')
browser.get(url)
browser.save(path="D:\\", name=file_name, as_pdf=True)
browser.save(path="D:\\", name=file_name, as_pdf=False)
browser.get_screenshot(path="D:\\", name=file_name, full_page=True) 

二、利用打印机保存pdf的方法

  • 常规步骤,一般我们在浏览器打开网页,然后鼠标右击检查,选择打印,会出现如下页面,然后我们选择另存为pdf,保存这么一个流程,那么dp如何实现这个流程,代码在文章末尾
    在这里插入图片描述
  • 打印机保存pdf最终代码
import json
from DrissionPage import ChromiumPage, ChromiumOptions

settings = {
    "recentDestinations": [{"id": "Save as PDF", "origin": "local", "account": ""}],
    "selectedDestinationId": "Save as PDF",
    "version": 2,  # 另存为pdf,1 是默认打印机
    "isHeaderFooterEnabled": True,  # 是否勾选页眉和页脚
    # "customMargins": {}, # "marginsType": 2,  # "scaling": 100, # 缩放  # "scalingType": 3, # "scalingTypePdf": 3,
    "isLandscapeEnabled": False,  # landscape横向,portrait 纵向,若不设置该参数,默认纵向
    "isCssBackgroundEnabled": True,  # 是否勾选背景图形
    "mediaSize": {"height_microns": 297000,  "name": "ISO_A4",  "width_microns": 210000, "custom_display_name": "A4 210 x 297 mm"},
}
co = ChromiumOptions()
co.set_argument("--window-size=1920, 1080")
co.set_pref('printing.print_preview_sticky_settings.appState', json.dumps(settings))
co.set_pref('savefile.default_directory', r'D:\\')   # 修改为网页转PDF后要保存的路径
co.set_argument('--kiosk-printing')  # 静默打印,无需用户点击打印页面的确定按钮
print(co.preferences)
browser = ChromiumPage(co)
browser.get("https://www.baidu.com/")
browser.run_js(f'document.title="{browser.title}";window.print();', timeout=6)  # 利用js修改网页的title,该title最终就是PDF文件名,利用js的window.print可以快速调出浏览器打印窗口,避免使用热键ctrl+P
  • 参考文章
    https://www.cnblogs.com/caroline2016/p/18348831
    https://shandianchengzi.blog.csdn.net/article/details/137883196
调用浏览器打印机,另存为pdf
co.set_argument("--print-to-pdf")
co.set_pref("download.prompt_for_download", False)
co.set_pref('plugins.always_open_pdf_externally', False)
co.set_pref('plugins.plugins_disabled', ["Chrome PDF Viewer"])
co.set_pref('profile.default_content_settings.popups', 0)
co.set_pref('directory_upgrade', True)
co.set_argument('--enable-print-browser')
browser.run_js("return window.print()", timeout=6)
"""

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2236880.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】进程概念与PCB,父子进程与foke函数

目录 一、进程概念: 描述: 组织: 二、Linux中的进程管理: 指令:ps ajx 三、父子进程: PID和PPID的调用查看: 四、创建子进程------fork: 一、进程概念: 首先&…

处理PhotoShopCS5和CS6界面字体太小

处理PhotoShop CS6界面字体太小 背景:安装PhotoShop CS6后发现无法调大字体大小,特别是我的笔记本14寸的,显示的字体小到离谱。 百度好多什么降低该电脑分辨率,更改电脑的显示图标大小,或者PS里的首选项中的界面设置。…

【Linux第八课-进程间通信】管道、共享内存、消息队列、信号量、信号、可重入函数、volatile

目录 进程间通信为什么?是什么?怎么办?一般规律具体做法 匿名管道原理代码 命名管道原理代码 system V共享内存消息队列信号量信号量的接口 信号概念为什么?怎么办?准备信号的产生信号的保存概念三张表匹配的操作和系统…

文件互传助手 v1.0

电脑和手机互传文件,经常需要找数据线,连着数据线还要下载安装手机助手,还要安装驱动识别手机,还要点手机那个连接模式,实在太麻烦了。 明明是一件简单的事情,往往需要很多层手续。有时会用到微信网页端作文…

Spring Boot 与 Vue 共筑航空机票预定卓越平台

作者介绍:✌️大厂全栈码农|毕设实战开发,专注于大学生项目实战开发、讲解和毕业答疑辅导。 🍅获取源码联系方式请查看文末🍅 推荐订阅精彩专栏 👇🏻 避免错过下次更新 Springboot项目精选实战案例 更多项目…

面试总结!

OSI七层模型: 什么是OSI七层模型? 我们需要了解互联网的本质是一系列的网络协议,这个协议就叫做OSI协议(开放系统互联(Open System Interconnection)),它是由ISO(国际标准化组织&…

MATLAB实现智能水滴算法(Intelligent Water Drops Algorithm, IWDA)

1.智能水滴算法介绍 智能水滴算法(Intelligent Water Drops Algorithm,IWDA)是一种基于水滴特性的智能优化算法,它借鉴了水滴在自然界中的运动和形态变化规律,通过模拟水滴的形成、发展和消亡过程,实现问题…

RabbitMQ延迟队列(重要)

RabbitMQ延迟队列 1、延迟队列1.1、延迟队列使用场景1.2、延迟队列实现原理 2、使用rabbitmq-delayed-message-exchange 延迟插件2.1、下载2.2、安装2.2.1、解压2.2.2、启用插件2.2.3、查询安装情况 2.4、示例2.4.1、RabbitConfig配置类(关键代码)2.4.2、…

Tencent Hunyuan3D

一、前言 腾讯于2024年11月5日正式开源了最新的MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”,支持企业及开发者在精调、部署等不同场景下的使用需求。 GitHub - Tencent/Hunyuan3D-1 二、技术与原理 Hunyuan3D-1.0 是一款支持文本生成3D(…

新品发布:广州大彩科技DB系列5.0寸带CAN/RS485外壳串口屏发布!

新品发布:广州大彩科技DB系列5.0寸带CAN/RS485外壳串口屏发布! 一、产品介绍 该产品是一款5寸的医疗级外壳系列组态串口屏,液晶屏采用800*480分辨率,拥有电阻触摸。硬件上针对工控行业,汽车行业串口使用RS485电平,并且另外加入了…

Js — 定时器

有两种:setInterval 和 setTimeout 间隔时间单位为毫秒 setInterval 每隔指定的毫秒数重复执行一个函数或代码 开启定时器:setInterval(函数,间隔时间) 作用:每隔一段时间调用这个函数 注意:它不是立即执行&#x…

WPF+MVVM案例实战与特效(二十六)- 3D粒子方块波浪墙效果实现

文章目录 1、案例效果2、案例实现1、文件创建2. 功能代码实现3、粒子功能应用1、前端布局与样式2、代码解释2、 后端功能代码1、案例效果 2、案例实现 1、文件创建 打开 Wpf_Examples 项目、Models 文件夹下创建 3D粒子模型类 ParticleCubeWaveModel.cs 文件。在Tools 文件夹…

Linux命令 - linux索引节点、硬链接、软链接的介绍与使用

文章目录 1 索引节点inode2 硬链接Hard Link3 软链接Soft Link 1 索引节点inode 在Linux系统中,保存在磁盘分区中的文件,不管是什么类型,系统都会给它分配一个编号,这个编号被称为索引节点编号(Inode Index&#xff0…

基于Python通过DOI下载文献(至简仅需2行代码)

文章目录 一、安装库二、导入库三、准备doi3.1 excel法3.1.1 检索数据3.1.2 导出excel 3.2 txt法3.3 列表or字符串法3.3.1 字符串3.3.2 列表 四、下载4.1 脚本4.2 下载成功4.3 已存在4.4 至于失败的 五、结果5.1 目标文件夹5.2 失败记录 一、安装库 pip install OAFuncs 二、导…

SpringBoot技术在企业资产管理中的应用

4系统概要设计 4.1概述 系统设计原则 以技术先进、系统实用、结构合理、产品主流、低成本、低维护量作为基本建设原则,规划系统的整体构架. 先进性: 在产品设计上,整个系统软硬件设备的设计符合高新技术的潮流,媒体数字化、压缩、…

OpenHarmony4.1蓝牙芯片如何适配?触觉智能RK3568主板SBC3568演示

当打开蓝牙后没有反应时,需要排查蓝牙节点是否对应、固件是否加载成功,本文介绍开源鸿蒙OpenHarmony4.1系统下适配蓝牙的方法,触觉智能SBC3568主板演示 修改对应节点 开发板蓝牙硬件连接为UART1,修改对应的节点,路径为…

招标采购系统(源码+文档+部署+讲解)

本文将深入解析“招标采购系统(供应商管理系统)”的项目,探究其架构、功能以及技术栈,并分享获取完整源码的途径。 系统概述 包含基础数据管理、供应商和专家库管理,还涉及招标代理机构、政策法规和文件模板的管理。…

javascript里面的blob和worker

目录 Blob 1. Blob的基本概念 2. 创建Blob 3. Blob的属性和方法 示例: 3.1. Blob 的方法 4. 使用Blob 4.1 创建对象URL 4.2 使用FileReader读取Blob 4.3 上传Blob 5. Blob与其他对象的关系 6. 释放Blob对象 7. Blob的应用场景 8. 总结 Web Worker 1.…

Android JNI 技术入门指南

引言 在Android开发中,Java是一种主要的编程语言,然而,对于一些性能要求较高的场景(如音视频处理、图像处理、计算密集型任务等),我们可能需要使用到C或C等语言来编写底层的高效代码。为了实现Java代码与C…

设计模式之抽象工厂模式(替换Redis双集群升级,代理类抽象场景)

前言: 看了很多书、学了很多知识,多线程能玩出花,可最后我还是写不好代码! 这就有点像家里装修完了买物件,我几十万的实木沙发,怎么放这里就不好看。同样代码写的不好并不一定是基础技术不足,也…