【Python】用python将html转化为pdf

news2026/2/12 10:19:32

其实早在去年就有做过，一直没有写，先简单记录下

1、主要用到的工具【wkhtmltopdf】

【下载地址】wkhtmltopdf

根据系统选择安装包，速度有点慢，先挂着

2、下载Python库

pip install pdfkit
pip install wkhtmltopdf

3、简单代码验证

import pdfkit
pdfkit.from_url('http://baidu.com','out.pdf')
pdfkit.from_file('test.html','out1.pdf')
pdfkit.from_string('Hello World!','out2.pdf')

返回Done、True说明环境没有问题了

输出的pdf文件

打开pdf

源html是动态大尺寸，pdf显示静态，尺寸有减小

文件打开正常，说明代码没有问题，后面就可以自由发挥爬虫技能

此外支持列表

pdfkit.from_url(['google.com', 'yandex.ru', 'engadget.com'], 'out.pdf')
pdfkit.from_file(['file1.html', 'file2.html'], 'out.pdf')

支持文件对象

with open('file.html') as f:
    pdfkit.from_file(f, 'out.pdf')

作为string变量，操作pdf

# Use False instead of output path to save pdf to a variable
pdf = pdfkit.from_url('http://google.com', False)

指定pdf格式（选项设置）

参考https://wkhtmltopdf.org/usage/wkhtmltopdf.txt

options = {
    'page-size': 'Letter',
    'margin-top': '0.75in',
    'margin-right': '0.75in',
    'margin-bottom': '0.75in',
    'margin-left': '0.75in',
    'encoding': "UTF-8",
    'custom-header' : [
        ('Accept-Encoding', 'gzip')
    ]
    'cookie': [
        ('cookie-name1', 'cookie-value1'),
        ('cookie-name2', 'cookie-value2'),
    ],
    'no-outline': None
}

pdfkit.from_url('http://google.com', 'out.pdf', options=options)

默认的，pdfkit会show出所有的output，如果你不想使用，可以设置为quite：

options = {'quiet': ''}

pdfkit.from_url('google.com', 'out.pdf', options=options)

传入任何html标签【烦人广告说拜拜，真正做到网页私人定制】

body = """
    <html>
      <head>
        <meta name="pdfkit-page-size" content="Legal"/>
        <meta name="pdfkit-orientation" content="Landscape"/>
      </head>
      Hello World!
      </html>
    """

pdfkit.from_string(body, 'out.pdf') #with --page-size=Legal and --orientation=Landscape

【改进】

将之前的save_file方法改成save_to_pdf，并且在get_body方法中直接返回str(div)，而不是div.text。代码如下：

def save_to_pdf(url):
    '''
    根据url，将文章保存到本地
    :param url:
    :return:
    '''
    title=get_title(url)
    body=get_Body(url)
    filename=author+'-'+title+'.pdf'
# windows系统文件名特殊字符，建议网上百度，然后替换即可
    if '/' in filename:
        filename=filename.replace('/','+')
    if '\' in filename:
        filename=filename.replace('\','+')
    print(filename)
    options = {
        'page-size': 'Letter',
        'encoding': "UTF-8",
        'custom-header': [
            ('Accept-Encoding', 'gzip')
        ]
    }

    config=pdfkit.configuration(wkhtmltopdf=r'C:Program Fileswkhtmltopdfinwkhtmltopdf.exe')
    pdfkit.from_string(body,filename,options=options,configuration=config)
    print('打印成功！')

【文件命名规范】

自媒体的出现，文件命名开始五花八门，下面用一行代码去除非法字符

# Python中过滤Windows文件名中的非法字符
import re

title='xxxxxxx'

fileName = re.sub(r'[\/:*?"<>|
]+','-',title)

# 去掉非法字符,在[]中*不需要转义,此时*不表示多次匹配,就表示本身的字符

【参考链接】

https://blog.csdn.net/xc_zhou/article/details/80952168

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/108330.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【Python】用python将html转化为pdf

相关文章

CAD教程：CAD自定义之基础设置的操作技巧

【1799. N 次操作后的最大分数和】

实验一逻辑回归

设计模式之备忘录模式

【数电】Simulation Test 模拟测试

MySQL面试常问问题（基础） —— 赶快收藏

SCSS学习笔记

【软件测试】概念篇

新店速递 | IU酒店带您领略“东方古罗马”

中文语法纠错全国大赛获奖分享：基于多轮机制的中文语法纠错

新能源汽车市场渗透率不断提高，锂电设备需求空间较大

配置小型公司网络WLAN基本业务（AC通过三层口管理AP）

JDK，JRE，JVM的作用及关系

必须要学习的源码--ConcurrentHashMap

花房集团上市，走向元宇宙新征程

(GCC)STM32进阶详解之栈回溯

GO09:整型、浮点、字符类型的介绍和使用细节

信而泰RENIX 802.1ag功能介绍-网络测试仪实操

非零基础自学Golang 第15章 Go命令行工具 15.6 性能分析 15.6.2 通过文件方式 15.6.3 通过HTTP方式 15.7 小结

飞鹤揭榜“十四五”项目，牵头研制新一代婴配粉