Python采集专栏文档保存成pdf

news2025/1/18 8:50:09

前期准备

环境使用

  • Python 3.8
  • Pycharm

模块使用

  • requests >>> pip install requests 数据请求
  • parsel >>> pip install parsel 数据解析
  • re >>> 内置模块 不需要安装 正则表达式
  • pdfkit >>> pip install pdfkit

实现步骤

  1. 采集文章内容, 保存成html文件
  2. 把html文件, 转成pdf文件

采集数据

  1. 发送请求
    找到相对应数据链接
  2. 获取数据
    获取响应数据
  3. 解析数据
    提取我们想要的内容
  4. 保存数据
    把解析出来数据进行保存

实现代码

导入模块

有什么不懂的问题,可以直接点击文章末尾名片进行交流学习~

'''
# 导入数据请求模块
import requests
# 导入数据解析模块
import parsel
# 导入文件操作模块
import os.path
# 导入正则模块
import re
# 导入pdf模块
import pdfkit

html_str ='''
<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{article}
</body>
</html>
'''
  • 确定请求链接
url = f'https://zhuanlan.zhihu.com/p/{index["id"]}'
  • 伪装模拟
headers = {
    # user-agent 用户代理 表示浏览器基本身份信息
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}

发送请求

response = requests.get(url=url, headers=headers)

获取数据

解析数据 --> 把获取下来html字符串数据<response.text> 转成可解析对象

selector = parsel.Selector(response.text)

提取标题

title = selector.css('.Post-Title::text').get()

提取内容

content = selector.css('.css-376mun .RichText').get()

提取图片链接

img_url_list = re.findall('<noscript><img src="(.*?)" data-caption=""', content)

提取替换的内容

img_list = re.findall('</noscript><img src="(.*?)" data-caption=""', content)
for img_url, img in zip(img_url_list, img_list):
    content = content.replace(img, img_url)

保存数据

自动创建文件

html_file = 'html\\'

判断是否存在这个文件夹

if not os.path.exists(html_file):

自动创建

    os.mkdir(html_file)
pdf_file = 'pdf\\'

判断是否存在这个文件夹

if not os.path.exists(pdf_file):

自动创建

    os.mkdir(pdf_file)
html_path = html_file + title + '.html'
pdf_path = pdf_file + title + '.pdf'
html = html_str.format(article=content)


with open(html_path, mode='w', encoding='utf-8') as f:
    f.write(html)

需要把html文件转成pdf

config = pdfkit.configuration(wkhtmltopdf=r'D:\demo\wkhtmltopdf\bin\wkhtmltopdf.exe')
pdfkit.from_file(html_path, pdf_path, configuration=config)

print(title, '保存成功')

效果展示

在这里插入图片描述

在这里插入图片描述

最后

刚开始接触Python的宝子,有什么不懂的都可以私信我哦

我还准备了大量的免费视频教程,PDF电子书籍,以及源代码!直接在文末名片自取即可哦!

👇 问题解答 · 源码获取 · 技术交流 · 抱团学习请点击下方名片 👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/155626.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【前端】Vue项目:旅游App-(12)home-Calendar:日期选择、日历、动态显示时间

文章目录目标过程与代码安装依赖结构样式动态数据&#xff1a;默认数据今天明天添加日历修改样式动态数据&#xff1a;显示日历中选择的数据效果总代码修改或添加的文件formatDate.jshome.vuemain.js目标 点击时间&#xff1a; 弹出日历供选择&#xff1a; 动态显示数据&#…

Linux设备树简析

1. 前言 限于作者能力水平&#xff0c;本文可能存在谬误&#xff0c;因此而给读者带来的损失&#xff0c;作者不做任何承诺。 2. 设备树的来源 在 Linux 中&#xff0c;每个设备驱动&#xff0c;管理一组设备数据&#xff0c;类似面向对象编程中类和其实例对象的关系。一段时…

视频播放破亿,抖音近期的流量密码是什么

纵观12月抖音涨粉趋势&#xff0c;美食、医疗健康、生活日常等细分领域中涌现出不少优质账号&#xff0c;圈粉不断。从『粉丝飙升榜』TOP30来看&#xff0c; 12月上榜达人的更替率高达76.6%&#xff0c;向太陈岚单日涨粉557.26w&#xff0c;12月共收获751.09w粉丝&#xff0c;空…

做好网络舆情监测监控的重要性,TOOM网络舆情监控平台建设方案?

舆情监控在当今时代非常重要&#xff0c;互联网走进千家万户&#xff0c;各种信息在网络上传播&#xff0c;舆情监控旨在帮助公司了解公众对其产品、服务、品牌形象等的看法&#xff0c;并及时采取应对措施。接下来简单了解做好网络舆情监测监控的重要性&#xff0c;TOOM网络舆…

关于城市轨道交通的电力监控中心调度系统研究

摘 要 &#xff1a;在城市轨道交通的运行过程中&#xff0c;电力监控系统很好地监控了各个配电所、电力设备以及接触网等的运行情况&#xff0c;这对于城市轨道交通的安全稳定运行有着关键性的作用。因此&#xff0c;随着当今城市轨道交通事业的不断发展&#xff0c;城市轨道交…

MATLAB | 如何使用MATLAB绘制序列logo图

这次开发了一个生物信息学比较常用的序列logo图绘制MATLAB代码包&#xff0c;绘制效果如下&#xff1a; 数据来自基迪奥生物项目编号为seqlogojrois9l2jit的示例数据。同时本工具函数参考以下文献&#xff1a; Tareen A, Kinney J B. Logomaker: beautiful sequence logos in …

再见2022,你好2023:八年程序媛老兵的践行、思考与展望

再见2022&#xff0c;你好2023写在前面的话1.2022速记1.1 产假前&#xff0c;ParaView三维自动化项目1.2 产假后&#xff0c;EDA仿真项目1.3 从EDA行业谈谈2022年的经济寒冬2. 2023年的新年flag2.1 flag one:挑战高薪2.2 flag two:读更多的书&#xff0c;读更多专业书2.2.1 读过…

动态内存管理题目讲解

前言&#xff1a; 上一期我们讲述了有关动态内存管理的知识点&#xff0c;这期我们通过几个经典的笔试题来进行深入的了解以及对知识点的巩固 目录第一题第二题第三题第四套第一题 试题如下&#xff1a; void GetMemory(char* p) {p (char*)malloc(100); } void Test(void) …

1.H3CNE-计算机网络概述

计算机网络概述计算机网络定义一组自治计算机互联的集合计算机网络基本功能资源共享综合信息服务分布式处理与负载均衡计算机网络的类型局域网LAN&#xff08;Local Area Network) 由用户自行建设&#xff0c;使用私有地址组建的网络城域网MAN(Metropolitan Area Network)由运营…

为什么职场第一开发语言会是SQL?看完这些你就瞬间明白了

看到一个有趣的比喻&#xff0c;用来说明SQL与Excel的差别是什么。 如果把SQL比作火车&#xff0c;把Excel更比作卡车。 卡车灵活自由&#xff0c;高速或乡村小道想去哪就去哪&#xff0c;但即便每天不停歇卡车的运载量也不大&#xff0c;而且容易出交通事故。 火车运载量大…

windows下软件安装:miniconda下安装R4.1.3并将其添加到 Jupyter notebook 中

0. 说明&#xff1a; 本来是想在windows中用conda安装R&#xff0c;然后再下载安装RStudio并对其进行配置使之可以用conda环境中的R&#xff0c;但是经过尝试以及网络上查找相关文档发现&#xff0c;原版RStudio不支持使用conda环境中的R&#xff08;可能Anaconda中自带的RStu…

Visual studio C++桌面应用程序添加外部文件引用

C桌面应用程序添加外部文件引用 前言 之前对C的开发接触很少&#xff0c;本章节记录一下Visual studio开发C桌面应用程序是如何引入外部文件 ★提高阅读体验★ &#x1f449; ♠一级标题 &#x1f448; &#x1f449; ♥二级标题 &#x1f448; &#x1f449; ♥ 三级标…

Apache Spark 机器学习 基本统计 1

1 基本概念 相关性&#xff0c;是指两个变量或者两个系列变量的关联程度&#xff0c;也就是&#xff0c;其中一方变量的变化会影响另外一方变量的变化。 相关性分为三种关系&#xff0c;正相关、负相关以及不相关。 正相关&#xff0c;从单调递增的角度看&#xff0c;其中一…

Netty基础入门——文件编程、网络编程【2】

Netty基础入门——文件编程、网络编程【2】 基础入门【1】 1 文件编程 1.1 channel 两个channel传输数据 transferTo方法一次性最多传输2G大小的文件&#xff0c;如果超出会丢弃 public static void main(String[] args) {try (FileChannel from new FileInputStream(&quo…

APM系统是什么?有什么用处?

自SpringCloud问世以来&#xff0c;微服务以席卷之势风靡全球&#xff0c;企业架构都在从传统SOA向微服务转型。然而微服务这把双刃剑在带来各种优势的同时&#xff0c;也给运维、性能监控、错误的排查带来的极大的困难。在大型项目中&#xff0c;服务架构会包含数十乃至上百个…

分布式助力光伏太阳能规模化发展解决方案

行业背景 光伏太阳能作为一种清洁环保的能源&#xff0c;得到各种开发利用&#xff0c;光伏太阳能电池板是其中的重点研究对象&#xff0c;其质量是影响太阳能电池发电效率的主要因素,所以对电池板表面质量的检测是生产中一个重要环节。随着工业的发展&#xff0c;太阳能电池板…

198:vue+openlayers 解决drawend后不能获取当前feature的方法

第198个 点击查看专栏目录 本示例的目的是介绍如何在vue+openlayers项目中绘制矩形,drawend触发事件,要获取到当前绘制的feature的信息。drawend触发的时刻,add feature to the source or collection 这个变化还没有发生,所以用source.getFeatures()是获取不到最新数据的。可…

OpenStack 认证Api

在调用OpenStack的Api或者其它组建的Api时都需要进行 OpenStack 认证&#xff0c;在这里记录一下如何调用OpenStack 认证接口或者token 和给其它接口增加token的方式一. 调用OpenStack auth接口接口地址&#xff1a;http://ip:5000/v3/auth/tokens参数&#xff1a;{"auth&…

特色风情小镇行业发展动态及市场需求前景分析

2023-2029年中国特色风情小镇行业发展动态及市场需求前景报告报告编号&#xff1a;1691653免费目录下载&#xff1a;http://www.cninfo360.com/yjbg/qthy/qt/20230110/1691653.html本报告著作权归博研咨询所有&#xff0c;未经书面许可&#xff0c;任何组织和个人不得以任何形式…

结构体内存对齐与结构体位段:学习笔记8

目录 一.结构体基础知识 1. 结构体的特殊声明 2. 结构的自引用 3.结构体变量的定义和初始化 二.结构体内存对齐 1.关键概念&#xff1a; 2.计算示例 3.嵌套结构体的内存计算 4.结构体内存对齐的意义 5.定义结构体时的注意事项 6.修改默认对齐数 附&#xff1a;关…