Python案例——采集专栏文章保存成pdf

news2024/9/19 21:06:57

前言

嗨喽,大家好呀~这里是爱看美女的茜茜呐

环境使用:

  • python 3.8 >>>>>> 运行代码

  • pycharm 2022.3 >>>>>> 辅助敲代码

  • wkhtmltopdf 软件 找助理邀课老师获取

模块使用:

内置模块

  • re >>>正则表达式

第三方模块 需要安装

  • requests >>> pip install requests 数据请求

  • parsel >>> pip install parsel 数据解析

  • pdfkit >>> pip install pdfkit

安装方法:

win + R 输入cmd 输入安装命令 pip install 模块名

(如果你觉得安装速度比较慢, 你可以切换国内镜像源)


👇 👇 👇 更多精彩机密、教程,尽在下方,赶紧点击了解吧~

素材、视频教程、完整代码、插件安装教程我都准备好了,直接在文末名片自取就可


代码实现步骤:

  1. 发送请求, 模拟浏览器对于url地址发送请求

  2. 获取数据, 获取网页源代码

  3. 解析数据, 提取文章内容

  4. 保存数据, 保存成html文件, 然后再转成PDF文件

代码展示

import requests
import parsel
# 导入正则
import re
# 导入pdf模块
import pdfkit

“”"

  1. 发送请求, 模拟浏览器对于url地址发送请求

“”"

for page in range(10 ,51, 10):
    link = f'https://*****/api/v4/columns/c_1090924073042837504/items?limit=10&offset={page}'
    # 模拟浏览器 --> headers 请求头 <可以直接复制>
    headers = {
        # User-Agent 用户代理, 表示浏览器基本身份信息
        完整源码、解答、教程皆+VX:pytho8987获取,验证备注“777'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
    }
    json_data = requests.get(url=link, headers=headers).json()
    for index in json_data['data']:
        content_id = index['id']
        print(content_id)

请求链接

        url = f'https://*****/p/{content_id}'

发送请求

调用requests模块里面get请求方法, 对于url地址发送请求, 并且携带上headers请求头伪装, 最后用自定义变量名response接收数据

        response = requests.get(url=url, headers=headers)

<Response [200]> 响应对象 200状态码表示请求成功

“”"

  1. 获取数据, 获取网页源代码

    response.text 获取响应文本数据 <html字符串数据>

  2. 解析数据, 提取文章内容

    • 提取文章标题

    • 提取文章内容

    css选择器提取数据内容:

    根据标签属性提取数据内容

“”"

把获取到html字符串数据, 转成可解析对象

        selector = parsel.Selector(response.text)

提取标题

        title = selector.css('.Post-Title::text').get()
        new_title = re.sub(r'[\\/\:*?"<>|]', '', title)
        print(new_title)

提取内容 <html格式>

        content = selector.css('div.css-1g0fqss').get()

前端模板

        html_str ='''
        <!doctype html>
        <html lang="en">
        <head>
            <meta charset="UTF-8">
            <title>Document</title>
        </head>
        <body>
        {article}
        </body>
        </html>
        '''

字符串格式化方法

        html = html_str.format(article=content)

使用正则提取链接地址

        img_url_list = re.findall('<noscript><img src="(.*?)" data-caption=""', content) # 链接
        完整源码、解答、教程皆+VX:pytho8987获取,验证备注“777”
        img_list = re.findall('</noscript><img src="(.*?)" data-caption=""', content) # 需要被替换的内容
        for img_url, img in zip(img_url_list, img_list):
            html = html.replace(img, img_url)

“”"

  1. 保存数据, 保存成html文件, 然后再转成PDF文件

“”"
设置文件路径以及文件名和格式

        html_path = 'html\\' + new_title + '.html'
        with open(html_path, mode='w', encoding='utf-8') as f:
            f.write(html)

把html文件, 转成PDF

        config = pdfkit.configuration(wkhtmltopdf=r'D:\demo\wkhtmltopdf\bin\wkhtmltopdf.exe')
        pdf_path = 'pdf\\' + new_title + '.pdf'

把那个html文件内容, 转成pdf文件

        pdfkit.from_file(html_path, pdf_path, configuration=config)
        print(title)

尾语

感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/656557.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

es6 的模块化由来

es 模块化&#xff0c;之前是没有的。没有的时候&#xff0c;用的是社区创建的commjs模块化 commjs模块其实是一个对象&#xff0c;这个对象要在代码运行的时候才会创建出来的 这有个不好的地方&#xff0c;就是不能在编译的时候找到依赖文件&#xff0c;也不能进行类型检查&…

一文搞定C++异常机制(附代码+详细解析)

C异常 1.引文C语言传统的处理错误的方式&#xff1a; 2.C异常概念3.异常的使用3.1 异常的抛出和捕获3.2 异常的重新抛出异常捕获中的内存泄漏问题 3.3异常安全3.4异常规范 4.异常优缺点5.总结&#xff1a; 1.引文 C语言传统的处理错误的方式&#xff1a; 终止程序&#xff0c…

【GAI】红杉美国生成式AI:一个创造性的新世界

The New Language Model Stack 红杉美国官网发表了最新一篇题为《Generative AI: A Creative New World》的文章译稿&#xff0c;&#xff0c;原文作者是红杉的两位合伙人&#xff1a;Sonya Huang和Pat Grady&#xff0c;有意思的是在文章作者一栏&#xff0c;赫然还写着GPT-3…

华为OD机试真题 JavaScript 实现【磁盘容量排序】【2022Q4 100分】,附详细解题思路

一、题目描述 磁盘的容量单位常用的有M&#xff0c;G&#xff0c;T这三个等级&#xff0c;它们之间的换算关系为1T 1024G&#xff0c;1G 1024M&#xff0c;现在给定n块磁盘的容量&#xff0c; 请对它们按从小到大的顺序进行稳定排序&#xff0c;例如给定5块盘的容量&#x…

宠物电商社区APP的设计与实现

摘 要&#xff1a;为了设计并实现具有宠物产品商城和问答社区功能的APP&#xff0c;通过比较国内外宠物行业电商发展现状和国内已有的宠物电商平台的优缺点&#xff0c;分析可行性和需求&#xff0c;从而进行详细设计和实现。该APP后台采用SSM框架&#xff0c;数据库使用MySQL…

最终版:1分钟自动部署数字人平台并提供web服务:唇形合成(wav2lip) + 超分修复(codeformer),

Demo效果 本文实现步骤:数字人形象(AI绘画) -> 文字转语音(谷歌tts) -> 表情迁移 -> 唇形合成 -> 视频超分 上述步骤所有技术均已在此专栏发布,可点击上方专栏查看具体博文 所有技术依赖环境及api接口均封装打包完毕,使用docker一键部署,预计耗时10分钟 原图 …

tolua源码分析(八)lua扩展继承C#类

tolua源码分析&#xff08;八&#xff09;lua扩展继承C#类 上一节我们阐述了lua调用带out参数的C#函数机制&#xff0c;本节我们来看下lua层是如何扩展C#类的。这次的例子在example 17&#xff0c;主要都是lua代码&#xff1a; LuaTransform { } …

1.pixi.js编写的塔防游戏(类似保卫萝卜)-设计逻辑

游戏说明 一个用pixi.js编写的h5塔防游戏&#xff0c;可以用electron打包为exe&#xff0c;支持移动端&#xff0c;也可以用webview控件打包为app在移动端使用 环境说明 cnpm6.2.0 npm6.14.13 node12.22.7 npminstall3.28.0 yarn1.22.10 npm config list electron_mirr…

1.2 聚合工程与springboot整合

步骤1&#xff1a; 在顶级父工程中添加springboot相关的pom配置 <!--springboot父级依赖&#xff0c;表示是一个是springboot项目 --> <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifa…

vue3(基于vite)项目初始基本配置

简介 一个好的项目开始搭建总是需要配置许多初始化配置&#xff0c;比如eslint语法检验、prettier代码格式统一、husky做commit拦截等等&#xff0c;本文从零开始带你一步步搭建一个完整的项目配置&#xff0c;熟悉之后下次直接拿来即用 环境准备 node v16以上pnpm 8.0.0 1.新…

4.3.3 info page

在所有的Unix Like系统当中&#xff0c;都可以利用 man 来查询指令或者是相关文件的用法&#xff1b; 但是&#xff0c;在Linux里面则又额外提供了一种线上求助的方法&#xff0c;那就是利用info。 基本上&#xff0c;info与man的用途其实差不多&#xff0c;都是用来查询指令的…

看完就会,从抓包到接口测试的全过程解析!

一、为什么抓包 1、从功能测试角度 通过抓包查看隐藏字段 Web 表单中会有很多隐藏的字段&#xff0c;这些隐藏字段一般都有一些特殊的用途&#xff0c;比如收集用户的数据&#xff0c;预防 CRSF 攻击&#xff0c;防网络爬虫&#xff0c;以及一些其他用途。这些隐藏字段在界面…

数据库大题

(计算题&#xff0c;20分) 设有两个关系R和S,求① R ∪ S R \cup S R∪S;② R − S R - S R−S;③ R S R \times S RS;④ ∏ C , A ( R ) \prod_{C,A}(R) ∏C,A​(R);⑤ σ B > ′ 4 ′ ( R ) \sigma_{B>4}(R) σB>′4′​(R) 关系R关系S (简答题&#xff0c;10…

Telnet是什么协议?如何使用?

作者&#xff1a;Insist-- 个人主页&#xff1a;insist--个人主页 作者会持续更新网络知识和python基础知识&#xff0c;期待你的关注 目录 ​编辑 一、Telnet是什么协议&#xff1f; 二、Telnet用在哪&#xff1f; 三、Telnet协议的优点和缺点 ​编辑 1、优点 ①简单易…

Microservice架构模式简介

在2014年&#xff0c;Sam Newman&#xff0c;Martin Fowler在ThoughtWorks的一位同事&#xff0c;出版了一本新书《Building Microservices》。该书描述了如何按照Microservice架构模式设计及搭建一个具有良好扩展性并可持续开发的系统。除此之外&#xff0c;该书还将基于该模式…

pygame光栅化三角形 用像素填充三角形

参考文章 DirectX C 3D编程基础 5 [三角形光栅化] 自制中字 这次用像素填充三角形&#xff0c;是为了下次用图片做纹理填充三角形做准备。 前面的文章说了根据直线方程求出已知两点间任意一点的坐标&#xff0c;现在来试试用像素填充三角形。 首先画一个三角形 pygame.draw.…

whisperX 语音识别本地部署

WhisperX 是一个优秀的开源Python语音识别库。 下面记录Windows10系统下部署Whisper 1、在操作系统中安装 Python环境 2、安装 CUDA环境 3、安装Annaconda或Minconda环境 4、下载安装ffmpeg 下载release-builds包&#xff0c;如下图所示 将下载的包解压到你想要的路径&#xf…

华为OD机试之Boss分销提成计算(boss的收入)(Java源码)

Boss分销提成计算&#xff08;boss的收入&#xff09; 题目描述 一个XX产品行销总公司&#xff0c;只有一个boss&#xff0c;其有若干一级分销&#xff0c;一级分销又有若干二级分销&#xff0c;每个分销只有唯一的上级分销. 规定&#xff0c;每个月&#xff0c;下级分销需要将…

利用OpenCV做个熊猫表情包吧

有的时候很想把一些有意思的图中的人脸做成熊猫表情&#xff0c;但是由于不太会ps&#xff0c;只能无奈放弃&#xff0c;so sad... 正好最近想了解下opencv的使用&#xff0c;那就先试试做个简单的熊猫表情生成器把~~ 思路就是&#xff0c;工具给两个参数&#xff0c;一个是人…

矩阵卷积之边缘计算

目录 note code test note code // 不扩充边缘的矩阵卷积&#xff0c;输出矩阵和输入矩阵一样大 void MyMatConvolute2(Mat& src, Mat& kernel, Mat& res) {if (src.type() ! CV_8UC1) {return;}if ((kernel.type() ! CV_8UC1) || (kernel.rows ! kernel.cols) …