职业PDF标准 Python 下载器-CSDN

news2024/9/23 3:18:06

目的

下载技能人才评价网 - 职业技能标准查询系统 - PDF 打包下载

使用文件

a.json

代码解析

import base64
import requests
import json
import os
import time

# 读取JSON文件
with open('a.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
# 从名为 'a.json' 的文件中读取 JSON 数据,并将其存储在 'data' 变量中

# 创建存储文件的文件夹
output_folder = 'pdf_files'
if not os.path.exists(output_folder):
    os.makedirs(output_folder)
# 如果不存在名为 'pdf_files' 的文件夹,则创建该文件夹

# 遍历JSON文件中的每一行
for row in data['rows']:
    code = row['code']
    file_name = row['fileName']
    attachment_path = row['attachment']
    # 从当前 'row' 中提取 'code'、'fileName' 和 'attachment' 的值

    # 发送请求获取PDF文件内容
    headers = {
        "Content-Type": "application/x-www-form-urlencoded",
    }
    resp = requests.post(
        "http://biaozhun.osta.org.cn/api/v1/profession/detail",
        headers=headers,
        data=f"code={code}",
    )
    # 使用 POST 方法向指定的 URL 发送请求,携带 'code' 作为数据参数,以获取对应的 PDF 文件内容
    pdf_data = json.loads(resp.content)
    # 将响应内容解析为 JSON 格式并存储在 'pdf_data' 变量中

    # 检查是否存在 'data' 键
    if 'data' in pdf_data:
        pdf_content = pdf_data['data']
        # 如果 'pdf_data' 包含 'data' 键,则提取其对应的值作为 PDF 文件内容

        # 处理文件名中的特殊字符
        safe_file_name = file_name.encode('utf-8').decode('utf-8')
        file_path = os.path.join(output_folder, safe_file_name)
        # 处理文件名以确保其安全,并构建文件的完整路径

        # 将PDF文件内容保存到指定文件夹中
        with open(file_path, "wb") as f:
            f.write(base64.b64decode(pdf_content))
        # 将 PDF 文件内容解码后写入文件

        print(f"Saved {file_name} to {file_path}")
    else:
        print(f"Error: 'data' key not found in response for code {code}. Response: {pdf_data}")
    # 如果 'data' 键不存在,则打印错误信息

    # 每个请求间隔5秒
    time.sleep(5)
    # 在每个请求之间暂停 5 秒
  1. 读取JSON文件
with open('a.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
  • 作用: 从 a.json 文件中读取 JSON 数据并存储在 data 变量中。
  • API: json.load() 将文件对象读取为 JSON 格式。
  1. 创建存储文件的文件夹
output_folder = 'pdf_files'
if not os.path.exists(output_folder):
    os.makedirs(output_folder)
  • 作用: 检查是否存在名为 ‘pdf_files’ 文件夹,如果不存在则创建。
  • API:
    • os.path.exists() 检查文件路径是否存在。
    • os.makedirs() 创建目录。
  1. 遍历JSON文件中的每一行
for row in data['rows']:
    code = row['code']
    file_name = row['fileName']
    attachment_path = row['attachment']
  • 作用: 遍历 JSON 数据中的每一行,并提取 codefileNameattachment_path
  1. 发送请求获取PDF文件内容
headers = {
    "Content-Type": "application/x-www-form-urlencoded",
}
resp = requests.post(
    "http://biaozhun.osta.org.cn/api/v1/profession/detail",
    headers=headers,
    data=f"code={code}",
)
pdf_data = json.loads(resp.content)
  • 作用: 发送 POST 请求到指定 URL 以获取 PDF 文件内容。
  • API:
    • requests.post() 发送 HTTP POST 请求。
    • json.loads() 将响应内容解析为 JSON。
  1. 检查是否存在 ‘data’ 键
if 'data' in pdf_data:
    pdf_content = pdf_data['data']
  • 作用: 检查响应 JSON 中是否存在 ‘data’ 键,如果存在则提取其内容。
  1. 处理文件名中的特殊字符和构建文件路径
safe_file_name = file_name.encode('utf-8').decode('utf-8')
file_path = os.path.join(output_folder, safe_file_name)
  • 作用: 处理文件名以确保其安全,并构建完整文件路径。
  • API:
    • str.encode() 编码字符串。
    • str.decode() 解码字符串。
    • os.path.join() 拼接路径。
  1. 将PDF文件内容保存到指定文件夹中
with open(file_path, "wb") as f:
    f.write(base64.b64decode(pdf_content))
  • 作用: 将解码后的 PDF 内容写入文件。
  • API:
    • base64.b64decode() 进行 Base64 解码。
    • open() 打开文件。
    • file.write() 写入文件。
  1. 打印成功或错误信息
print(f"Saved {file_name} to {file_path}")
else:
    print(f"Error: 'data' key not found in response for code {code}. Response: {pdf_data}")
  1. 每个请求间隔5秒
time.sleep(5)
  • 作用: 在每个请求之间暂停 5 秒。
  • API: time.sleep() 暂停执行。

文件存储

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1927096.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据库作业d8

要求: 一备份 1 mysqldump -u root -p booksDB > booksDB_all_tables.sql 2 mysqldump -u root -p booksDB books > booksDB_books_table.sql 3 mysqldump -u root -p --databases booksDB test > booksDB_and_test_databases.sql 4 mysql -u roo…

iPhone数据恢复:如何从iPhone恢复误删除的短信

来自iPhone的意外删除的短信可能很关键。它们可能是来自您常用应用程序、银行交易、付款收据的重要通知,也可能是来自朋友的重要文本、孩子的学校通知等。 如果您也从iPhone丢失了此类消息,我们在这里分享如何在没有备份以及有备份的情况下在iPhone上恢…

frameworks 之FallbackHome

frameworks 之FallbackHome FallbackHome 启动启动 Activity 流程创建进程ActivityThrad 与 AMS启动真正的 Launcher mActivityManagerService 创建后会启动 FallbackHome 再启动桌面程序。因为此时还没解锁,桌面又涉及很多其他应用程序相关,所以要等待用…

项目方案:社会视频资源整合接入汇聚系统解决方案(十)-视频监控汇聚应用案例和解决方案

目录 一、概述 1.1 应用背景 1.2 总体目标 1.3 设计原则 1.4 设计依据 1.5 术语解释 二、需求分析 2.1 政策分析 2.2 业务分析 2.3 系统需求 三、系统总体设计 3.1设计思路 3.2总体架构 3.3联网技术要求 四、视频整合及汇聚接入 4.1设计概述 4.2社会视频资源分…

DevToys-开源免费开发工具箱

个人觉得相较于那些在线的工具箱&#xff0c;这种离线的工具箱客户端更加可信一些。 DevToys 提供了30 个默认工具&#xff1a; 转换器&#xff1a;JSON <> YAML、日期、数字基数......编码器/解码器&#xff1a;HTML、URL、Base64、GZip、JWT、二维码......格式化程序…

【机器学习】随机森林的分类效果及进阶应用

文章目录 一、随机森林概述1.1 Bagging思想1.2 随机森林的定义1.3 随机森林的生成过程投票机制 二、随机森林的性能与优缺点2.1 分类效果的影响因素2.2 优点2.3 缺点 三、随机森林的进阶3.1 缺失值处理3.2 袋外数据&#xff08;OOB&#xff09;OOB计算方法优缺点 3.3 过拟合问题…

Deepin 安装sunix串口卡驱动

折腾了3天&#xff0c;终于搞定&#xff0c;改天上传安装过程&#xff0c;开启用c对串口传感器的编程 这种戴尔拆机卡&#xff0c;芯片用的是sunix&#xff0c;下载sunix 的linux驱动。 串口传感器用的是中盛rs485温湿度串口传感器&#xff0c;加一个rs232 转485接口 串口传感…

安全防御拓扑1

目录 实验的拓扑&#xff1a; 要求&#xff1a; 我搭建的实验拓扑 步骤&#xff1a; 创建vlan&#xff1a; 接口配置&#xff1a; 防火墙&#xff1a; 防火墙配置&#xff1a; 建立安全策略&#xff1a; 防火墙的用户&#xff1a; 办公区的市场部和研发部用户 市场部…

手机删除的文件能恢复吗?删除不等于永别,3个技巧助你找回

安卓手机中的文件&#xff0c;就像是数字世界里的繁星&#xff0c;记录着我们的点点滴滴。然而&#xff0c;有时我们可能会不小心删除了某些重要的文件&#xff0c;让我们感到惋惜和困惑。删除的文件能恢复吗&#xff1f;别担心&#xff0c;删除并不等于永别&#xff0c;我们也…

关于文档理解相关工作的一些总结

过去四年时间&#xff0c;都在处理结构化数据的存储优化相关的工作。最近一段时间在做RAG相关的工作。非结构数据的存储与检索&#xff0c;接触的也越来越多。这篇文章聊聊最近一段时间关于文档理解方面的一些心得。 文档理解 文档理解旨在从非结构化文档中提取信息并将其转化…

DockerSecret+DockerConfig介绍及使用

DockerSecret 查看官网介绍&#xff0c;Secret是daemon API 1.25之后引入的&#xff0c;它运行在swarm上的命令。 生产环境下&#xff0c;为了安全&#xff0c;我们不能把各项目的配置密码写入到配置文件。 我们可以引入docker的secret方式保护密码。 场景&#xff1a; 用…

java数组之——了解十大排序算法(动画版)

详细的冒泡排序和快速排序请查看文章&#xff1a;java数组之冒泡排序、快速排序-CSDN博客https://blog.csdn.net/weixin_44554794/article/details/140361078 一、插入排序 二、希尔排序 三、选择排序 四、堆排序 五、冒泡排序 六、快速排序 七、归并排序 八、计数排序 九、桶…

家庭海外仓怎么拓客:策略落地方法汇总

家庭海外仓因为其高度灵活性和独有的价格优势&#xff0c;还是受到很多跨境卖家欢迎的。不过作为家庭海外仓的经营者&#xff0c;想在这么激烈的竞争下稳定、持续的拿到客户&#xff0c;还是有一定难度的。今天我们就专门来聊一下家庭海外仓的拓客问题。 家庭海外仓在拓客上面临…

【开源】开源数据库工具推荐

Mysql开源工具推荐 dbeaver下载网速太慢了&#xff0c;这么好用的开源工具&#xff0c;可以从镜像站中下载&#xff1a; 下载地址&#xff1a; https://mirrors.nju.edu.cn/github-release/dbeaver/dbeaver/24.1.1/ Redis开源工具推荐 好看好用&#xff0c;UI真是做的很不…

MyBatis where标签内嵌foreach标签查询报错‘缺失右括号‘或‘命令未正确结束‘

MyBatis <where>标签内嵌<foreach>标签查询报错’缺失右括号’或’命令未正确结束’ <where>标签内嵌<foreach>标签 截取一段脱敏xml&#xff0c;写明大概意思 <select id"queryLogByIds" resultMap"BaseResultMap">SELE…

ts使用typeorm实现db创建

1.新建基础架构 ①创建项目文件名, mkdir ‘名称’ ->cd ‘文件名’ -> mkdir ‘src’->npm init mkdir fileName cd fileName mkdir src npm init在当前项目名目录下执行npm init,按照默认执行就会创建package.json. 之后执行 npm i jest/globals casl/ability bcr…

如何快速区分电子原件极性

表贴式电阻电容无极性 1表贴式.二极管 如图所示:有横杠的表示负极&#xff08;竖杠标示&#xff09;&#xff0c;注意一定要查阅数据手册在引脚信息栏一般会有 铝电解电容 手册一般会对正负极有说明 钽电容有极性 发光二极管 芯片 一般规律&#xff1a;1.看丝印朝向正对丝印的…

【C++】静态成员变量和静态成员函数(static)

为了实现多个类公用一个成员变量或函数诞生了static&#xff0c;静态成员变量和静态成员函数。 static成员变量 格式 class A { public:static 静态成员变量类型 静态成员名; } }静态成员变量必须在类外进行初始化&#xff0c;类内初始化会报错 class A { private:st…

氢气传感器TGS2616在氢燃料电池行业的应用

氢燃料电池是一种将氢气和氧气的化学能直接转换成电能的发电装置。其基本原理是电解水的逆反应&#xff0c;把氢和氧分别供给阳极和阴极&#xff0c;氢通过阳极向外扩散和电解质发生反应后&#xff0c;放出电子通过外部的负载到达阴极。 氢燃料电池具有无污染、噪声低、高效率…

excel根据数据批量创建并重命名工作表

需求 根据一列数据&#xff0c;批量创建并重命名工作表 做法 1. 右键该sheet&#xff0c;选择查看代码 2. 输入VBA代码 正向创建 Sub create_sheets_by_col()Dim num% 定义为integer*num Application.WorksheetFunction.CountA(Sheet1.Range("A:A")) num是非空…