如何批量提取pdf文件名到excel?

news2024/11/28 20:38:11

    如何批量提取pdf文件名到excel?在大家整理PDF文档的时候会不会遇到下面这些问题,首先PDF过多,每个PDF文件都有自己的名字,我们想要分类排放的话非常麻烦,不仅耗费时间而且带来的收益非常低,然后即使我们整理好了PDF文档,后续想要寻找这些PDF文档的话也是非常麻烦的,因为没有快速搜索的操作,即使将PDF进行分类了寻找也非常的难受,最后整理PDF文档的时候可能会出错,因为消耗了大量的精力和集中力,如果我们一次操作太长的时间很有可能导致整理后的文档有问题,后续要维护会变的更加麻烦。

综上所述,如果我们在整理PDF文档的时候遇到了上面这些问题应该怎么办呢?小编这里推荐的是批量提取PDF文件名到excel里面,这样能够带来超多的好处,首先能够快速的为我们整理和分类PDF文件,无需我们自己创建文件夹并一个个添加进去了,然后excel文档是支持查询操作的,如果我们想要找什么PDF文件直接搜索就可以找到,不用我们再自己手动翻找PDF文件,最后excel文档能够帮助我们完成分析和报告,如果领导有这方面的需求,excel文档也能够帮助我们快速完成分析的操作,那么应该如何批量提取PDF文件到excel里面呢?快来跟随小编看看下面这些方法吧!

9f798420b7ce8691452c321d03cd9bde.jpeg 

方法一:使用“优速文件名提取器”批量提取PDF文件名到excel

步骤1:首先请您将“优速文件名提取器”下载并安装到电脑上,安装完成后打开软件,在软件左侧可以看到【文件名】选项,点击它。

 daaae391814faccee273c7a0054cef4b.jpeg

步骤2:之后需要先将PDF导入到软件中,只要点击【添加文件】按钮就可以选择pdf文件并导入到软件里面。

0c7d3640fc9f29b41403ca102dfb2a64.jpeg 

步骤3:文件导入成功后左侧就会显示出很多设置,在这里我们可以设置名称、后缀等内容,但最重要的就是【导出格式】一定要设置为xlsx格式,也就是excel的格式,其余设置都可以按照自己的想法调节。

b3de4f7526a4c180007f6bcd5ac7990f.jpeg 

步骤4:调节完全部设置后点击右上角的【开始提取】按钮,启动软件的提取操作。等待一会提取完成会自动打开输出文件夹,文件名提取后的excel导出文件就保存在这里。

 57b972968d8228a0adb10f549863c466.jpeg

步骤5:双击将excel文件打开就可以看到所有PDF文件名都被成功提取到excel表格的第一列里。

 c7356476ff6ae7ab6232f5cce8ecd5b2.jpeg

方法二:使用Python 脚本来进行提取

   要批量提取 PDF 文件的名称到 Excel 表格中,你可以使用一些自动化的工具或脚本来实现这个目的。以下是一种常见的方法:

使用 Python 脚本:

  你可以使用 Python 编写一个脚本来批量提取 PDF 文件名称,并将其保存到 Excel 表格中。首先,你需要安装 pandas 和 PyPDF2 这两个 Python 库,它们分别用于处理 Excel 表格和 PDF 文件。

下面是一个简单的示例代码,演示了如何批量提取指定文件夹中的 PDF 文件名称,并将其保存到 Excel 表格中:

import os

import pandas as pd

from PyPDF2 import PdfReader

# 指定 PDF 文件所在的文件夹路径

pdf_folder = '/path/to/your/pdf/folder'

# 遍历文件夹,提取 PDF 文件名

pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith('.pdf')]

# 创建一个空的 DataFrame 用于存储 PDF 文件名

pdf_df = pd.DataFrame(columns=['File Name'])

# 将 PDF 文件名添加到 DataFrame 中

for pdf_file in pdf_files:

    pdf_df = pdf_df.append({'File Name': pdf_file}, ignore_index=True)

# 保存 DataFrame 到 Excel 表格中

output_excel = '/path/to/your/output/excel/file.xlsx'

pdf_df.to_excel(output_excel, index=False)

在这个示例代码中,你需要将 /path/to/your/pdf/folder 替换为存储 PDF 文件的文件夹路径,将 /path/to/your/output/excel/file.xlsx 替换为你想要保存的 Excel 文件路径。

  运行这个 Python 脚本后,它将遍历指定文件夹中的所有 PDF 文件,提取它们的文件名,并将文件名保存到指定的 Excel 表格中。

  通过这种方式,你可以方便地批量提取 PDF 文件的名称到 Excel 表格中。如果你对 Python 不太熟悉,你也可以寻求其他自动化工具或脚本来完成类似的任务。

da5010b00f4b33563176e1d61ab3faa2.jpeg 

将PDF提取到excel里面是会带来很多的好处,但要知道这样操作也不是十全十美的,首先机械操作也会消耗很多的时间,特别是PDF文件比较多的时候,我们可能需要挂机一会才可以完成提取操作,然后机器控制的灵活性是没有手动那么好的,比如我们要控制文件的版本,想要修改后的名字,这种时候我们只能通过手动修改去完成了,机器无法帮我们确认要哪种,所以两种都会直接添加上去,最后将PDF文件名提取到excel的时候一定要注意数据的保护,不要随意分享给别人,否则可能会造成数据泄露等严重后果,那么到这里小编这篇“如何批量提取pdf文件名到excel?”就结束了,相信看完这篇文章的你,肯定获得了很多的知识!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1341339.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

docker +gitee+ jenkins +maven项目 (一)

jenkins环境和插件配置 文章目录 jenkins环境和插件配置前言一、环境版本二、jenkins插件三、环境安装总结 前言 现在基本都是走自动化运维,想到用docker 来部署jenkins ,然后jenkins来部署java代码,做到了开箱即用,自动发布代码…

eBay自养号测评:提升销量与排名的安全可控之道

近年来,eBay平台吸引了大量商家入驻,许多原本在其他平台的卖家也纷纷转型至eBay。然而,许多商家在运营一段时间后发现,新账号的流量扶持期结束后,店铺流量开始下滑。面对这种情况,卖家应该采取哪些措施呢&a…

elasticsearch系列五:集群的备份与恢复

概述 前几篇咱们讲了es的语法、存储的优化、常规运维等等,今天咱们看下如何备份数据和恢复数据。 在传统的关系型数据库中我们有多种备份方式,常见有热备、冷备、全量定时增量备份、通过开发程序备份等等,其实在es中是一样的。 官方建议采用s…

YOLOv5改进 | 2023主干篇 | 华为最新VanillaNet主干替换Backbone实现大幅度长点

一、本文介绍 本文给大家来的改进机制是华为最新VanillaNet网络,其是今年最新推出的主干网络,VanillaNet是一种注重极简主义和效率的神经网络架构。它的设计简单,层数较少,避免了像深度架构和自注意力这样的复杂操作(需要注意的是…

用html,js和layui写一个简单的点击打怪小游戏

介绍&#xff1a; 一个简单的打怪小游戏&#xff0c;点击开始游戏后&#xff0c;出现攻击按钮&#xff0c;击败怪物后可以选择继续下一关和结束游戏。 继续下一个怪兽的血量会增加5点&#xff0c;攻击按钮会随机变色。 效果图&#xff1a; html代码&#xff1a; <!DOCTYPE…

2702 高级打字机

因为Undo操作只能撤销Type操作&#xff0c;所以Undo x 实际上就是删除文章末尾x个字母。用一个栈即可解决&#xff08;每个字母最多进出一次&#xff09;。 这种情况下只需要设计一个合理的数据结构依次执行操作即可。 版本树&#xff1a;Undo x撤销最近的x次修改操作&#xf…

HCIA-Datacom题库(自己整理分类的)——OSPF协议多选

ospf的hello报文功能是 邻居发现 同步路由器的LSDB 更新LSA信息 维持邻居关系 下列关于OSPF区域描述正确的是 在配置OSPF区域正确必须给路由器的loopback接配置IP地址 所有的网络都应在区域0中宣告 骨干区域的编号不能为2 区域的编号范围是从0.0.0.0到255.255.255.255…

《深入理解Java虚拟机(第三版)》读书笔记:Java内存区域与内存溢出异常、垃圾收集器与内存分配策略

下文是阅读《深入理解Java虚拟机&#xff08;第3版&#xff09;》这本书的读书笔记&#xff0c;如有侵权&#xff0c;请联系删除。 文章目录 第2章 Java内存区域与内存溢出异常2.2 运行时数据区域2.3 HotSpot虚拟机对象探秘 第3章 垃圾收集器与内存分配策略3.2 对象已死&…

应用在网络摄像机领域中的国产音频ADC芯片

IPC&#xff1a;其实叫“网络摄像机”&#xff0c;是IP Camera的简称。它是在前一代模拟摄像机的基础上&#xff0c;集成了编码模块后的摄像机。它和模拟摄像机的区别&#xff0c;就是在新增的“编码模块”上。模拟摄像机&#xff0c;顾名思义&#xff0c;输出的是模拟视频信号…

Adobe Premier及PrElements各版本安装指南

下载链接 https://pan.baidu.com/s/1FI_Zk4OsyRtx8AiMzgU57w?pwd0531 #2024版 1.鼠标右击【Pr2024(64bit)】压缩包&#xff08;win11及以上系统需先点击“显示更多选项”&#xff09;【解压到 Pr2024(64bit)】。 2.打开解压后的文件夹&#xff0c;鼠标右击【Setup】选择【以…

单片机数据发送程序

#include<reg51.h> //包含单片机寄存器的头文件 /***************************************************** 函数功能&#xff1a;向PC发送一个字节数据 ***************************************************/ void Send(unsigned char dat) { SBUFdat; whil…

MFC随对话框大小改变同时改变控件大小

先看一下效果; 初始; 窗口变大,控件也变大; 二个也可以; 窗口变大,控件变大; 默认生成的对话框没有WM_SIZE消息的处理程序;打开类向导,选中WM_SIZE消息,对CxxxDlg类添加该消息的处理程序;默认生成的函数名是OnSize; 添加了以后代码中会有三处变化; 在对话框类的…

使用rsync构建镜像网站

实验环境 某公司在深圳、北京两地各放置了一台网站服务器&#xff0c;分别应对南北大区内不断增长的客户访问需求&#xff0c;两台服务器的网站文档必须保持一致&#xff0c;如图12.3所示&#xff0c;同步链路已通过VPN专用线路实现。 需求描述 > 服务器 A&#xff08;北京…

每日一题:LeetCode-LCR 179. 查找总价格为目标值的两个商品

每日一题系列&#xff08;day 16&#xff09; 前言&#xff1a; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f308; &#x1f50e…

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取相机当前实时帧率(C#)

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK使用UserSet功能保存和载入相机的各类参数&#xff08;C#&#xff09; Baumer工业相机Baumer工业相机的帧率的技术背景Baumer工业相机的帧率获取方式CameraExplorer如何查看相机帧率信息在NEOAPI SDK里通过函数获取相机帧率 Baume…

连接GaussDB(DWS)报错:Invalid or unsupported by client SCRAM mechanisms

用postgres方式连接GaussDB(DWS)报错&#xff1a;Invalid or unsupported by client SCRAM mechanisms 报错内容 [2023-12-27 21:43:35] Invalid or unsupported by client SCRAM mechanisms org.postgresql.util.PSQLException: Invalid or unsupported by client SCRAM mec…

算法学习系列(十四):并查集

目录 引言一、并查集概念二、并查集模板三、例题1.合并集合2.连通块中点的数量 引言 这个并查集以代码短小并且精悍的特点&#xff0c;在算法竞赛和面试中特别容易出&#xff0c;对于面试而言&#xff0c;肯定不会让你去写一两百行的代码&#xff0c;一般出的都是那种比较短的…

table表格中使用el-popover 无效问题解决

实例只针对单个的按钮管用在表格里每一列都有el-popover相当于是v-for遍历了 所以我们在触发按钮的时候并不是单个的触发某一个 主要执行 代码 <el-popover placement"left" :ref"popover-${scope.$index}"> 动态绑定了ref 关闭弹窗 执行deltask…

基于Wenet长音频分割降噪识别

Wenet是一个流行的语音处理工具&#xff0c;它专注于长音频的处理&#xff0c;具备分割、降噪和识别功能。它的长音频分割降噪识别功能允许对长时间录制的音频进行分段处理&#xff0c;首先对音频进行分割&#xff0c;将其分解成更小的段落或语音片段。接着进行降噪处理&#x…

开源轻量级分布式文件系统FastDFS本地部署并实现远程访问服务器

文章目录 前言1. 本地搭建FastDFS文件系统1.1 环境安装1.2 安装libfastcommon1.3 安装FastDFS1.4 配置Tracker1.5 配置Storage1.6 测试上传下载1.7 与Nginx整合1.8 安装Nginx1.9 配置Nginx 2. 局域网测试访问FastDFS3. 安装cpolar内网穿透4. 配置公网访问地址5. 固定公网地址5.…