AI办公自动化:kimi批量搜索提取PDF文档中特定文本内容

news2025/4/21 16:47:56

工作任务:PDF文档中有资料来源这一行,比如:

资料来源:moomoo tech、The Information、Bloomberg、Reuters,浙商证券研究所

数据来源:CSDN、浙商证券研究所

数据来源:CSDN、arXiv、浙商证券研究所

数据来源:秘塔AI搜索官网,Similarweb,Epic Connector,东吴证券研究所

来源:Github,《面向深度学习的多模态融合技术研究综述》,《Make-a-video: text-to-video generation without text-video data》,浙商证券研究所

来源:Github,OSCHINA,浙商证券研究所

希望提取文件中几百个PDF文档中的资料来源

在kimi中输入提示词:

你是一个Python编程专家,完成一个脚本编写任务,具体步骤如下:

打开文件夹:F:\研报下载\AIGC研报;

用pdfplumber 库读取文件夹中所有的PDF文件;

遍历PDF文档中的每行文本,查找以“资料来源:”开头、以“数据来源:”开头和以“来源:”开头的这一行文本内容;

保存这些文本内容到文件夹“F:\AI自媒体内容\AI行业数据分析”下的Excel文件中;

注意:

每一步都要输出信息

处理异常和错误:确保你的代码能够处理可能遇到的异常,如文件损坏、权限问题或格式不一致等。

Kimi生成的源代码:

import os

import re

import pdfplumber

from openpyxl import Workbook

# 定义要搜索的关键词

keywords = ["资料来源:", "数据来源:", "来源:"]

# 定义源文件夹和目标文件夹路径

source_folder = r'F:\研报下载\AIGC研报'

target_folder = r'F:\AI自媒体内容\AI行业数据分析'

# 确保目标文件夹存在

os.makedirs(target_folder, exist_ok=True)

# 创建Excel工作簿

workbook = Workbook()

sheet = workbook.active

# 遍历源文件夹中的所有文件

for filename in os.listdir(source_folder):

if filename.endswith('.pdf'):

print(f"正在处理文件:{filename}")

# 构建完整的文件路径

file_path = os.path.join(source_folder, filename)

try:

# 使用pdfplumber打开PDF文件

with pdfplumber.open(file_path) as pdf:

# 遍历PDF文档中的每页

for page in pdf.pages:

text = page.extract_text()

# 使用正则表达式搜索关键词

for keyword in keywords:

pattern = re.compile(re.escape(keyword) + ".*")

matches = pattern.findall(text)

for match in matches:

print(f"找到匹配的文本:{match}")

# 将找到的文本写入Excel

sheet.append([match])

except Exception as e:

print(f"处理文件{filename}时发生错误:{e}")

# 保存Excel文件

excel_file_path = os.path.join(target_folder, 'AI_Industry_Analysis.xlsx')

workbook.save(excel_file_path)

print(f"所有数据已保存到:{excel_file_path}")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1824325.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

精品丨PowerBI迁移到SSAS

业务场景: 企业初期在进行 BI 可视化路线的时候,往往不会选择方案较为完整的SSAS,而是会选择轻量的 PowerBI 方案,究其根本还是软件成本的问题。 但是随着模型越来越臃肿,维护成本越来越高,有很多模型需要进…

VictoriaMetrics的高可用二进制方式部署

参考文章实现:Prometheus联邦集群VictoriaMetrics集群搭建部署 1.基本信息 涉及机器列表,机器均为本地虚拟机 192.168.56.108 192.168.56.109方案实现如下 涉及模块介绍 vmstorage: 数据存储节点,负责存储时序数据vmselect: 数据查询节点…

智慧公安指挥中心大数据信息化两中心两基地系统方案

1.1 系统建设目标 本系统是一个汇接全市的报警求助的大型通信指挥系统,技术难度较高、可靠性要求高,技术路线的选择至关重要。 在充分考虑XX市公安局的业务需要,利用现代通信及计算机网络技术的基础上,最大程度地实现资源整合、…

HO-VMD-TCN:西储大学轴承故障诊断全流程详解

声明:文章是从本人公众号中复制而来,因此,想最新最快了解各类智能优化算法及其改进的朋友,可关注我的公众号:强盛机器学习,不定期会有很多免费代码分享~ 目录 原理详解 1.数据预处理 2.特征提取 3.故障…

AI Agent学习系列:微信搭配Agent,让微信秒变特工

在之前的文章里介绍了如何把微信变成高考志愿填报小助手,我已经把这个bot发布到了公众号,大家可以直接在公众号消息输入框里提问即可直接使用,如图: 上面说的bot就是智能体,也叫Agent,和英文里特工是一个单…

AMSR-MODIS 边界层水汽 L3 每日 1 度 x 1 度 V1、V2 版本数据集

AMSR-MODIS Boundary Layer Water Vapor L3 Daily 1 degree x 1 degree V1 (AMDBLWV) at GES DISC AMSR-MODIS Boundary Layer Water Vapor L3 Daily 1 degree x 1 degree V2 (AMDBLWV) at GES DISC 简介 该数据集可估算均匀云层下的海洋边界层水汽。AMSR-E 和 AMSR-2 的微波…

2024 年最新基于 LLOneBot NT 框架搭建 QQ 机器人详细教程(更新中)

LLOneBot 概述 llonebot(LLOneBot)是一个与OneBot(也称为CQHTTP)协议兼容的机器人框架,它允许开发者使用不同的编程语言(如Python、Go、JavaScript等)编写机器人应用,并与各种支持 …

观察 jvm 运行时数据区内存大小(native memory tracking)

jvm 运行时数据区 jvm 运行时数据区包括且不限于以下几个部分: 堆(heap): 用于存储对象实例和数组。堆内存的分配和释放由垃圾回收器进行管理。方法区(method area): 用于存储类的信息、静态变量、常量等。jdk 8 后方法区位于 metaspace。虚拟机栈(vm stack): 用于存储方法的…

Mysql之不使用部署在k8s集群的Mysql而是选择单独部署的Mysql的原因

测试准备: 线程组:并发数100,持续时间2min 两个请求:使用k8s集群中的mysql的wordpress对应端口30011 使用单独部署的mysql的wordpress的对应端口为30022 访问同一个博客 测试结果: 汇总报告: 响应时间图&…

16.番外_模拟c语言文件流

16.番外:模拟c语言文件流 一,前言 先来看一下Struct _IO_FILE的定义。 grep -rnw /usr/include/ -e struct _IO_FILE今天我们要做的就是模拟实现FILE及C语言文件操作相关函数 二,开始!做吧!我们! 1.FILE的缓冲区及…

「小爱同学」接入豆包大模型;华为鸿蒙 OS 成为中国第二大操作系统丨 RTE 开发者日报 Vol.224

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

【Android面试八股文】你知道如何实现非阻塞式生产者消费者模式吗?

文章目录 这道题想考察什么 ?考察的知识点日常生活中的生产者消费者模式生产者消费者模式简介为什么需要缓冲区?阻塞与非堵塞非阻塞式生产者消费者模式的实现非阻塞式生产者消费者模式的实现阻塞式生产者消费者模式实现特点这道题想考察什么 ? 是否了解非阻塞式生产者消费者…

R可视化:ggpubr包学习

欢迎大家关注全网生信学习者系列: WX公zhong号:生信学习者 Xiao hong书:生信学习者 知hu:生信学习者 CDSN:生信学习者2 介绍 ggpubr是我经常会用到的R包,它傻瓜式的画图方式对很多初次接触R绘图的人来…

GO RACE 测试在低版本GCC上报错误 exit status 0xc0000139

windows机器环境,go程序使用race定位时一运行就报错,写了个example如: 能看到加了race之后就不行了, 搜了一下,git上有个issue: runtime: Race detector causes exit status 0xc0000139 on Windows 11 wi…

高考志愿填报选专业,兴趣爱好和就业前景哪个优先?

每个人都有自己的兴趣与爱好,而高考志愿填报是在为自己选择职业方向。最理想的状态就是把自己的兴趣和爱好与自己的职业统一起来,让兴趣和爱好促进职业的发展,为职业增添动力。但现实生活中,这种理想的状态并不是每个人都能达到的…

Java多线程面试重点-2

16.Synchronized关键字加在静态方法和实例方法的区别? 修饰静态方法,是对类进行加锁(Class对象),如果该类中有methodA和methodB都是被Synch修饰的静态方法,此时有两个线程T1、T2分别调用methodA()和methodB()&#x…

http穿透怎么做?

众所周知http协议的默认端口是80,由于国家工信部要求,域名必须备案才给开放80端口,而备案需要固定公网IP,这就使得开放http80端口的费用成本和时间成本变的很高。那么能不能利用内网穿透技术做http穿透呢?下面我就给大…

Stability AI最新的SD3模型存在严重问题 为规避裸体结果导致躯体部分错乱

人工智能 Stability AI 最新的 SD3 Medium 模型存在严重问题,只要生成人物就会出现躯体错乱,这似乎是该公司刻意规避生成裸体图片的结果。目前猜测他们可能在训练过程中就剔除了 NSFW 内容,同时在训练时规避裸体内容进而导致模型也会刻意将人…

Haption Virtuose 6D力反馈设备遥操作机器人应用研究

在虚拟现实和远程操作技术的飞速发展下,力反馈设备成为了一个不可或缺的工具。其中,Haption Virtuose 6D力反馈设备以其卓越的性能和广泛的应用领域,成为了这一领域的佼佼者。本文将详细介绍Haption Virtuose 6D力反馈设备及其在遥操作机器人…

Flutter系列:关于ensureInitialized()

Flutter系列 关于ensureInitialized() - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28…