点击上方"蓝字"
关注木易巷!
哈喽,大家好,木易巷来啦!
想象一下,如果你有一个文件夹,里面堆满了近百个Excel文件,你需要从中找出包含特定关键词文本的文件。文件格式不统一,每个数据表中的字段也都不匹配,这听起来是不是有点头大?
木易巷今天就遇到了这个问题,最后写了一段Python代码,成功找出。
本文将介绍如何使用Python脚本来自动化这个过程,找出文件夹中包含特定关键词的所有Excel文件。
话不多说,上干货~
▍1、所需工具和库
首先,确保你的计算机上已经安装了Python环境。接下来,我们需要安装两个重要的库:pandas和openpyxl。pandas是Python的数据分析库,用于数据处理和分析,而openpyxl则是用来读取和写入Excel 2010 xlsx/xlsm/xltx/xltm文件的库。
安装命令如下:
pip install pandas
pip install openpyxl
▍2、编写脚本
下面是查找包含关键词Excel文件的Python脚本:
import os
import pandas as pd
# 设置文件夹路径和关键词
folder_path = '你的文件夹路径' # 替换为你的文件夹路径
keyword = '你的关键词' # 替换为你想要搜索的关键词
# 初始化一个列表来保存包含关键词的Excel文件名
matching_files = []
# 遍历文件夹中的所有文件
for file in os.listdir(folder_path):
# 检查文件是否为Excel文件
if file.endswith('.xlsx') or file.endswith('.xls'):
# 构建完整的文件路径
file_path = os.path.join(folder_path, file)
# 尝试读取Excel文件
try:
# 使用openpyxl作为读取.xlsx文件的引擎
if file.endswith('.xlsx'):
df = pd.read_excel(file_path, engine='openpyxl')
else: # 对于.xls文件,如果xlrd仍然可用,可以继续使用
df = pd.read_excel(file_path)
# 遍历Excel表中的所有单元格
for cell in df.values.flatten():
# 检查单元格是否包含关键词
if keyword in str(cell):
# 如果找到关键词,将文件名添加到列表中,并跳出循环
matching_files.append(file)
break
except Exception as e:
print(f"无法读取文件 {file_path}: {e}")
# 输出包含关键词的Excel文件名
print(f"包含关键词 '{keyword}' 的Excel文件有:")
for matching_file in matching_files:
print(matching_file)
▍3、使用说明
(1)将脚本中的folder_path变量替换为你想要搜索的文件夹路径。
(2)将keyword变量替换为你想要查找的关键词。
(3)运行脚本。
好啦,今天的分享就到这里~
END