pandas读取一个 文件夹下所有excel文件

news2025/1/6 6:36:31

我这边有个需求,是要求汇总一个文件夹所有的excel文件, 其中有.xls和 .xlsx文件,同时还excel文件中的数据可能还不一致,会有表头数据不一样需要一起汇总。

首先先遍历子文件夹并读取Excel文件: 使用os库来遍历包含子文件夹的主文件夹,并读取所有的Excel文件。

import os

main_folder = '文件夹路径'
all_data = []

for root, dirs, files in os.walk(main_folder):
    for file in files:
        if file.endswith(".xlsx"):  # 只处理Excel文件,可以根据需要修改扩展名
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2)  # 跳过前两行无用数据
            all_data.append(df)
        elif file.endswith(".xls"):
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2, engine='xlrd')
            all_data.append(df)

然后是合并数据: 使用pandas的concat函数将所有数据帧合并为一个总的数据帧,并处理不同表头的情况。假设表头位于第一行。

combined_df = pd.concat(all_data, ignore_index=True)

# 处理不同表头的情况
combined_df = combined_df.fillna('')  # 将NaN值填充为空字符串

最后呢 ,保存总表:将合并后的数据保存到一个新的Excel文件

 combined_df.to_excel('保存的excel文件路径', index=False)

出现的问题

在这里插入图片描述
上图错误, 我用断点调试去看数据, 发现里面出现了一个错误的文件路径。 是以~$ 开头的一个excel文件。但是真实环境中是没有这个excel文件,去查了一下资料
如下解释:
在Windows系统中,当一个Excel文件(.xlsx 或 .xls)正在被某个用户编辑时,Excel会创建一个临时文件,文件名以 ~$ 开头,然后是原始文件的名称。这个临时文件用于跟踪编辑进程,以防止多个用户同时编辑相同的文件时发生冲突。

所以在os.walk遍历文件夹时,它会包括所有文件,包括这些临时文件。这些临时文件通常不应被处理或读取,因为它们是Excel编辑过程中的中间文件。

解决方案

要在遍历文件夹时排除这些临时文件,您可以添加一个条件来检查文件名,如果文件名以 ~$ 开头,则跳过该文件,
在循环中多加一个判断就好了。

if not file.startswith("~$"):

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/999727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在自定义数据集上实现OpenAI CLIP

在2021年1月,OpenAI宣布了两个新模型:DALL-E和CLIP,它们都是以某种方式连接文本和图像的多模态模型。CLIP全称是Contrastive Language–Image Pre-training,一种基于对比文本-图像对的预训练方法。为什么要介绍CLIP呢?因为现在大火…

阅读分享--重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文

重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文 https://zhuanlan.zhihu.com/p/52169807 废话不多说,下面就跟大家分享一下两次拜读这篇论文的不同体验和收获。 第一遍读这篇论文的时候,我想所有人都是冲着算法的架构去的,在深度学习推荐系统已经成为各大公司“基本…

Linux下安装部署Tomcat8_图解_保姆级教程

检查工作 tomcat依赖于JDK ,所以我们要先检查 Linux 下是否安装了JDK并配置了环境变量 java -version // 查看JDK版本号如需安装JDK,请参考: Linux下安装JDK,巨详细 1.将安装包放到自己所建立的文件夹之下 我这里采用的软件是Xftp,创建一个文件夹,将Xftp的路径指向刚刚创…

一站式开源持续测试平台 MerterSphere 之测试跟踪操作详解

一、MeterSphere平台介绍 MeterSphere是一站式的开源持续测试平台,遵循 GPL v3 开源许可协议,涵盖测试跟踪、接口测试、UI 测试和性能测试等功能,全面兼容JMeter、Selenium 等主流开源标准,有效助力开发和测试团队充分利用云弹性…

这一次,大模型颠覆广告行业!

本文源自:量子位 百度用大模型重构一切,包括现金奶牛业务。 就在刚刚,百度营销官宣接入文心一言,推出新一代营销平台轻舸,也是全球首个AI Native的营销平台。 这么说吧,是有点颠覆互联网广告投放模式内味…

网络安全(红客)自学

前言 1.这是一条坚持的道路,三分钟的热情可以放弃往下看了. 2.多练多想,不要离开了教程什么都不会了.最好看完教程自己独立完成技术方面的开发. 3.有时多 google,baidu,我们往往都遇不到好心的大神,谁会无聊天天给你做解答. 4.遇到实在搞不懂的,可以先放放,以后再来解决. …

电脑文件一团乱?试试这个高效率的管理软件

如果你经常被电脑文件管理搞得一团乱,不妨试试这款高效率的文件管理软件——固乔文件管家。下面是如何使用这款软件进行文件管理的详细步骤。 首先,打开浏览器并搜索“固乔文件管家”这款软件。搜索到后,点击下载并安装。安装完成后&#xff…

2023-亲测有效-git clone失败怎么办?用代理?加git?

git 克隆不下来,超时 用以下格式: git clone https://ghproxy.com/https://github.com/Tencent/ncnn.git 你的网站前面加上 https://ghproxy.com/ 刷的一下就下完了!!

【股票价格预测】基于改进莱维飞行和混沌映射的粒子群优化BP神经网络预测股票价格研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

面试项目-黑马头条-项目介绍

1 项目介绍 B站视频黑马头条视频学习总结,侵权请联系删除 1.1 项目背景 随着智能手机的普及,人们更加习惯于通过手机来看新闻。由于生活节奏的加快,很多人只能利用碎片时间来获取信息,因此,对于移动资讯客户端的需求也…

薪资17K+需要什么水平?98年测试工程师面试实录…

我的情况 大概介绍一下个人情况,男,本科,三年多测试工作经验,懂python,会写脚本,会selenium,会性能,然而到今天都没有收到一份offer!从年后就开始准备简历,年…

从官方文档看Redis

一.核心能力 Redis 1.In-memory data structures 内存数据结构 Redis以"键值对" 的方式来存储数据, 是一种"非关系型数据库" ps: MySQL以"表"的方式来存储数据, 是一种"关系型数据库" 2.Programmability 可编程性 Redis可以用脚本…

Eclipse 安装串口终端工具

Eclipse已集成串口终端显示,只需要我们自己下载安装即可使用。使用SSH连接也差不多。 查看eclipse版本信息 help->About Eclipse 查看version,我的是4.7.3a,记住代号,我的是“Oxygen”,下面有用。 安装eclipse自带的“Termin…

【HELLO NEW WORLD】一封来自开放自动化时代的邀请函

施耐德电气开放自动化平台,迈向开放、高效与韧性、可持续、以人为本的未来工业。 HELLO WORLD 是人类在信息世界开启的第一行 也是我们走进自动化领域迎来的第一句问候 如今 面临向数字化与自动化加速转型的新变局 工业领域迫切地需要一场变革 走向更加高效、…

一名IT重装操作系统后的安装环境历程

1、安装JDK,配置环境变量(我一般默认安装,避免后期一些不必要的问题)。 下载链接 个人安装包可从下方下载: 链接:https://pan.baidu.com/s/1XIsjCQ2Y-r1m9H8MBlsILQ?pwd6ekm 提取码:6ekm …

惊!这么好用的纯html网页模板可还行?偷偷拿去做作业真是绝绝子!!

在这个万物vue的年代,网页设计越来越框架化。 上网搜个资料学习学习吧,咵咵咵,“游泳健身,vue了解一下” 我只是想简单地学个html,js啊!怎么就这么复杂! 曾几何时,在网上找个网页…

matlab rbf手写

clc;clear;format long; trainD0:0.1:10; outDsin(trainD).*trainD; outDoutD; dnumlength(trainD); %初始化参数学习率 lr_w00.1;%权值 lr_c00.1;%中心点 lr_sigma00.1;%神经节点的方差参数 iters10000;%最大迭代次数 minE1e-2;%误差小于他就停止 cnum150;%神经元个数 clinspa…

山西电力市场日前价格预测【2023-09-12】

日前价格预测 预测说明: 如上图所示,预测明日(2023-09-12)山西电力市场全天平均日前电价为344.48元/MWh。其中,最高日前电价为405.81元/MWh,预计出现在19: 15。最低日前电价为302.50元/MWh,预计…

电脑文件批量重命名:高效操作技巧

随着时间的推移,我们积累的文件和文件夹数量越来越多,需要对它们进行合理的命名和管理,以便更方便地查找和利用。而文件批量重命名功能可以帮助我们更高效地管理文件夹。下面介绍五种方式,帮助你更好地利用文件批量重命名工具&…

02_Flutter自定义Sliver组件实现分组列表吸顶效果

02_Flutter自定义Sliver组件实现分组列表吸顶效果 一.先上效果图 二.列表布局实现 比较简单,直接上代码,主要使用CustomScrollView和SliverToBoxAdapter实现 _buildSection(String title) {return SliverToBoxAdapter(child: RepaintBoundary(child: C…