Python遍历大量表格文件并筛选出表格内数据缺失率低的文件

Python遍历大量表格文件并筛选出表格内数据缺失率低的文件

news2026/2/11 4:43:40

本文介绍基于Python语言，针对一个文件夹下大量的Excel表格文件，基于其中每一个文件内、某一列数据的特征，对其加以筛选，并将符合要求与不符合要求的文件分别复制到另外两个新的文件夹中的方法。

首先，我们来明确一下本文的具体需求。现有一个文件夹，其中有大量的Excel表格文件（在本文中我们就以csv格式的文件为例）；如下图所示。

其中，每一个Excel表格文件都有着如下图所示的数据格式。

如上图所示，各个文件都有着这样的问题——有些行的数据是无误的，而有些行，除了第一列，其他列都是0值。因此，我们希望就以第2列为标准，找出含有0值数量低于或高于某一阈值的表格文件——其中，0值数量多，肯定不利于我们的分析，我们将其放入一个新的文件夹；而0值数量少的，我们才可以对这一表格文件加以后续的分析，我们就将其放入另一个新的文件夹中。因此，计算出每一个表格文件对应的的0值数量百分比后，我们就进一步将这一Excel表格文件复制到对应的文件夹内。

知道了需求，我们就可以开始代码的撰写。其中，本文用到的代码如下所示。

# -*- coding: utf-8 -*-
"""
Created on Tue May 16 20:19:50 2023

@author: fkxxgis
"""

import os
import shutil
import pandas as pd

def filter_copy_files(original_path, useful_path, useless_path, threshold):
    original_all_file = os.listdir(original_path)
    for file in original_all_file:
        path = os.path.join(original_path, file)
        if file.endswith(".csv") and os.path.isfile(path):
            df = pd.read_csv(path)
            column_value = df.iloc[:, 1]
            zero_count = (column_value == 0).sum()
            zero_ratio = zero_count / len(column_value)
            
            if zero_ratio < threshold:
                new_path = os.path.join(useful_path, file)
                shutil.copy(path, new_path)
            else:
                new_path = os.path.join(useless_path, file)
                shutil.copy(path, new_path)

filter_copy_files("E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/13_AllYearAverage",
                  "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/14_PointSelection/LowMissingRate",
                  "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/14_PointSelection/HighMissingRate",
                  0.30)

其中，上述代码是一个筛选并复制文件的函数。该函数的目的是根据给定的阈值将具有不同缺失率的文件从一个文件夹复制到另外两个文件夹。

在代码中，filter_copy_files函数接受四个参数：

original_path：原始文件夹的路径，其中包含要筛选的.csv文件。
useful_path：有用文件的目标文件夹路径，将满足阈值要求（也就是0值数量低于阈值）的文件复制到此处。
useless_path：无用文件的目标文件夹路径，将不满足阈值要求（也就是0值数量高于阈值）的文件复制到此处。
threshold：阈值，用于确定文件的缺失率是否满足要求。

函数首先使用os.listdir获取原始文件夹中的所有文件名，然后遍历每个文件名。对于以.csv结尾且为文件的文件，函数使用pd.read_csv读取.csv文件，并通过df.iloc[:, 1]获取第2列的值。

接下来，函数计算第2列中为零的元素数量，并通过将其除以列的总长度来计算缺失率。根据阈值判断缺失率是否满足要求。

如果缺失率小于阈值，函数将文件复制到useful_path目标文件夹中，使用shutil.copy函数实现复制操作。否则，函数将文件复制到useless_path文件夹中。

最后，我们调用了filter_copy_files函数，并传递了相应的参数来执行文件筛选和复制操作。

运行上述代码，我们即可在对应的文件夹中看到文件。如下图所示，0值数量低于阈值的表格文件都复制到了这个LowMissingRate文件夹中，我们即可对其加以后续处理；而那些0值数量高于阈值的表格文件，就放到另一个HighMissingRate文件夹中了。

至此，大功告成。

欢迎关注：疯狂学习GIS

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/533981.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【Linux】多线程 --- POSIX信号量+懒汉模式的线程池+其他常见锁

【Linux】多线程 --- POSIX信号量+懒汉模式的线程池+其他常见锁

Linux system sprinkle flowers 文章目录一、POSIX信号量1.阻塞队列实现的生产消费模型代码不足的地方（无法事前得知临界资源的就绪状态）2.信号量的理解3.初步看一下信号量的操作接口4.环形队列实现的生产消费模型5.环形队列的代码编写（维持…

阅读更多...

百度将凭借人工智能改变游戏规则并实现盈利？

百度将凭借人工智能改变游戏规则并实现盈利？

来源：猛兽财经作者：猛兽财经稳健的财务业绩在2022年第四季度，百度（BIDU）的收入为48亿美元(331亿人民币)，比分析师预测的高出了1.72亿美元，但同比下降了约8%。从细分业务来看，百度…

阅读更多...

Android：你真的会用Toast吗（介绍安卓好看简约的Toast快速解锁方法）

Android：你真的会用Toast吗（介绍安卓好看简约的Toast快速解锁方法）

目录概要开源库地址如何使用 1、首先我们现在根目录下的build.gradle中添加以下依赖 2、然后我们在我们的模块目录（通常是app）下的build.gradle中添加以下依赖 3、然后这一步是可选的，你可以在你的app模块下任意位置，添加以下…

阅读更多...

ANR原理篇 - ANR弹框是如何显示出来的

ANR原理篇 - ANR弹框是如何显示出来的

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用文章目录系列文章目录前言一、ANR弹框是如何显示流程1.1 找到弹框对应类1.2 查找AppNotRespondingDialog引用…

阅读更多...

Python程序员职业现状分析，想提高竞争力，就要做到这六点

Python程序员职业现状分析，想提高竞争力，就要做到这六点

现今程序员群体数量已经高达几百万，学历和收入双高，月薪普遍过万。今天，我们就围绕90后程序员人群分析、职业现状、Python程序员分析等，进行较为全面的报告分析和观点论述。一、程序员人群分析人数规模上：截当前程…

阅读更多...

javaweb系列-JSON对象、BOM对象、DOM对象

javaweb系列-JSON对象、BOM对象、DOM对象

1.5.1.3 JSON对象在 JavaScript 中自定义对象特别简单，其语法格式如下： <body><script>//自定义对象var user {name: "tom",age: 20,gendar: "male",eat: function () { //函数alert("吃饭啦");}};aler…

阅读更多...

Xcode多个子工程结合联编开发SDK

Xcode多个子工程结合联编开发SDK

Xcode版本：Version 14.3 (14E222b) 这是啥？ chat： Xcode 多个子工程结合联编可以用于开发 SDK，这种开发方法是在一个主工程中包含多个子工程，每个子工程代表 SDK 中不同的模块，每个子工程都可以独立编译。…

阅读更多...

AutoDL平台租借GPU详解

AutoDL平台租借GPU详解

AutoDL平台租借GPU详解（2023年） 一、AutoDL租用GPU 1.1 创建实例首先进入AutoDL官网：AutoDL-品质GPU租用平台-租GPU就上AutoDL进行学生注册登录（学生有优惠）点击右上角的控制台，进入AutoDL的主页&#…

阅读更多...

人工智能应用--深度学习原理与实战--神经网络的工作原理

人工智能应用--深度学习原理与实战--神经网络的工作原理

机器学习是将输入(比如图像)映射到目标(比如标签“猫”)，并建立映射规则(即模型)。在深度学习中，神经网络通过一系列数据变换层来实现这种输入到目标的映射，本章节我们具体来看这种学习过程是如何实现的。学习内容 1、理解层(Layer)及权重(…

阅读更多...

Java调用C#

Java调用C#

由于项目采用Hybrid热更，走纯C#开发，目前战斗由客户端到服务端（客户端提供dll），服务端负责调用，故需要走Java 调C# dll逻辑。 1、JNI：不支持泛型（pb）没法转C成功 2、JN…

阅读更多...

MatebookE2022款i7集显华为智能磁吸键盘(DRC-W76)原装出厂Win11系统恢复原厂OEM系统

MatebookE2022款i7集显华为智能磁吸键盘(DRC-W76)原装出厂Win11系统恢复原厂OEM系统

HUAWEI华为笔记本电脑，Matebook E 2022款 i7 集显华为智能磁吸键盘 16GB512GB (DRC-W76)原装出厂Windows11系统恢复原厂OEM系统系统自带所有驱动、办公软件、华为电脑管家等预装软件链接：https://pan.baidu.com/s/1t7bczFO_RvD31g1uIZoGgw?pwdq2g0 …

阅读更多...

前端面试题整理2

前端面试题整理2

目录 1.讲解es6新增map和set？ 2.Ts的枚举和元组是什么？ 3.vue3中的beforeEnter钩子函数怎么用？ 4.获取数据时，加载loading动画，在哪取消比较好Diff算法的优化在哪？ 5.Jq中的$(this)和this的区别&#x…

阅读更多...

单片机--STM32

单片机--STM32

【1】课程回顾【2】课程介绍 1.单片机简介单片机是单片微型计算机的简称，Mcu是Microcontroller的简称，也就是嵌入式微控制器。采用集成电路技术将具有数据处理能力的中央处理器CPU、随机存储器RAM、只读存储器ROM、定时器/计时器、多种I/O口和中断系统…

阅读更多...

P1772 [ZJOI2006] 物流运输

P1772 [ZJOI2006] 物流运输

题目提供者洛谷难度提高/省选- 题目描述物流公司要把一批货物从码头 A 运到码头 B。由于货物量比较大，需要 n 天才能运完。货物运输过程中一般要转停好几个码头。物流公司通常会设计一条固定的运输路线，以便对整个运输过程实施严格的管理和跟…

阅读更多...

20230516使用python3确认三门问题

20230516使用python3确认三门问题

最烧脑的悖论，意识为什么会影响未来？颠覆你认知的三门问题播报文章小红虾实验室 2023-04-09 06:08 四川好看视频优创联盟,优质科学领域创作者关注对于懂概率的人来说，他中大奖的概率将成倍增加，甚至获奖率能够达到100%。今…

阅读更多...

【量化交易笔记】6.布林带的实现

【量化交易笔记】6.布林带的实现

上一讲介绍A股移动平均值（MA）指标，本讲我们来讲解布林布的实现。布林线（BOLL）技术指标简介布林线（Bollinger Bands，BOLL）又称布林带，是约翰布林（John Bol…

阅读更多...

dbForge Studio for SQL Server Crack

dbForge Studio for SQL Server Crack

dbForge Studio for SQL Server Crack 增加了对源代码管理中的数据操作语言(DML)触发器排序的支持。添加了对不使用EXEC/EXECUTE关键字调用过程/函数的语法支持。在语法检查中添加了对EXEC命令的支持。 dbForge Studio for SQL Server是一个IDE，用于SQL Server中的…

阅读更多...

抖音本地生活服务商贴牌小程序

抖音本地生活服务商贴牌小程序

作为社交电商平台的一部分，抖音本地生活服务的市场前景非常广阔。以下是抖音本地生活服务商市场前景的几个方面： 巨大的用户群体：抖音拥有数亿的用户，这些用户中有很多人需要本地生活服务，如美食、酒店、旅游等&am…

阅读更多...

对话三维家创始人蔡志森：AIGC让家装从“填空题”变成了“选择题”

对话三维家创始人蔡志森：AIGC让家装从“填空题”变成了“选择题”

（图片来源：Pixels） 三维家讲透了一个道理：数字化企业如何利用已有优势构建AGI能力。数科星球原创作者丨苑晶编辑丨大兔 AIGC火热半年有余，人们已对ChatGPT不再陌生。从互联网巨头再到上一代AI企业，…

阅读更多...

TiKV 新架构：Partitioned Raft KV 原理解析

TiKV 新架构：Partitioned Raft KV 原理解析

作者：徐奇 TiKV 推出了名为“partitioned-raft-kv”的新实验性功能，该功能采用一种新的架构，不仅可以显著提高 TiDB 的可扩展性，还能提升 TiDB 的写吞吐量和性能稳定性。在上一篇文章中，我们介绍了 Partitioned Raf…

阅读更多...

推荐文章

最新文章