数据处理 |遍历所有文件夹及子目录文件夹方法总结与实例代码详解

news2025/1/23 10:33:17

深度学习中不可避免的数据预处理~

1. glob.glob()方法

2. pathlib中的Path方法

3. os.walk()方法

1. glob.glob()方法

语法

glob.glob(pathname)

(多指定文件类型,查找jpg,png,txt,json等)

缺点:查找文件较慢

2. 路径操作库pathlib中的Path方法

*大型项目常用

递归列出某类型文件

from pathlib import Path

top_level_py_files = Path(".").glob("*.py")
all_py_files = Path(".").rglob("*.py")  # 递归

print(list(top_level_py_files))
print(list(all_py_files))
# [WindowsPath('test.py')]
# [WindowsPath('test.py'), WindowsPath('src/config/submodule.py'), WindowsPath('src/config/__init__.py')]

打开多个文件并读取内容

glob

from glob import glob

contents = []
for fname in glob("./**/*.py", recursive=True):
    with open(fname, "r") as f:
        contents.append(f.read())

print(contents)

pathlib

from pathlib import Path

contents = []
for fname in Path(".").rglob("*.py"):
    with open(fname, "r") as f:
        contents.append(f.read())

print(contents)

操作符

使用/取代os.path.join创建子目录

from pathlib import Path

base_dir = Path("src")
child_dir = base_dir / "config"
file_path = child_dir / "__init__.py"

print(file_path)
# src\config\__init__.py

列出匹配的文件或目录 Path.glob()

from pathlib import Path

dir_path = Path("src/config/")
file_paths = dir_path.glob("*.py")

print(list(file_paths))
# [WindowsPath('src/config/submodule.py'), WindowsPath('src/config/__init__.py')]

递归列出匹配的文件或目录 Path.rglob()

from pathlib import Path

dir_path = Path(".")
file_paths = dir_path.rglob("*.py")

print(list(file_paths))
# [WindowsPath('test.py'), WindowsPath('src/config/submodule.py'), WindowsPath('src/config/__init__.py')]

列出路径下的文件和目录 Path.iterdir()

from pathlib import Path

base_path = Path(".")
contents = [content for content in base_path.iterdir()]

print(contents)
# [WindowsPath('.idea'), WindowsPath('file.txt'), WindowsPath('src'), WindowsPath('test.py')]

3.os

Path().iterdir():Path()返回一个WindowsPath对象,调用该对象的iterdir()方法,就可以返回一个迭代器,此迭代器包含该对象指定文件夹内的所有文件或文件夹的路径。不考虑嵌套文件夹中的文件。

Path().glob():Path()返回一个WindowsPath对象,调用该对象的glob()方法,就可以调用符合条件的所有文件或文件夹的路径,如果没有用**通配符,就不会涉及子层文件夹。

Path().rglob():Path()返回一个WindowsPath对象,调用该对象的rglob()方法,就可以调用所有当前对象指向文件夹以及所有子层文件夹下的符合条件的路径。

创建文件夹或多层嵌套文件夹

Path().mkdir(parents=False):Path()返回一个WindowsPath对象,调用该对象的mkdir()方法,就可以创建该对象指定的文件夹路径。

注意,该对象指定的文件夹路径一定要不存在才能调用这个方法,所以在调用前一般先调用exist()方法确认是否存在,只有返回结果为False才能继续。

parents参数默认是False,而如果设置为True,那么表示允许创建多层嵌套文件夹。

os.mkdir(path):传入一个path路径,创建单层(单个)文件夹;如果文件夹已经存在,就会报错。因此创建文件夹之前,需要使用os.path.exists(path)函数判断文件夹是否存在。

os.makedirs(path):传入一个path路径,创建一个多层嵌套文件夹;如果文件夹存在,就会报错。

4. os.walk()方法

语法

os.walk(top, topdown = True, onerror = None, followlinks = False)

返回:得到一个三元tupple(dirpath, dirnames, filenames),

第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。

dirpath 是一个string,代表目录的路径,

dirnames 是一个list,包含了dirpath下所有子目录的名字。

filenames 是一个list,包含了非目录文件的名字。

这些名字不包含路径信息,如果需要得到全路径,需要使用os.path.join(dirpath, name).

自下而上的深度优先遍历

  • os.listdir(path):传入任意一个path路径,返回的是该路径下所有文件和目录组成的列表

  • os.walk(path):传入任意一个path路径,深层次遍历指定路径下的所有子文件夹,返回的是一个由路径、文件夹列表、文件列表组成的元组

区别

WindowsPath对象和路径字符串的区别(拼接路径和上一级路径)
  • WindowsPath对象要拼接和扩展路径,直接用/'deep_path',而路径字符串需要用+'deep_path'或调用os.path.join()函数。

  • WindowsPath对象的上一级路径,需要调用parent属性;而路径字符串则是用/../来实现。

参考文献

【1】python-os模块、glob模块、pathlib、shutil模块之间的区别与辨析,文件及文件夹操作,python与操作系统文件系统的交互。_键盘即钢琴的博客-CSDN博客

【2】Python路径操作库pathlib,比os+glob+shutil更好用_XerCis的博客-CSDN博客_python 路径操作库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/377520.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计算机三级网络技术】 第四篇 路由设计技术基础

文章目录一、分组转发二、路由选择1.理想的路由算法的基本特征2.路由算法的度量标准3.路由算法分类:4.IP路由选择与路由汇聚(重点)三、自治系统与Internet的路由选择协议1.自治系统2.路由选择协议的分类四、内部网关协议1.RIP的基本概念2.RIP的原理3.RIP的运行过程五…

Android Lmkd 低内存终止守护程序

一、低内存终止守护程序 Android 低内存终止守护程序 (lmkd) 进程可监控运行中的 Android 系统的内存状态,并通过终止最不必要的进程来应对内存压力大的问题,使系统以可接受的性能水平运行。 所有应用进程都是从zygote孵化出来的,记录在AMS…

Android问题笔记 - 打开Android Studio先弹出项目选择框

专栏分享点击跳转>Unity3D特效百例点击跳转>案例项目实战源码点击跳转>游戏脚本-辅助自动化点击跳转>Android控件全解手册点击跳转>Scratch编程案例 👉关于作者 众所周知,人生是一个漫长的流程,不断克服困难,不断…

leetcode 427. Construct Quad Tree(构建四叉树)

刚看到题的时候是懵的,这也太长了。到底是要表达什么呢。 不妨把这个矩阵看成一个正方形的图片,想象你在处理图片,从整体逐步到局部。 刚开始看一整张图片,如果是全0或全1,这个就是叶子节点,怎么表达叶子节…

网络货运平台“降本提质引流增值”秘籍是什么?

2月24日,2022(第五届)中国网络货运平台年会在厦门举行,数据宝作为中物联副会长单位受邀参加峰会,数据宝轮值CEO肖斌发表题为“网络货运平台数字化创新应用实践分享”的主题分享。 据交通运输部统计,截止到2…

某建筑设计研究院“综合布线管理软件”应用实践

某建筑设计研究院有限公司(简称“某院”)隶属于国务院国资委直属的大型骨干科技型中央企业。“某院”前身为中央直属设计公司,创建于1952年。成立近70年来,始终秉承优良传统,致力于推进国内勘察设计产业的创新发展&…

CASENet中edge GT是如何产生的

1:首先下载cityscape数据集,包含两个大文件夹,具体的数据集介绍参考此链接。cityscape数据集解析 看一下gtFine子文件夹,另一个也是同理: 2:将下载好的数据集放到data_orig中,还有一个文件…

报错记录:element-admin框架打包后静态文件加载异常与登录异常解决方案

报错记录:element-admin框架打包后静态文件加载异常与登录异常解决方案 一、静态文件加载异常解决方案 二、登录异常解决方案 现象 element-admin如果用 electron 打包 是会有个问题: electron serve 运行没问题 electron build 打release 包 就会出错…

AST之path常用属性和方法总结笔记

文章目录1. path常用属性总结1.1 path.node1.2 path.scope1.3 path.parentPath1.4 path.parent1.5 path.container1.6 path.type1.7 path.key2. path常用方法总结2.1 path.toString2.2 path.replaceWith2.3 path.replaceWithMultiple2.4 path.remove2.5 path.insertBefore2.6 p…

TypeScript 常用知识

「 推荐一个学习 ts 基础的专栏,满满的干货:typeScript 」 1、为什么推荐使用 TypeScript 【】ts 是 js 的超集,包含 js 的所有元素 【】ts 通过对代码进行类型检查,可以帮助我们避免在编写 js 时经常遇到令人痛苦的错误 【】强…

第六节 方法

方法 方法是一种语法结构。 方法的作用: 1.提高代码的复用性 2.让程序逻辑更加清晰 方法定义的完整格式: 修饰符 返回值类型 方法名(形参列表){ 方法体的代码(需要执行的功能代码) return 返回值&#xff…

Unity性能优化: 性能优化之内存篇

前言 本文和传统的内存优化不一样,不是讲如何降低内存占用,而是讲编程开发中要注意的内存问题以及一些内存技术的演变与原理。 对惹,这里有一个游戏开发交流小组,希望大家可以点击进来一起交流一下开发经验呀 1: Application进程…

maven项目无法解析插件

发现问题使用IDEA创建Maven项目时,报错无法解析插件 org.apache.maven.plugins:maven-clean-plugin这里使用的是IDEA捆绑的Maven插件解决方案查看Maven配置打开用户设置文件settings.xml,在其中加入如果该路径下没有此文件,可以自己创建一个。…

软件分析笔记02---Intermediate Representation

整体contents compiler (source code ——> machine code) non-trivial非平凡的 经过 语义分析->语法分析->类型检查等各种trivial的分析(前端),生成中间代码IR->进行non-trivial的分析(及静…

Linux 基础介绍-基础命令

文章目录01 学习目标02 Linux/Unix 操作系统简介2.1 Linux 操作系统的目标2.2 Linux 操作系统的作用2.3 Unix 家族历史2.4 Linux 家族历史2.5 Linux 和Unix 的联系2.6 Linux 内核介绍2.7 Linux 发行版本2.8 Unix/Linux 开发应用领域介绍03 Linux 目录结构3.1 Win 和Linux 文件系…

C++之入门之引用,内联函数

一、引用 1、引用的概念 在C中,引用的本质其实就是给一个已经存在的变量”起别名“。也就是说,引用与它所引用的对象共用一块空间。(同一块空间的多个名字) 就比如说,李逵又叫黑旋风,而黑旋风就是指李逵…

线程安全实例分析

一、变量的线程安全分析 成员变量和静态变量是否线程安全? ● 如果它们没有共享,则线程安全 ● 如果它们被共享了,根据它们的状态是否能够改变,又分两种情况 —— 如果只有读操作,则线程安全 —— 如果有读写操作&am…

STM32学习笔记-USART串口通信+与野火STM32F407板载ESP8266进行通信

文章目录STM32USART介绍STM32USART框图第一部分第二部分第三部分发送器时序图接收器第四部分软件部分:STM32通过USART与板载ESP8266通讯实验板载WIFI模块电路图实现方式:第一步:配置USART1和USART3的GPIO及其中断第二步:通过中断服…

(2023版)零基础入门网络安全/Web安全,收藏这一篇就够了

由于我之前写了不少网络安全技术相关的文章和回答,不少读者朋友知道我是从事网络安全相关的工作,于是经常有人私信问我: 我刚入门网络安全,该怎么学? 要学哪些东西? 有哪些方向? 怎么选&#x…

智慧渔业海洋鱼类捕捉系统

我国的水产捕捞业可分为海洋捕捞、远洋捕捞和淡水捕捞三类,其中淡水渔业是指在淡水水域进行捕捞、养殖和加工淡水水产品的社会生产领域。近年来,随着经济水平的提高和淡水渔业的快速发展,捕捞业规模不断壮大。尽管渔业已从单纯的捕捞发展为系…