【Python系列】Python 中的文件读取

news2024/9/20 19:56:13

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。
img

  • 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老
  • 导航
    • 檀越剑指大厂系列:全面总结 java 核心技术,jvm,并发编程 redis,kafka,Spring,微服务等
    • 常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,typora 等
    • 数据库系列:详细总结了常用数据库 mysql 技术点,以及工作中遇到的 mysql 问题等
    • 新空间代码工作室:提供各种软件服务,承接各种毕业设计,毕业论文等
    • 懒人运维系列:总结好用的命令,解放双手不香吗?能用一个命令完成绝不用两个操作
    • 数据结构与算法系列:总结数据结构和算法,不同类型针对性训练,提升编程思维,剑指大厂

非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。💝💝💝 ✨✨ 欢迎订阅本专栏 ✨✨

博客目录

    • 1.示例代码解析
    • 2.代码功能
    • 3.应用场景
    • 4.注意事项
    • 5.结论

在 Python 中,读取 Parquet 文件通常使用pandas库,它提供了一个高级的接口来处理数据。然而,有时我们需要编写自定义函数来读取特定目录下的所有 Parquet 文件。下面是一个使用 Python 标准库中的os模块来遍历目录并读取所有 Parquet 文件的示例。
在这里插入图片描述

1.示例代码解析

import os

def read_parquet_file(directory):
    """
    读取指定目录下的所有.parquet文件
    :param directory: 要搜索的目录路径
    :return: 包含所有Parquet文件名的列表
    """
    data = []
    for root, dirs, files in os.walk(directory):
        for file in files:
            # 检查文件扩展名是否为.parquet
            if file.endswith('.parquet'):
                # 构建文件的完整路径
                full_path = os.path.join(root, file)
                # 读取Parquet文件,这里假设使用pandas
                df = pd.read_parquet(full_path)
                # 将DataFrame添加到数据列表中
                data.append(df)
    return data

2.代码功能

  • os.walk(directory):遍历给定目录directory,返回一个三元组(root, dirs, files)。其中root是当前正在遍历的目录的路径,dirs是该目录下所有子目录的列表,files是该目录下所有非目录文件的列表。
  • file.endswith('.parquet'):检查文件名是否以.parquet结尾,确保只处理 Parquet 文件。
  • os.path.join(root, file):将目录路径和文件名合并成完整的文件路径。
  • pd.read_parquet(full_path):使用pandas库读取 Parquet 文件,返回一个 DataFrame 对象。

3.应用场景

这个函数可以应用于多种场景,例如:

  • 数据集成:在进行数据分析之前,可能需要从多个 Parquet 文件中提取数据。
  • 数据备份:在备份过程中,可能需要列出所有 Parquet 文件以确保数据完整性。
  • 数据迁移:在将数据从一个系统迁移到另一个系统时,可能需要先读取 Parquet 文件,然后转换为新系统支持的格式。

4.注意事项

  • 确保在调用此函数之前已经安装了pandas库和pyarrowfastparquet,因为这些是读取 Parquet 文件所需的依赖。
  • 考虑到性能,如果目录中包含大量文件,可能需要考虑并行处理或使用更高效的文件系统遍历方法。
  • 对于非常大的 Parquet 文件,读取整个文件可能会消耗大量内存。在这种情况下,可以考虑使用分块读取或只读取所需的列。
    在这里插入图片描述

5.结论

Parquet 文件格式因其高效性和灵活性,在大数据处理中变得越来越流行。通过 Python 编写自定义函数来读取 Parquet 文件,可以为数据科学家和工程师提供更多的控制和定制能力。随着技术的发展,我们期待看到更多创新的方法来处理和分析这些数据。

觉得有用的话点个赞 👍🏻 呗。
❤️❤️❤️本人水平有限,如有纰漏,欢迎各位大佬评论批评指正!😄😄😄

💘💘💘如果觉得这篇文对你有帮助的话,也请给个点赞、收藏下吧,非常感谢!👍 👍 👍

🔥🔥🔥Stay Hungry Stay Foolish 道阻且长,行则将至,让我们一起加油吧!🌙🌙🌙

img

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1937070.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

秒懂设计模式--学习笔记(11)【结构型-享元模式】

目录 10、享元模式10.1 享元模式10.2 举例10.2.1 马赛克10.2.2 游戏地图(以草原地图作为范例) 10.3 总结 10、享元模式 10.1 享元模式 “享元”则是共享元件的意思享元模式的英文flyweight是轻量级的意思,这就意味着享元模式能使程序变得更…

Training for Stable Diffusion

Training for Stable Diffusion 笔记来源: 1.Denoising Diffusion Probabilistic Models 2.最大似然估计(Maximum likelihood estimation) 3.Understanding Maximum Likelihood Estimation 4.How to Solve ‘CUDA out of memory’ in PyTorch 1.1 Introduction 训…

FastBee物联网开源项目本地启动调试

一、本地环境准备 (1)Visual Studio Code(启动前端项目) (2)IntelliJ IDEA Community Edition (启动后端项目) (3)Navicat或者DBeaver(用来操…

Godot学习笔记2——GDScript变量与函数

目录 一、代码编写界面 二、变量 三、函数 四、变量的类型 Godot使用的编程语言是GDS,语法上与python有些类似。 一、代码编写界面 在新建的Godot项目中,点击“创建根节点”中的“其他节点”,选择“Node”。 点击场景界面右上角的绿色…

【STM32】按键控制LED光敏传感器控制蜂鸣器(江科大)

一、按键控制LED LED.c #include "stm32f10x.h" // Device header/*** 函 数:LED初始化* 参 数:无* 返 回 值:无*/ void LED_Init(void) {/*开启时钟*/RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOA, ENAB…

此扩展在此工作区中被禁用,因为其被定义为在远程扩展主机中运行。

使用VScode打开代码时,无法跳转函数,不提示报错。 安装python时显示, 此扩展在此工作区中被禁用,因为其被定义为在远程扩展主机中运行。 解决方法: CtrlShiftP :键入trust ,工作区&#xff…

空间计算新时代:Vision Pro引领AR/VR/MR市场变革

随着2024年第二季度的结束,空间计算领域的市场动态愈发引人关注。根据国际数据公司(IDC)的最新报告,我们见证了行业格局的重大变化,尤其是苹果Vision Pro的突出表现,以及AR/VR/MR设备市场的整体趋势。以下是…

LabVIEW软件开发的雷区在哪里?

在LabVIEW软件开发中,有几个需要注意的雷区,以避免常见的错误和提高开发效率: 1. 不良的代码结构 雷区:混乱的代码结构和不清晰的程序逻辑。 后果:导致难以维护和调试的代码,增加了错误和故障的风险。 …

无人机侦察:二维机扫雷达探测设备技术详解

二维机扫雷达探测设备采用机械扫描方式,通过天线在水平方向和垂直方向上的转动,实现对目标空域的全方位扫描。雷达发射机发射电磁波信号,遇到目标后产生反射,反射信号被雷达接收机接收并处理,进而得到目标的位置、速度…

搜维尔科技:【研究】动作捕捉加速游戏开发行业的发展

动作捕捉加速游戏开发行业的发展 Sunjata 的故事始于 2004 年,它将席卷乌干达视频游戏行业,然后席卷全世界。但首先,Klan Of The Kings 的小团队需要工具来实现他们的愿景。 漫画家兼非洲民间传说爱好者罗纳德卡伊马 (Ronald Kayima) 在将…

怎样在 PostgreSQL 中进行用户权限的精细管理?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会!📚领书:PostgreSQL 入门到精通.pdf 文章目录 怎样在 PostgreSQL 中进行用户权限的精细管理?一、权限管理的重要性二、PostgreSQL 中的权…

[解决方法]Request failed with status code 500错误之一

在写项目时访问后端api时我的axios拦截器进入了错误 然后去浏览器搜索,但是大部分都是因为axios参数或参数格式问题导致的,然而在访问api的编写没有任何问题,后来我反复检查,发现是我写前后端写混了,我把express的 Co…

学习大数据DAY20 Linux环境配置与Linux基本指令

目录 Linux 介绍 Linux 发行版 Linux 和 Windows 比较 Linux 就业方向: 下载 CentOS Linux 目录树 Linux 目录结构 作业 1 常用命令分类 文件目录类 作业 2 vim 编辑文件 作业 3 你问我第 19 天去哪了?第 19 天在汇报第一阶段的知识总结,没什…

深入浅出WebRTC—GCC

GoogCcNetworkController 是 GCC 的控制中心,它由 RtpTransportControllerSend 通过定时器和 TransportFeedback 来驱动。GoogCcNetworkController 不断更新内部各个组件的状态,并协调组件之间相互配合,向外输出目标码率等重要参数&#xff0…

汽车及零部件研发项目管理系统:一汽东机工选择奥博思 PowerProject 提升研发项目管理效率

在汽车行业中,汽车零部件的研发和生产是一个关键的环节。随着汽车市场的不断扩大和消费者需求的不断增加,汽车零部件项目管理的重要性日益凸显。通过有效的项目管理方法及利用先进的数字项目管理系统,可以大幅提高项目的成功率和顺利度&#…

WebRTC QOS方法十三.1(TimestampExtrapolator接收时间预估)

一、背景介绍 虽然我们可通过时间戳的差值和采样率计算出发送端视频帧的发送节奏,但是由于网络延迟、抖动、丢包,仅知道视频发送端的发送节奏是明显不够的。我们还需要评估出视频接收端的视频帧的接收节奏,然后进行适当平滑,保证…

关于 Qt输入法在arm特定的某些weston下出现调用崩溃 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140423667 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

C#知识|账号管理系统-修改账号按钮功能的实现

哈喽,你好啊,我是雷工! 前边学习了通过选择条件查询账号的功能: 《提交查询按钮事件的编写》 本节继续学习练习C#,今天练习修改账号的功能实现。 以下为学习笔记。 01 实现功能 ①:从查询到的账号中,选择某一账号,然后点击【修改账号】按钮,将选中的信息获取显示到…

攻防世界 re新手模式

Reversing-x64Elf-100 64位ida打开 看if语句,根据i的不同,选择不同的数组,后面的2*i/3选择数组中的某一个元素,我们输入的是a1 直接逆向得到就行 二维字符数组写法:前一个是代表有几个字符串,后一个是每…

《蔚蓝档案》模拟器联动皮肤H5+KOC

《蔚蓝档案》模拟器联动皮肤H5KOC 《蔚蓝档案》自上线以来老师们与MuMu模拟器的共同历程,重温难忘瞬间,回忆游戏历程。蔚蓝档案一周年模拟器联动主题皮肤福利,于7月18日-8月16日,在MuMu模拟器搜索【蔚蓝档案联动】进入活动页面&a…