python读取文件指定行的三种方法

news2025/1/19 16:57:55

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取

1.行遍历实现

在python中如果要将一个文件完全加载到内存中,通过file.readlines()即可,

但是在文件占用较高时,我们是无法完整的将文件加载到内存中的,

这时候就需要用到python的file.readline()进行迭代式的逐行读取:

filename = 'hello.txt'
 
with open(filename, 'r') as file:
    line = file.readline()
    counts = 1
    while line:
        if counts >= 50000000:
            break
        line = file.readline()

        counts += 1

这里我们的实现方式是先用一个with语句打开一个文件,然后用readline()函数配合while循环逐行加载,最终通过一个序号标记来结束循环遍历,输出文件第50000000行的内容。

该代码的执行效果如下:

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 
 
real    0m10.359s
user    0m10.062s

sys     0m0.296s

可以看到这里的耗时为10s多一些。

2.linecache实现

虽然在python的readline函数中并没有实现读取指定行内容的方案,

但是在另一个库linecache中是实现了的,由于使用的方式较为简单,

这里直接放上代码示例供参考:

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:926207505
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
filename = 'hello.txt'
 
import linecache

text = linecache.getline(filename, 50000000)

该代码的执行结果如下:

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 
 
real    0m11.904s
user    0m5.672s

sys     0m6.231s

虽然在实现方式上简化了许多,但是我们发现这个实现的用时超过了11s,还不如我们自己手动实现的循环遍历方案。

因此如果是对于性能有一定要求的场景,是不建议采用这个方案的。

3.命令行sed获取

我们知道用Linux系统本身自带的sed指令也是可以获取到文件指定行或者是指定行范围的数据的,

其执行指令为:sed -n 50000000p filename即表示读取文件的第50000000行的内容。

同时结合python的话,我们可以在python代码中执行系统指令并获取输出结果:

filename = 'hello.txt'
 
import os

result = os.popen('sed -n {}p {}'.format(50000000, filename)).read()

需要注意的是,如果直接运行os.system()是没有返回值的,只有os.popen()是有返回值的,并且需要在尾巴加上一个read()的选项。

该代码的执行结果如下:

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 
 
real    0m2.532s
user    0m0.032s

sys     0m0.020s

可以看到直接使用sed指令的执行速度很快,但是用这种方法并不是一本万利的,比如以下这个例子:

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:926207505
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
filename = 'hello.txt'
 
import os

result = os.popen('sed -n {}p {}'.format(500, filename)).read()

我们把读取第50000000行内容改为读取第500行的内容,再运行一次程序:

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 
 
real    0m2.540s
user    0m0.037s

sys     0m0.013s

然而我们发现这个速度并没有因为要读取的行数减少了而变少,而是几乎保持不变的。

总结

本文通过4个测试案例分析了在python中读取文件指定行内容的方案,并得到了一些运行耗时的数据。

从需求上来说,如果是对于小规模的数据,比如几百行规模的数据,建议使用readline循环遍历来操作,速度也相当不错,
或者是linecache中的函数实现也是可以的,甚至可以直接用readlines将整个文本内容加载到内存中。

但是对于数据规模比较大的场景,比如超过了千万行的级别,那么使用sed指令的方式对指定行内容进行读取的方式,应该是所有方式中最快速的。

尾语

最后感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1416247.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot项目开发,使用thymeleaf前端框架的简单案例

springboot项目开发,使用thymeleaf前端框架的简单案例!我们看一下,如何在springboot项目里面简单的构建一个thymeleaf的前端页面。来完成动态数据的渲染效果。 第一步,我们在上一小节,已经提前预下载了对应的组件了。 如图&#x…

2024獬豸杯完整Writeup

文章目录 手机手机基本信息- 1、IOS手机备份包是什么时候开始备份的。(标准格式:2024-01-20.12:12:12)手机基本信息- 2、请分析,该手机共下载了几款即时通讯工具。(标准格式:阿拉伯数字)手机基本信息- 3、手…

9.OpenResty系列之10W并发实践

下图解决了上文所说的请求过多报错问题 如图所示,系统支持30W请求, 并发2W 1. /etc/sysctl.conf配置如下 vm.swappiness 0 # 表示开启SYNCookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN>攻击,默认为0,表…

雨云VPS搭建PalWorld服务器,幻兽帕鲁开服联机教程(Windows),0基础保姆级教程

雨云VPS用Windows系统搭建幻兽帕鲁私服,PalWorld开服联机教程,零基础保姆级教程,本教程使用一键脚本来搭建幻兽帕鲁服务端,并讲了如何配置游戏参数,如何更新服务端等。 最近这游戏挺火,很多人想跟朋友联机…

Ps:渐变编辑器

渐变编辑器 Gradient Editor可用于创建和编辑自定义渐变,它提供了详细的控制选项,能够精确地调整渐变的颜色、样式和效果。 提示: 拖动边框或边角可缩放渐变编辑器窗口。 预设 Presets 提供了大量的渐变预设。还可通过右侧按钮新建 New、导入…

台式电脑的ip地址在哪里找

在网络连接方面,IP地址是非常重要的信息,它是用于标识网络设备的唯一地址。对于台式电脑用户来说,了解自己设备的IP地址是非常有必要的,因为它可以帮助解决网络连接问题,进行远程访问和共享文件等功能。本文将指导读者…

go 实现暴力破解数独

一切罪恶的来源是昨晚睡前玩了一把数独,找虐的选了个最难的模式,做了一个多小时才做完,然后就睡不着了..........程序员不能受这委屈,今天咋样也得把这玩意儿破解了 破解思路(暴力破解加深度遍历) 把数独…

STM32 PWM驱动设计

单片机学习! 目录 文章目录 前言 一、PWM驱动配置步骤 二、代码示例及注意事项 2.1 RCC开启时钟 2.2 配置时基单元 2.3 配置输出比较单元 2.4 配置GPIO 2.5 运行控制 三、PWM周期和占空比计算 总结 前言 PWM本质是利用面积等效原理来改变波形的有效值。 一、PWM驱动…

2024最新版Java Development Kit (JDK)安装使用指南

2024最新版Java Development Kit (JDK)安装使用指南 Installation and Configuration Guide of the latest version Java Development Kit (JDK) in 2024 By JacksonML 0. 序言 What is Java? Java is a programming language and computing platform first released by Su…

day23 其他事件(页面加载事件、页面滚动事件)

目录 页面加载事件页面/元素滚动事件页面滚动事件——获取位置 页面加载事件 加载外部资源(如图片、外联CSS和JavaScript等)加载完毕时触发的事件为什么使用: 有时候需要等页面资源全部处理完毕再做一些事老代码喜欢把script写在head中&…

【JavaScript 漫游】专栏介绍

专栏介绍 本专栏旨在记录 JavaScript 核心语法,作为笔者日常学习和工作中的参考手册和代码示例仓库。 内容上力求覆盖 ES5、DOM、BOM 和 ES6 规范的所有内容。对于常用且重要的知识点,应该详细描述并附带有大量的代码示例。对于在工作场景中很少用到的…

12.14 回退流(血干JAVA系列)

回退流 12.14 回退流【例12.67】操作回退流 12.14 回退流 表 12-23 PushbacklnputStream 类的常用方法 表12-24回退流与输入流的对应 【例12.67】操作回退流 package jiaqi;import java.io.ByteArrayInputStream; import java.io.PushbackInputStream;public class demo43…

E5071C 是德科技网络分析仪

181/2461/8938产品概述: E5071C ENA 矢量网络分析仪,9 kHz 至 20 GHz,配有增强型 TDR 测量选件。 E5071C 是大规模无源元器件测试的理想解决方案。 它具有出色的测量性能,有助于提高测试吞吐量,尤其是与 E5092A 多端…

1948-2022年金融许可信息明细数据

1948-2022年金融许可信息明细数据 1、时间:1948-2022年 2、来源:银监会(银监会许可证发布系统) 3、指标:来源表、机构编码、机构名称、所属银行、机构类型、业务范围、机构住所、地理坐标、行政区划代码、所属区县、…

视频调色 -- 达芬奇DaVinci Resolve Studio 18中文

达芬奇DaVinci Resolve Studio 18是一款功能强大的视频后期处理软件,集视频编辑、色彩校正、音频后期制作等多项功能于一身。该软件支持多种轨道编辑和时间线管理,使视频剪辑和处理更加高效。其高精度的色彩校正技术,能够精确地对影片进行校色…

PHP语法

#本来是在学命令执行,所以学了学,后来发现,PHP语法和命令执行的关系好像没有那么大,不如直接学php的一些命令执行函数了。# #但是还是更一下,毕竟还是很多地方都要求掌握php作为脚本语言,所以就学了前面的…

Linux第37步_解决“Boot interface 6 not supported”之问题

在使用USB OTG将“自己移植的固件”烧写到eMMC中时,串口会输出“Boot interface 6 not supported”,发现很多人踩坑,我也一样。 见下图: 解决办法: 1、打开终端 输入“ls回车”,列出当前目录下所有的文件…

自然语言处理:transfomer架构

介绍 transfomer是自然语言处理中的一个重要神经网络结构,算是在传统RNN和LSTM上的一个升级,接下来让我们来看看它有处理语言序列上有哪些特殊之处 模型整体架构 原论文中模型的整体架构如下,接下来我们将层层解析各层的作用和代码实现 该…

docker环境搭建及其安装常用软件

centos安装docker Install Docker Engine on CentOS | Docker Docs 下载docker sudo yum install -y yum-utils sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo yum install -y docker-ce docker-ce-cli containerd.io…

Qt6入门教程 12:QAbstractButton

目录 一.状态 二.信号 三.使用 1.自定义按钮 2.多选 3.互斥 QAbstractButton类实现了一个抽象按钮,并且让它的子类来指定如何处理用户的动作,并指定如何绘制按钮。QAbstractButton类是所有按钮控件的基类。 QAbstractButton提供…