使用Python统计目录下所有.txt文件中的字符数

news2024/11/29 2:29:01

前言

在日常开发或数据处理中,我们经常需要对大量文本文件进行各种统计操作,比如计算总字数。本文将介绍一种简单的方法,通过Python脚本遍历指定目录下的所有.txt文件,并统计这些文件中的字符总数。这个过程可以帮助开发者更好地了解文件内容,或者作为进一步文本分析的基础。

1. 准备工作

首先,确保您的环境中已经安装了Python。本文示例使用的Python版本为3.x。您还需要一个包含多个.txt文件的目录来测试脚本。

2. 编写脚本

接下来,我们将分步编写并解析这段脚本代码。

2.1 导入必要的模块

import os

这里导入了os模块,它提供了与操作系统交互的功能,包括读取文件、获取路径等。

2.2 定义函数 count_characters_in_file(file_path)

该函数用于打开单个文件并返回其字符数量。

def count_characters_in_file(file_path):
    """ 统计单个文件中的字符数 """
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
        return len(content)
  • 使用with语句安全地打开文件,确保即使遇到异常也会正确关闭文件。
  • encoding='utf-8'指定了文件的编码格式,以支持中文等非英文字符。
  • 通过调用file.read()方法读取整个文件内容到内存中,然后利用len()函数计算字符串长度,即字符数。

2.3 定义函数 traverse_directory(directory)

这个函数负责遍历指定目录下的所有文件,并对以.txt结尾的文件调用count_characters_in_file来统计字符数。

def traverse_directory(directory):
    """ 遍历目录下所有的.txt文件并统计字符数 """
    total_chars = 0
    for root, dirs, files in os.walk(directory):
        for name in files:
            if name.endswith('.txt'):
                file_path = os.path.join(root, name)
                chars_in_file = count_characters_in_file(file_path)
                print(f"File: {file_path} - Characters: {chars_in_file}")
                total_chars += chars_in_file
    return total_chars
  • os.walk(directory)递归地遍历directory及其子目录,返回一个三元组(root, dirs, files)。其中root表示当前目录路径,dirs是一个列表包含该目录下的子目录名,而files则包含了非目录子文件的名字。
  • 对于每个文件名,我们检查它是否以.txt结束。如果是,则构造完整的文件路径并调用count_characters_in_file获取其字符数。
  • 将单个文件的字符数累加到total_chars中。

2.4 主函数 main()

这是程序的入口点,用于设置要分析的目录并调用上述定义的函数执行实际操作。

def main():
    # 指定需要遍历的目录
    directory = 'documents'  # 假设这是包含文本文件的目录
    if not os.path.exists(directory):
        print(f"The directory {directory} does not exist.")
        return
    
    # 调用函数进行字数统计
    total_chars = traverse_directory(directory)
    print(f"\nTotal characters in all .txt files: {total_chars}")
  • 在这里指定了一个名为documents的目录作为例子。在实际使用时,请根据具体情况更改此值。
  • 使用os.path.exists()检查给定路径是否存在。如果不存在,则打印错误信息并退出程序。
  • 最后,输出所有处理过的.txt文件中的总字符数。

2.5 执行脚本

为了使这段代码能够作为一个独立的Python程序运行,在文件末尾添加以下行:

if __name__ == '__main__':
    main()

这保证了当直接运行此文件时会调用main()函数;如果文件被导入为模块,则不会自动执行这些代码。

3. 运行与测试及结果

保存您的脚本文件(例如命名为character_counter.py),然后在命令行或终端中切换到包含该脚本及目标文本文件的目录,运行如下命令:

python character_counter.py

确保您已经创建了一个叫做documents的文件夹,并在里面放置了一些.txt格式的文本文件以便测试。

在这里插入图片描述

通过这种方式,您可以轻松地扩展此脚本来满足更多需求,比如支持其他类型的文件、过滤特定大小的文件等。希望这篇教程能帮助您理解和实现基本的文件处理任务!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2227362.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Kaggle | Pandas】练习2:索引,选择和分配

文章目录 数据总表1、读取列2、读取某列的第几行的值3、第一行数据4、读取列中前10个值5、读取索引标签为1 、 2 、 3 、 5和8的记录6、包含索引标签为0 、1 、10和100的记录的country 、province 、 region_1和region_2列7、 前 100 条记录的country和variety列8、包含Italy葡…

三款计算服务器配置→如何选择科学计算服务器?

科学计算在众多领域都扮演着关键角色,无论是基础科学研究还是实际工程应用,强大的计算能力都是不可或缺的。而选择一台合适的科学计算服务器,对于确保科研和工作的顺利进行至关重要。 首先,明确自身需求是重中之重。要仔细考虑计算…

【ceral】c++轻量的序列化库

背景 在开发硬件产品时,会有一些参数配置文件,为了保密性或者传输,需要对其序列化处理,待到产品读取文件时,进行反序列化解码转化为设定的参数类型。 简介 ceral是一个仅包含头文件的C序列化库,可以将任…

前后端请求、返回数据的多种方式

Springboot项目的业务逻辑 🌙项目基本结构: 通常情况下,我们在搭建后端项目的时候,处理业务逻辑我们需要用到Controller,Service,Mapper(mybatis,mybatis-plus),Entry各层之间的相互调用来完成,还有就是我…

计算机网络-MSTP的基础概念

前面我们大致了解了MSTP的由来,是为了解决STP/RSTP只有一根生成树导致的VLAN流量负载分担与次优路径问题,了解MSTP采用实例映射VLAN的方式实现多实例生成树,MSTP有很多的理论概念需要知道,其实与其它的知识一样理论复杂配置还好的…

php伪协议和move_uploaded_file、rename、copy等文件操作

move_uploaded_file、rename、copy 三个函数的区别: move_uploaded_file 函数是专门用于将通过 HTTP 上传的临时文件移动到指定位置的。如果你想要将一个已经存在的文件移动到另一个位置,而不是上传的文件,那么你应该使用 rename 函数或 co…

Lucas带你手撕机器学习——套索回归

好的,下面我将详细介绍套索回归的背景、理论基础、实现细节以及在实践中的应用,同时还会讨论其优缺点和一些常见问题。 套索回归(Lasso Regression) 1. 背景与动机 在机器学习和统计学中,模型的复杂性通常会影响其在…

完全透彻了解一个asp.net core MVC项目模板1

当我们使用Visual Studio 2022去新建一个基于asp.net core Web项目的时候,一般有三种选择,一种是空项目,一种是基于MVC的项目、再有一种就是基于包含Razor Pages实例的web应用。如下图: 今天,我们打算选择基于MVC模…

【无标题】2024年第五届 MathorCup 数学应用挑战赛——大数据竞赛赛题

2024年第五届 MathorCup 数学应用挑战赛——大数据竞赛赛题已发布~,本届初赛时间为:2024年10月25日18:00至2024年11月1日20:00。本次赛题分为A,B两道,所有参赛队从赛道 A、B 中任选一题作答。在报名系统内选择自己队伍的赛道时&am…

离散化算法简介

【离散化简介】 ★ 离散化是一种数据处理的技巧,本质上可以看成是一种“哈希”,其保证数据在哈希以后仍然保持原来的“全/偏序”关系。用来离散化的可以是大整数、浮点数、字符串等等。★ 离散化的本质,是映射。原理是将间隔很大的元素&#…

毫米波技术基础

什么是毫米波? 顾名思义,毫米波是波长 (λ) 约为 1 毫米(更准确地说是 1 至 10 毫米)的电磁波。使用方程式f c /λ 将该波长转换为频率,其中c是光速 (3 x 10 8 m/s),得出 30-300 GHz 的频率范围。国际电信…

【STM32】内存管理

首先问个问题,你知道如何在LCD上显示SD卡文件浏览?-----需要读取所有文件名到内存,然后才能显示到LCD上。 一般的方法:是定义一个数组来存储文件名 1:需要知道最大文件名的长度 2:需要知道文件的个数。1…

OpenCV图像处理方法:腐蚀操作

腐蚀操作 前提 图像数据为二值的(黑/白) 作用 去掉图片中字上的毛刺 显示图片 读取一个图像文件,并在一个窗口中显示它。用户可以查看这个图像,直到按下任意键,然后程序会关闭显示图像的窗口 # cv2是OpenCV库的P…

使用Python中的jieba库进行简单情感分析

在自然语言处理(NLP)领域,情感分析是一项重要的任务,它可以帮助我们理解文本背后的情感倾向。本文将通过一个简单的例子来介绍如何使用Python的jieba库对中文文本进行基本的情感分析。 1. 环境准备 首先,确保已经安装…

图像分割从基础到进阶:阈值化、K-means和Mean-Shift算法的应用

图像分割是计算机视觉中的一项关键技术,用来将图像划分为若干个 有意义 的区域,以便后续的图像处理和分析工作。根据任务的不同,图像分割可以进一步细分为语义分割、实例分割和全景分割: 语义分割 (Semantic Segmentation) 对图像…

SQL进阶技巧:如何求组内排除当前行的移动平均值?

目录 0 需求描述 2 数据准备 3 问题分析 4 小结 0 需求描述 -- 按照 日期,省份,等级 分组 求分数的平均值;但是需要剔除当前行的数据 2 数据准备 create table avgtest as (select 2024-10-24 as cdate, 广东 as province,深圳 as city, 2 as level, 200 as scoreunio…

后台管理系统的通用权限解决方案(六)SpringBoot整合Logback实现日志记录

1 Logback介绍 1.1 Logback的组件 由上图可知,Logback和Log4j都是slf4j规范的具体实现。在程序中直接调用Logback的API其实都是slf4j规范定义好的API,其底层则是真正的日志实现组件—Logback或者Log4j。 Logback构建在三个主要的类上:Logge…

厨艺爱好者的在线互动平台:Spring Boot实现

摘 要 使用旧方法对厨艺交流信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在厨艺交流信息的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。 这次开发的厨艺交流平台功能…

面试域——技术面试准备

摘要 来到技术面试这环节有两种情况,其一:这场技术面试可能就是一个面试官KPI面试(就是面试工作量,这个面试你是不可能过。)如今的就业环境下,人力资源部门也是有考核指标。如果遇到这样的面试你就放平心态…

2024年【焊工(中级)】最新解析及焊工(中级)考试总结

题库来源:安全生产模拟考试一点通公众号小程序 焊工(中级)最新解析参考答案及焊工(中级)考试试题解析是安全生产模拟考试一点通题库老师及焊工(中级)操作证已考过的学员汇总,相对有…