【Python入门】文件读取全攻略:5种常用格式(csv/excel/word/ppt/pdf)一键搞定 | 附完整代码示例

news2025/4/19 0:47:12

大家好,我是唐叔!今天给大家带来一篇Python文件读取的终极指南。无论是数据分析、办公自动化还是爬虫开发,文件读取都是Python程序员必须掌握的核心技能。本文将详细介绍Python处理5大常用文件格式的方法,包含完整可运行的代码示例,建议收藏备用!

文章目录

    • 一、为什么要学习Python文件读取?
    • 二、CSV文件读取 - 数据分析第一步
      • 2.1 为什么需要读取CSV文件?
      • 2.2 最佳实践方案
    • 三、Excel文件读取 - 商业数据处理
      • 3.1 为什么需要读取Excel?
      • 3.2 最佳实践方案
    • 四、Word文档处理 - 告别复制粘贴
      • 4.1 为什么需要读取Word?
      • 4.2 最佳实践方案
    • 五、PPT读取 - 演示文稿的自动化处理
      • 5.1 为什么需要读取PPT?
      • 5.2 最佳实践方案
    • 六、PDF文本提取
      • 6.1 PDF处理的痛点
      • 6.2 最佳实践方案
    • 七、终极方案 - 文件类型自动判断
    • 八、常见问题解答
      • Q1:读取文件时出现编码错误怎么办?
      • Q2:处理大文件内存不足怎么解决?
      • Q3:如何提高PDF解析速度?
    • 九、学习资源推荐

一、为什么要学习Python文件读取?

在开始具体技术讲解前,我们先看看为什么这个技能如此重要:

  1. 职场需求:据2023年Stack Overflow调查,87%的Python开发者需要处理各种文件格式
  2. 效率提升:自动化文件处理可节省90%以上的重复操作时间
  3. 面试高频:Python岗位面试中,文件操作是必考知识点

二、CSV文件读取 - 数据分析第一步

2.1 为什么需要读取CSV文件?

CSV(Comma-Separated Values)是数据科学领域最常用的轻量级数据存储格式,具有以下优势:

  • 体积小,读写速度快
  • 跨平台兼容性好
  • 支持多种数据类型

2.2 最佳实践方案

方案一:使用标准库csv(适合小文件)

import csv

with open('data.csv', mode='r', encoding='utf-8-sig') as f:  # 注意编码处理
    reader = csv.DictReader(f)  # 使用DictReader获取字段名
    for row in reader:
        print(row['姓名'], row['成绩'])  # 通过字段名访问数据

方案二:使用pandas(推荐大数据量)

import pandas as pd

# 处理大文件时可分块读取
chunk_size = 10000
for chunk in pd.read_csv('big_data.csv', chunksize=chunk_size):
    process(chunk)  # 自定义处理函数

# 常用参数:
# header=None   # 无表头
# skiprows=1    # 跳过首行
# usecols=[0,2] # 只读取指定列

三、Excel文件读取 - 商业数据处理

3.1 为什么需要读取Excel?

虽然CSV很香,但现实世界中80%的商业数据仍然躺在Excel里。格式丰富、支持多工作表是它的杀手锏。

Excel 使用场景:

  • 财务报表处理
  • 客户数据管理
  • 项目进度跟踪

3.2 最佳实践方案

# 使用openpyxl(适合.xlsx格式)
from openpyxl import load_workbook

wb = load_workbook('report.xlsx')
sheet = wb.active
for row in sheet.iter_rows(values_only=True):
    print(row)

# 使用pandas多表读取
with pd.ExcelFile('report.xlsx') as xls:
    df1 = pd.read_excel(xls, 'Sheet1')
    df2 = pd.read_excel(xls, 'Sheet2')

性能优化技巧

  • 对于.xlsx大文件,推荐使用openpyxlread_only模式
  • 仅加载需要的sheet:pd.read_excel('file.xlsx', sheet_name='Sheet1')
  • 禁用图表加载提升速度:load_workbook(..., data_only=True)

四、Word文档处理 - 告别复制粘贴

4.1 为什么需要读取Word?

当你要批量处理上百份合同、简历或者论文时,手动操作简直就是自虐!这个时候就应该考虑下Python操作Word了。

Word 使用场景:

  • 合同关键信息提取
  • 简历自动筛选
  • 文档批量格式化

4.2 最佳实践方案

from docx import Document

doc = Document('report.docx')

# 读取段落
for para in doc.paragraphs:
    print(para.text)

# 读取表格
for table in doc.tables:
    for row in table.rows:
        for cell in row.cells:
            print(cell.text)

高级应用

  • 使用正则表达式提取特定内容
  • 结合python-docx-template实现模板替换
  • 批量生成报告时注意内存管理

五、PPT读取 - 演示文稿的自动化处理

5.1 为什么需要读取PPT?

想象一下每周都要从几十份周报PPT中提取关键数据,手动操作简直让人崩溃!

PPT 使用场景:

  • 自动生成报告摘要
  • 批量替换PPT内容
  • 企业汇报材料分析

5.2 最佳实践方案

from pptx import Presentation

prs = Presentation('presentation.pptx')

for slide in prs.slides:
    for shape in slide.shapes:
        if hasattr(shape, "text"):
            print(shape.text)

    # 处理图表数据(如果有)
    for chart in slide.charts:
        data = chart.chart_data
        # 进一步处理图表数据...

六、PDF文本提取

6.1 PDF处理的痛点

PDF设计初衷是为了展示而非数据处理,这使它成为最难处理的格式之一。但别怕,Python依然有办法!

PDF 使用场景:

  • 发票信息提取
  • 论文内容分析
  • 扫描件OCR识别

6.2 最佳实践方案

# 方案1:PyPDF2(适合文本型PDF)
from PyPDF2 import PdfReader

reader = PdfReader("document.pdf")
for page in reader.pages:
    print(page.extract_text())

# 方案2:pdfplumber(更强大的文本提取)
import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_text())
    # 还能提取表格!
    table = first_page.extract_table()

# 方案3:处理扫描件(需要OCR)
import pytesseract
from PIL import Image

# 需要先将PDF转为图片(可用pdf2image库)
image = Image.open('scanned_page.jpg')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

解决方案对比

工具库优点缺点适用场景
PyPDF2纯Python实现对复杂PDF支持有限简单文本提取
pdfplumber表格提取能力强速度较慢含表格的PDF
pdfminer.six解析精度高API复杂学术论文解析
pytesseract支持扫描件OCR需要安装Tesseract图片型PDF

七、终极方案 - 文件类型自动判断

唐叔教你一个万能方法,不用记那么多库!

import magic
import pandas as pd

def read_any_file(file_path):
    mime = magic.Magic(mime=True)
    file_type = mime.from_file(file_path)

    if 'csv' in file_type:
        return pd.read_csv(file_path)
    elif 'excel' in file_type:
        return pd.read_excel(file_path)
    elif 'word' in file_type:
        # 调用word处理逻辑
        pass
    # 其他类型判断...
    else:
        with open(file_path, 'r') as f:
            return f.read()

# 使用示例
data = read_any_file('unknown_file')

八、常见问题解答

Q1:读取文件时出现编码错误怎么办?

  • 尝试常见编码:utf-8、gbk、gb2312、gb18030

  • 使用chardet自动检测编码:

    import chardet
    with open('file', 'rb') as f:
        encoding = chardet.detect(f.read())['encoding']
    

Q2:处理大文件内存不足怎么解决?

  • 使用分块读取(chunksize)
  • 考虑使用Dask等分布式计算框架
  • 转换为更高效的存储格式(如parquet)

Q3:如何提高PDF解析速度?

  • 预处理PDF:pdf2pdfa -i input.pdf output.pdf
  • 多进程处理:from multiprocessing import Pool
  • 使用GPU加速的OCR工具

九、学习资源推荐

  1. 官方文档:
    • pandas IO工具
    • python-docx文档
  2. 推荐书籍:
    • 《Python自动化秘籍》
    • 《Python数据处理实战》
  3. 视频教程:
    • B站"Python办公自动化"系列
    • Coursera"Data Processing Using Python"

唐叔总结:文件读取看似简单,实则暗藏玄机。掌握这些技巧后,你的Python数据处理能力将提升一个Level!如果觉得有帮助,请点赞+收藏支持,更多Python干货正在路上!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2337622.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Git】git的简单使用

文章目录 1. 基础概念2. 简单使用2.1 git配置2.1.1 git的配置文件2.1.2 .gitignore文件 2.2 创建仓库2.2.1 创建本地仓库2.2.2 github创建远程仓库step1:github新建一个代码仓step2:创建密钥远程仓库相关指令2.2.3 本地仓库 关联 远程仓库 2.3 分支2.3.1…

[Web 安全] Web 信息收集 —— 信息收集流程

🌟 想系统化学习 Web 渗透?看看这个:[Web 安全] Web 安全攻防 学习手册 提示:本章不涉及任何具体信息收集技术,仅仅是讲解收集这些信息我能干啥,以及如何才能比较全面的收集信息。 0x01:信息收…

内部聊天软件,BeeWorks-安全的企业内部通讯软件

企业在享受数据便利的同时,如何保障企业数据安全已经成为无法回避的重要课题。BeeWorks作为一款专为企业设计的内部通讯软件,通过全链路的安全能力升维,为企业提供了一个安全、高效、便捷的沟通协作平台,全面保障企业数据安全。 …

应用篇02-镜头标定(上)

本节主要介绍相机的标定方法,包括其内、外参数的求解,以及如何使用HALCON标定助手实现标定。 计算机视觉——相机标定(Camera Calibration)_摄像机标定-CSDN博客 1. 原理 本节介绍与相机标定相关的理论知识,不一定全,可以参考相…

【UE5 C++】“ProceduralMeshComponent”的使用记录

效果 如下所示,通过“ProceduralMeshComponent”创建了一个自定义形状的Mesh,并且该Mesh包含碰撞信息,然后2s后更新Mesh形状。 步骤 1. 在“xxx.Build.cs”中引入“ProceduralMeshComponent”模块 2. 新建一个Actor类,这里命名为…

(leetcode算法题)309. 买卖股票的最佳时机含冷冻期

按照题目要求,研究对象是最后一天结束后获得的最大利润 那么就可以把问题拆分成 第 1 天结束后获得的最大利润, 第 2 天结束后获得的最大利润, 第 i 天结束后获得的最大利润, 由于规则中强调不能同时参与多笔交易&#xff0c…

Chrome漏洞可窃取数据并获得未经授权的访问权限

在发现两个关键漏洞后,谷歌发布了Chrome浏览器的紧急安全更新。这些漏洞可能允许攻击者窃取敏感数据并未经授权访问用户系统。 这些缺陷被识别为CVE-2025-3619和CVE-2025-3620,在Windows和Mac的135.0.7049.95/.96之前影响Chrome版本,影响Linux的135.0.7049.95/.96。该更新将在…

.net core 项目快速接入Coze智能体-开箱即用-全局说明

目录 一、Coze智能体的核心价值 二、开箱即用-效果如下 三 流程与交互设计 为什么要分析意图,而不是全部交由AI处理。 四 接入前的准备工作 五:代码实现----字节Coze 签署 JWT和获取Token .net core 项目快速接入Coze智能体-开箱即用 .net core快…

风丘年度活动:2025年横滨汽车工程展览会

| 展会简介: 2025年横滨汽车工程展览会,是由日本汽车工程师学会(JSAE)精心主办的一场行业盛会。预计届时将汇聚超550家参展商,设置1300个展位,展览面积超过20000平方米。展会受众广泛,面向汽车…

Redis线上操作最佳实践有哪些?

大家好,我是锋哥。今天分享关于【Redis线上操作最佳实践有哪些?】面试题。希望对大家有帮助; Redis线上操作最佳实践有哪些? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在使用 Redis 时,尤其是在生产环境中,合理…

Redis——五种数据类型

目录 前言 1.String 1.1RAW编码 1.2EMBSTR编码 1.3 INT编码 2.List 3.Set 3.1 InSet编码转化成Dict编码 4.ZSet 4.1结合SkipList和HT实现 4.2使用ZipList实现 4.3编码转换 4.4 ZipList排序功能 5.Hash 5.1Hash底层存储结构 6.Redis数据结构和数据类型关系图 前言…

Godot学习-创建简单动画

文章目录 1、准备工作Godot资源 2、创建项目3、创建结点4、创建动画1、创建动画2、添加轨道3、创建关键帧3.1 第一个关键帧3.2 第二个关键帧 5、加载后自动播放6、动画循环7、轨道设置1、轨道更新模式2、轨迹插值3、其他属性的关键帧4、编辑关键帧5、使用 RESET 轨道6、洋葱皮 …

论文阅读VACE: All-in-One Video Creation and Editing

code:https://github.com/ali-vilab/VACE 核心 单个模型同时处理多种视频生成和视频编辑任务通过VCU(视频条件单元)进行实现 方法 视频任务 所有的视频相关任务可以分为4类 文本生视频 参考图片生视频 视频生视频 视频mask生视频 VCU …

JavaSE学习(前端初体验)

文章目录 前言一、准备环境二、创建站点(创建一个文件夹)三、将站点部署到编写器中四、VScode实用小设置五、案例展示 前言 首先了解前端三件套:HTML、CSS、JS HTML:超文本标记语言、框架层、描述数据的; CSS&#xf…

前端渲染pdf文件解决方案

一、前言 在当今数字化信息传播的时代,PDF文档作为一种常见的文件格式扮演着重要的角色。对于前端开发者而言,实现在网页上渲染和展示PDF文件是一项常见但也具有挑战性的任务。幸运的是,现在有一个强大的工具——react-pdf-viewer&#xff0c…

Kubernetes(K8S)内部功能总结

Kubernetes(K8S)是云技术的最核心的部分,也是构建是云原生的基石 K8S K8S,是Kubernetes的缩写,是Google开发的容器编排平台,现在由云原生计算基金会(CNCF)进行维护。 K8S&#xff…

【计算机网络】3数据链路层①

这篇笔记专门讲数据链路层的功能。 2.功能 数据链路层的主要任务是让帧在一段链路上或一个网络中传输。 2.1.封装成帧(组帧) 解决的问题:①帧定界②帧同步③透明传输 实现组帧的方法通常有以下种。 2.1.1.字符计数法 原理:在每个帧开头,用一个定长计数字段来记录该…

Nginx底层架构(非常清晰)

目录 前言: 场景带入: HTTP服务器是什么? 反向代理是什么? 模块化网关能力: 1.配置能力: 2.单线程: 3.多worker进程 4.共享内存: 5.proxy cache 6.master进程 最后&…

Docker 设置镜像源后仍无法拉取镜像问题排查

#记录工作 Windows系统 在使用 Docker 的过程中,许多用户会碰到设置了国内镜像源后,依旧无法拉取镜像的情况。接下来,记录了操作要点以及问题排查方法,帮助我们顺利解决这类问题。 Microsoft Windows [Version 10.0.27823.1000…

Edge 浏览器推出 Copilot Vision:免费实时解析屏幕内容;Aqua Voice:极速 AI 语音输入工具丨日报

开发者朋友们大家好 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看…