在数据处理和分析时,经常使用Excel,而手动操作Excel可能非常繁琐和耗时。Python提供了许多强大的库和工具,可以方便地操作Excel文件。
在Python标准库中是不支持Excel读写的,我们要安装第三方库来实现。
在Python中操作Excel有多种库可以选择,以下是一些比较流行和常用的库:
1. pandas:
pandas是一个功能强大的数据分析库,可以处理和操作Excel文件。它提供了一种名为DataFrame的数据结构,可以方便地读取、写入和修改Excel文件的数据。pandas还提供了许多数据处理和分析功能,如数据过滤、排序、分组、聚合等。
2. openpyxl:
openpyxl是一个专门用于读写Excel文件的库,支持Excel 2010及以上的版本。它提供了一系列的类和方法,可以直接操作Excel文件的各个部分,如工作表、单元格、行、列等。openpyxl还支持常见的Excel功能,如公式计算、样式设置等。
3. xlrd和xlwt:
xlrd和xlwt是两个常用的库,用于读取和写入Excel文件。xlrd可以读取Excel文件的数据,并将其转化为Python中的数据结构,如列表、字典等。xlwt可以创建新的Excel文件,并将Python中的数据写入到Excel文件中。xlrd虽然功能相对较少,但它的性能很好,特别适用于处理大型Excel文件。
4. xlwings:
xlwings是一个强大的库,可以在Excel中直接调用Python代码。它可以实现Excel与Python的双向交互,可以在Excel中执行Python代码,也可以在Python中控制Excel的操作。xlwings可以方便地操作Excel文件的数据和功能,并且支持各种常见的Excel功能。
5. pyexcel和pyexcel-xlsx:
pyexcel和pyexcel-xlsx是两个简单易用的库,用于读写Excel文件。它们提供了简单的接口,可以快速读取和写入Excel文件的数据。pyexcel还支持多种数据格式,如CSV、JSON等。
综上所述,根据不同的需求可以选择适合的库来操作Excel文件。如果你只需要进行一些简单的操作,用哪个都行;如果需要对Excel文件进行复杂的数据处理和分析,推荐使用pandas;如果需要处理处理大型Excel文件,推荐使用xlrd和xlwt;如果需要在Excel中调用Python代码,可以使用xlwings
这么多库感兴趣的话自己去学习和对比吧,我这里介绍一下xlrd和xlwt的使用。
直接来一个案例,这是某学校考试得分情况的一个汇总excel,我们如何读取这个excel并算出总分,给这个excel拓展一个总分列出来。
import xlrd, xlwt
rbook = xlrd.open_workbook('demo.xlsx')
rsheet = rbook.sheet_by_index(0)
k = rsheet.ncols
rsheet.put_cell(0, k, xlrd.XL_CELL_TEXT, '总分', None)
for i in range(1, rsheet.nrows):
t = sum(rsheet.row_values(i, 1))
rsheet.put_cell(i, k, xlrd.XL_CELL_NUMBER, t, None)
wbook = xlwt.Workbook()
wsheet = wbook.add_sheet(rsheet.name)
for i in range(rsheet.nrows):
for j in range(rsheet.ncols):
wsheet.write(i, j, rsheet.cell_value(i, j))
wbook.save('out.xlsx')
尝试运行这段代码你会得到这个结果,但是你们去尝试的时候,如果你是xlsx文件,可以会遇到以下一个错误:xlrd.biffh.XLRDError: Excel xlsx file; not supported。这个错误明确地告诉我们,尝试操作的.xlsx文件不被支持。此时,你可能会感到困惑,因为.xlsx是Excel中非常常见的一种格式。
错误的根本原因在于xlrd库的一个重要更新。从版本2.0.0开始,xlrd库默认只支持旧的.xls格式,而不再支持较新的.xlsx格式。这个更改主要是出于安全和维护的考虑,但它确实给很多依赖xlrd处理.xlsx文件的开发者带来了挑战。
针对这个问题我们怎么办呢?
- 退回旧版本:暂时将xlrd库降级到1.2.0版本,记住这个版本号,这是支持.xlsx的最后一个版本。
- 使用openpyxl库:对于.xlsx文件格式,openpyxl是一个更合适的选择,因为它专门用于处理.xlsx文件。
- 使用pandas库:如果你已经在使用pandas进行数据分析,那么可以直接通过pandas来读取.xlsx文件,pandas背后会使用openpyxl或其他库作为引擎。
长期依赖过时的库可能会带来安全和兼容性风险,虽然直接降级xlrd库看似是快速解决问题的方式,但考虑到长期维护和安全性,迁移到openpyxl或通过pandas操作.xlsx文件会是更加稳妥和前瞻的选择。
# 1.使用openpyxl库读取excel文件
from openpyxl import load_workbook
workbook = load_workbook(filename='your_file.xlsx')
sheet = workbook.active
for row in sheet.iter_rows(values_only=True):
print(row)
# 2.使用pandas库读取excel文件
import pandas as pd
df = pd.read_excel('your_file.xlsx', engine='openpyxl')
print(df)
附一个简单用法。详细使用教程自己去看文档吧。学习这种工具库的使用方法,或者说学习任何代码的使用,都强烈建议大家去看官方文档学习,你会得到更加系统的知识体系,只通过这种技术文章或者一些教学视频来学习,是非常愚蠢的做法,它会让你的知识体系特别片面。这种技术文章只是适合大家一起交流开拓思路。