Python从入门到网络爬虫(读写Excel详解)

news2024/11/14 13:58:34

前言

Python操作Excel的模块有很多,并且各有优劣,不同模块支持的操作和文件类型也有不同。最常用的Excel处理库有xlrd、xlwt、xlutils、xlwings、openpyxl、pandas,下面是各个模块的支持情况:

工具名称.xls.xlsx获取文件内容写入数据修改文件内容保存样式调整插入图片
xlrd×××××
xlwt×××
xlutils××××
xlwings
openpyxl×
pandas×××

对比会发现,其中xlwings的功能是最全最强大的,其实它的执行效率也是最高的。但是xlwings的学习难度相对比较大,而且里面的很多的概念和操作方式和平时操作Excel的时候不一样。openpyxl 的问题是不能操作老版本的excel文件(.xls),以及在操作数据的时候必须以单元格为单位操作,无法直接以行或者列的方式操作文件内容。xlrdxlwtxlutils三个模块配合使用可以很方便的对excel文件进行读、写和修改操作,也可以更方便的以行列的方式操作Excel文件,但是缺点是无法对.xlsx文件进行写和修改操作。在解决实际问题的时候读者可以根据自己的实际需求选择使用合适的工具。

下面主要介绍xlrdxlwt模块如何实现对.xls和.xlsx文件进行读写操作。

1. Excel文件中的工作簿、工作表

在使用工具库操作Excel之前,我们先来了解一下Excel中工作簿、工作表的感念。

1.1 工作簿

工作簿:excel工作簿就是excel电子表格文件。excel是以工作薄来存储数据的,工作簿文件是excel存储在磁盘上的最小独立文件,它由多个工作表组成,在excel中数据和图表都是以工作表的形式存储在工作簿文件中的。简单的来说一个Excel文件(.xls、.xlsx)就是一个工作簿。

1.2 工作表

工作表:工作表是显示在工作簿窗口中的表格,一个工作表可以由1048576行和256列构成,行的编号从1到1048576,列的编号依次用字母A、B ……IV表示,行号显示在工作簿窗口的左边,列号显示在工作簿窗口的上边。

Excel默认一个工作簿有三个工作表,用户可以根据需要添加工作表,但每一个工作簿中的工作表个数受可用内存的限制,当前的主流配置已经能轻松建立超过255个工作表了。

2. 使用xlrd读取Excel文件数据

2.1 安装xlrd

pip install xlrd

2.2 打开工作簿

# 引入xlrd
import xlrd

# 打开Excel文件
workbook = xlrd.open_workbook("E:\\studyproject\\python\\Excel数据读取\\费县摸排数据\\林种.xls")

2.3 获取与打开工作表

一个工作簿中通常有多个工作表,我们可以使用sheet_names()方法获取所有工作表

# 获取打开工作簿中的所有工作表名 返回工作表名称列表
sheet_names = workbook.sheet_names()

# 数据结果
# ['Sheet1','Sheet2','Sheet3']

上一步中我们获取到了,我们可以通过工作表名称或者工作表的排序索引打开工作表

# 通过工作表名称打开工作表
worksheet = workbook.sheet_by_name('Sheet1')

# 通过工作表排序的索引打开工作表
worksheet = workbook.sheet_by_index(0)

也可以通过sheets()方法来获取全部工作表

# #获取所有的sheet对象
sheets = workbook.sheets()
for sheet in sheets:
  print(sheet.name)#结果: 1班 2班

2.4 读取单元格数据

获取到工作表之后,我们可以通过rows和cols两个属性来获取工作表的行数和列数

# 工作表行数
rows = worksheet.nrows

# 工作表列数
cols = worksheet.ncols

通过行号和列表获取指定单元格中的数据

worksheet.cell_value(row, col)

获取指定行的某几列

worksheet.row_values(row,start_col,end_col)

获取指定列的某几行

worksheet.col_values(col,start_row,end_row)

2.5 应用实例

将Excel数据处理转换为json数据,是日常工作中最常见的一项实例,下面的实例我们就使用xlrd将读取Excel文件,转换获取json数据

import xlrd
import json

workbook = xlrd.open_workbook("E:\\studyproject\\python\\Excel数据读取\\摸排数据\\水源地.xls")

worksheet = workbook.sheet_by_name('Sheet1')


# 获取所有行数和列数
rows = worksheet.nrows
cols = worksheet.ncols

arr = []
for row in range(rows):
    obj = {}
    for col in range(cols):
        obj[worksheet.cell_value(0, col)] = worksheet.cell_value(row, col)
    arr.append(obj)

print(arr)

josnstr = json.dump(arr)

# # print(josnstr)

3. 使用xlrw实现Excel写入数据

3.1 安装xlrw

pip install xlwt

3.2 创建工作簿

# 导入工具包
import xlwt

# 创建一个工作簿
workbook = xlwt.Workbook(encoding="utf-8")

3.3 创建工作表

# 创建一个工作表
worksheet = workbook.add_sheet('小马过河')

3.4 往单元格里写入数据 

通过行号和列号往Excel表格中写入内容

# 参数对应 行, 列, 值
worksheet.write(1,0, label = 'hello world!')

最后保存生成(.xls)格式的Excel文件

# 保存
workbook.save('学习笔记.xls')

 

3.5 实际应用实例

将从数据库中读取的数据写入到Excel文件中

import pymysql
import xlwt

# 创建数据库链接对象
database = pymysql.connect(
    host="127.0.0.1",
    user="root",
    password="123456",
    database="toutiao",
    port=3306,
    charset="utf8"
)

# 创建游标对象
cursor = database.cursor()

# 游标对象使用execute()方法执行SQL语句
try:
    workbook = xlwt.Workbook(encoding="utf-8")
    worksheet = workbook.add_sheet("热门文章")

    # 执行查询语句
    cursor.execute("select title,publish_time,like_count,read_count,comment_count from happy limit 1,10")
    # 获取查询结果
    result = cursor.fetchall()
    
    for i in range(0,len(result)):
        for j in range(0,len(result[i])):
            worksheet.write(i,j,label=result[i][j])
    
except Exception as e:
    print(e)
finally:
    # 关闭游标
    cursor.close()
    # 关闭数据库
    database.close()
    workbook.save("热门文章.xls")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1366051.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

led恒流式驱动电源芯片一览表

LED恒流式驱动电源芯片是一种用于驱动LED灯的关键组件。它能够稳定地提供恒定的电流,确保LED灯的亮度和颜色始终保持一致。 LED恒流式驱动电源芯片通常由电源管理单元、恒流输出部分和保护电路组成。电源管理单元负责转换输入电压为恒定的直流电压,并通…

我是内网灵活的狗之stack靶场1

首先我们还是老样子 我们先启动这个在win7上面的php工具,也就是启动php服务 然后我们启动kali攻击机 然后打开webshell工具 然后我们先打开MSF工具进行监听 启动msf工具进行监听 12345端口 然后在文件中打开虚拟终端,连接到目标机器内部 start 620.exe…

SpikingJelly笔记之泊松编码

文章目录 前言一、泊松编码的原理二、生成符合泊松分布的脉冲序列三、SpikingJelly中的泊松编码四、Lena图像的泊松编码与还原1.原始图像2.图像编码3.图像还原 总结 前言 记录SpikingJelly中泊松编码的使用方法,对图像数据进行编码与还原 一、泊松编码的原理 基于…

AI-数学-初中-1.1二次函数图像及顶点式

一元二次方程ax^2bxc0(a≠0)的根的判别式是b^2-4ac,用“Δ”表示(读做“delta”) 实数根就是指方程式的解为实数,实数根也经常被叫为实根。 判别式Δb^2-4ac 若Δb^2-4ac<0,二次方程无实数根 若Δb^2-4ac0,二次方程有…

dynamic_cast, RTTI, 整理

主要是参考下图,了解内存布局,然后写个实例程序就差不多明白了,但是需要熟悉指针转换。 1) 只有多态类才有RTTI信息,dynamic_cast正是运用RTTI进行转换,属于运行时类型检查。 2) dynamic_cast判断两个指针是否能转换…

【大数据】Spark学习笔记

初识Spark Spark和Hadoop HadoopSpark起源时间20052009起源地MapReduceUniversity of California Berkeley数据处理引擎BatchBatch编程模型MapReduceResilient distributed Datesets内存管理Disk BasedJVM Managed延迟高中吞吐量中高优化机制手动手动APILow levelhigh level流…

【花艺电商】SpringBoot集成MyBatis-Plus、Swagger2、SpringSecurity、OAuth2等技术整合开发

目录 一、功能介绍 1. 说明 2. 功能实现 3. 技术应用 二、技术详述 1.MyBatis-Plus 主要体现 项目应用 2.SpringSecurity 应用作用 三、页面展示 1. 登入 2. 主页 3. 详情 4. 购物车 5. 订单 6. 沙箱支付 每篇一获 一、功能介绍 1. 说明 这个项目主要使用了…

SpringIOC之support模块FileSystemXmlApplicationContext

博主介绍:✌全网粉丝5W,全栈开发工程师,从事多年软件开发,在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战,博主也曾写过优秀论文,查重率极低,在这方面有丰富的经验…

单向可控硅充电电路图

单向可控硅工作原理 单向可控硅有阳极A、阴极K、控制极G三个电极,由四层半导体PNPN构成。单向可控硅有三个PN结,其内部结构与等效电路符号如图4-10所示。单相可控硅可等效看成一个PNP型三极管Vl和一个NPN型三极管V2组合而成,Vl基极和V2集电极…

KPU特征识别

前面的颜色识别、二维码识别都是使用了一些简单的图像处理功能,而更高 级的机器视觉就需要使用 KPU 。可以简单类别为计算机的 GPU (显卡),本质是 实现高速的图像数据运算 我们来简单介绍一下 K210 的 KPU 。 KPU 是 K21…

vue3开启摄像头并进行拍照

文章目录 一、前言二、文档三、实现3.1、封装3.2、使用3.3、效果 四、最后 一、前言 Vue3 调用本地摄像头实现拍照功能,由于调用摄像头有使用权限,只能在本地运行,线上需用 https 域名才可以使用。主要是使用navigator.mediaDevices.getUser…

SpringBoot-自定义监听器

Spring Boot提供了强大的事件模型,其中包括多种内置监听器,同时也支持开发者自定义监听器。通过实现ApplicationListener接口,开发者可以创建自己的监听器,并在Spring Boot应用程序中进行配置。这样一来,在特定的应用程…

神经网络的核心:简单易懂理解 PyTorch 非线性激活函数

目录 torch.nn子函数非线性激活详解 nn.Softmin Softmin 函数简介 函数工作原理 参数详解 使用技巧与注意事项 示例代码 nn.Softmax Softmax 函数简介 函数工作原理 参数详解 使用技巧与注意事项 示例代码 nn.Softmax2d Softmax2d 函数简介 函数工作原理 输入…

FineBI实战项目一(9):每日不同支付方式订单总额/订单笔数

1 明确数据分析目标 统计每种支付方式的订单个数以及订单总金额 2 创建用于保存数据分析结果的表 create table app_order_paytype(id int primary key auto_increment,dt date,pay_type varchar(20),total_money double,total_cnt int ); 3 编写SQL语句进行数据分析 selec…

vue3 修饰符大全(近万字长文)

系列文章目录 TypeScript 从入门到进阶专栏 文章目录 系列文章目录前言一、事件修饰符(Event Modifiers)1、.stop(阻止事件冒泡)2、.prevent(阻止事件的默认行为)3、.capture(使用事件捕获模式…

何为算法之空间复杂度

前言 不知前面所讲的算法的十大特征你是否记住了呢?其实除了这十大特征之外,算法还有两个衡量标准。 不同的问题需要使用不同的算法作为策略,不同的算法也可能占用不同的时间和空间来完成相同的任务,这时候,对算法的选…

强化学习的数学原理学习笔记 - RL基础知识

文章目录 Roadmap🟡基础概念贝尔曼方程(Bellman Equation)基本形式矩阵-向量形式迭代求解状态值 vs. 动作值 🟡贝尔曼最优方程(Bellman Optimality Equation,BOE)基本形式迭代求解 本系列文章介…

alibabacloud学习笔记02(小滴课堂)

什么是注册中心和常见的注册中心有哪些 介绍什么是Nacos和搭建实战 启动Nacos 使用前要先安装jdk。 linux学习专栏笔记中有,大家可以去看。 关闭nacos: 这样我们就登录了nacos。 项目集成Nacos实现服务直接的调用 每个子模块都去添加。 给每个子模块配置nacos配…

ReentrantLock底层原理学习二

以 ReentrantLock 作为切入点,来看看在这个场景中是如何使用 AQS 来实现线程的同步的 ReentrantLock 的时序图 调用 ReentrantLock 中的 lock()方法,源码的调用过程我使用了时序图来展现。ReentrantLock.lock() 这个是 reentrantLock 获取锁的入口 pu…

小H靶场笔记:DC-4

DC-4 January 4, 2024 2:37 PM Tags: teehee提权 Owner:只惠摸鱼 信息收集 探测靶机ip,发现应该是192.168.199.134 扫一下开放端口(22、80)、服务、版本、漏洞 根据扫描结果,在80端口可能有CSRF漏洞,…