1、背景:
最近在工作中遇到越来越多的的使用pandas或者python来处里写入操作,尤其是对excel文件或者csv文件的操作更是常见,这里将写入操作总结如下,方便记忆,也分享给大家,希望对阅读者能够有所帮助
2、pandas写入数据的各种场景使用详解
2.1、df.to_excel()参数详解
df.to_excel(
excel_writer, #存放excel文件的地址。如果是只写文件名,不写具体的地址也可。会和py文件存放到一起。
sheet_name='Sheet1', #sheet的名字。一般默认为sheet1
na_rep='', #缺失值表示方式,一般默认为''。
float_format=None, #格式化浮点数的字符串。
columns=None, #要写入excel中的列。list。一般默认None,即全部写入。
header=True, #header即列名是否为columns,一般默认为True。
index=True, #index是否写入excel,一般默认为True。
index_label=None, #要写入excel中的index列。
startrow=0, #从哪一行开始写入数据。默认为0,即第一行。
startcol=0, #从哪一列开始写入数据。默认为0,即第一列。
engine=None, #可选参数, 用于写入要使用的引擎, openpyxl或xlsxwriter
merge_cells=True, #返回布尔值, 其默认值为True。它将MultiIndex和Hierarchical行写为合并的单元格。
encoding=_NoDefault.no_default, #默认为'utf-8'
inf_rep='inf', #可选参数, 默认值为inf。它通常表示无穷大。
verbose=_NoDefault.no_default, #它的默认值为True。返回布尔值。它用于在错误日志中显示更多信息。
freeze_panes=None, #整数的元组(长度2),默认为None。可选参数, 用于指定要冻结的最底部一行和最右边一列。
storage_options=None#
)
2.2 写入一个sheet表中
【注:要写入的excel和sheet已存在,则会覆盖】
import pandas as pd
#创建一个数据
df = pd.DataFrame({
'name':['Lily','Jack','Rose','Joe'],
'age':[23,23,33,45],
'job':['student','doctor','worker','lawyer']
},index=range(1,5),
)
#将index重新命名为id
df.index.name='id'
# print(df)
#写入excel
df.to_excel(r'C:\Users\XXXXXX\Desktop\pandas写入excel.xlsx',index=True,columns=['name','age'],header=True,startrow=20)
3 同一个excel中写入多个sheet,sheet名不同
3.1 利用pd.ExcelWriter()写入多个sheet中
pd.ExcelWriter(
path, #写入的excel的存放路径
engine=None, #一般默认为io.excel.<extension>.writer,用于编写的引擎。(目前这个参数不大懂。)
date_format=None, #设置写入excel的日期格式。如"YYYY-MM-DD"
datetime_format=None, #设置写入excel的日期时间格式。如"YYYY-MM-DD HH:MM:SS"
mode='w', #{"w","a"},一般默认为"w"。使用文件的模式,是追加还是写入。
**engine_kwargs
)
3.2 利用pd.ExcelWriter()写入多个sheet中
import pandas as pd
from pandas import ExcelWriter
#创建一个数据
df = pd.DataFrame({
'name':['Lily','Jack','Rose','Joe'],
'age':[23,23,33,45],
'job':['student','doctor','worker','lawyer']
},index=range(1,5),
)
#将index重新命名为id
df.index.name='id'
# print(df)
#设置存入路径
with ExcelWriter(r'C:\Users\XXXXXX\Desktop\pandas写入excel.xlsx',mode='w') as writer:
for i in ['sheet_1','sheet_2','sheet_3']:
df.to_excel(writer,sheet_name=i)
writer.save()
3.3 在原来的sheet中追加几个sheet表。(即不能覆盖原来的数据)
import pandas as pd
from pandas import ExcelWriter
#创建一个数据
df = pd.DataFrame({
'name':['Lily','Jack','Rose','Joe'],
'age':[23,23,33,45],
'job':['student','doctor','worker','lawyer']
},index=range(1,5),
)
#将index重新命名为id
df.index.name='id'
# print(df)
#设置存入路径,设置引擎,这是使用文件的模式。
with ExcelWriter(r'C:\Users\XXXXXX\Desktop\pandas写入excel.xlsx',engine='openpyxl',mode='a') as writer:
for i in ['sheet_4','sheet_5','sheet_6']:
df.to_excel(writer,sheet_name=i)
writer.save()
4 在同一个excel,同一个sheet表中追加数据
【注:这里有两种思路
1)先读取原表,将现有数据与原表数据拼接后再写入;
2)直接追加】
4.1 先读取原表,将现有数据与原表数据拼接后再写入;
【注:将df_new写入excel,这个是只针对一个sheet的表格,如果是多个sheet,是消失的。因为,这其实相当于删除原来的,新建了一个表。】
import pandas as pd
#读取Excel中的数据
df_0 = pd.read_excel(r'C:\Users\XXXXXX\Desktop\pandas写入excel.xlsx',sheet_name='sheet_1')
#修改一下索引,将id改成索引。
df_0 = df_0.set_index(keys=['id'])
print(df_0)
#创建一个数据
df = pd.DataFrame({
'name':['Lily','Jack','Rose','Joe'],
'age':[23,23,33,45],
'job':['student','doctor','worker','lawyer']
},index=range(1,5),
)
#将index重新命名为id
df.index.name='id'
print(df)
df_new = pd.concat([df,df_0],axis=0)
print(df_new)
#将df_new写入excel,这个是只针对一个sheet的表格,如果是多个sheet,是消失的。因为,这其实相当于删除原来的,新建了一个表。
df_new.to_excel(r'C:\Users\XXXXXX\Desktop\pandas写入excel.xlsx',sheet_name='sheet_1',index=True)
4.2 Python对excel追加数据
利用pd.ExcelWriter(),其实是重新写入。
import pandas as pd
from pandas import ExcelWriter
from openpyxl import load_workbook
#读取Excel中的数据
df_0 = pd.read_excel(r'C:\Users\XXXXXX\Desktop\pandaswriterexcel.xlsx',sheet_name='Sheet1')
#修改一下索引,将id改成索引。
df_0 = df_0.set_index(keys=['id'])
print(df_0)
old_rows = df_0.shape[0]
df = pd.DataFrame({
'name':['Lucy','Tofy','Anna','liting'],
'age':[10,12,12,9],
'job':['student','doctor','worker','lawyer']
},index=range(old_rows+1,old_rows+5),
)
#将index重新命名为id
df.index.name='id'
print(df)
writer = ExcelWriter(r'C:\Users\XXXXXX\Desktop\pandas写入excel.xlsx',mode='w')
#现将df_0存入
df_0.to_excel(writer,startrow=0,index=False,sheet_name='Sheet1')
#将df写入,注意开始行。
df.to_excel(writer,startrow=old_rows+1,header=None,index=False,sheet_name='Sheet1')
writer.save()
5 写入多个excel中
import pandas as pd
#读取Excel中的数据
df = pd.DataFrame({
'name':['Lucy','Tofy','Anna','liting'],
'age':[10,12,12,9],
'job':['student','doctor','worker','lawyer']
},index=range(1,5),
)
#将index重新命名为id
df.index.name='id'
#利用for循环存入多个excel
for i in range(1,3):
df.to_excel(fr'C:\Users\XXXXXX\Desktop\p_e_{i}.xlsx',index=True,engine='openpyxl')
6 两种数据类型转成DataFrame写入excel的案例
6.1 JSON解析后存入Excel
import pandas as pd
#读取JSON数据。
f_path = r'C:\Users\XXXXXX\Desktop\测试数据.json'
data = pd.read_json(f_path,encoding='utf-8')
# print(data)
#获取list,result的值。
data_list = data.loc['list','result']
# print(data_list)
df_list = []
for one_info in data_list:
df = pd.DataFrame(one_info,index=[0])
df_list.append(df)
data_excel = pd.concat(df_list)
data_excel.to_excel(r'C:\Users\XXXXXX\Desktop\json_2_excel.xlsx',index=False)
6.2 列表解析后存入Excel
import pandas as pd
#先构造一个列表数据
data_list = [['name','age','job'],['Lucy',33,'doctor'],['Tom',34,'teacher'],['Anna',22,'student']]
df = pd.DataFrame(data_list[1:],columns=data_list[0])
# print(df)
df.to_excel(r'C:\Users\XXXXXX\Desktop\list_2_excel.xlsx',index=False)
3、pandas写入csv、txt
3.1 df.to_csv()参数详解
df.to_csv(
path_or_buf=None, #文件存储路径
sep=',', #分隔符
na_rep='', #缺失值填充,默认为''
float_format=None, #浮点小数的格式。
columns=None, #list。要写入的字段。一般默认为None,即全部写入。
header=True, #列名。默认为True,即写入的列名为,df的列标签。
index=True, #行索引。默认为True,即写入的行索引为,df的行标签。
index_label=None, #索引列的标签名。
mode='w', #写入模式{"w","a","r","w+","a+","r+"},一般默认为"w",写入。
encoding=None, #编码。
compression='infer', #
quoting=None,
quotechar='"',
lineterminator=None,
chunksize=None, #一次写入的行数。
date_format=None, #日期格式。
doublequote=True,
escapechar=None,
decimal='.',
errors='strict',
storage_options=None
)
3.2 df.to_csv():写入数据
import pandas as pd
#先构造一个列表数据
data_list = [['name','age','job'],['Lucy',33,'doctor'],['Tom',34,'teacher'],['Anna',22,'student']]
df = pd.DataFrame(data_list[1:],columns=data_list[0])
# print(df)
df.to_csv(r'C:\Users\XXXXXX\Desktop\list_2_excel.csv',index=False,sep=',')
3.3 df.to_csv():追加数据
import pandas as pd
#先构造一个列表数据
data_list = [['name','age','job'],['Lucy',33,'doctor'],['Tom',34,'teacher'],['Anna',22,'student']]
df = pd.DataFrame(data_list[1:],columns=data_list[0])
# print(df)
df.to_csv(r'C:\Users\XXXXXX\Desktop\list_2_excel.csv',index=False,sep=',',mode='a',header=False)#header=False时,列名才不会追加进去。
4、pandas写入SQL数据库
4.1 df.to_sql()参数详情
df.to_sql(
name='table', #表名。
con=con, #连接。
if_exists='append', #判断这个表是否存在,若存在,添加。
index=False,#索引是否写入,否。
dtype={'col1':sqlalchemy.types.INTEGER(),
'col2':sqlalchemy.types.NVARCHAR(length=255),
'col_time':sqlalchemy.DateTime(),
'col_bool':sqlalchemy.types.Boolean
}#每一列写入时的数据类型。可不填。
)
4.2 实操案例
#导入必要的模块
import pandas as pd
from sqlalchemy import create_engine
import pymysql
data_list = [['name','age','job'],['Lucy',33,'doctor'],['Tom',34,'teacher'],['Anna',22,'student']]
df = pd.DataFrame(data_list[1:],columns=data_list[0])
#连接MySQl
# engine = create_engine('mysql+pymysql://usrname:password@localhost:端口号/database')
engine = create_engine('mysql+pymysql://sh******ei:SCW*******scw@rm-uf6x********.mysql.rds.aliyuncs.com:3306/*****database')
con = engine.connect()
df.to_sql('to_sql测试',con=con,index=False,if_exists='append')