【python基础】—利用pandas读取或写入mysql表数据

news2026/2/11 16:03:40

文章目录

一、read_sql()
二、to_sql()
三、连接数据库方式—MySQL
- 1、用sqlalchemy包构建数据库链接
- 2、用DBAPI构建数据库链接
四、容易遇到的问题

一、read_sql()

功能

将 SQL 查询/数据库表读入 DataFrame。

语法
- 读取数据库（通过SQL语句或表名）

pandas.read_sql(sql, con, index_col: ‘str | Sequence[str] | None’ = None, coerce_float: ‘bool’ = True, params=None, parse_dates=None, columns=None, chunksize: ‘int | None’ = None) -> ‘DataFrame | Iterator[DataFrame]’

- 读取自定义数据（通过SQL语句）

pandas.read_sql_query(sql, con, index_col=None, coerce_float: ‘bool’ = True, params=None, parse_dates=None, chunksize: ‘int | None’ = None, dtype: ‘DtypeArg | None’ = None) -> ‘DataFrame | Iterator[DataFrame]’

- 读取整张表于DataFrame格式（通过表名）

pandas.read_sql_table(table_name: ‘str’, con, schema: ‘str | None’ = None, index_col: ‘str | Sequence[str] | None’ = None, coerce_float: ‘bool’ = True, parse_dates=None, columns=None, chunksize: ‘int | None’ = None) -> ‘DataFrame | Iterator[DataFrame]’

read_sql是综合了read_sql_table和read_sql_query的，所以一般用read_sql就好了。

基本参数

名称	说明
sql	要执行的数据库或SQL命令字符串。
con	连接sql数据库的engine，一般可以用SQLalchemy或者pymysql之类的包建立。
index_col	选择某1列或几列作为index（或MultiIndex），字符串或字符串列表。
coerce_float	布尔值，将数字形式的字符串直接以float型读入，默认为True。
params	执行查询时传递的参数。
parse_dates	将某一列日期型字符串转换为datetime型数据，与pd.to_datetime函数功能类似。可以直接提供需要转换的列名以默认的日期形式转换，也可以用字典的格式提供列名和转换的日期格式：比如{column_name: format string}(format string：“%Y:%m:%H:%M:%S”)。
columns	要选取的列。一般没啥用，因为在sql命令里面一般就指定要选择的列了。
chunksize	如果提供了一个整数值，那么就会返回一个generator，每次输出的行数就是提供的值的大小。

二、to_sql()

功能

将DataFrame写入SQL数据库表。

语法

to_sql(name: ‘str’, con, schema=None, if_exists: ‘str’ = ‘fail’, index: ‘bool_t’ = True, index_label=None, chunksize=None, dtype: ‘DtypeArg | None’ = None, method=None) -> ‘int | None’ method of pandas.core.frame.DataFrame instance

基本参数

名称	说明
name	数据库对应的表名
con	与数据库链接的方式，推荐使用sqlalchemy的engine类型
schema	相应数据库的引擎，不设置则使用数据库的默认引擎，如mysql中的innodb引擎
if_exists	可选参数，字符串，默认是"fail"。当数据库中已经存在数据表时，对数据表的操作，有replace替换,即删除原来的表，重新创建一个新表；append追加，fail则当表存在时提示ValueError。
index	可选参数，bool类型，默认是True。是否将DataFrame的索引写入数据库表中。
index_label	可选参数，字符串类型，当上一个参数index为True时，设置写入数据表时index的列名称。
chunksize	可选参数，int类型，默认是None。一次写入数据时的数据行数量，设置整数，如20000，当数据量很大时，需要设置，否则会链接超时写入失败。
dtype	可选参数，字典类型，默认是None。将列名映射到SQL类型。

三、连接数据库方式—MySQL

1、用sqlalchemy包构建数据库链接

通过 sqlalchemy 的 create_engine 创建：有两种方式，基本格式一致，区别只是在于使用 mysqldb，还是使用 pymysql，推荐使用pymysql。

pymysql使用方式

import pandas as pd
from sqlalchemy import create_engine

# 建立数据库连接
# "mysql+pymysql://{用户名}:{密码}@{域名}:{端口号}/{数据库名}"
engine = create_engine("mysql+pymysql://root:123456@localhost:3306/data")

mysqldb使用方式

mysqldb 是 python2 的 mysql 连接库，在 python3 时，已经废除 mysqldb，改为pymysql。在 sqlachemy 必须使用 mysqldb 驱动时，需要先导入pymysql ，然后执行 “pymysql.install_as_MySQLdb()” 才能使用。

import pandas as pd
import pymysql
from sqlalchemy import create_engine
pymysql.install_as_MySQLdb()
engine = create_engine("mysql+pymysql://root:123456@localhost:3306/data")

封装数据库信息，格式化传入：

db_info = {
    'user':'root',
    'password':'123456',
    'host':'localhost',
    'database':'data',
    'port':3306
}
engine = create_engine('mysql+pymysql://%(user)s:%(password)s@%(host)s:%(port)d/%(database)s?charset=utf8' % db_info)

示例1： 将 MySQL数据库表读入 DataFrame 。

# 定义SQL查询
sql_query = 'select * from sc'

# 执行查询操作：把sql查询结果读取为dataframe
df = pd.read_sql(sql_query,engine)

示例2： 将 DataFrame 中的数据写入 MySQL 数据库表。

# 执行写入操作：将dataframe写入sql数据表
df.to_sql(name='',con=engine,if_exists='replace',index=False)

2、用DBAPI构建数据库链接

import pandas as pd
import pymysql

# 建立数据库连接
conn = pymysql.connect(
    host='localhost',		# 主机名（或IP地址）
    port=3306,				# 端口号，默认为3306
    user='root',			# 用户名
    password='123456',	# 密码
    charset='utf8'  		# 设置字符编码
)
# 获取mysql服务信息（测试连接，会输出MySQL版本号）
print(conn.get_server_info())

示例1： 将 MySQL数据库表读入 DataFrame 。

# 选择数据库
conn.select_db("database")

# 定义SQL查询
sql_query = 'select * from sc'

# 执行查询操作：把sql查询结果读取为dataframe
df = pd.read_sql(sql_query,conn)

示例2： 将 DataFrame 中的数据写入 MySQL数据库表。

# 执行写入操作：将dataframe写入sql数据表
df.to_sql(name='',con=conn ,if_exists='replace',index=False)

会显示下面的报错情况：
TypeError: not all arguments converted during string formatting

pandas.errors.DatabaseError: Execution failed on sql ' SELECT name FROM sqlite_master WHERE type IN ('table', 'view') AND name=?; ': not all arguments converted during string formatting

在这里插入图片描述

原因： 引擎问题。在python3中，to_sql() 的con对象，是 sqlalchemy 的 engine 引擎。

解决方案： 使用to_sql()将dataframe写入sql数据表，要用sqlalchemy包构建数据库链接。参考文章：https://blog.csdn.net/xiaoyw71/article/details/131126161。

四、容易遇到的问题

问题一： python中sqlalchemy操作mysql密码包含@特殊字符。

import pandas as pd
from sqlalchemy import create_engine

db_info = {
    'user':'root',
    'password':'123@456',
    'host':'localhost',
    'database':'data',
    'port':3306
}
engine = create_engine('mysql+pymysql://%(user)s:%(password)s@%(host)s:%(port)d/%(database)s?charset=utf8' % db_info)

# 定义SQL查询
sql_query = 'select * from sc'

# 执行SQL查询操作
df=pd.read_sql_query(sql_query ,engine)

报错：sqlalchemy.exc.OperationalError: (pymysql.err.OperationalError) (2003, "Can't connect to MySQL server on '2024jyz@172.30.21.57' ([Errno -2] Name or service not known)")

在这里插入图片描述

解决方案：

import pandas as pd
from sqlalchemy import create_engine
from urllib import parse

db_info = {
    'user':'root',
    'password':parse.quote_plus('123@456'),
    'host':'localhost',
    'database':'data',
    'port':3306
}

engine = create_engine('mysql+pymysql://%(user)s:%(password)s@%(host)s:%(port)d/%(database)s?charset=utf8' % db_info)