文章目录
- 一、read_sql()
- 二、to_sql()
- 三、连接数据库方式—MySQL
- 1、用sqlalchemy包构建数据库链接
- 2、用DBAPI构建数据库链接
- 四、容易遇到的问题
一、read_sql()
- 功能
将 SQL 查询/数据库表读入 DataFrame。
-
语法
-
- 读取数据库(通过SQL语句或表名)
pandas.read_sql(sql, con, index_col: ‘str | Sequence[str] | None’ = None, coerce_float: ‘bool’ = True, params=None, parse_dates=None, columns=None, chunksize: ‘int | None’ = None) -> ‘DataFrame | Iterator[DataFrame]’
-
- 读取自定义数据(通过SQL语句)
pandas.read_sql_query(sql, con, index_col=None, coerce_float: ‘bool’ = True, params=None, parse_dates=None, chunksize: ‘int | None’ = None, dtype: ‘DtypeArg | None’ = None) -> ‘DataFrame | Iterator[DataFrame]’
-
- 读取整张表于DataFrame格式(通过表名)
pandas.read_sql_table(table_name: ‘str’, con, schema: ‘str | None’ = None, index_col: ‘str | Sequence[str] | None’ = None, coerce_float: ‘bool’ = True, parse_dates=None, columns=None, chunksize: ‘int | None’ = None) -> ‘DataFrame | Iterator[DataFrame]’
read_sql是综合了read_sql_table和read_sql_query的,所以一般用read_sql就好了。
- 基本参数
名称 | 说明 |
---|---|
sql | 要执行的数据库或SQL命令字符串。 |
con | 连接sql数据库的engine,一般可以用SQLalchemy或者pymysql之类的包建立。 |
index_col | 选择某1列或几列作为index(或MultiIndex),字符串或字符串列表。 |
coerce_float | 布尔值,将数字形式的字符串直接以float型读入,默认为True。 |
params | 执行查询时传递的参数。 |
parse_dates | 将某一列日期型字符串转换为datetime型数据,与pd.to_datetime函数功能类似。可以直接提供需要转换的列名以默认的日期形式转换,也可以用字典的格式提供列名和转换的日期格式:比如{column_name: format string}(format string:“%Y:%m:%H:%M:%S”)。 |
columns | 要选取的列。一般没啥用,因为在sql命令里面一般就指定要选择的列了。 |
chunksize | 如果提供了一个整数值,那么就会返回一个generator,每次输出的行数就是提供的值的大小。 |
二、to_sql()
- 功能
将DataFrame写入SQL数据库表。
- 语法
to_sql(name: ‘str’, con, schema=None, if_exists: ‘str’ = ‘fail’, index: ‘bool_t’ = True, index_label=None, chunksize=None, dtype: ‘DtypeArg | None’ = None, method=None) -> ‘int | None’ method of pandas.core.frame.DataFrame instance
- 基本参数
名称 | 说明 |
---|---|
name | 数据库对应的表名 |
con | 与数据库链接的方式,推荐使用sqlalchemy的engine类型 |
schema | 相应数据库的引擎,不设置则使用数据库的默认引擎,如mysql中的innodb引擎 |
if_exists | 可选参数,字符串,默认是"fail"。当数据库中已经存在数据表时,对数据表的操作,有replace替换,即删除原来的表,重新创建一个新表;append追加,fail则当表存在时提示ValueError。 |
index | 可选参数,bool类型,默认是True。是否将DataFrame的索引写入数据库表中。 |
index_label | 可选参数,字符串类型,当上一个参数index为True时,设置写入数据表时index的列名称。 |
chunksize | 可选参数,int类型,默认是None。一次写入数据时的数据行数量,设置整数,如20000,当数据量很大时,需要设置,否则会链接超时写入失败。 |
dtype | 可选参数,字典类型,默认是None。将列名映射到SQL类型。 |
三、连接数据库方式—MySQL
1、用sqlalchemy包构建数据库链接
通过 sqlalchemy 的 create_engine 创建:有两种方式,基本格式一致,区别只是在于使用 mysqldb,还是使用 pymysql,推荐使用pymysql。
pymysql使用方式
import pandas as pd
from sqlalchemy import create_engine
# 建立数据库连接
# "mysql+pymysql://{用户名}:{密码}@{域名}:{端口号}/{数据库名}"
engine = create_engine("mysql+pymysql://root:123456@localhost:3306/data")
mysqldb使用方式
mysqldb 是 python2 的 mysql 连接库,在 python3 时,已经废除 mysqldb,改为pymysql。在 sqlachemy 必须使用 mysqldb 驱动时,需要先导入pymysql ,然后执行 “pymysql.install_as_MySQLdb()” 才能使用。
import pandas as pd
import pymysql
from sqlalchemy import create_engine
pymysql.install_as_MySQLdb()
engine = create_engine("mysql+pymysql://root:123456@localhost:3306/data")
封装数据库信息,格式化传入:
db_info = {
'user':'root',
'password':'123456',
'host':'localhost',
'database':'data',
'port':3306
}
engine = create_engine('mysql+pymysql://%(user)s:%(password)s@%(host)s:%(port)d/%(database)s?charset=utf8' % db_info)
示例1: 将 MySQL数据库表读入 DataFrame 。
# 定义SQL查询
sql_query = 'select * from sc'
# 执行查询操作:把sql查询结果读取为dataframe
df = pd.read_sql(sql_query,engine)
示例2: 将 DataFrame 中的数据写入 MySQL 数据库表。
# 执行写入操作:将dataframe写入sql数据表
df.to_sql(name='',con=engine,if_exists='replace',index=False)
2、用DBAPI构建数据库链接
import pandas as pd
import pymysql
# 建立数据库连接
conn = pymysql.connect(
host='localhost', # 主机名(或IP地址)
port=3306, # 端口号,默认为3306
user='root', # 用户名
password='123456', # 密码
charset='utf8' # 设置字符编码
)
# 获取mysql服务信息(测试连接,会输出MySQL版本号)
print(conn.get_server_info())
示例1: 将 MySQL数据库表读入 DataFrame 。
# 选择数据库
conn.select_db("database")
# 定义SQL查询
sql_query = 'select * from sc'
# 执行查询操作:把sql查询结果读取为dataframe
df = pd.read_sql(sql_query,conn)
示例2: 将 DataFrame 中的数据写入 MySQL数据库表。
# 执行写入操作:将dataframe写入sql数据表
df.to_sql(name='',con=conn ,if_exists='replace',index=False)
会显示下面的报错情况:
TypeError: not all arguments converted during string formatting
pandas.errors.DatabaseError: Execution failed on sql ' SELECT name FROM sqlite_master WHERE type IN ('table', 'view') AND name=?; ': not all arguments converted during string formatting
原因: 引擎问题。在python3中,to_sql() 的con对象,是 sqlalchemy 的 engine 引擎。
解决方案: 使用to_sql()将dataframe写入sql数据表,要用sqlalchemy包构建数据库链接。参考文章:https://blog.csdn.net/xiaoyw71/article/details/131126161。
四、容易遇到的问题
问题一: python中sqlalchemy操作mysql密码包含@特殊字符。
import pandas as pd
from sqlalchemy import create_engine
db_info = {
'user':'root',
'password':'123@456',
'host':'localhost',
'database':'data',
'port':3306
}
engine = create_engine('mysql+pymysql://%(user)s:%(password)s@%(host)s:%(port)d/%(database)s?charset=utf8' % db_info)
# 定义SQL查询
sql_query = 'select * from sc'
# 执行SQL查询操作
df=pd.read_sql_query(sql_query ,engine)
报错:sqlalchemy.exc.OperationalError: (pymysql.err.OperationalError) (2003, "Can't connect to MySQL server on '2024jyz@172.30.21.57' ([Errno -2] Name or service not known)")
解决方案:
import pandas as pd
from sqlalchemy import create_engine
from urllib import parse
db_info = {
'user':'root',
'password':parse.quote_plus('123@456'),
'host':'localhost',
'database':'data',
'port':3306
}
engine = create_engine('mysql+pymysql://%(user)s:%(password)s@%(host)s:%(port)d/%(database)s?charset=utf8' % db_info)
参考文章:
https://blog.csdn.net/initiallht/article/details/120406317
https://blog.csdn.net/qq_41982570/article/details/127059642
参考文章:
https://blog.csdn.net/LeiLiFengX/article/details/109922043
https://www.cnblogs.com/think90/articles/11899070.html