目录
类型
通过 pd.read_csv('xxx')返回df
将Series对象通过to_frame()转成df
使用列表 加元组返回df
使用字典返回df
DataFrame对象的常用属性和方法
常用属性
常用方法
实例
DataFrame对象的运算
加载数据
字符串的运算
字符串和数字(会报错)
根据下表获取数据
类型
通过 pd.read_csv('xxx')返回df
# 通过 pd.read_csv('xxx') 返回 df
import pandas as pd
df = pd.read_csv('../data/a_scientists.csv')
print(df)
print('-----------------------------')
print(type(df))
将Series对象通过to_frame()转成df
# 将 Series对象 通过 to_frame() 转成 df
s2 = pd.Series(['张三', '李四', '王五'])
print(type(s2))
print('-------------------')
print(type(s2.to_frame()))
使用列表 加元组返回df
# 使用 列表 加 元组 返回 df
studentList = [
(1, '张三', 18),
(2, '李四', 14),
(3, '王五', 19)
]
df3 = pd.DataFrame(studentList, columns=['编号', '姓名', '年龄'], index=['A', 'B', 'C'])
print(df3)
print('----------------')
print(type(df3))
使用字典返回df
# 使用 字典 返回 df
dict1 = {
"id" : [1, 2, 3],
"name" : ['张三', '李四', '王五'],
"city" : ['洛阳', '信阳', '安阳']
}
df4 = pd.DataFrame(dict1)
print(df4)
print('----------------')
print(type(df4))
DataFrame对象的常用属性和方法
加载数据
import pandas as pd
df = pd.read_csv('../data/a_scientists.csv')
df
常用属性
# print('=============== 常用属性 ===============')
# 查看维度, 返回元组类型 -> (行数, 列数), 元素个数代表维度数
# print(df.shape)
# 查看数据值个数, 行数*列数, NaN值也算
# print(df.size)
# 查看数据值, 返回numpy的ndarray类型
print(df.values)
# print('---------------------------')
print(type(df.values))
# 查看维度数
print(df.ndim)
# 返回列名和列数据类型
print(df.dtypes)
# 查看索引值, 返回索引值对象
print(df.index)
# 查看列名, 返回列名对象
print(df.columns)
常用方法
print('=============== 常用方法 ===============')
# # 查看前5行数据
print(df.head())
# # 查看后5行数据
print(df.tail())
print(df.tail(3))
#
# 查看df的基本信息
print(df.info())
#
# 查看df对象中所有数值列的描述统计信息
print(df.describe())
#
# 查看df对象中所有非数值列的描述统计信息
# exclude:不包含指定类型列
print(df.describe(exclude=['int', 'float']))
#
# 查看df对象中所有列的描述统计信息
# include:包含指定类型列, all代表所有类型
print(df.describe(include='all'))
#
# 查看df的行数
print(len(df))
#
# 查看df各列的最小值
print(df.min())
#
# # 查看df各列的非空值个数
print(df.count())
#
# # 查看df数值列的平均值
print(df.mean())
实例
import pandas as pd
# 加载数据 ./data/a_scientists.csv
df = pd.read_csv('../data/a_scientists.csv')
df
求平均年龄
# 求 平均年龄
df['Age'].mean() # 59.125
求 是否高于平均年龄
# 求 是否高于平均年龄
df['Age'] > df['Age'].mean()
# 求高于平均年龄的数据
df[df['Age'] > df['Age'].mean()]
# 求高于平均年龄的数据(列表)
print(type(df['Age'] > df['Age'].mean()))
print(type(list(df['Age'] > df['Age'].mean())))
print(df[list(df['Age'] > df['Age'].mean())])
DataFrame对象的运算
加载数据
import pandas as pd
# 加载数据 df
df = pd.read_csv('../data/a_scientists.csv')
df
字符串的运算
# 观察 df + df
df + df
字符串和数字(会报错)
# 观察 df + 2 # 报错
df + 2
根据下表获取数据
print(df[df.index.isin([0, 2, 4])])
print('-----------------------------------------')
print(df.loc[[0, 2, 4]])