pandas学习笔记11

DataFrame结构
DataFrame 一个表格型的数据结构，既有行标签（index），又有列标签（columns），它也被称异构数据表，所谓异构，指的是表格中每列的数据类型可以不同，比如可以是字符串、整型或者浮点型等。其结构图示意图，如下所示：
请添加图片描述

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

data: 输入的数据，可以是 ndarray，series，list，dict，标量以及一个 DataFrame
index: 行标签，如果没有传递 index 值，则默认行标签是 RangeIndex(0, 1, 2, …, n)，n 代表 data 的元素个数。
columns: 列标签，如果没有传递 columns 值，则默认列标签是 RangeIndex(0, 1, 2, …, n)。
dtype: 要强制的数据类型。只允许使用一种数据类型。如果没有，自行推断
copy: 从输入复制数据。对于dict数据，copy=True,重新复制一份。对于DataFrame或ndarray输入，类似于copy=False,使用的是试图

data = [1,2,3,4,5]#普通列表创建
df = pd.DataFrame(data)
print(df)

# 列表中每个元素代表一行数据
data = [['xiaowang',20],['Lily',30],['Anne',40]]#嵌套列表，有点像字典，其实与字典不同，就是列表中的元素是列表
# 未分配列标签
df = pd.DataFrame(data)
print(df)

data = [['xiaowang', 20, "男", 5000],['Lily', 30, "男", 8000],['Anne', 40, "女", 10000]]
# 分配列标签 
df = pd.DataFrame(data,columns=['Name','Age',"gender", "salary"], dtype=int)
# int满足某列特征,会自动使用, 不满足,则自动识别
print(df)

尽量别用dtype，不知道为什么，经常报错
可以在之后用astype调整

df['salary'] = df['salary'].astype(int)

#列表嵌套字典
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
#df = pd.DataFrame(data)
df = pd.DataFrame(data, index=['first', 'second'])

print(df)

列操作

data = {'Name':['关羽', '刘备', '张飞', '曹操'],'Age':[28,34,29,42]}
# 定义行标签
index = ["rank1", "rank2", "rank3", "rank4"]
# 通过字典创建DataFrame
df = pd.DataFrame(data, index=index)
print(df)
print("=========df['Name']:取得Name列===============")
print(df['Name'])
print("=========df['Age']:取得Age列===============")
print(df['Age'])

# 注意列不是能使用切片选取多列
print("=========df不能使用切片选取多列===============")
print(df['Name': 'Age'])   # 空DataFrame

df[1]  # 会报错

在这一点上与series不同，列索引不能用位置索引

还可以使用 insert() 方法插入新的列

 df.insert(loc, column, value, allow_duplicates=False)

loc : 整型,插入索引,必须验证0<=loc<=len（列）
column : 插入列的标签,类型可以是(字符串/数字/散列对象)
value : 数值,Series或者数组
allow_duplicates : 允许重复,可以有相同的列标签数据,默认为False

info=[['王杰',18],['李杰',19],['刘杰',17]]
df=pd.DataFrame(info,columns=['name','age'])
print(df)
#注意是column参数
#数值1代表插入到columns列表的索引位置 :loc : 整型,插入索引,必须验证0<=loc<=len（列）
df.insert(1,column='score',value=[91,90,75])
print("=====df.insert插入数据:=======")
print(df)

# 可以添加重复列标签数据
df.insert(1,column='score',value=[80,70,90],allow_duplicates=True)
print(df)

通过 del 和 pop() 都能够删除 DataFrame 中的数据列,pop有返回值

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
     'three' : pd.Series([10,20,30], index=['a','b','c'])}
df = pd.DataFrame(d)
print ("Our dataframe is:")
print(df)
#使用del删除
del df['one']
print("=======del df['one']=========")
print(df)
#使用pop方法删除
res_pop = df.pop('two')
print("=======df.pop('two')=========")
print(df)
print("=======res_pop = df.pop('two')=========")
print(res_pop)

# 标签为b的行到标签为d的行, 对应标签为one的列
df.loc['b':'d',"one"]   # 注意使用行标签切片,包含结束的行

loc使用的是标签
iloc使用的是位置索引
两者不能混用,比如在loc中使用位置索引,或者在iloc中使用标签索引
1.列表/元组出发:—>表示的一行一行数据
1.列表嵌套列表:[[‘xiaowang’,20],[‘Lily’,30],[‘Anne’,40]]
((‘xiaowang’,20),(‘Lily’,30),(‘Anne’,40))
– 使用默认的列表标签
2.列表嵌套字典:[{‘a’: 1, ‘b’: 2},{‘a’: 5, ‘b’: 10, ‘c’: 20}]
({‘a’: 1, ‘b’: 2},{‘a’: 5, ‘b’: 10, ‘c’: 20})
— 使用字典的key作为标签
2.字典出发: ----> 表示一列一列数据
1.字典对应值是列表:{‘Name’:[‘关羽’, ‘刘备’, ‘张飞’, ‘曹操’],‘Age’:[28,34,29,42]}
– 行使用默认标签
2. 字典对应值是Series
{‘one’ : pd.Series([1, 2, 3], index=[‘a’, ‘b’, ‘c’]),
‘two’ : pd.Series([1, 2, 3, 4], index=[‘a’, ‘b’, ‘c’, ‘d’])}
– 行和列都是设置的标签,并且还可以指定列的数据类型4
操作:
1.列操作
1).取(查)
- df[“列标签”] — 单列数据
- df[[“列标签1”,“列标签2”]] - 多列数据

		注意:
			①.不能使用位置下标
			②.不能使用标签切片
	2).添加:
		df["新列标签"] = 值   序列或Series
		
		insert(loc<位置>,column<列名>,value<值>)
			- loc取值范围:0<=loc<=len(列)
	3).删除: 
		del :python原始的删除操作,直接就销毁
		
		pop : 也销毁,不同在于有返回值,返回值是需要删除的内容
	
	4).改:
		df["源列标签"] = 值
	

2.行操作
	1).取(查)
		loc: 使用行标签
			df.loc["行标签"]  ---单行
			df.loc[["行标签1"],["行标签2"]] - 多行
		iloc:使用行标签位置索引
			df.loc[位置索引]  ---单行
			df.loc[[位置索引1],[位置索引2]]
			还可以使用切片:
				df.iloc[位置索引1:位置索引3]  ---切片,不包含结束行

		注意:
			不能行标签和行位置索引 混用
			
	2)增加:
		行追加:append
			1).追加字典
				-注意添加ignore_index=True,
				  或者将字典转化为Series并且设置name参数
			2).追加列表									
				如果list是一维的,则以列的形式追加
				如果list是二维的,则以行的形式追加
				如果list是三维的,只添加一个值
		删除:
			drop("行标签") 和 Series一样操作
			-注意:标签找不到会被报错
			- 默认不改变源数据
3.DataFrame属性和常用函数

a_l = [[10],[20]]
df3 = df.append(a_l) # 需要添加 
print(df3)

和下面相同

a_l = [10,20]

df3 = df.append(a_l) # 需要添加 
print(df3)

三维数组加入时，将它看作二维数组加入，因此只加入一个值
s = [[[1,2,3,4]]]
df.append(s)
[1,2,3,4]将这个看作一个元素并插入
您可以使用行索引标签，从 DataFrame 中删除某一行数据。如果索引标签存在重复，那么它们将被一起删除。

常用属性和方法汇总
名称属性&方法描述
T 行和列转置。
axes 返回一个仅以行轴标签和列轴标签为成员的列表。
dtypes 返回每列数据的数据类型。
empty DataFrame中没有数据或者任意坐标轴的长度为0，则返回True
columns 返回DataFrame所有列标签
shape 返回一个元组，获取行数和列数,表示了 DataFrame 维度。
size DataFrame中的元素数量。
values 使用 numpy 数组表示 DataFrame 中的元素值。
head() 返回前 n 行数据。
tail() 返回后 n 行数据。
rename() rename(columns=字典) ,修改列名
info() 可以显示信息，例如行数/列数，总内存使用量，每列的数据类型以及不缺少值的元素数
sort_index() 默认根据行标签对所有行排序，或根据列标签对所有列排序，或根据指定某列或某几列对行排序。
sort_values() 既可以根据列数据，也可根据行数据排序

info()函数
用于打印DataFrame的简要摘要，显示有关DataFrame的信息，包括索引的数据类型dtype和列的数据类型dtype，非空值的数量和内存使用情况。

df. sort_index()

sort_index(axis=0, ascending=True, inplace=False)

注意：df.sort_index()可以完成和df.sort_values()完全相同的功能，但python更推荐用只用df.sort_index()对“根据行标签”和“根据列标签”排序，其他排序方式用df.sort_values()。

axis：0按照行名排序；1按照列名排序
ascending：默认True升序排列；False降序排列
inplace：默认False，否则排序之后的数据直接替换原来的数据

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')

作用：既可以根据列数据，也可根据行数据排序。
注意：必须指定by参数，即必须指定哪几行或哪几列；无法根据index名和columns名排序（由.sort_index()执行）

by：str or list of str；如果axis=0，那么by=“列名”；如果axis=1，那么by=“行名”。
axis：{0 or ‘index’, 1 or ‘columns’}, default 0，默认按照列排序，即纵向排序；如果为1，则是横向排序。
ascending：布尔型，True则升序，如果by=[‘列名1’,‘列名2’]，则该参数可以是[True, False]，即第一字段升序，第二个降序。
inplace：布尔型，是否用排序后的数据框替换现有的数据框。
na_position：{‘first’, ‘last’}, default ‘last’，默认缺失值排在最后面。