Python 数据分析— Pandas 基本操作(上)

news2024/11/15 6:56:02

文章目录

  • 学习内容:
    • 一、Series 创建及操作
    • 二、DataFram 的创建与操作
    • 三、Pandas 的读写操作
    • 四、选择指定行列数据


学习内容:

一、Series 创建及操作

** Series : Pandas 的一种数据结构形式,可理解为含有索引的一维数组。**
**(一)创建 Series ** pd.Series(数据 [, index=自定义索引(默认为0-N), copy=Flase默认 | True ->(当copy=False时,如果原始数据是np.array时,Series 值的更改为改变原数组对应元素)])
1. 通过列表或数组创建

import pandas as pd
list_a = range(10,13)
#list_a = np.arange(10,13)
pd.Series(data=list_a)
#输出:	0    10
#		1    11
#		2    12
#		dtype: int64
pd.Series(list_a, index=['a', 'b', 'c']) # 指定索引数必须与元素相等
#输出:	a    10
#		b    11
#		c    12
#		dtype: int64

2. 通过字典创建索引

dict_a = {'d': 1, 'e': 2, 'f': 3}
pd.Series(dict_a)
#输出:	d    1
#		e    2
#		f    3
#		dtype: int64
pd.Series(dict_a, index=['e', 'f', 'g']) #当指定索引与字典键相同时,值为字典值;字典无时,值为NaN
#输出:	e    2.0
#		f    3.0
#		g    NaN
#		dtype: float64

(二)Series 相关操作
1. 获取索引或值

dict_a = {'d': 1, 'e': 2, 'f': 3}
s_a = pd.Series(dict_a)
#1.获取索引
s_a.index # 返回 Index(['d', 'e', 'f'], dtype='object')
#2.获取数据
s_a.values # 返回 array([1, 2, 3])

2. 与整数加、减、乘、除
计算方法为: 各项分别与整数进行对应运算,返回新Series

s_x = pd.Series([10,11,12])
s_x + 5
#返回:	0    15
#		1    16
#		2    17
#		dtype: int64

3. Series 之间进行加、减、乘、除
计算方法为: 同索引号元素进行对应运算,差异索引返回NaN

s_A = pd.Series([1,2,3],index = ['a','b','c'])
s_B = pd.Series([4,5,6],index = ['b','c','d'])
s_A * s_B
#返回:	a    0.5
#		b    1.0
#		c    1.5
#		d    2.0
#		e    2.5
#		dtype: float64

4. 按条件筛选

a = range(0, 50)
s_a = pd.Series(a)
s_a > 40 # 将每个值与40比较,大于为真,小于为假
#输出举例:
#0     False
#……
#40    False
#41    True
#……

#输出符合条件的数值
s_a[s_a > 40].values
#输出:array([41, 42, 43, 44, 45, 46, 47, 48, 49])
s_a[s_a%7 == 0].values
#输出:array([ 0,  7, 14, 21, 28, 35, 42, 49])

二、DataFram 的创建与操作

DataFram: Pandas 的一种数据结构形式,类似于表格,由若干个具有共同索引的 Series 组成,每个Series还有列索引。
DataFram 示例:

	a	b	c
d	1	2	3
e	4	5	6
f	7	8	9

**( 一)创建 DataFrame ** pd.DataFrame(data数据=数组 | 字典 [, index行索引, columns列索引])
1. 通过数组创建

arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
pd.DataFrame(arr) #未指定索引,默认用从0开始的序列
'''输出:
	0	1	2
0	1	2	3
1	4	5	6
2	7	8	9'''
pd.DataFrame(arr, columns=['a','b','c'], index=['d','e','f']) #指定行列索引
'''输出:
	a	b	c
d	1	2	3
e	4	5	6
f	7	8	9'''

2. 通过字典创建

d = {'col1': [1, 2], 'col2': [3, 4]}
pd.DataFrame(data=d)
'''输出:
	col1	col2
0	1	3
1	2	4'''

(二)常用操作
1. 查看头数据(head(n=前n行,默认为5))

df = pd.DataFrame({'col1':range(10)})
'''df结构:
	col1
0	0
1	1
2	2
……
9	9'''
df.head() #查看前5行
'''输出:
	col1
0	0
1	1
2	2
3	3
4	4'''
df.head(3) #查看前3行
'''输出:
col1
0	0
1	1
2	2'''

2. 查看尾数据(tail(n))用法同 head

df = pd.DataFrame({'col1':range(10)})
df.tail(2) #查看后两行
'''输出:
	col1
8	8
9	9'''

3. 查看数据结构和存储信息(info()

dict1={'品名':['矿泉水','纸巾','毛巾'],
    '单价':[2,1,15],
    '数量':[100,150,30],
    '总价':[200,150,450]}
df_商品 = pd.DataFrame(dict1)
df_商品.info()
'''输出:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   品名      3 non-null      object
 1   单价      3 non-null      int64 
 2   数量      3 non-null      int64 
 3   总价      3 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 224.0+ bytes'''

4. 查看数据按列统计信息(describe())

df_商品.describe()
'''输出:
		单价		数量			总价
count	3.00000	3.000000	3.000000
mean	6.00000	93.333333	266.666667
std		7.81025	60.277138	160.727513
min		1.00000	30.000000	150.000000
25%		1.50000	65.000000	175.000000
50%		2.00000	100.000000	200.000000
75%		8.50000	125.000000	325.000000
max		15.00000	150.000000	450.000000'''

5. 查看每列:均值(mean())、中位数(median())、最大值(max())、最小值(min())、和(sum())

df_商品.mean()
'''输出:
单价      6.000000
数量     93.333333
总价    266.666667
dtype: float64'''

6. 数据排序:
按行索引排序(sort_index(axis=0或’index’行索引 | 1或’colunms’列索引))

df_商品.sort_index(axis=0) # 按行索引排序

按列索引排序(sort_values(by=列索引 [, ascending=True升序 | False降序]))

df_商品.sort_values('数量') # 按数量升序排序
'''输出:
	品名		单价	数量	总价
2	毛巾		15	30	450
0	矿泉水	2	100	200
1	纸巾		1	150	150'''

7. 数据转置(T)

df_商品.T
'''输出:
	0		1	2
品名	矿泉水	纸巾	毛巾
单价	2		1	15
数量	100		150	30
总价	200		150	450'''

8. 获取行索引(index)、列索引(columns)

df_商品.columns
#输出: Index(['品名', '单价', '数量', '总价'], dtype='object')

(三) DataFrame 与 Series 间的转化
1. DataFrame 转 Series

dict1={'品名':['矿泉水','纸巾','毛巾'],
    '单价':[2,1,15],
    '数量':[100,150,30],
    '总价':[200,150,450]}
df_商品 = pd.DataFrame(dict1)
df_商品['单价']
'''输出:
0     2
1     1
2    15
Name: 单价, dtype: int64'''
type(df_商品['单价'])
#输出:pandas.core.series.Series

2. Series 组成 DataFrame

pm = pd.Series(['矿泉水','纸巾','毛巾'])
sl = pd.Series([100,150,30])
dj = pd.Series([2,1,15])
pd.DataFrame([pm,sl,dj],index=['品名','数量','单价']).T
'''输出:
	品名		数量	单价
0	矿泉水	100	2
1	纸巾		150	1
2	毛巾		30	15'''

3. 逐行读取表格值(iterrows() ->迭代返回各行索引和值)

df = pd.DataFrame([pm,sl,dj],index=['品名','数量','单价']).T
for index, content in df.iterrows():
    pm, sl, dj = content
    print(sl)
    print(dj)
'''输出:
100
2
150
1
30
15'''

三、Pandas 的读写操作

Pandas 通过(read_文件类型())和(to_文件类型())读取和写入表格(DataFrame),支持类型如下:
在这里插入图片描述
1. 读取 Excel 文件(pd.read_excel(io=文件路径+文件名 [,sheet_name=工作表名,默认第1张表]))
(电子表格与程序在于同一目录,内容同上图)

df = pd.read_excel('test.xlsx')
df.head(3) # 前3行信息
'''输出:
	Format Type	Data Description		Reader		Writer
0	text		CSV						read_csv	to_csv
1	text		Fixed-Width Text File	read_fwf	NaN
2	text		JSON					read_json	to_json'''

2. 写入到Excel 文件(pd.to_excel(文件名 [,index=True写入行索引 默认 | False 不写入),header=是否写入列索引)

df2 = df.head(3)
#将前3行输出为新表
df2.to_excel('test2.xlsx',index=False)

四、选择指定行列数据

(一)根据行、列索引名选择 (loc[行索引名 , 列索引名])

arr = np.arange(16).reshape(4,4)
df = pd.DataFrame(arr, index=['a','b','c','d'], columns=['e','f','g','h'])
'''df结构:
	e	f	g	h
a	0	1	2	3
b	4	5	6	7
c	8	9	10	11
d	12	13	14	15'''
# df.loc[:,:]  返回所有数据
# df.loc[:3,:] 返回前4行 (0,1,2,3)
# df.loc[:,'前区1']   返回  Series
# df.loc[:,['前区1']] 返回  DataFrame
df.loc[ :'c', 'e':'g'] #返回前3行,前3列数据 同 df.loc[['a','b','c'], ['e','f','g']]
'''输出:
	e	f	g
a	0	1	2
b	4	5	6
c	8	9	10'''

(二)根据行、列位置选择 (iloc[行位置,列位置)

#用iloc返回前2行2列数据
df.iloc[:2, :2]
'''输出:
	e	f
a	0	1
b	4	5'''

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2101851.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python | Leetcode Python题解之第390题消除游戏

题目&#xff1a; 题解&#xff1a; class Solution:def lastRemaining(self, n: int) -> int:a1 1k, cnt, step 0, n, 1while cnt > 1:if k % 2 0: # 正向a1 stepelse: # 反向if cnt % 2:a1 stepk 1cnt >> 1step << 1return a1

【IPV6从入门到起飞】2-1 获取你的IPV6(手机、CPE等)

【IPV6从入门到起飞】2-1 获取你的IPV6&#xff08;手机、CPE等&#xff09; 1 IPV6就在身边2 手机IPV62.1 查看IPV62.2 IPV6 ping包测试2.3 IPV6入站测试 3 电脑通过CPE获取IPV63.1 拉不起宽带的打工人3.2 开始部署IPV6环境3.2.1 刷系统3.2.2 激活IPV63.2.3 设置防火墙入站&am…

Opencv实现提取卡号(数字识别)

直接开始 实行方法 解析命令行参数&#xff1a;使用argparse库来解析命令行输入&#xff0c;确保用户提供了输入图像和模板图像的路径。 读取模板图像&#xff1a;使用cv2.imread()函数读取模板图像的路径&#xff0c;并显示原始图像。 图像预处理&#xff1a; 将图像转换为…

ARM——结构体系(处理器工作模式,CPSR,立即数,汇编语言函数调用)

1、处理器工作模式 ARM有7个基本工作模式: User:非特权模式&#xff0c;大部分任务执行在这种模式FIQ:当一个高优先级(fast)中断产生时将会进入这种模式 IRQ:当一个低优先级(normal)中断产生时将会进入这种模式 Supervisor:当复位或软中断指令执行时将会进入这种模式 Abort:当存…

CAN总线数据帧的帧结构

CAN总线中的信息是以固定格式的“帧”发送的&#xff0c;当总线为空闲时&#xff0c;任何已连接的节点都可以开始发送一个新的“帧”。 在一个CAN系统中&#xff0c;数据在节点之间的发送和接收主要通过四种不同类型的“帧”来执行和控制。这四种类型分别是数据帧、远程帧、错…

探索ArrayList的线程不安全性

文章目录 概要示例代码原因解决用 synchronized 保证安全添加元素其他方法 总结 概要 要测试ArrayList的线程不安全性&#xff0c;可以创建多个线程同时对 ArrayList 进行修改操作&#xff08;如添加、删除元素&#xff09;&#xff0c;并观察是否会引发异常或数据不一致的问题…

Typescript实现react-redux的useSelector和useDispatch的状态定义

背景&#xff1a;react中使用typescript,在引入redux之后很多状态定义有问题&#xff0c;记录下来&#xff08;文章记录学习react-redux过程中的踩坑&#xff09;。 1.useSelector时&#xff0c;state语法报错&#xff0c;类型为unknown,如下图 我的store状态设置的很简单&am…

Luminar Neo for Mac智能图像处理软件【操作简单,轻松上手】

Mac分享吧 文章目录 效果一、下载软件二、开始安装1、双击运行软件&#xff0c;将其从左侧拖入右侧文件夹中&#xff0c;等待安装完毕2、应用程序显示软件图标&#xff0c;表示安装成功 三、运行测试安装完成&#xff01;&#xff01;&#xff01; 效果 一、下载软件 下载软件…

【机器学习】LSTM(长短期记忆网络)详解

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 LSTM(长短期记忆网络)详解LSTM的基本思想LSTM的前向传播过程LSTM在实际任务中的…

mysql高级知识之集群

一、安装 源码编译MySQL,若需要MySQLtar包可私信我 #创建数据目录 mkdir /data/mysql -p#安装相关依赖 yum install libtirpc-devel-0.2.4-0.16.el7.x86_64.rpm yum install cmake gcc-c++ openssl-devel ncurses-devel.x86_64 libtirpc-devel-1.3.3-8.el9_4.x86_64.rpm rpcgen…

C++入门day3-面向对象编程(中)

前言&#xff1a;C入门day2-面向对象编程&#xff08;上&#xff09;-CSDN博客 运算符重载 我们接触过函数重载&#xff0c;就是同名的函数有不同的功能。那么运算符重载&#xff0c;顾名思义也是赋予运算符其他的功能。在这里&#xff0c;我个人以为&#xff0c;运算符就是特…

C/C++语言基础--函数基础(函数定义、调用、生命周期、递归)

本专栏目的 更新C/C的基础语法&#xff0c;包括C的一些新特性 前言 函数是语言的基本组成部分&#xff0c;也是面向对象编程的基石&#xff0c;他体现了封装的思想&#xff0c;代码的复用的功能。欢迎点赞 收藏 关注&#xff0c;本人将会持续更新 文章目录 函数什么是函数&am…

彩漩科技亮相第一届人工智能教育应用论坛,荣获AI教育科技产品TOP30奖项

近日&#xff0c;由中国教育发展战略学会人工智能与机器人教育专业委员会指导&#xff0c;北京教育信息化产业联盟主办的第一届人工智能教育应用论坛暨 AI 教育科技成果展在北京隆重举办。本次活动以“ AI 强校大时代 —— 用新质生产力打造金钥匙强校”为主题&#xff0c;汇聚…

vector 常见函数

目录 一.vector 构造函数 二 . Iterators 迭代器&#xff08;random access iterator&#xff09; 三.Capacity: 空间 3.1 resize 3.2 reserve 四.Element access: 元素访问 方式 4.1 operator[] 类似于数组的 [] 4.2 front 和back 五.Modifiers: 六.vector 的 二…

数据结构(单向链表)

单向链表代码 #ifndef _LINK_H_#define _LINK_H_typedef int DataType;typedef struct node {DataType data;struct node *pnext; }Link_Node_t;typedef struct link {Link_Node_t *phead;int clen; }Link_t;extern Link_t *link_creat(); extern int push_link_head(Link_t *…

智慧公厕技术应用、系统架构、应用功能有哪些?@卓振思众

智慧公厕的标准涵盖了多个方面&#xff0c;包括技术应用、系统架构、应用功能以及环保节能等。以下是【卓振思众】整理的一些标准要点&#xff1a; 技术应用‌物联网技术‌&#xff1a;通过无线传感器、监控设备等实时采集公厕内部环境数据。‌大数据与云计算‌&#xff1a;对数…

2157. 优秀的拆分(power)

代码 #include<bits/stdc.h> using namespace std; int a[10001]; int main() {int n,t1,k0;bool flagfalse;cin>>n;if(n%21) {cout<<-1;return 0;}while(n>0){if(n%21){k;a[k]t; }nn/2;tt*2;}if(k>1) {flagtrue;for(int ik;i>1;i--)cout<&l…

lit-llama代码解析

https://github.com/Lightning-AI/lit-llama/blob/main/README.md 下载的时候会报错误&#xff0c;因为网不行&#xff0c;一种方法就是多次尝试&#xff0c;另一种方法是终端连上代理下载 pycharm连接hugging face等网站_hugging face怎么连接-CSDN博客 根据指引下载权重 下…

springboot,maven多模块开发,子模块获取不到父模块添加的依赖,有多个root模块问题解决

错误示范 我以为放进去然后重载一下就是子模块了 导致后续在外层加的依赖&#xff0c;其article都接收不到 解决方案 需要在父模块的modules注册子模块 修改前后对比 此时子模块也能获取父模块的依赖

DDD设计方法-2-聚合、实体、值对象

前情提要&#xff1a;一共包含 如下六篇文章&#xff08;篇幅精简&#xff0c;快速入门&#xff09; 1、初识DDD 2、聚合、实体、值对象 3、仓储&#xff0c;封装持久化数据 4、端口和适配器 5、领域事件 6、领域服务&#xff0c;实现约定 DDD设计方法-2-聚合、实体、值对象&a…