数据分析从入门到精通 2.pandas修真之前戏基础

news2024/9/23 1:19:58

从爱上自己那天起,人生才真正开始

                                                        —— 24.5.6

为什么学习pandas

        numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢?
        numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串时间序列),那么pandas就可以帮我们很好的处理除了数值型的其他数据!

什么是pandas?

首先先来认识pandas中的两个常用的类
        Series
        DataFrame

Series类

Series是一种类似与一维数组的对象,由下面两个部分组成:

        values:一组数据(ndarray类型)
        index:相关的数据索引标签

Series的创建

        由列表创建

from pandas import Series
# Series的创建
# 由列表创建
s1 = Series(data=[1,2,3,"four"])
print(s1)
print("——————————————————————————————————————")

        由numpy数组创建

# 由numpy数组创建
import numpy as np
s2 = Series(data=np.random.randint(0,100,size=(3)))
print(s2)
print("——————————————————————————————————————")

index参数用来指定显示索引的 默认的0,1,2,3为隐式索引

# index参数用来指定显示索引的 默认的0,1,2,3为隐式索引
s3 = Series(data=[1,2,3,"four"],index=['a','b','c','d'])
print(s3)
print("——————————————————————————————————————")


        由字典创建

        为什么需要有显示索引?

                显示索引可以增强series的可读性

# 由字典创建
dic = {
    '语文':99,
    '数学':100,
    '英语':100
}
s4 = Series(data=dic)
print(s4)
print("——————————————————————————————————————")

Seires的索引和切片

dic = {
    '语文':99,
    '数学':100,
    '英语':100
}
s4 = Series(data=dic)
print(s4)
print("——————————————————————————————————————")

# 索引
print(s4[0])
print(s4.语文)
# 切片
print(s4[0:2])

Series的常用属性

        shape:返回数组的形状

        size:返回数组元素的个数

        index:返回数组的索引

        values:返回存储的元素值

# shape:返回数组的形状   ize:返回数组元素的个数   index:返回数组的索引   values:返回存储的元素值
s = Series(data=[1,1,4,"一切都会好的","我一直相信"])
print(f"s.shape={s.shape}")
print(f"s.size={s.size}")
print(f"s.index={s.index}")
print(f"s.values={s.values}")
print(f"s.dtype={s.dtype}")

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

​Series的常用方法

        head(),tail()

# 导包
import numpy as np
from pandas import Series

# 创建Series数组对象
s = Series(data=np.random.randint(60,100,size=(10,)))

# head() 显示前n个数组元素,n默认为5
print(f"s={s}")
print(f"s.head()={s.head()}") # 显示数组中前n个对象,默认n是5
print("s.head(2)={s.head(2)}")
print("——————————————————————————————————————")

# tail() 显示后n个数组元素,n默认为5
print(f"s={s}")
print(f"s.tail()={s.tail()}") # 显示数组中后n个对象,默认n是5
print("s.tail(2)={s.tail(2)}")
print("——————————————————————————————————————")

        unique()

# 导包
import numpy as np
from pandas import Series

# 创建Series数组对象
s = Series(data=np.random.randint(60,100,size=(10,)))

# unique()去重,去除重复的数据
print(f"s={s}")
print(f"s.unique()={s.unique()}")
print("——————————————————————————————————————")

 

        isnull(),notnull()

# 导包
import numpy as np
from pandas import Series

# 创建Series数组对象
s = Series(data=np.random.randint(60,100,size=(10,)))
# isnull 用于判断每个元素是否为空 如果为空返回true,否则返回false
print(f"s.isnull()={s.isnull()}")
print("——————————————————————————————————————")

# notnull 用于判断每个元素是否不为空 如果不为空返回true,否则返回false
print(f"s.notnull()={s.notnull()}")
print("——————————————————————————————————————")

        add()加法、 sub()减法、 mul()乘法、 div()除法

Seriese的算术法则

        —— 法则:索引一致的元素进行算术运算否则补空

DataFrame类

DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。
        行索引:index
        列索引:columns
        索引所对的值:values

DataFrame的创建

        ndarray创建

# 导包
from pandas import DataFrame
import numpy as np

# DataFrame的创建
# ndarray创建
df1 = DataFrame(data=[[1,2,3],[4,5,6]])
print(df1)

df2 = DataFrame(data=np.random.randint(0,100,size=(6,4)))
print(df2)

        字典创建

# DataFrame的创建
# 字典创建
dic = {
    'name':["张三","李四","王老五"],
    "salary":[1000,2000,3000]
}

df3 = DataFrame(data=dic)
print(df3)

DataFrame的属性

        values: 二维数组存储的数据

        columns:返回列索引

        index:返回行索引

        shape:返回形状(几行几列)

# 导包
from pandas import DataFrame
import numpy as np

# DataFrame的创建
# ndarray创建
df = DataFrame(data=np.random.randint(0,100,size=(6,4)))
print(df)
print(df.values)
print(df.index)
print(df.columns)
print(df.shape)
print(df.dtypes)

练习

根据以下考试成绩表,创建一个DataFrame,命名为df:
                张三 李四

        语文 150     0
        数学 150     0
        英语 150     0
        理综 300     0

# 导包
from pandas import DataFrame
import numpy as np

dic = {
    "张三":[150,150,150,300],
    "李四":[0,0,0,0]
}
df = DataFrame(data=dic,index=["语文","数学","英语","理综"])
print(df)

DataFrame索引操作

        对行进行索引,取列

# 导包
from pandas import DataFrame
import numpy as np

# DataFrame索引操作
# 创建数据源
# 行索引是显示的,列索引是隐式的 列索引是显示的:a、b、c、d
df = DataFrame(data=np.random.randint(60,100,size=(8,4)),columns=['a','b','c','d'])

print("取单列:")
# 对行进行索引
# 取单列,如果df有显示的索引,通过索引机制取行或者列的时候只能使用显示索引
print(df['a'])
print("——————————————————————————————————————")

# 用隐式索引取单列
print("隐式索引取单列")
print(df.iloc[0])
print("——————————————————————————————————————")

# 取多列 需要两个中括号
print("取多列:")
print(df[['a','b','c']])
print("——————————————————————————————————————")

# 通过隐式索引取列
print("隐式索引取列:")
print(df.iloc[0])
print("——————————————————————————————————————")

        对列进行索引,取行

# 导包
from pandas import DataFrame
import numpy as np

# DataFrame索引操作
# 创建数据源
# 行索引是显示的,列索引是隐式的 列索引是显示的:a、b、c、d
df = DataFrame(data=np.random.randint(60,100,size=(8,4)),columns=['a','b','c','d'])

# 对列进行索引
# 隐式索引取单行
print("隐式索引取单行:")
print(df.iloc[0])
print("——————————————————————————————————————")

# 取多行 需要两个中括号
# 隐式索引取多行
print("隐式索引取多行:")
print(df.iloc[[0,3,5]])
print("——————————————————————————————————————")

# 显示索引取单行
print("显式索引取单行:")
print(df.loc[0])

# 显示索引取多行
# 由于数组没有显示索引,所以iloc和loc都可以求隐式索引,如果数组中有显示索引,loc后面只能跟显示索引不能跟隐式索引
print("显式索引取多行:")
print(df.iloc[[0,3,5]])
print("——————————————————————————————————————")

      对元素进行索引

# 导包
from pandas import DataFrame
import numpy as np

# DataFrame索引操作
# 创建数据源
# 行索引是显示的,列索引是隐式的 列索引是显示的:a、b、c、d
df = DataFrame(data=np.random.randint(60,100,size=(8,4)),columns=['a','b','c','d'])

# 对元素进行索引
print("对元素进行索引")
print("取单个元素")
print(df.iloc[0,2])
print(df.loc[0,'a'])
print("——————————————————————————————————————")

print("取多个元素")
print(df.iloc[[1, 3, 5], 2])

—— iloc:

        通过隐式索引取行

—— loc:

        通过显示索引取行

总结

df索引和切片操作

        索引:
                df[col]:取列
                df.loc[index]:取行
                df.iloc[index,col]:取元素

        切片:
                df[index1:index3]:切行

                df.iloc[:,col1:col3]:切列

DataFrame的运算

        —— 同Series运算一致

        —— 法则:索引一致的元素进行算术运算否则补空

        add()加法、 sub()减法、 mul()乘法、 div()除法

练习

1.假设ddd是期中考试成绩,ddd2是期末考试成绩,请自由创建ddd2,并将其与ddd相加,求期中期末平均值。
2.假设张三期中考试数学被发现作弊,要记为0分,如何实现?
3.李四因为举报张三作弊立功,期中考试所有科目加100分,如何实现?
4.后来老师发现有一道题出错了,为了安抚学生情绪,给每位学生每个科目都加10分,如何实现?

# 导包
from pandas import DataFrame

dic = {
    "张三":[150,150,150,150],
    "李四":[0,0,0,0]
}

# 根据字典创建数组
df=DataFrame(data=dic,index=["语文","数学","英语","理综"])

# 期中考试
MidTest = df

# 期末考试
LastTest = df

# 期中+期末的平均值
print((MidTest+LastTest)/2)

# 张三期中作弊了,将数学分数改为0
MidTest.loc["数学","张三"] = 0
print(MidTest)

# 李四举报张三,将李四所有成绩+100
MidTest["李四"] += 100
print(MidTest)

# 后来老师发现有一道题出错了,为了安抚学生情绪,给每位学生每个科目都加10分
MidTest += 10
print(MidTest)

时间数据类型的转换

pd.to_datetime(col)将某一列

# 导包
from pandas import DataFrame
import pandas as pd

dic = {
    'time':["2010-10-10","2011-11-20","2020-1-10"],
    "temp":[33,31,30]
}

df = DataFrame(data=dic)
print(df)

# 查看time列的类型
print(df["time"].dtype)
print("————————————————————————————————————")
# 将time列的数据类型转换成时间序列类型
df['time'] = pd.to_datetime(df["time"])
print(df)
print(df['time'].dtype)
print("————————————————————————————————————")

设置为行索引

df.set_index(

# 导包
from pandas import DataFrame
import pandas as pd

dic = {
    'time':["2010-10-10","2011-11-20","2020-1-10"],
    "temp":[33,31,30]
}

df = DataFrame(data=dic)
print(df)

# 将time列作为原数据的行索引,替换10,1,2
df.set_index('time', inplace=True)
print(df)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1645469.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

笔试强训-day17_T2 十字爆破

一、题目链接 十字爆破 二、题目描述 牛牛在玩一个游戏: 一共有n行m列共nm个方格,每个方格中有一个整数。 牛牛选择一个方格,可以得到和这个方格同行、同列的所有数之和的得分。 例如:对于一个22的方格: 1 2 3 4 牛牛…

用js代码实现贪吃蛇小游戏

js已经学了大部分了,现在就利用我所学的js知识试试做贪吃蛇小游戏吧 以下部分相关图片以及思路笔记均出自渡一陈老师的视频 首先制作简单的静态页面,添加贪吃蛇移动的背景和相关图片,比如开始游戏等等 将各个功能均封装在函数中&#xff0…

大数据技术主要学什么,有哪些课程

大数据技术是指在海量数据的环境下,采集、存储、处理、分析和管理数据的一系列技术与方法。随着互联网、物联网以及各种智能设备的普及,数据量呈爆炸性增长,传统数据处理手段已难以应对,因此大数据技术应运而生,旨在从…

包管理工具npm、cnpm、yarn、NVM

[包]英文单词是package,代表了一组特定功能的源码集合 包管理工具: 管理[包]的应用软件,可以对[包]进行下载安装,更新,删除,上传等操作借助包管理工具,可以快速开发项目,提升开发效率 包管理工具是一个通用的概念,很多编程语言都有包管理工具,所以掌握好包管理工具非…

供应链|经典论文解读:(s,S) 策略在动态库存下的最优性

文章考虑了具有订购成本(由单位成本加上重新订购成本组成)的动态库存问题。具体而言,对于每个时期,系统在中期开始是做出一系列采购决策——这些采购有助于库存的积累,并在随后的周期被需求所消耗。每时期系统会产生各…

开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集 | 最新快讯

新智元报道 编辑:LRS FineWeb 是一个高质量的预训练数据集,包含 15T 个 tokens,主要包含英语文本;消融实验证明了 FineWeb 数据集的质量要高于其他开源数据集;数据清洗脚本也已开源。 Meta 最近开源的 Llama 3 模型再次…

如何根据IP获取国家省份城市名称PHP免费版

最近项目遇到需要根据IP获取用户国家功能需求,网上找了一下,很多API接口都需要付费,考虑为公司节约成本,就取找找有没有开源的 github 上面那个包含多种语言,下面这个只有php,用法很简单 $ip 114.114.114…

QT7_视频知识点笔记_1_ 基础知识(帮助文档),窗口(内存回收机制),信号槽(传参),Lambda表达式

1.QT基础 QT是一个框架,不用像C语言自己从底层写,需要的功能可以先看是否QT库中有直接可使用的 帮助文档的使用:F1跳入帮助文档, QT中常用的类:比如QPushbutton,查看帮助文档则可知道对应的函数和解决方…

C语言知识点补充——操作符详解

1、计算幂次数和平方根 使用<math.h>数学库 pow()函数计算幂次数&#xff1b;sqrt()函数计算平方根。 注&#xff1a;sqrt()输入同样的数字&#xff0c;计算出来的数值&#xff0c;可能不相等&#xff0c;因为输出double数&#xff0c;小数点后面的数值不一定一致。 2…

制作外贸脚本的流程和代码分享!

在全球化的今天&#xff0c;外贸业务成为了许多企业拓展市场、增加收入的重要途径&#xff0c;而在外贸业务中&#xff0c;一个优秀的脚本往往能够起到事半功倍的效果。 那么&#xff0c;如何制作一个高效、专业的外贸脚本呢?本文将为您详细解析制作外贸脚本的流程&#xff0…

力扣每日一题-拆炸弹-2024.5.5

力扣题目&#xff1a;拆炸弹 题目链接: 1652.拆炸弹 题目描述 代码思路 根据代码实现分为k等于0和k不等于0的情况。k等于0很容易处理&#xff0c;而k不等于0时&#xff0c;需要使用滑动窗口的方式来解决。先根据小于0或大于0确定一个窗口&#xff0c;然后移动&#xff0c;获…

Windows中安装的PostgreSQL 数据库如何重启

1. 使用Windows服务管理器 打开“运行”对话框&#xff08;按WinR键&#xff09;。输入services.msc并按回车&#xff0c;这将打开服务列表。在服务列表中找到PostgreSQL服务。它通常命名为“PostgreSQL”后面跟着版本号和实例名称&#xff0c;例如“PostgreSQL 13 - mydb”。…

MES生产系统与数字孪生双重结合:智慧制造工厂的新引擎

随着数字化浪潮的推动&#xff0c;制造行业正在经历着前所未有的变革。在这个变革的浪潮中&#xff0c;MES生产制造系统与数字孪生技术的深度融合成为了制造工厂未来发展的核心驱动力。这种结合不仅提升了生产效率&#xff0c;优化了资源配置&#xff0c;降低了运营成本&#x…

解决mac出现npm install 卡在“sill idealTree buildDeps“的问题

问题出现场景&#xff1a; 在新建一个项目尝试npm install命令时&#xff0c;一直卡在“sill idealTree buildDeps“ 尝试过的无效解决方案包括&#xff1a; 切换/关闭梯子重启更换网络更换npm源更新删除 package.json 最终解决方案&#xff1a; 引起问题的原因是MacOS设置中…

年轻人刮疯了,刮刮乐断货了

年轻人刮疯了 刮刮乐缺货了。 00后彩票店老板陆诗等得有点着急。她的福彩店开在深圳&#xff0c;今年4月才开门营业&#xff0c;但从开业到今天&#xff0c;刮刮乐总共就来了一回货——开业时发的20本。 那之后&#xff0c;刮刮乐就彻底断供了。原本&#xff0c;陆诗想把刮刮…

重学SpringBoot3-SPI机制

更多SpringBoot3内容请关注我的专栏&#xff1a;《SpringBoot3》 期待您的点赞&#x1f44d;收藏⭐评论✍ 重学SpringBoot3-SPI机制 什么是 SPI&#xff1f;Spring Boot 中的 SPI 机制spring.factories 文件自动配置的实现启动流程中的作用 SPI实际应用步骤 1: 新建模块步骤 2:…

【1小时掌握速通深度学习面试6】图神经网络-下

目录 23. GraphSage 24.简述图神经网络的推理机制在其他领域中的应用 与传统NN的区别&#xff08;GNN优点&#xff09; 23. GraphSage GraphSage出现之前的图网络方法需要图中所有的顶点在训练embedding的时候都出现&#xff0c;这些的方法本质上是transductive&#xff0c…

我独自升级:崛起怎么下载 我独自升级游戏下载教程分享

定于5月8日全球揭幕的《我独自升级崛起》——一款扣人心弦的动作RPG巨制&#xff0c;灵感采撷于同名动画及网络漫画的热潮&#xff0c;誓将引领满怀热忱的玩家步入一场交织着深邃探索和宏大规模的奇妙冒险。该游戏立足于一个独树一帜的网络武侠宇宙&#xff0c;细腻刻画了一个凡…

基于Springboot的民航网上订票系统(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的民航网上订票系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构…

【Osek网络管理测试】[TG3_TC1]Limphome复位_NM报文

&#x1f64b;‍♂️ 【Osek网络管理测试】系列&#x1f481;‍♂️点击跳转 文章目录 1.环境搭建2.测试目的3.测试步骤4.预期结果5.测试结果 1.环境搭建 硬件&#xff1a;VN1630 软件&#xff1a;CANoe 2.测试目的 验证DUT从LimpHome状态转换到Reset状态是否满足NM标准的…