【数据分析入门】Numpy进阶

news2024/9/27 23:25:55

目录

  • 一、数据重塑
    • 1.1 透视
    • 1.2 透视表
    • 1.3 堆栈/反堆栈
    • 1.3 融合
  • 二、迭代
  • 三、高级索引
    • 3.1 基础选择
    • 3.2 通过isin选择
    • 3.3 通过Where选择
    • 3.4 通过Query选择
    • 3.5 设置/取消索引
    • 3.6 重置索引
      • 3.6.1 前向填充
      • 3.6.2 后向填充
    • 3.7 多重索引
  • 四、重复数据
  • 五、数据分组
    • 5.1 聚合
    • 5.2 转换
  • 六、缺失值
  • 七、合并数据
    • 7.1 合并-Merge
    • 7.2 连接-Join
    • 7.3 拼接-Concatenate
      • 7.3.1 纵向拼接
      • 7.3.2 横向/纵向拼接
  • 八、日期
  • 九、可视化


pandas 是一个功能强大的 Python 数据分析库,为数据处理和分析提供了高效且灵活的工具。它是在 NumPy 的基础上构建的,为处理结构化数据(如表格数据)时间序列数据提供了丰富的数据结构和数据操作方法

pandas 提供了两种主要的数据结构:SeriesDataFrameSeries一维标记型数组,类似于带标签的列表,可以存储不同类型的数据DataFrame二维的表格型数据结构,类似于关系型数据库中的表格,它由多个 Series 组成,每个 Series 都有一个共同的索引。这使得 pandas 在处理和分析数据时非常方便和高效。

使用 pandas,我们就可以轻松地进行数据导入数据清洗数据转换数据筛选数据分析等操作。它提供了丰富的函数和方法,如索引切片聚合合并排序统计绘图等,使得数据分析变得简单而直观。

一、数据重塑

1.1 透视

  假设我们有一个 DataFrame df2,其中包含了 'Date’、‘Type’ 和 ‘Value’ 这三列数据。想要将 ‘Type’ 列的唯一值作为新 DataFrame 的列,‘Date’ 列作为新 DataFrame 的索引,并将 ‘Value’ 列中对应的值填充到新 DataFrame 的相应位置上
  即 将行变为列 ,我们可以这么实现代码:

>>> df3= df2.pivot(index='Date',columns='Type', values='Value')

在这里插入图片描述
  下面来对pivot() 函数的参数做一下说明:
  index:指定作为新 DataFrame 索引的列名,这里是 ‘Date’ 列。
  columns:指定作为新 DataFrame 列的列名,这里是 ‘Type’ 列的唯一值。
  values:指定填充到新 DataFrame 中的值的列名,这里是 ‘Value’ 列。

1.2 透视表

  使用了 pd.pivot_table() 函数创建一个透视表。pivot_table() 函数可以帮助我们在 pandas 中进行数据透视操作,并实现将一个 DataFrame 中的值按照指定的行和列进行聚合
  即 将行变为列,我们可以这么实现:

>>> df4 = pd.pivot_table(df2,values='Value',index='Date',columns='Type'])

  下面来解释一下里面出现的各参数的含义:
  其中,‘df2’ 是原始的 DataFrame,‘Value’ 是要聚合的数值列名,‘Date’ 是新 DataFrame 的索引列名,而 ‘Type’ 是新 DataFrame 的列名
  pd.pivot_table() 函数会将 df2 中的数据按照 ‘Date’ 和 ‘Type’ 进行分组,并计算每个组中 ‘Value’ 列的聚合值(默认为均值)。然后,将聚合后的结果填充到新的 DataFrame df4 中,其中 每一行表示一个日期,每一列表示一个类型
  如果在透视表操作中存在重复的索引/列组合,pivot_table() 函数将会使用默认的聚合方法(均值)进行合并。如果我们想要使用其他聚合函数,可以通过传递 aggfunc 参数来进行设置,例如 aggfunc=‘sum’ 表示求和。

1.3 堆栈/反堆栈

  stack() 和 unstack() 是 pandas 中用于处理层次化索引的函数,可以在 多级索引的 DataFrame 中透视行和列标签

>>> stacked = df5.stack() 
# 透视列标签
# 使用 stack() 函数将列标签透视,即将列标签转换为行索引,并将相应的数据堆叠起来。这样可以创建一个具有多级索引的 Series
>>> stacked.unstack()
# 透视索引标签
# 上述代码则使用 unstack() 函数将索引标签透视,即将行索引转换为列标签,并将相应的数据重新排列。这样可以还原出原始的 DataFrame 结构

在这里插入图片描述

1.3 融合

  我们需要 将指定的列转换为一个观察值列时,可以使用 pd.melt() 函数来将一个 DataFrame 进行融合操作(melt)
  将列转为行:

>>> pd.melt(df2,id_vars=["Date"],value_vars=["Type","Value"],value_name="Observations")

在这里插入图片描述
  其中,df2 是原始的 DataFrame,id_vars=[“Date”] 表示保持 ‘Date’ 列不融合,作为 标识变量也就是保持不动的列)。value_vars=[“Type”, “Value”] 指定要融合的列为 ‘Type’ 和 ‘Value’。value_name=“Observations” 表示新生成的观察值列的名称为 ‘Observations’。
  pd.melt() 函数将指定的列进行融合操作,并创建一个新的 DataFrame。融合后的 DataFrame 中会包含四列,分别是融合后的标识变量(‘Date’)融合的列名(‘variable’)融合的值(‘Observations’)以及原始 DataFrame 中对应的观察值


二、迭代

  df.iteritems()是一个 DataFrame 的迭代器方法,用于按列迭代 DataFrame。它返回一个生成器,每次迭代生成一个包含列索引和对应列的序列的键值对
  df.iterrows() 也是一个 DataFrame 的迭代器方法,用于按行迭代 DataFrame。它返回一个生成器,每次迭代生成一个包含行索引和对应行的序列的键值对

>>> df.iteritems() 
# (列索引,序列)键值对
>>> df.iterrows()
# (行索引,序列)键值对

  下面是一些基本操作:

for column_index, column in df.iteritems():
    # 对每一列进行操作
    print(column_index)  # 打印列索引
    print(column)  # 打印列的序列

for index, row in df.iterrows():
    # 对每一行进行操作
    print(index)  # 打印行索引
    print(row)  # 打印行的序列

三、高级索引

3.1 基础选择

  DataFrame 中基于条件选择列的操作如下,都是一些基本的操作:

>>> df3.loc[:,(df3>1).any()] 
# 选择任一值大于1的列
>>> df3.loc[:,(df3>1).all()] 
# 选择所有值大于1的列
>>> df3.loc[:,df3.isnull().any()] 
# 选择含 NaN值的列
>>> df3.loc[:,df3.notnull().all()] 
# 选择含 NaN值的列

3.2 通过isin选择

  而在很多情况下,我们所需要做的不是仅仅通过基于条件选择列这么简单的操作,所以还有必要学习 DataFrame 的进一步选择和筛选操作

>>> df[(df.Country.isin(df2.Type))] 
# 选择为某一类型的数值 
>>> df3.filter(items=”a”,”b”]) 
# 选择特定值
>>> df.select(lambda x: not x%5) 
# 选择指定元素

3.3 通过Where选择

  where()是Pandas Series对象中的一个方法,也可以用于选择满足条件的子集

>>> s.where(s > 0)
# 选择子集

3.4 通过Query选择

>>> df6.query('second > first')
# 查询DataFrame

  df6.query(‘second > first’)DataFrame 对象中的一个查询操作,查询 DataFrame df6 中满足条件 “second > first” 的行。其中,“second” 和 “first” 是列名,表示要比较的两个列。只有满足条件的行会被选中并返回为一个新的 DataFrame


3.5 设置/取消索引

>>> df.set_index('Country')
# 设置索引
>>> df4 = df.reset_index()
# 取消索引
>>> df = df.rename(index=str,columns={"Country":"cntry","Capital":"cptl","Population":"ppltn"})
# 重命名DataFrame列名

3.6 重置索引

  有时候我们需要重新索引 Series
  将 Series s 的索引重新排列为 [‘a’, ‘c’, ‘d’, ‘e’, ‘b’],并返回一个新的 Series。如果 原来的索引中不存在某个新索引值对应的值将被设置为 NaN(缺失值)

>>> s2 = s.reindex(['a','c','d','e','b'])

3.6.1 前向填充

>>> df.reindex(range(4), method='ffill')
   Country Capital  Population
 0 Belgium Brussels 11190846
 1 India  New Delhi 1303171035
 2 Brazil  Brasília 207847528
 3 Brazil  Brasília 207847528

3.6.2 后向填充

>>> s3 = s.reindex(range(5), method='bfill')
 0 3 
 1 3
 2 3
 3 3
 4 3

3.7 多重索引

>>> arrays = [np.array([1,2,3]),
np.array([5,4,3])]
>>> df5 = pd.DataFrame(np.random.rand(3, 2), index=arrays)
>>> tuples = list(zip(*arrays))
>>> index = pd.MultiIndex.from_tuples(tuples, 
 names=['first', 'second'])
>>> df6 = pd.DataFrame(np.random.rand(3, 2), index=index)
>>> df2.set_index(["Date", "Type"]) 

四、重复数据

>>> s3.unique() 
# 返回唯一值
>>> df2.duplicated('Type')
# 查找重复值
>>> df2.drop_duplicates('Type', keep='last') 
# 去除重复值
>>> df.index.duplicated()
# 查找重复索引

五、数据分组

5.1 聚合

>>> df2.groupby(by=['Date','Type']).mean()
>>> df4.groupby(level=0).sum()
>>> df4.groupby(level=0).agg({'a':lambda x:sum(x)/len(x),
'b': np.sum})

5.2 转换

>>> customSum = lambda x: (x+x%2)
>>> df4.groupby(level=0).transform(customSum)

六、缺失值

>>> df.dropna()
# 去除缺失值NaN
>>> df3.fillna(df3.mean())
# 用预设值填充缺失值NaN
>>> df2.replace("a", "f") 
# 用一个值替换另一个值

七、合并数据

7.1 合并-Merge

在这里插入图片描述

>>> pd.merge(data1, data2, how='left', on='X1')

  将 data1data2 两个 DataFrame 按照它们的 ‘X1’ 列进行左连接,并返回一个新的 DataFrame左连接保留 data1 的所有行,并将 data2 中符合条件的行合并到 data1 中。如果 data2 中没有与 data1 匹配的行,则对应的列值将被设置为 NaN(缺失值)。
在这里插入图片描述

>>> pd.merge(data1, data2, how='right', on='X1')

  右连接也是一种连接方式,其将 data1data2 两个 DataFrame 按照它们的 ‘X1’ 列进行右连接,并返回一个新的 DataFrame保留 data2 的所有行,并将 data1 中符合条件的行合并到 data2 中。如果 data1 中没有与 data2 匹配的行,则对应的列值将被设置为 NaN(缺失值)。
在这里插入图片描述

>>> pd.merge(data1, data2,how='inner',on='X1')

  将 data1data2 两个 DataFrame 按照它们的 ‘X1’ 列进行内连接,并返回一个新的 DataFrame就是所谓的内连接(inner join)。它 仅保留 data1 和 data2 中在 ‘X1’ 列上有匹配的行,并将它们合并到一起。
  参数中的 how=‘inner’ 表示使用内连接方式进行合并。其他可能的取值还有 ‘left’、‘right’ 和 ‘outer’,分别表示左连接右连接和接下来要介绍的外连接。on=‘X1’ 表示使用 ‘X1’ 列作为合并键(即共同的列)。
在这里插入图片描述

>>> pd.merge(data1, data2, how='outer',on='X1')

  将 data1data2 两个 DataFrame 按照它们的 ‘X1’ 列进行外连接,并返回一个新的 DataFrame。外连接(outer join)是一种合并方式,它会保留 data1 和 data2 中所有的行,并将它们根据 ‘X1’ 列的值进行合并。
  在外连接中,如果某个 DataFrame 中的行在另一个 DataFrame 中找不到匹配,那么对应的列值将被设置为 NaN(缺失值),表示缺失的数据


7.2 连接-Join

>>> data1.join(data2, how='right')

7.3 拼接-Concatenate

7.3.1 纵向拼接

>>> s.append(s2)

7.3.2 横向/纵向拼接

>>> pd.concat([s,s2],axis=1, keys=['One','Two']) 
>>> pd.concat([data1, data2], axis=1, join='inner')

八、日期

>>> df2['Date']= pd.to_datetime(df2['Date'])
>>> df2['Date']= pd.date_range('2000-1-1', periods=6, freq='M')
>>> dates = [datetime(2012,5,1), datetime(2012,5,2)]
>>> index = pd.DatetimeIndex(dates)
>>> index = pd.date_range(datetime(2012,2,1), end, freq='BM')

九、可视化

Matplotlib 是一个用于绘制数据可视化图形的 Python 库。它提供了各种函数和工具,用于创建各种类型的图表,包括线图、散点图、柱状图、饼图等等。

  现在我们导入 Matplotlib 库,并将其重命名为了 plt。这样,我们就可以 使用 plt 对象来调用 Matplotlib 的函数和方法,以便创建和修改图形了。

>>> import matplotlib.pyplot as plt

  现在,我们试试导入 Matplotlib 库使用 Pandas 库中 Series 对象.plot() 方法Matplotlib 库中的 plt.show() 函数 来生成并显示数据的默认图形。

>>> s.plot()
>>> plt.show()

在这里插入图片描述
我们也可使用 Pandas 库中 DataFrame 对象.plot() 方法Matplotlib 库 中的 plt.show() 函数 来生成并显示数据的默认图形。

>>> df2.plot()
>>> plt.show()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/889407.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

depcheck 检查依赖插件使用及报错

1.全局安装 npm i depcheck -g 2.使用depcheck 指令进行依赖检查 报错 : 无法加载 xxx\npm\depcheck.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID135170 中的 about_Execution_Policies。…

AI绘图(9)stable diffusion Lora 用法

Lora模型是配合Stable Diffusion使用的。可以简单的把Lora当成化妆师,当Stable Difusion生成的人不好看时,使用Lora可以帮它化妆,让它从丑小鸭变成白天鹅。 简单来说:就是一个修饰作用。 使用文生图功能 1、不使用Lora模型 Pr…

10、Redis单线程 VS 多线程

Redis单线程 VS 多线程 redis到底是单线程还是多线程? IO多路复用听说过吗? redis为什么快? 2、Redis为什么选择单线程? 这种问法其实并不严谨,为啥这么说呢? Redis的版本很多3.x、4.x、6.x,版本不同架构…

【2024】MySQL中常用函数和窗口函数的基本使用方式

MySQL中常用函数和窗口函数的基本使用方式 一、基础函数1、聚合函数:2、字符串函数:3、日期和时间函数4、数值函数5、条件函数 二、窗口函数(*OVER*) 一、基础函数 1、聚合函数: SELECT COUNT(*) FROM table_name;:计算表中的行…

在不破坏原有隔离状态的情况下,怎么实现网间数据安全摆渡?

随着网络技术的演进,网络攻击、数据窃取、数据泄露事件也愈发频繁,给企业造成损失和负面影响,企业数据防泄漏治理是大趋势,也是自身迫切需求。 2021年1月,中国农业银行因存在数据泄露风险、互联网门户网站泄露敏感信息…

数据接入体验再升级!TDengine 推出支持 MQTT 协议的数据接入功能

我们非常高兴地宣布,TDengine 企业版和 TDengine Cloud 正式推出重磅功能,这一功能主打无缝数据接入支持,旨在帮助用户彻底改善数据接入体验。作为一款创新性的解决方案,TDengine 企业版和 TDengine Cloud 可以直接将 MQTT 服务器…

使用YOLOV5训练自己的数据集时所遇到问题|PyYAML|KeyError

训练过程中: 1、attributeerror: module yaml has no attribute load 方法1: 如果另一个名为 yaml.py 的文件在 PyYaml 库之前出现在你的 sys.path 中,就会接收并导入该 yaml.py 文件。如将文件命名为 yaml.py。 import yaml 正在加载 ya…

<kernel>kernel 6.4 USB-之-port_event()分析

<kernel>kernel 6.4 USB-之-port_event()分析 kernel 6.4 USB系列文章如下: <kernel>kernel 6.4 USB-之-hub_event()分析 <kernel>kernel 6.4 USB-之-port_event()分析 本文是基于linux kerne…

把握数据要素,做数字化时代的弄潮儿

截至2022年6月,我国网民规模已经达到了10.51亿,人均上网时间达到了每周29.5个小时,并且这部分人群使用手机上网的比例为99.6%。如果把工作、睡眠以及其他的必要的时间算上的话,可以发现通过手机上网已经成为了人们日常中的一部分。…

渗透测试面试题汇总(附答题解析+配套资料)

注:所有的资料都整理成了PDF,面试题和答案将会持续更新,因为无论如何也不可能覆盖所有的面试题。 一、思路流程 1、信息收集 a、服务器的相关信息(真实ip,系统类型,版本,开放端口,…

Maven方式构建SpringBoot项目

目录 1、创建maven项目 2、添加springboot相关依赖 3、配置启动端口 4、修改APP文件 5、配置controller 6、启动应用 1、创建maven项目 项目如下&#xff1a; 2、添加springboot相关依赖 <parent><groupId>org.springframework.boot</groupId><arti…

iPhone电池缺陷落定,赔偿用户5亿美元逃不掉了

距离 iPhone 15 系列发布还有刚好一个月&#xff0c;大家准备好了吗&#xff1f; 钛合金边框、更好的相机 以及 Type-C 可能会成为一部分用户换机的理由。 当然这部分人中&#xff0c;肯定还有因为老机子电池不耐用了这一点的。 这可不&#xff0c;iPhone 电池健康度问题前不…

leetcode350. 两个数组的交集 II

简单题&#xff0c;10分钟秒杀 题目&#xff1a; 给你两个整数数组 nums1 和 nums2 &#xff0c;请你以数组形式返回两数组的交集。返回结果中每个元素出现的次数&#xff0c;应与元素在两个数组中都出现的次数一致&#xff08;如果出现次数不一致&#xff0c;则考虑取较小值…

前端常用算法(一):防抖+节流

目录 第一章 防抖 1.1 防抖&#xff08;debounce&#xff09;简介 1.2 应用场景 1.3 实现思路 1.4 手撕防抖代码 第二章 节流 2.1 节流&#xff08;throttle&#xff09;简介 2.2 应用场景 2.3 实现思路 2.4 手撕节流代码&#xff08;方法&#xff1a;时间戳和计时器…

【100天精通python】Day38:GUI界面编程_PyQT从入门到实战(中)

目录 专栏导读 4 数据库操作 4.1 连接数据库 4.2 执行 SQL 查询和更新&#xff1a; 4.3 使用模型和视图显示数据 5 多线程编程 5.1 多线程编程的概念和优势 5.2 在 PyQt 中使用多线程 5.3 处理多线程间的同步和通信问题 5.3.1 信号槽机制 5.3.2 线程安全的数据访问 Q…

高光谱 | 矿物识别和分类标签数据制作、农作物病虫害数据分类、土壤有机质含量回归与制图、木材含水量评估和制图

本课程提供一套基于Python编程工具的高光谱数据处理方法和应用案例。 本课程涵盖高光谱遥感的基础、方法和实践。基础篇以学员为中心&#xff0c;用通俗易懂的语言解释高光谱的基本概念和理论&#xff0c;旨在帮助学员深入理解科学原理。方法篇结合Python编程工具&#xff0c;…

企业如何为服务器找到合适的托管机房?

企业的服务器在业务经营中扮演着很重要的角色&#xff0c;提供可靠的数据存储和备份功能、计算能力和软件支持、网络通信连接等功能&#xff0c;是企业运行中关键的组成部分。因此&#xff0c;企业的服务器需要得到妥善的保管&#xff0c;为它们选择一个合适的托管机房十分有必…

TCP/IP---网络层

一、网络层的主要功能 1、提供了通讯过程中&#xff0c;必须要使用的另一个地址&#xff1a;逻辑IP地址【ipv4、ipv6】 2、连接不同媒介类型【内网--外网&#xff08;intra -- inter&#xff09;】 3、根据运行的不同的路由协议&#xff0c;选择不同的最佳路径 4、在选择的最好…

Chatgpt小程序源码java版实践

ChatGPT的技术和资源背景 ChatGPT是一种基于大数据的语言模型&#xff0c;通过对大量数据进行计算&#xff0c;例如语言出现的概率和适用环境等。ChatGPT所使用的语言模型参数大约有2000亿个。由于ChatGPT的计算运行需要大量的计算机资源&#xff0c;因此在工程上要实现它是非…

nginx代理文件目录、下载站点

文章目录 前言一、访问站点配置二、添加登录权限功能1.密码生成2.配置nignx 三、路径加 / 如何区分1、proxy_pass末尾有斜杠2、proxy_pass末尾无斜杠3、proxy_pass包含路径&#xff0c;且末尾有斜杠4、proxy_pass包含路径&#xff0c;末尾无斜杠 四、文件路径 alias与root区别总…