python数据分析(二):Python Pandas索引技术详解

news2025/4/23 16:53:23

Python Pandas索引技术详解:从基础到多层索引

1. 引言

Pandas是Python数据分析的核心库,而索引技术是Pandas高效数据操作的关键。良好的索引使用可以显著提高数据查询和操作的效率。本文将系统介绍Pandas中的各种索引技术,包括基础索引、位置索引、条件索引以及强大的多层索引(MultiIndex)。

2. 基础索引

2.1 列索引

列索引是最基础的数据访问方式,使用方括号[]或点符号.来访问DataFrame的列。

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)

# 使用方括号访问列
print(df['Name'])
"""
0      Alice
1        Bob
2    Charlie
Name: Name, dtype: object
"""

# 使用点符号访问列 (不推荐,当列名与DataFrame方法冲突时会出问题)
print(df.Age)
"""
0    25
1    30
2    35
Name: Age, dtype: int64
"""

2.2 行索引 (标签索引)

Pandas默认使用行号作为索引,但也可以自定义索引标签,然后使用loc进行基于标签的行索引。

# 设置自定义索引
df.index = ['a', 'b', 'c']

# 使用loc进行标签索引
print(df.loc['b'])
"""
Name      Bob
Age       30
City    Paris
Name: b, dtype: object
"""

# 选择多行
print(df.loc[['a', 'c']])
"""
      Name  Age      City
a    Alice   25  New York
c  Charlie   35    London
"""

3. 位置索引

iloc用于基于整数位置的索引,类似于Python列表的索引方式。

# 使用iloc进行位置索引
print(df.iloc[1])  # 第二行
"""
Name      Bob
Age       30
City    Paris
Name: b, dtype: object
"""

# 选择多行和多列
print(df.iloc[0:2, [0, 2]])  # 第1-2行,第1和第3列
"""
    Name      City
a  Alice  New York
b    Bob     Paris
"""

4. 布尔索引

布尔索引允许我们根据条件筛选数据。

# 单条件筛选
print(df[df['Age'] > 28])
"""
      Name  Age    City
b      Bob   30   Paris
c  Charlie   35  London
"""

# 多条件组合
print(df[(df['Age'] > 25) & (df['City'] != 'Paris')])
"""
      Name  Age    City
c  Charlie   35  London
"""

# 使用isin方法
print(df[df['City'].isin(['New York', 'London'])])
"""
      Name  Age      City
a    Alice   25  New York
c  Charlie   35    London
"""

5. 索引方法

5.1 set_index/reset_index

# 将某列设置为索引
df_city = df.set_index('City')
print(df_city)
"""
           Name  Age
City                
New York  Alice   25
Paris       Bob   30
London  Charlie   35
"""

# 重置索引
print(df_city.reset_index())
"""
      City     Name  Age
0  New York    Alice   25
1     Paris      Bob   30
2    London  Charlie   35
"""

5.2 重命名索引

# 重命名索引
df_renamed = df.rename(index={'a': 'id1', 'b': 'id2', 'c': 'id3'})
print(df_renamed)
"""
          Name  Age      City
id1    Alice   25  New York
id2      Bob   30     Paris
id3  Charlie   35    London
"""

# 重命名列
df_renamed = df.rename(columns={'Name': 'Full Name', 'Age': 'Years'})
print(df_renamed)
"""
    Full Name  Years      City
a      Alice     25  New York
b        Bob     30     Paris
c    Charlie     35    London
"""

6. 多层索引(MultiIndex)

多层索引(也称为层次化索引)是Pandas中处理高维数据的强大工具。

6.1 创建多层索引

# 从元组列表创建多层索引
index = pd.MultiIndex.from_tuples(
    [('Group1', 'A'), ('Group1', 'B'), ('Group2', 'A'), ('Group2', 'B')],
    names=['Group', 'Type'])

data = {'Value': [10, 20, 30, 40]}
multi_df = pd.DataFrame(data, index=index)
print(multi_df)
"""
              Value
Group  Type       
Group1 A         10
       B         20
Group2 A         30
       B         40
"""

6.2 多层索引的数据选择

# 选择第一层的特定值
print(multi_df.loc['Group1'])
"""
       Value
Type       
A         10
B         20
"""

# 选择特定组合
print(multi_df.loc[('Group2', 'B')])  # 返回Series
"""
Value    40
Name: (Group2, B), dtype: int64
"""

# 使用xs方法跨层选择
print(multi_df.xs('A', level='Type'))  # 选择所有Type为A的行
"""
        Value
Group       
Group1     10
Group2     30
"""

6.3 多层索引的列

DataFrame的列也可以有多层索引。

# 创建多层列索引
columns = pd.MultiIndex.from_tuples(
    [('Metrics', 'Score'), ('Metrics', 'Weight'), ('Info', 'Name')])

data = [[85, 0.5, 'Alice'], [90, 0.6, 'Bob'], [78, 0.4, 'Charlie']]
multi_col_df = pd.DataFrame(data, columns=columns)
print(multi_col_df)
"""
  Metrics       Info
    Score Weight    Name
0      85    0.5   Alice
1      90    0.6     Bob
2      78    0.4 Charlie
"""

# 访问多层列
print(multi_col_df['Metrics']['Score'])
"""
0    85
1    90
2    78
Name: Score, dtype: int64
"""

6.4 多层索引的堆叠与解堆

# 解堆 (将行索引转为列)
print(multi_df.unstack())
"""
       Value     
Type       A   B
Group           
Group1    10  20
Group2    30  40
"""

# 堆叠 (将列索引转为行索引)
print(multi_df.unstack().stack())
"""
              Value
Group  Type       
Group1 A         10
       B         20
Group2 A         30
       B         40
"""

7. 索引的最佳实践

  1. 选择合适的索引类型:对于频繁查询的列,考虑设置为索引
  2. 避免链式索引:如df[condition]['column'],应使用df.loc[condition, 'column']
  3. 多层索引的合理使用:当数据有自然层次关系时使用
  4. 索引的性能考虑:索引可以加速查询,但会增加内存使用
# 不好的实践 - 链式索引
# df[df['Age'] > 30]['Name']  

# 好的实践
print(df.loc[df['Age'] > 30, 'Name'])
"""
c    Charlie
Name: Name, dtype: object
"""

8. 总结

Pandas提供了丰富多样的索引技术,从基础的列选择到复杂的多层索引操作:

  1. 基础索引 ([], .loc, .iloc) 适合简单的数据访问
  2. 布尔索引 提供了强大的条件筛选能力
  3. 多层索引 让高维数据的组织和分析变得更加直观和高效

掌握这些索引技术是成为Pandas高级用户的关键步骤。在实际应用中,应根据数据特点和分析需求选择合适的索引方式,并遵循最佳实践以获得更好的性能和可读性。

通过合理使用索引,我们可以更高效地处理和分析数据,为数据科学工作流打下坚实基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2340915.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【深度学习】#8 循环神经网络

主要参考学习资料: 《动手学深度学习》阿斯顿张 等 著 【动手学深度学习 PyTorch版】哔哩哔哩跟李牧学AI 为了进一步提高长线学习的效率,该系列从本章开始将舍弃原始教材的代码部分,专注于理论和思维的提炼,系列名也改为“深度学习…

Linux学习——UDP

编程的整体框架 bind:绑定服务器:TCP地址和端口号 receivefrom():阻塞等待客户端数据 sendto():指定服务器的IP地址和端口号,要发送的数据 无连接尽力传输,UDP:是不可靠传输 实时的音视频传输&#x…

leetcode205.同构字符串

两个哈希表存储字符的映射关系&#xff0c;如果前面字符的映射关系和后面的不一样则返回false class Solution {public boolean isIsomorphic(String s, String t) {if (s.length() ! t.length()) {return false;}int length s.length();Map<Character, Character> s2…

软考软件设计师考试情况与大纲概述

文章目录 **一、考试科目与形式****二、考试大纲与核心知识点****科目1&#xff1a;计算机与软件工程知识****科目2&#xff1a;软件设计** **三、备考建议****四、参考资料** 这是一个系列文章的开篇 本文对2025年软考软件设计师考试的大纲及核心内容进行了整理&#xff0c;并…

Redis—内存淘汰策略

记&#xff1a;全体LRU&#xff0c;ttl LRU&#xff0c;全体LFU&#xff0c;ttl LFU&#xff0c;全体随机&#xff0c;ttl随机&#xff0c;最快过期&#xff0c;不淘汰&#xff08;八种&#xff09; Redis 实现的是一种近似 LRU 算法&#xff0c;目的是为了更好的节约内存&…

Power BI企业运营分析——数据大屏搭建思路

Power BI企业运营分析——数据大屏搭建思路 欢迎来到Powerbi小课堂&#xff0c;在竞争激烈的市场环境中&#xff0c;企业运营分析平台成为提升竞争力的核心工具。 整合多源数据&#xff0c;实时监控关键指标&#xff0c;精准分析业务&#xff0c;快速识别问题机遇。其可视化看…

oracle将表字段逗号分隔的值进行拆分,并替换值

需求背景&#xff1a;需要源数据变动&#xff0c;需要对历史表已存的字段值根据源数据进行更新。如果是单字段存值&#xff0c;直接根据映射表关联修改即可。但字段里面若存的值是以逗号分割&#xff0c;比如旧值&#xff1a;‘old1,old2,old3’&#xff0c;要根据映射关系调整…

【重走C++学习之路】16、AVL树

目录 一、概念 二、AVL树的模拟实现 2.1 AVL树节点定义 2.2 AVL树的基本结构 2.3 AVL树的插入 1. 插入步骤 2. 调节平衡因子 3. 旋转处理 4. 开始插入 2.4 AVL树的查找 2.5 AVL树的删除 1. 删除步骤 2. 调节平衡因子 3. 旋转处理 4. 开始删除 结语 一、概念 …

597页PPT丨流程合集:流程梳理方法、流程现状分析,流程管理规范及应用,流程绩效的管理,流程实施与优化,流程责任人的角色认知等

流程梳理是通过系统化分析优化业务流程的管理方法&#xff0c;其核心包含四大步骤&#xff1a;①目标确认&#xff0c;明确业务痛点和改进方向&#xff1b;②现状分析&#xff0c;通过流程图、价值流图还原现有流程全貌&#xff0c;识别冗余环节和瓶颈节点&#xff1b;③优化设…

来啦,烫,查询达梦表占用空间

想象一下oracle&#xff0c;可以查dba_segments&#xff0c;但是这个不可靠&#xff08;达梦官方连说明书都没有&#xff09; 先拼接一个sql set lineshow off SELECT SELECT ||||OWNER|||| AS OWNER,||||TABLE_NAME|||| AS TABLE_NAME,TABLE_USED_SPACE(||||OWNER||||,||||T…

vue3:十一、主页面布局(修改左侧导航条的样式)

一、样式 1、初始样式 2、 左侧导航栏搭建完成样式 二、实现 1、设置左侧导航栏底色 (1)去掉顶部和左侧导航栏的底色 初始页面效果 顶部与左侧底色样式 将代码中与顶部与左侧的样式删掉 移除后页面效果 加入设定背景色 #f4f6f9 加入底色后颜色展示 (2)去除菜单项底色 初…

opencv(双线性插值原理)

双线性插值是一种图像缩放、旋转或平移时进行像素值估计的插值方法。当需要对图像进行变换时&#xff0c;特别是尺寸变化时&#xff0c;原始图像的某些像素坐标可能不再是新图像中的整数位置&#xff0c;这时就需要使用插值算法来确定这些非整数坐标的像素值。 双线性插值的工…

echarts模板化开发,简易版配置大屏组件-根据配置文件输出图形和模板(vue2+echarts5.0)

实现结果 项目结构 根据我的目录和代码 复制到项目中 echartsTemplate-echarts图形 pie实例 <template><div :id"echartsId"></div> </template> <script> export default {name: ,components: {},mixins: [],props: [echartsId,…

Qt项目——Tcp网络调试助手服务端与客户端

目录 前言结果预览工程文件源代码一、开发流程二、Tcp协议三、Socket四、Tcp服务器的关键流程五、Tcp客户端的关键流程六、Tcp服务端核心代码七、客户端核心代码总结 前言 这期要运用到计算机网络的知识&#xff0c;要搞清楚Tcp协议&#xff0c;学习QTcpServer &#xff0c;学…

4.21 从0开始配置spark-local模式

首先准备好安装包 然后使用命令解压 使用source /etc/profile命令让环境变量生效 输入命令 spark-submit --class org.apache.spark.examples.SparkPi --master local[2] /opt/module/spark-local/examples/jars/spark-examples_2.12-3.1.1.jar 10 即在spark运行了第一个程序…

chili3d调试笔记3 加入c++ 大模型对话方法 cmakelists精读

加入 #include <emscripten/bind.h> #include <emscripten/val.h> #include <nlohmann/json.hpp> 怎么加包 函数直接用emscripten::function&#xff0c;如&#xff1a; emscripten::function("send_to_llm", &send_to_llm); set (CMAKE_C…

go语言八股文

1.go语言的接口是怎么实现 接口&#xff08;interface&#xff09;是一种类型&#xff0c;它定义了一组方法的集合。任何类型只要实现了接口中定义的所有方法&#xff0c;就被认为实现了该接口。 代码的实现 package mainimport "fmt"// 定义接口 type Shape inte…

基于 DeepSeek大模型 开发AI应用的理论和实战书籍推荐,涵盖基础理论、模型架构、实战技巧及对比分析,并附表格总结

以下是基于 DeepSeek大模型 开发AI应用的理论和实战书籍推荐&#xff0c;涵盖基础理论、模型架构、实战技巧及对比分析&#xff0c;并附表格总结&#xff1a; 1. 推荐书籍及内容说明 (1) 《深度学习》&#xff08;Deep Learning&#xff09; 作者&#xff1a;Ian Goodfellow…

从数字化到智能化,百度 SRE 数智免疫系统的演进和实践

1. 为什么 SRE 需要数智免疫系统&#xff1f; 2022 年 10 月&#xff0c;在 Gartner 公布的 2023 年十大战略技术趋势中提到了「数字免疫系统」的概念&#xff0c;旨在通过结合数据驱动的一系列手段来提高系统的弹性和稳定性。 在过去 2 年的时间里&#xff0c;百度基于该…

ArcGIS及其组件抛出 -- “Sorry, this application cannot run under a Virtual Machine.“

产生背景&#xff1a; 使用的是“破解版本”或“被套壳过”的非官方 ArcGIS 版本 破解版本作者为了防止&#xff1a; 被研究破解方式 被自动化抓包/提权/逆向 被企业环境中部署多机使用 通常会加入**“虚拟化环境检测阻断运行”机制** 原因解释&#xff1a; 说明你当前运…