AI——使用pandas

news2026/2/12 5:16:09

文章目录

1、pandas介绍
2、为什么使用pandas
3、pandas的数据结构
- 1、Series
- 2、DataFrame
- 3、MultiIndex
4、pandas基本数据操作
- 1、索引操作
- 2、赋值操作
- 3、排序
- 4、算术运算
- 5、逻辑运算
- 6、逻辑运算函数
- 7、统计函数
- 8、累计统计函数
- 9、自定义运算
5、pandas读取文件和存储
- 1、csv文件
- 2、HDF5
- 3、JSON
6、使用pandas连接数据库
- 1、安装sqlalchemy
- 2、使用read_sql()函数读取数据
7、pandas高级用法
- 1、缺失值处理
- 2、数据离散化
- 3、合并
- 4、交叉表和透视表
- 5、分组与聚合

需要使用的库

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

1、pandas介绍

专门用于数据挖掘的开源python库
以numpy为基础，借力numpy模块在计算方面性能高的优势
基于matplotlib，能够简便的画图
独特的数据结构

2、为什么使用pandas

Numpy已经能够帮助我们处理数据，能够结合matplotlib解决部分数据展示等问题，那么pandas学习的目的在什么地方呢？

增强图表可读性
便捷的数据处理能力

3、pandas的数据结构

pandas中一共有三种数据结构，分别为：Series、DataFrame和MultiIndex。
其中Series是一维数据结构，DataFrame是二维表格型数据结构，MultiIndex是三维的数据结构。

1、Series

Series是一个类似于一维数组的数据结构，它能够保存任何类型的数据，比如整数、字符串、浮点数等，主要由一组数据和与之相关的索引两部分构成。
在这里插入图片描述

在这里插入图片描述

2、DataFrame

在这里插入图片描述

3、MultiIndex

在这里插入图片描述

4、pandas基本数据操作

在这里插入图片描述

1、索引操作

在这里插入图片描述

2、赋值操作

在这里插入图片描述

3、排序

在这里插入图片描述

4、算术运算

在这里插入图片描述

5、逻辑运算

在这里插入图片描述

6、逻辑运算函数

在这里插入图片描述

7、统计函数

在这里插入图片描述

8、累计统计函数

在这里插入图片描述

9、自定义运算

在这里插入图片描述

5、pandas读取文件和存储

1、csv文件

在这里插入图片描述

1、读取csv文件方法
2、保存csv

2、HDF5

在这里插入图片描述

3、JSON

在这里插入图片描述

6、使用pandas连接数据库

1、安装sqlalchemy

在这里插入图片描述

2、使用read_sql()函数读取数据

在这里插入图片描述

7、pandas高级用法

1、缺失值处理

在这里插入图片描述

2、数据离散化

1、为什么要离散化
连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数，离散化方法经常作为数据挖掘的工具
2、什么是数据的离散化
连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。
离散化有很多种方法，这使用一种最简单的方式去操作
- 原始人的身高数据：165、174、160、180、159、163、192、184
- 假设我们按照身高分几个区间：150-165、165-180、180-195
  这样我们将数据分到三个区间段，我们可以对应的标记为矮、中、高三个类别，最终要处理成一个"哑变量"的矩阵