1. NumPy 数组 (numpy.ndarray
)
-
核心定位:科学计算的基础工具,处理数值多维数组。
-
特点:
-
高效数值运算:底层用 C 实现,适合数学计算(如矩阵乘法、傅里叶变换)。
-
内存连续存储:数据在内存中连续排列,优化计算速度。
-
维度灵活:支持从 0 维(标量)到 N 维数组。
-
-
典型场景:
-
数学计算(如线性代数、随机数生成)。
-
图像、音频等多维数据处理。
-
与其他库(如 Pandas、深度学习框架)交互的中间格式。
-
2. Pandas (DataFrame
/Series
)
-
核心定位:表格数据和时间序列处理,适合数据清洗、分析和统计。
-
特点:
-
表格结构:
DataFrame
是二维表格(行+列),Series
是单列数据。 -
标签索引:支持用列名(
columns
)和行索引(index
)快速定位数据。 -
缺失值处理:自动处理
NaN
(如填充、删除)。 -
时间序列支持:内置日期范围生成、重采样等功能。
-
-
典型场景:
-
数据清洗(如处理缺失值、去重)。
-
统计分析(如分组聚合、透视表)。
-
从 CSV/Excel 读取数据并预处理。
-
3. Tensor(PyTorch/TensorFlow 张量)
-
核心定位:深度学习框架中的多维数组,支持 GPU 加速和自动微分。
-
特点:
-
GPU 加速:可在 GPU 上运行,大幅提升计算速度。
-
自动微分:记录计算图,支持反向传播(如
tensor.backward()
)。 -
动态/静态计算图:PyTorch 支持动态图,TensorFlow 早期静态图,现也支持动态。
-
设备感知:数据可在 CPU 或 GPU 间迁移(如
tensor.to("cuda")
)。
-
-
典型场景:
-
构建和训练神经网络。
-
需要 GPU 加速的大规模数值计算。
-
实现自定义梯度下降或复杂模型。
-