一、张量数据类型
张量维度 | 含义 |
---|---|
0维 | 标量 |
1维 | 向量 |
2维 | 矩阵 |
3维 | 时间序列数据 股价 文本数据 单张彩色图片(RGB) |
例如,一个图像可以用三个字段表示:
(width, height, channel) = 3D
但是,在机器学习工作中,我们经常要处理不止一张图片或一篇文档——我们要处理一个集合。我们可能有10,000张郁金香的图片,这意味着,我们将用到4D张量:
(batch_size, width, height, channel) = 4D
在PyTorch中, torch.Tensor
是存储和变换数据的主要工具。Tensor 和NumPy的多维数组非常类似,但Tensor 提供GPU计算和自动求梯度等更多功能,使其更加适合深度学习。
显然string类型在pytorch没有对应的,可以使用one-hot编码
[1,0]代表狗 [0,1]代表猫
但是这种方式对于具有大量唯一类别值的字符串数据,one-hot编码可能会导致非常高的维度,从而显著增加内存消耗和计算成本。这在处理大规模数据集时尤其成问题。
因此我们可以使用Embedding的Word2vec或glove方法,后面详解。
二、pytorch类间的数据类型
即使同一个数据,但是放在不同的位置,类型仍然可能是不一样的
详细
https://gitee.com/mingren1314/torch-basic-function