数据排布与跨距对齐

news2026/3/19 21:06:58

1 数据排布

1.1 数据排布的概念

在深度学习框架中，特征图通常以四维数组的形式呈现，这四个维度分别是：批量大小N，特征图通道数C，特征图高度H，特征图宽度W。数据排布（Layout）指的就是这四个维度的排列方式，通常有NHWC和NCHW两种。虽然在人的视角下，NHWC和NCHW都是四维数据，但对于计算机而言，数据的存储是线性的，因此四维的数据会以一维的形式保存， NHWC和NCHW的区别就在于四维数据在内存上的存储规则不同。需要注意的是，NHWC与NCHW的概念不适用于NV12（YUV420）数据类型，因为4个Y分量对应1组UV分量，因此没有通道的概念。

1.2 NHWC

在这里插入图片描述
对于一张2x2大小的RGB图像，若数据排布为NHWC，则在内存中会依次按照C、W、H、N的顺序储存，不同通道同一位置的像素会储存在一起，如下图所示：

1.3 NCHW

若2X2大小RGB图像的数据排布为NCHW，则在内存中会依次按照W、H、C、N的顺序储存，即先储存所有R，再储存所有G，最后储存所有B，如下图所示：

在这里插入图片描述

1.4 支持情况

PyTorch、Caffe和PaddlePaddle深度学习框架使用NCHW格式。TensorFlow默认使用NHWC，但GPU版本可以支持NCHW。对于地平线芯片算法工具链来说，NCHW与NHWC两种数据排布训练出来的模型，都可以正常转换、编译。

2 跨距对齐

2.1 跨距的概念

跨距（Stride）是指图像储存在内存中时，每一行所占空间的实际大小。计算机的处理器大都为32位或64位，因此处理器一次读取到的完整数据量最好为4字节或8字节的倍数，若为其他数值，则计算机需要进行专门处理，导致降低运行效率。为了能让计算机高效处理图像，通常会在原本数据的基础上，填充一些额外的数据以做到4字节或8字节对齐。对齐的操作又叫Padding，实际的对齐规则会取决于具体的软硬件系统。

在这里插入图片描述
假设我们有一张8位深的灰度图，高（Height）为20像素，宽（Width）为30像素，那么该图像每行的有效数据为30字节，如果计算机的对齐规则是8字节，那么对齐后图像的跨距为32字节，此时每行需要Padding的数据量为2字节

2.2 BPU的跨距对齐

上述内容只是对跨距规则的通用介绍，对于地平线征程、旭日系列芯片的BPU而言，有专门的跨距对齐规则。比如对于NV12输入，在满足H和W为偶数的前提下，要对Width按照16字节的倍数做对齐（可参考模型输入输出对齐规则解析 https://developer.horizon.ai/forumDetail/118364000835765837 ）。对于不同的数据排布和数据类型，BPU的跨距对齐有着不同的规则。图像数据的对齐在板端会由模型推理预测库自动完成（使用代码 input[i].properties.alignedShape = input[i].properties.validShape;），只需要在编写部署代码时，按照对齐后的字节大小分配BPU内存即可（featuremap数据的对齐依然需要用户编写代码完成，可参考OE包的horizon_runtime_sample/code/03_misc/resnet_featur）。对齐后的字节大小，通过读取模型参数可以直接获取，因此使用起来非常方便。

typedef struct {
  hbDNNTensorShape validShape;    // 数据的有效尺寸
  hbDNNTensorShape alignedShape;  // 数据的对齐尺寸
  int32_t tensorLayout;
  int32_t tensorType;
  hbDNNQuantiShift shift;
  hbDNNQuantiScale scale; 
  hbDNNQuantiType quantiType;
  int32_t quantizeAxis;
  int32_t alignedByteSize;        // 数据对齐后所占的字节大小
  int32_t stride[HB_DNN_TENSOR_MAX_DIMENSIONS];
} hbDNNTensorProperties;

工具链的C++SDK提供的结构体hbDNNTensorProperties包含有模型输入/输出张量的详细信息，validShape为数据的有效尺寸，alignedShape为对齐尺寸，alignedByteSize为对齐后所占的字节大小。这些数据使用得当可以让代码的编写更加高效，关于这部分内容的详细信息可以查看工具链手册的BPU SDK API章节。

2.3 去除对齐

对齐是为了照顾软硬件系统的图像读取性能，在完成计算任务后，需要去除对齐，只保留有效数据。若模型以BPU节点结尾，则会输出alignedShape的数据，需要用户编写代码将padding数据跳过（可使用hrt_model_exec model_info查看模型输入输出的alignedShape和validShape）。若模型尾部有CPU节点，则BPU与CPU在数据传输时会自动去除对齐，不需要用户手动操作。
在这里插入图片描述
尾部为BPU节点的模型，需要用户手动去除对齐数据