RKNPU2从入门到实践 --- 【10】RKNPU2零拷贝API实现RKNN模型在RK3588开发板上的部署

一、为什么叫零拷贝API？

二、零拷贝API执行流程（代码解读）

2.1 前奏工作

2.2 main.cc文件的编写（代码的编写）

2.2.1 第一步：rknn_init接口创建rknn_context对象、加载RKNN模型

2.2.2 第二步：调用rknn query接口查询获取到模型输入输出属性、推理时间、SDK版本等信息

2.2.3 第三步：调用rknn_create_mem接口申请内存

2.2.3.1 rknn_create_mem API介绍

2.2.3.2 实际代码编写

2.2.4 第四步：调用rknn_set_io_mem接口让NPU使用上一步申请的内存

2.2.4.1 rknn_set_io_mem API介绍

2.2.4.2 实际代码编写

2.2.5 第五步：调用rknn_run接口执行模型推理

2.2.6 第六步：对模型推理的输出数据进行后处理

2.2.7 第七步：调用rknn_destroy_mem毁rknn _tensor_mem结构体，释放用户分配的内存

2.2.7.1 rknn_destroy_mem API介绍

2.2.7.2 实际代码编写

编辑

2.2.8 第八步：调用rknn_destroy释放传入的rknn_context及其相关资源

2.2.9 最终代码

2.2.10 运行build.sh构建工程

2.2.11 在开发板上完成模型的测试

作者使用的开发平台是Ubuntu20.04虚拟系统，开发板为瑞芯微RK3588开发板，开发板上面的系统为Ubuntu22.04。

在上一篇博文【RKNPU2从入门到实践 ---- 【9】使用RKNPU2的C API接口将RKNN模型部署在RK3588开发板上-CSDN博客】中我们介绍了RKNPU2 SDK的通用API，而在这一篇博文中，我们要介绍RKNPU2 SDK的另一套API，即零拷贝API。两套API根据帧数据的更新方式来进行划分。

一、为什么叫零拷贝API？

为什么叫零拷贝API呢？首先，根据上一篇博文中的代码来回顾 通用API 如何获取帧数据。
首先通过opencv读取了要推理的图片数据，该图片数据保存在了img变量中，如下图所示：

然后，又将该图片数据拷贝到了rknn_input结构体变量buf当中，如下图所示：

在使用rknn_inputs_set设置输入数据时，又会将rknn_input结构体进行传入，最后保存到了context变量当中，如下图所示：

经过多次拷贝（上述操作）之后，才可以进行图片的推理工作。
以上就是通用API在获取帧数据时的方式，是不是感觉很麻烦呢？接下来我们先来看看零拷贝API使用流程图。流程图如下图所示：

和之前的通用API使用流程相比，少了数据输入设置（rknn_inputs_set接口）和获取输出数据（rknn_outputs_get接口）的相关步骤，多出了内存申请（rknn_create_mem接口）和内存使能（rknn_set_io_mem接口）相关的步骤。
使用opencv获取到图片数据之后，会直接将数据放在申请的内存之中，NPU可以直接对内存中的数据进行读取，而不再像通用API那样对数据进行多次拷贝，所以被称作零拷贝API。
我们使用代码来看看零拷贝API是如何获取帧数据的。

二、零拷贝API执行流程（代码解读）

2.1 前奏工作

新建本节内容目录 non_copy_learning ，将上一篇博文的项目文件夹（01_resnet18）中的内容复制过来，删掉build目录和install目录，最终 non_copy_learning 目录下的内容如下图所示：

将 CMakeLists.txt 文件中的项目名称由：

修改为：

打开main.cc文件，删掉里面的内容，我们从头开始编写代码。
至此，前奏工作已经完成。接下来我们就按照流程图一步一步编写代码。

2.2 main.cc文件的编写（代码的编写）

2.2.1 第一步：rknn_init接口创建rknn_context对象、加载RKNN模型

下面的代码使用了rknn_init接口创建rknn_context对象，加载RKNN模型。使用opencv读取推理测试图片的数据。

#include<stdio.h>
#include "rknn_api.h"
#include "opencv2/core/core.hpp"
#include "opencv2/imgcodecs.hpp"
#include "opencv2/imgproc.hpp"
#include<string.h> // 后面的memcpy函数的头文件
using namespace cv;

int main(int argc,char *argv[]){
  char *model_path = argv[1]; /*要加载的模型路径*/
  char *image_path = argv[2]; /*要推理的图片的路径*/

  rknn_context context; /*创建一个rknn_context类型的结构体变量*/
  rknn_init(&context,model_path,0,0,NULL); /*将RKNN模型的运行环境和相关信息赋予到context变量当中*/
  
  /*使用opencv读取推理测试图片*/
  cv::Mat img = cv::imread(image_path);
  cv::cvtColor(img,img,cv::COLOR_BGR2RGB);

  return 0;
}

2.2.2 第二步：调用rknn query接口查询获取到模型输入输出属性、推理时间、SDK版本等信息

由于我们现在不知道要查询什么信息，所以这块的内容暂且忽略。

2.2.3 第三步：调用rknn_create_mem接口申请内存

2.2.3.1 rknn_create_mem API介绍

当用户要 NPU 内部分配内存时，rknn_create_mem 函数可以创建一个 rknn_tensor_mem 结构体并得到它的指针，该函数通过传入内存大小，运行时会初始化 rknn_tensor_mem 结构体。

示例代码如下：

2.2.3.2 实际代码编写

在调用rknn_create_mem接口申请内存时，我们发现其函数中有一个参数size【分配内存的大小】我们并没有办法确认，因此这就需要使用到rknn_query接口查询输入输出的tensor属性，如下所示：

/*调用rknn_query接口查询输入输出tensor属性*/
  rknn_tensor_attr input_attr[1],output_attr[1]; /*input_attr，output_attr分别记录输入，输出tensor属性*/
  /*使用memset对这两个变量进行初始化*/
  memset(input_attr,0,sizeof(rknn_tensor_attr));
  memset(output_attr,0,sizeof(rknn_tensor_attr));

  rknn_query(context,RKNN_QUERY_INPUT_ATTR,input_attr,sizeof(input_attr));
  rknn_query(context,RKNN_QUERY_OUTPUT_ATTR,output_attr,sizeof(output_attr));

接下来，我们才可使用rknn_create_mem接口申请输入输出数据的内存，如下所示：

/*调用rknn_create_mem接口申请输入和输出数据内存*/
  rknn_tensor_mem *input_mem[1],*output_mem[1];
  input_mem[0] = rknn_create_mem(context,input_attr[0].size_with_stride);/*size_with_stride表示补齐了无效像素后，实际存储图像数据所占用的内存空间的大小*/
  output_mem[0] = rknn_create_mem(context,output_attr[0].n_elems*sizeof(float));/*n_elems表示输出数据的元素个数，输出数据所占内存为输出数据的元素个数n_elems乘每个元素所占的空间大小*/

至此，输入和输出数据的内存申请就完成了。
然后使用memcpy函数将要推理的数据加载到刚刚申请的内存中。代码如下所示：

  unsigned char *input_data = img.data;
  memcpy(input_mem[0]->virt_addr,input_data,input_attr[0].size_with_stride);
📌void * destination
第一个参数的类型是无类型指针(void*),它指向拷贝的目的地内存块,它的作用是为函数提供目的地的内存块起始地址,以便函数能够准确地将内容拷贝到我们需要的内存空间.
📌const void * source
第二个参数的类型是被const修饰(const修饰的指针,const在*左边表示指针指向的内容不可修改,const在*右边表示指针的指向不可修改)的无类型指针(void*),它指向拷贝数据的来源内存块,它的作用是为函数提供拷贝源头内存块起始地址,以便函数能够准确找到拷贝的源头进行拷贝.
📌size_t num
第三个参数的类型是size_t(无符号整形),它表示要拷贝数据的字节数,它的作用是告诉函数需要拷贝的字节数是多少,以便函数精准的拷贝该数目字节数空间的内容到目的地.
🎏函数返回值
函数的返回值类型是无类型指针(void*),它的作用是在函数运行结束后返回拷贝后的目的地内存块的起始地址.
🎏函数头文件
该函数包含在头文件<string.h>中.

                        
原文链接：https://blog.csdn.net/weixin_72357342/article/details/132104889

2.2.4 第四步：调用rknn_set_io_mem接口让NPU使用上一步申请的内存

2.2.4.1 rknn_set_io_mem API介绍

如果用户自己为网络输入/输出 tensor 分配内存，初始化相应的 rknn_tensor_mem 结构体后，在调用 rknn_run 前，通过 rknn_set_io_mem 函数可以让 NPU 使用该内存。

示例代码如下：

2.2.4.2 实际代码编写

  /*调用rknn_set_io_mem让NPU使用上面申请到的内存*/
  /*在使用该命令之前，还需要对输入数据和输出数据的tensor数据类型进行设置*/
  input_attr[0].type = RKNN_TENSOR_UINT8;
  output_attr[0].type = RKNN_TENSOR_FLOAT32;
  rknn_set_io_mem(context,input_mem[0],input_attr);
  rknn_set_io_mem(context,output_mem[0],output_attr);

2.2.5 第五步：调用rknn_run接口执行模型推理

模型推理完成之后，会将推理数据保存到输出数据内存中。

2.2.6 第六步：对模型推理的输出数据进行后处理

后处理代码如下所示：

static int rknn_GetTopN(float* pfProb, float* pfMaxProb, uint32_t* pMaxClass, uint32_t outputCount, uint32_t topNum)
{
  uint32_t i, j;
  uint32_t top_count = outputCount > topNum ? topNum : outputCount;

  for (i = 0; i < topNum; ++i) {
    pfMaxProb[i] = -FLT_MAX;
    pMaxClass[i] = -1;
  }

  for (j = 0; j < top_count; j++) {
    for (i = 0; i < outputCount; i++) {
      if ((i == *(pMaxClass + 0)) || (i == *(pMaxClass + 1)) || (i == *(pMaxClass + 2)) || (i == *(pMaxClass + 3)) ||
          (i == *(pMaxClass + 4))) {
        continue;
      }

      if (pfProb[i] > *(pfMaxProb + j)) {
        *(pfMaxProb + j) = pfProb[i];
        *(pMaxClass + j) = i;
      }
    }
  }

  return 1;
}



   // Get top 5
  uint32_t topNum = 5;
  uint32_t MaxClass[topNum];
  float    fMaxProb[topNum];
  float*   buffer    = (float*)output_mem[0]->virt_addr;
  uint32_t sz        = output_attr[0].n_elems;
  int      top_count = sz > topNum ? topNum : sz;

  rknn_GetTopN(buffer, fMaxProb, MaxClass, sz, topNum);

  printf("---- Top%d ----\n", top_count);
  for (int j = 0; j < top_count; j++) {
    printf("%8.6f - %d\n", fMaxProb[j], MaxClass[j]);
  }

将上述代码的两个部分分别放至如下位置，如下图所示：

2.2.7 第七步：调用rknn_destroy_mem毁rknn _tensor_mem结构体，释放用户分配的内存

2.2.7.1 rknn_destroy_mem API介绍

rknn_destroy_mem 函数会销毁 rknn_tensor_mem 结构体，用户分配的内存需要自行释放。

示例代码如下：

2.2.7.2 实际代码编写

2.2.8 第八步：调用rknn_destroy释放传入的rknn_context及其相关资源

2.2.9 最终代码

main.cc文件最终如下所示：

#include<stdio.h>
#include "rknn_api.h"
#include "opencv2/core/core.hpp"
#include "opencv2/imgcodecs.hpp"
#include "opencv2/imgproc.hpp"
#include "string.h"
using namespace cv;

  static int rknn_GetTopN(float* pfProb, float* pfMaxProb, uint32_t* pMaxClass, uint32_t outputCount, uint32_t topNum)
{
  uint32_t i, j;
  uint32_t top_count = outputCount > topNum ? topNum : outputCount;

  for (i = 0; i < topNum; ++i) {
    pfMaxProb[i] = -FLT_MAX;
    pMaxClass[i] = -1;
  }

  for (j = 0; j < top_count; j++) {
    for (i = 0; i < outputCount; i++) {
      if ((i == *(pMaxClass + 0)) || (i == *(pMaxClass + 1)) || (i == *(pMaxClass + 2)) || (i == *(pMaxClass + 3)) ||
          (i == *(pMaxClass + 4))) {
        continue;
      }

      if (pfProb[i] > *(pfMaxProb + j)) {
        *(pfMaxProb + j) = pfProb[i];
        *(pMaxClass + j) = i;
      }
    }
  }

  return 1;
}

int main(int argc,char *argv[]){
  char *model_path = argv[1]; /*要加载的模型路径*/
  char *image_path = argv[2]; /*要推理的图片的路径*/

  rknn_context context; /*创建一个rknn_context类型的结构体变量*/
  rknn_init(&context,model_path,0,0,NULL); /*将RKNN模型的运行环境和相关信息赋予到context变量当中*/
  
  /*使用opencv读取推理测试图片*/
  cv::Mat img = cv::imread(image_path);
  cv::cvtColor(img,img,cv::COLOR_BGR2RGB);

  /*调用rknn_query接口查询输入输出tensor属性*/
  rknn_tensor_attr input_attr[1],output_attr[1]; /*input_attr，output_attr分别记录输入，输出tensor属性*/
  /*使用memset对这两个变量进行初始化*/
  memset(input_attr,0,sizeof(rknn_tensor_attr));
  memset(output_attr,0,sizeof(rknn_tensor_attr));

  rknn_query(context,RKNN_QUERY_INPUT_ATTR,input_attr,sizeof(input_attr));
  rknn_query(context,RKNN_QUERY_OUTPUT_ATTR,output_attr,sizeof(output_attr));
  

  /*调用rknn_create_mem接口申请输入和输出数据内存*/
  rknn_tensor_mem *input_mem[1],*output_mem[1];
  input_mem[0] = rknn_create_mem(context,input_attr[0].size_with_stride);/*size_with_stride表示补齐了无效像素后，实际存储图像数据所占用的内存空间的大小*/
  output_mem[0] = rknn_create_mem(context,output_attr[0].n_elems*sizeof(float));/*n_elems表示输出数据的元素个数，输出数据所占内存为输出数据的元素个数n_elems乘每个元素所占的空间大小*/

  /**/
  unsigned char *input_data = img.data;
  memcpy(input_mem[0]->virt_addr,input_data,input_attr[0].size_with_stride);
  

  /*调用rknn_set_io_mem让NPU使用上面申请到的内存*/
  /*在使用该命令之前，还需要对输入数据和输出数据的tensor数据类型进行设置*/
  input_attr[0].type = RKNN_TENSOR_UINT8;
  output_attr[0].type = RKNN_TENSOR_FLOAT32;
  rknn_set_io_mem(context,input_mem[0],input_attr);
  rknn_set_io_mem(context,output_mem[0],output_attr);
   
  /*调用rknn_run接口进行模型推理*/
  rknn_run(context,NULL);

  /*后处理操作*/
   // Get top 5
  uint32_t topNum = 5;
  uint32_t MaxClass[topNum];
  float    fMaxProb[topNum];
  float*   buffer    = (float*)output_mem[0]->virt_addr;
  uint32_t sz        = output_attr[0].n_elems;
  int      top_count = sz > topNum ? topNum : sz;

  rknn_GetTopN(buffer, fMaxProb, MaxClass, sz, topNum);

  printf("---- Top%d ----\n", top_count);
  for (int j = 0; j < top_count; j++) {
    printf("%8.6f - %d\n", fMaxProb[j], MaxClass[j]);
  }


  /*调用rknn_destroy_mem接口销毁申请的内存*/
  rknn_destroy_mem(context,input_mem[0]); // 销毁输入数据内存
  rknn_destroy_mem(context,output_mem[0]); // 销毁输出数据内存

  /*调用rknn_destory销毁context对象*/
  rknn_destroy(context);

  return 0;
}

2.2.10 运行build.sh构建工程

项目文件夹中多出了build目录和install目录，将install目录拷贝到开发板系统根目录上，如下图所示，这跟上一篇博文中提到的操作流程一至，在这里就不过多赘述了。

2.2.11 在开发板上完成模型的测试

使用 adb shell 命令切换至开发板终端，如下图所示：

在开发板上打开install目录，如下图所示：

进入 non_copy_Linux中，如下图所示：

通过 ./non_copy 运行模型，如下图所示：

得到运行结果：

推理测试成功。
至此，使用零拷贝API编写的RKNPU2推理程序也就测试完成了！！