【2023 · CANN训练营第一季】进阶班 应用开发深入讲解→模型推理

news2025/1/10 1:37:11

1 模型离线推理

各步要解析如下:

  • Host&Device内存管理与数据传输: Host&Device上的内存申请与释放,内存间的相互拷贝;
  • 模型加载:将离线的om文件加载到Device上;在样例的资源初始化模块中进行。
  • 模型输入输出准备∶根据禹线om的输入输出,在Device上申请好模型的输入输出内存;在样例的资源初始化模炔中进行。
  • 执行推理:当模型的输入内存获取到有效数据后,便可以调用AscendCL接口执行模型推理,推理完成后结果生成到输出内存中;在样例的模型推理模块中进行。
  • 输出解析︰使用AscendCL接口,将模型输出数据从特定格式中解析出来;在输出数据处理模块中进行。下面将按步要进行说明。

2 Host&Device内存管理与数据传输

代码中加载输入数据时,需要申请Host内存进行存储,当输入数据处理完毕后,需要将处理完成的数据从Host内存拷贝到Device的模型输入内存中。以便于Device进行模型推理的专用计算。
以上就是Host&Device内存管理与数据传输的典型场景。对于Host&Device内存管理与数据传输来说,实际上就是:

  • Host内存管理: Host侧内存申请与释放
  • Device内存管理:Device侧内存串请与释放
  • Host&Device数据传输: Host和Device上的内存拷贝
    内存管理中其它功能:
  • 内存初始化:对申请出来的Host或Device内存进行初始
    化。
  • Device内存查询:查询Deivce上有多少内存。

image.png

2.1 Host侧内存申请与释放

Host侧内存申请与释放接口的使用方式比较简单。函数原型如下:

aclError aclrtMallocHost(oid**hostPtr, size_t size);acError aclrtFreeHost(void*hostPtr);

其中aclrtMallocHost是内存申请接口。aclrtFreeHost是其对应的释放接口;调用伪代码如下

void *hostlnput = nullptr;
int64_t size_input = 256;
ret = aclrtMallocHost(8hostlnput, size_input);if (hostlnput I= nullptr){
ret = aclrtFreeHost(hostlnput);
}

注意:Host&Device申请和释放的配套关系类似1.acirtMalloc和aclrtFree要成对出现。
2.用aclrtMalloc申请出来的内存高要对齐。
内存大小向上对齐成32整数倍+32字节(m=ALIGN_UPlen,32]+32字节);
内存起始地址高满足64字节对齐(AilGN_UP[m,64])。

2.2 Device侧内存申请与释放

Device侧内存申语与释放接口和Host侧的很相似,函数原型如下:


aclError aclrtMalloclvoid **dePtr, size_t size,aclrtMemMallocPolicy policy);
aclError aclrtFreelvoid *devPtr);

申请内存的接口多了个参数: policy,指明申请内存的策略。当前一共有三种策略可选:

  • ACL MEM MALLOC HUGE FIRST:当申请内存小于等于1M申请普通页内存。当申请内存大于1M时,优先申请天页内存,如果不够。则使用普通内存
  • AcL MEM_MALLOC_HUGE_ONLY:仅申请大页,如果大页内存不够,则返回
    错误
  • ACL MEM MALLOC_NORMAL ONLY:仅申请普通页

void*devlnput = nullptr;
size_input -256;
ret = aclrtMalloc(BdevInput size_input,ACL_MEM_MALLOC_HUGE_FIRST5;if (devlnput != nullptr){
ret = aclrtFree(devInput);}

2.3 内存初始化

刚申请出来的内存,里边的数据是随机的,有时需要对其进行统—的初始化,此时可以使用这个接口:
aclError aclrtMemset(void *devPtr, size_t maxCount, int32_tvalue, size_t count);
其参数如下所示:

  • devPtr: Host/Device上的内存的起始地址,系统会根据地址自动判断内存位置- maxCount:内存的是大长度,单位byte
  • value:设置的值需要设置为指定值的内存长度,单位Byte内存初始化的伪码如下:
void *devlnput = nullptr;size_input = 256;
ret =aclrtMalloc(&devInput, size_input,ACL_MEM_MALLOC_HUGE_FIRST;
ret = aclrtMemset(devlnput,size_input,,1,size_input);ret = aclrtMallocHost(&hostinput, size_input); 
aclrtMemcpy(devlnput size_input, hostlnput, size_input,ACL_MEMCPY_HoST_TO_DevIcE);
ret =aclrtFreeHost(hostlnput);ret = aclrtFree(devlnput);
...
ret = aclrtMalloc(BdevInput size_input,ACL_MEM_MALLOC_HUGE_FIRST5;if (devlnput != nullptr){
ret = aclrtFree(devInput);}

2.4 数据传输

数据传输所使用的内存拷贝函数原型如下:

aclError aclrtMemcpy(void *dst, size_t destMax,const void *src, size_t count, aclrtMemcpyKindkind);

其参数如下所示;. dst:目的地址
. destMax:目的内存地址的最大内存长度,单位Byte. src:源地址
. count:内存复制的长度,单位Byte

  • kind:内存复制的类型,预留参数,配置枚举值中的值无效。系统内部会根据源内存地址指针、目的内存地址指针判断是否可以将源地址的数据复制到目的地址,如果不可以,则系统会返回报错。
    其中的关键为kind参数,这里的kind实际上是一组枚举值,枚举定义如下所示:

typedef enum aclrtMemcpyKind {
ACL_MEMCPY_HOST_To_HosT,i/ Host -> HostACL_MEMCPY_HOST_TO_DEVICE,// Host -> DeviceACL_MEMCPY_DEVlCE_TO_HOST,// Device -> HostACL_MEMCPY_DEVICE_TO_DEVICE,// Device -> Device} aclrtMemcpyKind;
aclrtMemcpy(devlnput size_input, hostlnput, size_input,ACL_MEMCPY_HoST_TO_DevIcE);
ret =aclrtFreeHost(hostlnput);ret = aclrtFree(devlnput);
...
ret = aclrtMalloc(BdevInput size_input,ACL_MEM_MALLOC_HUGE_FIRST5;if (devlnput != nullptr){
ret = aclrtFree(devInput);}

2.5 Device内存查询

程序运行过程中,如何实时获取Device上有多少内存,以及多少可用内存呢?那不妨试试下面这个接口

aclError aclrtGetMemInfo(aclrtMemAttr attr, size_t *free, size_t *total)

其中的attr参数指的是内存的类型,枚举定义如下所示:

typedef enum aclrtMemAttr {
ACL_DDR_MEM,//DDR内存,DDR上所有大页内存+普通内存ACL_HBM_MEM,/ /HBM内存,HBM上所有大页内存+普通内存ACL_DDR_MEM_HUGE,//DDR大页内存
AcL_DDR_MEM_NORMAL.1/DDR普通内存ACL_HBM_MEM_HUGE,//HBM大页内存ACL_HBM_MEM_NORMAL, //HBM普通内存
ACL_DDR_MEM_P2P_HUGE.//DDR中用于Device间数据复制的大页内存ACL_DDR_MEM_P2P_NORMAL//DDR中用于Device间数据复制的普通内存ACL_HBM_MEM_P2P_HUGE,//HBM中用于Device间数据复制的大页内存ACL_HBM_MEM_P2p_NORMAL.//HBM中用于Device间数据复制的普通内存
}aclrtMemAttr;

这里提到了DDR和HBM,在这里,只需要知道Ascend910芯片中有HBM内存,在内存申请时会优先使用,使用完毕后再使用DDR内存;而Ascend310芯片中只有DDR内存。所以调用时,只需要根据自己的场景查询所有内存即可。

3 模型加载

模型加载支持多种加载方式,由用户根据需求选择从om模型文件或内存加载模型数据.选择由用户自行管理内存或由AscendCL管理内存。而不管用哪种接口,最终卸载时接口都是统一的。
image.png

4 模型输入输出准备

在调用AscendCL接口进行模型推理时,模型推理有输入、输出数据,输入、输出数据需要按照AscendCL规定的数据类型存放。相关数据类型如下:
image.png

  • 使用aclmdlDesc类型的数据描述模型基本信息,例如输入/输出的个数、数据类型、Format、维度信息等。
  • 使用acIDataBuffer类型的数据来描述每个输入/输出的内存地址、内存大小。
  • 使用aclmdIDataset类型的数据描述模型的输入、输出数据集。

5 执行推理并获取输出数据

准备好模型执行所需的输入、输出数据类型后,存放好模型执行的输入数据后,可以执行模型推理了。当前AscendCL支持同步模型执行、异步模型执行两种方式,这里说的同步、异步是站在调用者和执行者的角度。

  • 若调用模型执行的接口后需等待推理完成再返回,则表示同步的。当用户调用同步模型执行接口后,可直接从该接口的输出参数中获取模型执行的结果数据。接口调用逻辑简单。
  • 若调用模型执行的接口后不等待推理完成完成再返回,则表示异步的。异步模型执行时,AscendCL提供了Callback机利,在指定时间内一旦有推理的结果数据,就触发回调函数藐取推理结果,提高处理效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/552834.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序富文本组件mp-html

功能介绍 支持在多个主流的小程序平台和 uni-app 中使用支持丰富的标签(包括 table、video、svg 等)支持丰富的事件效果(自动预览图片、链接处理等)支持设置占位图(加载中、出错时、预览时)支持锚点跳转、…

【Linux】在Linux操作系统下对于权限的理解

目录 ❤️前言 正文 Linux下的不同用户 Linux的权限管理 文件访问者的分类 文件类型和访问权限 文件访问权限的修改方法 默认权限 目录权限 粘滞位 🍀结语 ❤️前言 大家好!今天这篇文章主要是关于Linux操作系统下对于各种权限的理解问题&#…

AI人工智能预处理数据的方法和技术有哪些?

AI人工智能 预处理数据 在人工智能(Artificial Intelligence,简称AI)领域中,数据预处理是非常重要的一环。它是在将数据输入到模型之前对数据进行处理和清洗的过程。数据预处理可以提高模型的准确性、可靠性和可解释性。 本文将…

Springboot +spring security,基于多种方式配置登录用户:memory、jdbc、MyBatis

一.简介 前面章节所有的用户信息(用户名和密码)都是基于配置文件配置的,这篇文章学习基于多种方式配置登录用户,比如: memory(内存)jdbcMyBatis 二.创建项目 如何创建一个SpringSecurity项目,前面文章已…

Python入门【序列、列表简介、列表的创建 、列表元素的增加、列表元素的删除 】(四)-全面详解(学习总结---从入门到深化)

👏作者简介:大家好,我是爱敲代码的小王,CSDN博客博主,Python小白 📕系列专栏:python入门到实战、Python爬虫开发、Python办公自动化、Python数据分析、Python前后端开发 📧如果文章知识点有错误…

微服务架构初探

大家好,我是易安!我们今天来谈一谈微服务架构的前世今生。 我们先来看看维基百科是如何定义微服务的。微服务的概念最早是在2014年由Martin Fowler和James Lewis共同提出,他们定义了微服务是由单一应用程序构成的小服务,拥有自己的…

chatgpt赋能Python-pythonfalse

PythonFalse: Python中的False值 在Python编程语言中,布尔(Boolean)是一种基本数据类型,它只有两个值:True和False。这篇文章将讨论Python中的False值,并提供有关如何使用它的指南。 什么是PythonFalse PythonFalse…

chatgpt赋能Python-pythongil

Python GIL(全局解释器锁)介绍 Python GIL 是全局解释器锁(Global Interpreter Lock)的简称,它是 Python 解释器中的一个重要概念。GIL 的作用是确保任何时间只有一个线程在执行 Python 指令,以防止多个线…

jsonmodels.model.base

欢迎来到猫子酱的学习之旅 jsonmodels.model创建模型用法验证 validate()验证器 Validators自定义验证器(**)默认值转换为Python结构(和JSON)为您的模型创建JSON模式(***) (结合Draft7Validator)结构和对象…

蓝桥杯单片机串口通信学习提升笔记

今日得以继续蓝桥杯国赛备赛之旅: 有道是 “不知何事萦怀抱,醒也无聊,醉也无聊,梦也何曾到谢桥。” 那我们该如何 让这位诗人纳兰 “再听乐府曲 ,畅解相思苦”呢? 那就建立起串口通信吧! 我…

论文阅读_音频表示_W2V-BERT

信息 number headings: auto, first-level 2, max 4, _.1.1 name_en: w2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training name_ch: W2V-BERT:结合对比学习和Mask语言建模进行自监督语音预训练 pape…

Redis实现全局唯一Id

Redis实现全局唯一Id 全局唯一Id简介二、Redis实现全局唯一Id实践2.1添加RedisIdWorker配置类2.2测试类 全局唯一Id简介 系统当中有些场景如果使用数据库自增ID就存在一些问题: id的规律性太明显受单表数据量的限制 场景分析:如果我们的id具有太明显的…

基于UDP和TCP套接字实现简单的回显客户端服务器程序

目录 1. 套接字 2. 基于UDP 套接字实现的简单客户端 服务器程序 3. 基于TCP套接字实现的简单客户端 服务器程序 1. 套接字 之前我们有分享到协议分层这个概念,其中就讲到上层协议调用下层协议,下层协议给上层协议提供支持,这里支持指的是就是socket套接字,它是操作系统给应用…

宁波市天一杯 --- Crypto wp

文章目录 secretrsa secret 题目: p134261118796789547851478407090640074022214132682000430136383795981942884853000826171189906102866323044078348933419038543719361923320694974970600426450755845839235949167391987970330836004768360774676424958554946…

坦克大战进阶--发射子弹

坦克大战进阶–发射子弹 1. 坦克大战0.3 1.1 分析 利用线程基础的知识,把坦克大战再次进阶一下:当我们按下J键,坦克就能够发射一颗子弹。 1.2 思路 当发射一颗子弹后,就相当于启动一个线程Mytank 有子弹的对象,当…

MSP432笔记5——外部中断

所用单片机型号:MSP432P401r 今日继续我的MSP432电赛速通之路。 外部中断是个很有用的配置 STM32几乎每个I/O口都能配置复用为外部中断 但MSP432并不是这样。 我经过查阅数据手册发现支持中断的引脚为: P1^0~ P1^7 P3^0~ P3^7 P5^0~ P5^…

Gateway服务网关入门

Gateway服务网关 Spring Cloud Gateway 是 Spring Cloud 的一个全新项目,该项目是基于 Spring 5.0,Spring Boot 2.0 和 Project Reactor 等响应式编程和事件流技术开发的网关,它旨在为微服务架构提供一种简单有效的统一的 API 路由管理方式。…

【网络字节序】

网络字节序 我们已经知道,内存中的多字节数据相对于内存地址有大端和小端之分,磁盘文件中的多字节数据相对于文件中的偏移地址也有大端小端之分。网络数据流同样有大端小端之分,那么如何定义网络数据流的地址呢?发送主机通常将发送…

【C++】21年精通C++之泛型编程和模板初阶知识

❤️前言 大家好!今天和大家一起学习关于C泛型编程和模板初阶的相关知识。 正文 我们之前已经学习了C中非常重要的一个特性——函数重载,函数重载很好地提高了我们代码的可读性。但是对于适配多种参数的某种函数来说,我们如果使用函数重载就…

感知程序从ros切换到cyber_rt框架下,pcl相关问题

1.在ubuntu20.04下,原感知程序需要的是pcl1.8.1,车上其他程序使用的是pcl.1.10.0或者pcl1.10.0,在编译pcl1.10.0时会编译通不过,而pcl1.10.1可以顺利编译通过,安装pcl1.8.1时遇到的问题可能如下,及对应的修…