【CANN训练营0基础赢满分秘籍】应用开发深入讲解→模型推理

news2025/1/15 18:14:53

1 模型离线推理

各步要解析如下:

  • Host&Device内存管理与数据传输: Host&Device上的内存申请与释放,内存间的相互拷贝;
  • 模型加载:将离线的om文件加载到Device上;在样例的资源初始化模块中进行。
  • 模型输入输出准备∶根据禹线om的输入输出,在Device上申请好模型的输入输出内存;在样例的资源初始化模炔中进行。
  • 执行推理:当模型的输入内存获取到有效数据后,便可以调用AscendCL接口执行模型推理,推理完成后结果生成到输出内存中;在样例的模型推理模块中进行。
  • 输出解析︰使用AscendCL接口,将模型输出数据从特定格式中解析出来;在输出数据处理模块中进行。下面将按步要进行说明。

2 Host&Device内存管理与数据传输

代码中加载输入数据时,需要申请Host内存进行存储,当输入数据处理完毕后,需要将处理完成的数据从Host内存拷贝到Device的模型输入内存中。以便于Device进行模型推理的专用计算。
以上就是Host&Device内存管理与数据传输的典型场景。对于Host&Device内存管理与数据传输来说,实际上就是:

  • Host内存管理: Host侧内存申请与释放
  • Device内存管理:Device侧内存串请与释放
  • Host&Device数据传输: Host和Device上的内存拷贝
    内存管理中其它功能:
  • 内存初始化:对申请出来的Host或Device内存进行初始
    化。
  • Device内存查询:查询Deivce上有多少内存。

image.png

2.1 Host侧内存申请与释放

Host侧内存申请与释放接口的使用方式比较简单。函数原型如下:

aclError aclrtMallocHost(oid**hostPtr, size_t size);acError aclrtFreeHost(void*hostPtr);

其中aclrtMallocHost是内存申请接口。aclrtFreeHost是其对应的释放接口;调用伪代码如下

void *hostlnput = nullptr;
int64_t size_input = 256;
ret = aclrtMallocHost(8hostlnput, size_input);if (hostlnput I= nullptr){
ret = aclrtFreeHost(hostlnput);
}

注意:Host&Device申请和释放的配套关系类似1.acirtMalloc和aclrtFree要成对出现。
2.用aclrtMalloc申请出来的内存高要对齐。
内存大小向上对齐成32整数倍+32字节(m=ALIGN_UPlen,32]+32字节);
内存起始地址高满足64字节对齐(AilGN_UP[m,64])。

2.2 Device侧内存申请与释放

Device侧内存申语与释放接口和Host侧的很相似,函数原型如下:


aclError aclrtMalloclvoid **dePtr, size_t size,aclrtMemMallocPolicy policy);
aclError aclrtFreelvoid *devPtr);

申请内存的接口多了个参数: policy,指明申请内存的策略。当前一共有三种策略可选:

  • ACL MEM MALLOC HUGE FIRST:当申请内存小于等于1M申请普通页内存。当申请内存大于1M时,优先申请天页内存,如果不够。则使用普通内存
  • AcL MEM_MALLOC_HUGE_ONLY:仅申请大页,如果大页内存不够,则返回
    错误
  • ACL MEM MALLOC_NORMAL ONLY:仅申请普通页

void*devlnput = nullptr;
size_input -256;
ret = aclrtMalloc(BdevInput size_input,ACL_MEM_MALLOC_HUGE_FIRST5;if (devlnput != nullptr){
ret = aclrtFree(devInput);}

2.3 内存初始化

刚申请出来的内存,里边的数据是随机的,有时需要对其进行统—的初始化,此时可以使用这个接口:
aclError aclrtMemset(void *devPtr, size_t maxCount, int32_tvalue, size_t count);
其参数如下所示:

  • devPtr: Host/Device上的内存的起始地址,系统会根据地址自动判断内存位置- maxCount:内存的是大长度,单位byte
  • value:设置的值需要设置为指定值的内存长度,单位Byte内存初始化的伪码如下:
void *devlnput = nullptr;size_input = 256;
ret =aclrtMalloc(&devInput, size_input,ACL_MEM_MALLOC_HUGE_FIRST;
ret = aclrtMemset(devlnput,size_input,,1,size_input);ret = aclrtMallocHost(&hostinput, size_input); 
aclrtMemcpy(devlnput size_input, hostlnput, size_input,ACL_MEMCPY_HoST_TO_DevIcE);
ret =aclrtFreeHost(hostlnput);ret = aclrtFree(devlnput);
...
ret = aclrtMalloc(BdevInput size_input,ACL_MEM_MALLOC_HUGE_FIRST5;if (devlnput != nullptr){
ret = aclrtFree(devInput);}

2.4 数据传输

数据传输所使用的内存拷贝函数原型如下:

aclError aclrtMemcpy(void *dst, size_t destMax,const void *src, size_t count, aclrtMemcpyKindkind);

其参数如下所示;. dst:目的地址
. destMax:目的内存地址的最大内存长度,单位Byte. src:源地址
. count:内存复制的长度,单位Byte

  • kind:内存复制的类型,预留参数,配置枚举值中的值无效。系统内部会根据源内存地址指针、目的内存地址指针判断是否可以将源地址的数据复制到目的地址,如果不可以,则系统会返回报错。
    其中的关键为kind参数,这里的kind实际上是一组枚举值,枚举定义如下所示:

typedef enum aclrtMemcpyKind {
ACL_MEMCPY_HOST_To_HosT,i/ Host -> HostACL_MEMCPY_HOST_TO_DEVICE,// Host -> DeviceACL_MEMCPY_DEVlCE_TO_HOST,// Device -> HostACL_MEMCPY_DEVICE_TO_DEVICE,// Device -> Device} aclrtMemcpyKind;
aclrtMemcpy(devlnput size_input, hostlnput, size_input,ACL_MEMCPY_HoST_TO_DevIcE);
ret =aclrtFreeHost(hostlnput);ret = aclrtFree(devlnput);
...
ret = aclrtMalloc(BdevInput size_input,ACL_MEM_MALLOC_HUGE_FIRST5;if (devlnput != nullptr){
ret = aclrtFree(devInput);}

2.5 Device内存查询

程序运行过程中,如何实时获取Device上有多少内存,以及多少可用内存呢?那不妨试试下面这个接口

aclError aclrtGetMemInfo(aclrtMemAttr attr, size_t *free, size_t *total)

其中的attr参数指的是内存的类型,枚举定义如下所示:

typedef enum aclrtMemAttr {
ACL_DDR_MEM,//DDR内存,DDR上所有大页内存+普通内存ACL_HBM_MEM,/ /HBM内存,HBM上所有大页内存+普通内存ACL_DDR_MEM_HUGE,//DDR大页内存
AcL_DDR_MEM_NORMAL.1/DDR普通内存ACL_HBM_MEM_HUGE,//HBM大页内存ACL_HBM_MEM_NORMAL, //HBM普通内存
ACL_DDR_MEM_P2P_HUGE.//DDR中用于Device间数据复制的大页内存ACL_DDR_MEM_P2P_NORMAL//DDR中用于Device间数据复制的普通内存ACL_HBM_MEM_P2P_HUGE,//HBM中用于Device间数据复制的大页内存ACL_HBM_MEM_P2p_NORMAL.//HBM中用于Device间数据复制的普通内存
}aclrtMemAttr;

这里提到了DDR和HBM,在这里,只需要知道Ascend910芯片中有HBM内存,在内存申请时会优先使用,使用完毕后再使用DDR内存;而Ascend310芯片中只有DDR内存。所以调用时,只需要根据自己的场景查询所有内存即可。

3 模型加载

模型加载支持多种加载方式,由用户根据需求选择从om模型文件或内存加载模型数据.选择由用户自行管理内存或由AscendCL管理内存。而不管用哪种接口,最终卸载时接口都是统一的。
image.png

4 模型输入输出准备

在调用AscendCL接口进行模型推理时,模型推理有输入、输出数据,输入、输出数据需要按照AscendCL规定的数据类型存放。相关数据类型如下:
image.png

  • 使用aclmdlDesc类型的数据描述模型基本信息,例如输入/输出的个数、数据类型、Format、维度信息等。
  • 使用acIDataBuffer类型的数据来描述每个输入/输出的内存地址、内存大小。
  • 使用aclmdIDataset类型的数据描述模型的输入、输出数据集。

5 执行推理并获取输出数据

准备好模型执行所需的输入、输出数据类型后,存放好模型执行的输入数据后,可以执行模型推理了。当前AscendCL支持同步模型执行、异步模型执行两种方式,这里说的同步、异步是站在调用者和执行者的角度。

  • 若调用模型执行的接口后需等待推理完成再返回,则表示同步的。当用户调用同步模型执行接口后,可直接从该接口的输出参数中获取模型执行的结果数据。接口调用逻辑简单。
  • 若调用模型执行的接口后不等待推理完成完成再返回,则表示异步的。异步模型执行时,AscendCL提供了Callback机利,在指定时间内一旦有推理的结果数据,就触发回调函数藐取推理结果,提高处理效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/557689.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【记者团】社团管理手册

志愿时长🎁:团内有时会有志愿服务等活动,志愿时长可以找自己班长或班上负责人统计,记者团孙老师会和团委老师对接,团委会记录志愿时长。 志愿时长用于校级奖学金、班级奖学金、校评优评先、青马班面试(青马对入党有帮助…

大数据应用——Hive操作示例

启动Hive完成如下任务: (1)新建member表(2)将本地文件“/home/hadoop/member.txt”导入 member表中 (3)查询member表中所有记录 (4)查询member表中男同学(性别值为1)数…

炸金花底层模拟

一.说明 经常刷视频,看到一个有意思的项目,非常适合练手,今天这里我们实现炸金花的底层模拟。 二.游戏规则 1.一副扑克牌去掉大小王,剩下52张牌2.参与游戏的玩家每人发三张牌3.比较每个人手中牌的大小4.若三张牌相同&#xff0…

【工具】vscode的常用插件之注释插件

🐚作者简介:花神庙码农(专注于Linux、WLAN、TCP/IP、Python等技术方向)🐳博客主页:花神庙码农 ,地址:https://blog.csdn.net/qxhgd🌐系列专栏:善假于物&#…

CyberLink的视频编辑软件PowerDirector Ultimate 21.4版本在win10系统的下载与安装配置教程

目录 前言一、PowerDirector Ultimate安装二、使用配置总结 前言 PowerDirector Ultimate是由CyberLink公司开发的一款视频编辑软件,其为高级版本,拥有多种强大的视频编辑和效果功能。该软件具有许多强大的功能和工具,包括多轨时间线编辑、视…

CBLUE_中文生物医学语言理解评估基准_源码详解

CBLUE_中文生物医学语言理解评估基准_源码详解 源码链接:https://github.com/CBLUEbenchmark/CBLUE 项目中包括八个不同的中文医学NLP任务:1.中文医学命名实体识别(CMeEE)、2.中文医学文本实体关系抽取(CMeIE&#xf…

英国 VM600 CPUR2 机架控制器和通信接口卡

英国 VM600 CPUR2 机架控制器和通信接口卡VM600 CPUR2/IOCR2机架控制器和通信接口卡对,支持Modbus TCP和PROFIBUS DP使用以太网连接到运行VM600 MPSx和VibroSight软件的计算机,对VM600机架中的保护卡(MPC4)进行“一次性”配置管理对通过现场总线共享的数…

基于 Python 长时间序列遥感数据处理及在全球变化、物候提取、植被变绿与固碳分析、生物量估算与趋势分析等领域中的应用

植被是陆地生态系统中最重要的组分之一,也是对气候变化最敏感的组分,其在全球变化过程中起着重要作用,能够指示自然环境中的大气、水、土壤等成分的变化,其年际和季节性变化可以作为地球气候变化的重要指标。此外,由于…

【CANN训练营0基础赢满分秘籍】 应用开发深入讲解→端到端案例

1 样例调试 1.1 日志文件 运行应用程序后,若出现报错或异常,需录取日志进一步定位问题。日志文件的默认目录为$HOME/ascend/log。 可通过环境变量指定日志文件的落盘路径 export ASCEND_PROCESS_LOG_PATH/$HOME/xxx但需要确保该目录为任意有读写权限…

文档图像智能分析与处理:CCIG技术论坛的思考与展望

文档图像智能分析与处理:CCIG技术论坛的思考与展望 文档识别与理解的发展趋势视觉-语言预训练模型在文档处理中的应用篡改文本图像的生成与检测的研究进展华为云OCR技术的进展与行业实践智能文档处理技术的应用与挑战文档图像预处理的整体架构弯曲矫正摩尔纹去除版面…

【Linux】普通用户无法使用sudo指令的方法

​ ​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:Linux 🎯长路漫漫浩浩,万事皆有期待 上一篇博客:【Linux】…

计算机视觉的应用6-利用VGG模型做毕加索风格图像迁移

大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用5-利用VGG模型做毕加索风格图像迁移,本文将利用VGG模型实现毕加索风格图像迁移的方法。首先,我们将简要说明图像风格迁移的原理,然后使用PyTorch框架&#xff0c…

chatgpt赋能Python-python_fig

Python中的fig:简介和应用 什么是fig? fig是Python中一个高效且易用的图形库,它支持大量的图像绘制功能,包括2D图形绘制、曲线和图像处理,以及3D图形和动画绘制等应用。fig可以在多个平台上运行,包括Wind…

客户体验|审美体验与体验管理

Guofu 第 93⭐️ 篇原创文章分享 (点击👆🏻上方卡片关注我,加⭐️星标⭐️~) 🚏 写在前面 伽达默尔说:“如果某个东西被经历过,而且它的经历存在还获得一种使自身继续存在意义的特征…

chatgpt赋能Python-python_har

Python HAR:一种高效的网络监测工具 Python HAR(HTTP Archive)是一个用于监测网络资源的强大工具,它能够记录网络请求、响应和资源加载的细节信息,并以可视化和格式化的方式呈现出来。Python HAR的应用范围广泛&#…

单模光纤二维模场分布的MATLAB仿真

在上一篇文章中,我们介绍了单模光纤的一维模场分布,能看出沿着径向的光场分布情况,并分析能量的分布 这一篇中,我们绘制光纤横截面上的二维光场分布:代码如下: clear close all V 2.4000; U 1.6453; W …

C4D R26 渲染学习笔记(1):C4D版本选择和基础知识(更新中)

C4D版本知识 C4D通过R来进行版本区分,现在2023年5月22日最新版的是R26。说一下特殊版本。 C4D版本介绍特点R19OC快乐版3.07最高版本,OC是C4D最具性价比的渲染器,OC学习成本低,渲染速度快,但是注意OC 3.07只支持10系N…

如何提取微信公众号的链接?非常简单!

今天在公众号里面想要复制公众号链接,用于小程序里面引导用户关注,因为小程序里面的关注公众号只能是扫码小程序才能使用,想起以前使用的原始链接跳转方法,就想试一试,结果公众号后台居然没有链接可以复制了&#xff0…

代码随想录算法训练营day49 | 121. 买卖股票的最佳时机,122.买卖股票的最佳时机II

代码随想录算法训练营day49 | 121. 买卖股票的最佳时机,122.买卖股票的最佳时机II 121. 买卖股票的最佳时机解法一:动态规划解法二:贪心算法 122.买卖股票的最佳时机II解法一:动态规划解法二:贪心算法 121. 买卖股票的…

数据要素流通使用的安全风险分析及应对策略

数据要素流通使用的安全风险分析及应对策略 刘业政1,2, 宗兰芳1, 金斗1,袁昆1,2 1 合肥工业大学管理学院,安徽 合肥 230009 2 大数据流通与交易技术国家工程实验室,上海 201203 摘要:系统地分析了数据要素流通使用过程中存在的安全…