Ascend C 算子运行资源管理简介

news2024/12/30 0:42:11

在这里插入图片描述
在这里插入图片描述

Ascend C 算子运行资源管理简介

在 Ascend C 平台上开发深度学习应用时,运行资源的管理是一个核心知识点。通过合理管理算子执行中的计算资源,能够有效提升模型的执行效率和硬件利用率。本文将简要介绍 Ascend C 算子运行时的资源管理。

1. AscendCL 初始化与去初始化

在进行任何 AscendCL 的算子开发之前,必须首先初始化 AscendCL 环境。使用aclInit()接口可以完成初始化。如果默认配置已经满足需求,直接传入NULL即可。

aclError ret = aclInit(NULL);

当所有 AscendCL 操作完成后,需要调用aclFinalize()进行去初始化,以释放所有相关资源。

ret = aclFinalize();
2. 资源申请与释放

在 Ascend C 上执行算子时,设备(Device)、上下文(Context)和流(Stream)是核心的运行资源。正确的资源管理流程对于保持程序稳定性至关重要。

2.1 资源申请流程

使用aclrtSetDevice指定运算设备。
通过aclrtCreateContext创建上下文。
使用aclrtCreateStream创建流,管理任务的执行。

int32_t deviceId = 0;
aclrtContext context;
aclrtStream stream;

aclError ret = aclrtSetDevice(deviceId);
ret = aclrtCreateContext(&context, deviceId);
ret = aclrtCreateStream(&stream);
2.2 资源释放流程

使用aclrtDestroyStream销毁流。
通过aclrtDestroyContext销毁上下文。
使用aclrtResetDevice重置设备。

ret = aclrtDestroyStream(stream);
ret = aclrtDestroyContext(context);
ret = aclrtResetDevice(deviceId);
3. 数据传输

在算子执行时,Host(主机)和 Device(设备)之间的数据传输是必不可少的。AscendCL 提供了同步与异步两种传输模式。

3.1 同步与异步数据传输

同步数据传输通过 aclrtMemcpy 实现,适用于不需要并行处理的场景。异步数据传输通过 aclrtMemcpyAsync 实现,配合 aclrtSynchronizeStream 来确保流内的任务完成。

aclrtMemcpy(devPtr, size, hostPtr, size, ACL_MEMCPY_HOST_TO_DEVICE);
aclrtMemcpyAsync(devPtr, size, hostPtr, size, ACL_MEMCPY_HOST_TO_DEVICE, stream);
aclrtSynchronizeStream(stream);
4. Stream 管理

在 Ascend C 的开发中,Stream(流)是任务队列的抽象,管理任务的并行执行。通过合理利用 Stream,可以提升任务的并发执行效率。

4.1 单线程单 Stream

在单线程场景下,可以创建一个 Stream 来管理任务的顺序执行。任务在 Stream 中排队,依次执行。

4.2 多线程多 Stream

在多线程环境中,每个线程可以管理自己的 Stream,允许多个任务并行执行,显著提高计算效率。

aclrtStream stream1, stream2;
aclrtCreateStream(&stream1);
aclrtCreateStream(&stream2);
5. 同步与多 Device 切换

当多个 Device 协同工作时,需要在不同的设备之间切换执行环境。AscendCL 提供了 aclrtSetDevice 和 aclrtSetCurrentContext 来切换当前执行的设备和上下文。此外,aclrtSynchronizeDevice 接口用于等待设备上的所有任务执行完毕。

aclrtSetDevice(0);
aclrtSynchronizeDevice();

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2185853.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

draw.io创建自定义形状

Create custom shapes in draw.io using the text editor Reference draw怎么创建和编辑复杂的自定义形状 https://blog.csdn.net/u012028275/article/details/113828875 Create custom shapes in draw.io using the text editor

AMD发布首个AI小语言模型:6900亿token、推测解码提速3.88倍

AMD发布了自己的首个小语言模型(SLM),名为“AMD-135M”。相比于越来越庞大的大语言模型(LLM),它体积小巧,更加灵活,更有针对性,非常适合私密性、专业性很强的企业部署。 AMD-135小模型隶属于Llama家族,有两…

5分钟学会SPI

SPI 定义:SPI 是一种机制,允许用户在不修改现有代码的情况下扩展和替换特定服务的实现。它定义了一组接口(Service Interfaces)和一组实现(Service Providers),使得应用程序可以动态加载和使用…

netty之Netty与SpringBoot整合

前言 在实际的开发中,我们需要对netty服务进行更多的操作,包括;获取它的状态信息、启动/停止、对客户端用户强制下线等等,为此我们需要把netty服务加入到web系统中。 MyChannelInitializer public class MyChannelInitializer ex…

[C++]使用C++部署yolov11目标检测的tensorrt模型支持图片视频推理windows测试通过

官方框架: https://github.com/ultralytics/ultralytics yolov8官方最近推出yolov11框架,标志着目标检测又多了一个检测利器,于是尝试在windows下部署yolov11的tensorrt模型,并最终成功。 重要说明:安装环境视为最基…

边缘自适应粒子滤波(Edge-Adaptive Particle Filter)的MATLAB函数示例,以及相应的讲解

目录 讲解 初始化 预测步骤 观测模拟 权重更新 重采样 状态估计 总结 下面是一个简单的边缘自适应粒子滤波()的函数示例,以及相应的讲解。 程序源代码: function X_est edgeAdaptiveParticleFilter(numParticles, numS…

awd基础学习

一、常用防御手段 1、改ssh密码 passwd [user] 2、改数据库密码 进入数据库 mysql -uroot -proot 改密码 update mysql.user set passwordpassword(新密码) where userroot; 查看用户信息密码 select host,user,password from mysql.user; 改配置文件 (否则会宕机…

笔记整理—linux进程部分(6)进程间通信、alarm和pause

两个进程间通信可能是任何两个进程间的通信(IPC)。同一个进程是在同一块地址空间中的,在不同的函数与文件以变量进程传递,也可通过形参传递。2个不同进程处于不同的地址空间,要互相通信有难度(内存隔离的原…

2024-09-27 buildroot C和语言将 中文的GBK编码转换为 UTF-8 的代码, printf 显示出来,使用 iconv 库去实现。

一、GBK 的英文全称是 "Guobiao Kuozhan",意为 "National Standard Extended"。它是对 GB2312 编码的扩展,用于表示更多汉字和符号 GBK(国标扩展汉字编码)是一种用于简体中文和繁体中文字符的编码方式&#x…

计算机毕业设计Python+Spark知识图谱酒店推荐系统 酒店价格预测系统 酒店可视化 酒店爬虫 酒店大数据 neo4j知识图谱 深度学习 机器学习

《PythonSpark知识图谱酒店推荐系统》开题报告 一、研究背景与意义 随着互联网技术的飞速发展和人们生活水平的提高,旅游和酒店行业迎来了前所未有的发展机遇。然而,面对海量的酒店信息和多样化的用户需求,如何快速、准确地为用户推荐符合其…

【Java】—— 集合框架:List接口常用方法与List接口的实现类

目录 4. Collection子接口1:List 4.1 List接口特点 4.2 List接口方法 4.3 List接口主要实现类:ArrayList 4.4 List的实现类之二:LinkedList 4.5 List的实现类之三:Vector 4.6 练习 4. Collection子接口1:List …

PCL 点云直通滤波

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.1.1 直通滤波实现 2.1.2 可视化函数 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与项目实战案例汇总(长期更新&#xf…

CS-BP预测 | MATLAB实现CS-BP布谷鸟搜索算法优化BP神经网络多变量时间序列预测

CS-BP预测 | MATLAB实现CS-BP布谷鸟搜索算法优化BP神经网络多变量时间序列预测 目录 CS-BP预测 | MATLAB实现CS-BP布谷鸟搜索算法优化BP神经网络多变量时间序列预测预测效果基本介绍程序设计参考资料预测效果 基本介绍 MATLAB实现CS-BP多变量时间序列预测(布谷鸟搜索算法优化B…

VMware中Ubuntu系统Docker正常运行但网络不通(已解决)

问题描述:在VMware中的Ubuntu系统下部署了Docker,当在docker容器中运行Eureka微服务时,发现Eureka启动正常,但无法通过网页访问该容器中Eureka。 解决办法如下: 1、创建桥接网络:test-net sudo docker n…

媲美GPT-4o mini的小模型,Meta Llama 3.2模型全面解读!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,AI工…

高性能架构—存储高性能

1 📊关系型数据库 存储技术飞速发展,关系型数据的ACID特性以及强大的SQL查询让其成为各种业务系统的关键和核心存储系统。 很多场景下的高性能设计最核心的就是关系型数据库的设计,很多数据库厂商再优化和提升单个数据库服务器的性能方面做了…

网络原理-数据链路层

在这一层中和程序员距离比较遥远,除非是做交换机开发,否则不需要了解数据链路层 由AI可知: 数据链路层(Data Link Layer)是OSI(Open Systems Interconnection)七层网络模型中的第二层&#xff0…

【Android 14源码分析】Activity启动流程-3

忽然有一天,我想要做一件事:去代码中去验证那些曾经被“灌输”的理论。                                                                                  – 服装…

后台管理系统脚手架

后台管理系统脚手架 介绍 在快速迭代的软件开发世界里,时间就是生产力,效率决定成败。对于构建复杂而庞大的后台系统而言,一个高效、可定制的后台脚手架(Backend Scaffold)无疑是开发者的得力助手。 脚手架 后台脚…

Python案例--这天第几天

如何使用Python计算一年中的第几天:详细指南 在处理日期和时间时,我们经常需要确定一个特定日期是一年中的第几天。这在许多应用场景中都非常有用,比如日历应用程序、数据分析和时间管理工具。Python,作为一种广泛使用的编程语言…