CANN黑科技解密|昇腾Ascend C编程语言 — 极简易用的算子开发体验

news2025/2/13 12:56:32

AI应用的大脑是神经网络,而构成神经网络的基石是一个个算子。为了让开发者的网络在昇腾硬件上高效运行,昇腾异构计算架构CANN(Compute Architecture for Neural Networks)提供了丰富的高性能算子库,包括神经网络库、线性代数计算库等,高性能算子数量达到1400+。有了高性能算子库的支撑,主流神经网络可轻松在昇腾硬件上高效运行。

但随着人工智能的爆发式增长,算法更新层出不穷,固定的高性能算子库可能无法完全满足开发者的多样化创新需求,为了让开发者提出的创新算法能够在硬件上运行起来,自定义算子开发的能力必不可少。

但算子开发是个复杂的工程,需要考虑众多因素,包括语言学习成本、功能逻辑的实现、硬件指令的适配、以及算子运行精度与性能的达标等等。往往一个经验丰富的算法专家开发一个高性能的算子都要耗时数周甚至更长的时间。

算子开发总体流程

为提升算子开发效率,降低算子开发成本,昇腾推出了面向算子开发场景的昇腾Ascend C编程语言。昇腾Ascend C编程语言原生支持C和C++标准规范,最大化匹配用户开发习惯;通过多层接口抽象,屏蔽了底层硬件差异;通过自动并行计算等关键技术,在保证性能的同时大大降低算子开发门槛。另外,昇腾Ascend C提供了孪生调试功能,大大缩短了算子调测时间。

Ascend C编程语言在异构计算架构CANN中的位置

多层级高性能类库接口

工欲善其事,必先利其器。为简化开发逻辑,昇腾Ascend C支持结构化核函数编程,提供了面向不同场景的高性能类库接口。开发者仅需通过类库接口的组装调用,即可轻松实现高性能算子。

Ascend C提供的类库接口

AI应用领域广泛,开发者的背景与需求也各不相同。为满足不同层级开发者的诉求,昇腾Ascend C针对计算接口和数据搬移接口,进行了分层分级,让开发者可以根据自身需求选择合适的接口。

针对计算类接口,当前Ascend C支持三个层级,其中级数越低,自由度越高,更易于表达复杂场景所需功能;级数越高,接口的封装度越高,更易于表达常用语义,使用起来也更简单。

计算接口分层分级与示例

针对搬移类接口,Ascend C将不同类型物理内存间的数据搬移抽象为一个统一的数据搬运接口,通过参数控制不同的搬运级别,从而满足不同数据搬运场景的需求。

数据搬运接口分层分级与示例

另外,多层级的类库接口封装,可以更好地屏蔽不同型号硬件间的差异,轻松实现算子代码对不同硬件的兼容。

自动并行计算

多层级的类库接口可以让开发者轻松实现算子的算法逻辑,达成预期功能。但一个好的算子,计算效率也是必须考虑的重要指标。众所周知,将任务并行处理是提高计算效率的关键手段,但AI处理器的内存层次结构比较复杂、数据通路多,数据之间的依赖关系复杂,这种场景下,并行计算之间的流水如何排布,各任务间的数据同步如何实现,往往是比较困难的。

为了方便开发者实现高效的并行计算,昇腾Ascend C采用SPMD(Single-Program Multiple-Data)并行模式,开发者仅需关注一个计算核心上的算子程序实现,程序调用时,可自动启动N个运行实例(我们称之为Block),每个实例都可部署到不同的计算核心上执行。由此,大大简化了开发者在多个计算核心上的并行编程逻辑。

单程序多数据SPMD并行计算

在算子逻辑实现上,Ascend C基于流水线并行的编程范式,将算子核心逻辑划分为“搬入、计算、搬出”,开发者只需聚焦实现“搬入、计算、搬出”内容,程序运行时,系统会自动将核内数据进行分片,每一片数据都专注完成单一功能,实现计算性能最大化。

 

核内多片数据流水线并行调度

孪生调试

昇腾Ascend C提供的多层级类库接口以及自动并行计算功能,给开发者提供了轻松高效的编码体验。但在上一代算子开发的整个流程中,代码编写的时间往往仅占不到30%,剩下70%多的时间都在进行功能与性能调试,好的调试能力对提升端到端开发效率的重要性不言而喻。

开发时间占比示例

那为什么算子调试如此耗时呢?究其主要原因,一方面是由于NPU环境下本身调试困难;另一方面是因为编程过程隐藏了并行细节,导致同步死锁、地址越界、数据溢出等问题难定位。

为提升算子调试效率,Ascend C提供了孪生调试能力,开发者既可以在CPU域进行调试调优,又可以在NPU侧进行调优验证,通过CPU域与NPU域相结合的方式,降低调试难度,提升调试效率。

在CPU域,开发者可通过业界标准C++工具GCC编译器进行编译,并通过GDB通用调试工具进行单步调试,精准验证程序执行流程是否符合预期。另外,昇腾Ascend C还提供了主动Bug分析工具,方便开发者快速进行问题定位;在NPU域,昇腾Ascend C提供了仿真调试能力与上板调试能力,开发者可以通过仿真调试的Profiling流水图、指令日志以及数据日志,精准进行性能调优,也可以通过上板调试进行真实行为的验证。孪生调试的能力,在提升算子调试效率的同时又可保证精度与性能的达标。

Ascend C孪生调试

人工智能蓬勃发展,算法创新层出不穷。昇腾提供的Ascend C编程语言,通过易上手、高性能、易调测的优势,为开发者的创新算法更轻松高效地在昇腾平台运行奠定了基石,让基于昇腾平台的AI创新更加简单。

点击如下链接,快速体验Ascend C算子开发

Ascend C算子开发快速体验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/639391.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python-opcua 编程(1)

任何一项新标准如果不能充分应用是不可能推广的,最近看了一些国外网站,发现类似OPC UA 的应用以及比较广泛了,而且有许多课程。相比之下,我国OPCUA 标准的普及工作仍然停留在概述的阶段,为此,我将逐步介绍一…

复习并发编程的基础知识(一)

时间长了,并发编程的基础知识总忘,来记录一下: 进程和线程 进程:资源分配的最小单元,什么是资源?CPU,内存,网卡等等 线程:进程中的一个实体,不能单独存在&…

七、DMSP/OLS、NPP/VIIRS等夜间灯光数据能源碳排放空间化——能源碳排放增长类型、增长率、总量增长等级分析

一、前言 前文对能源碳排放空间化后的分析角度做了一些介绍,其实无非就是能源碳排放增长类型、增长率等的计算,那么这里强调一下,这个时候不能用利用统计数据计算出来的能源碳排放数据进行计算,而是必须用反演的能源碳排放数据进行划定计算。 二、具体步骤 增长类型 (…

【Excel超实用快捷键!!!办公效率1000%up!up!up!】

目录索引 ctrle:提取数据:合并数据: 普通快捷键:ctrla:ctrlc:ctrlv:ctrlx:ctrlz:ctrly:ctrls:ctrlf: 文字格式快捷键:ctrl…

IMX6ULL裸机篇之SPI实验-SPI主控寄存器

一. SPI主控寄存器 IMX6ULL 芯片的 SPI接口叫做 ECSPI,支持全双工、主丛可配置。 本文学习 IMX6ULL-阿尔法开发板SPI中控芯片的 SPI寄存器部分。后续代码实现需要配置 SPI相关的寄存器。 二. SPI主控的寄存器配置 1. SPI主控芯片寄存器 (1) RXDATA寄存器&am…

DVWA-Command Injection

大约 命令注入攻击的目的是在易受攻击的应用程序中注入和执行攻击者指定的命令。 在这种情况下,执行不需要的系统命令的应用程序就像一个伪系统外壳,攻击者可能会使用它 作为任何授权的系统用户。但是,命令的执行权限和环境与 Web 服务具有的…

【MySQL】创建和管理表

创建和管理表 标识符命名规则MySQL中的数据类型创建和管理数据库使用数据库修改数据库 创建表语法方式一方式二 修改表向表中追加一个列修改一个列重命名一个列删除一个列 重命名表方式一方式2; 删除表清空表 存储数据是处理数据的第一步 。只有正确地把数据存储起来&#xff0…

基于卫星星历计算卫星在CGCS2000大地坐标系中的坐标

目录 一、北斗系统概述 1.空间星座 2.坐标系统 3.时间系统 二、实验目的 三、实验内容 四、实验过程 五、实验结果 一、北斗系统概述 1.空间星座 北斗卫星导航系统简称北斗系统,英文缩写为 BDS,其空间星座由 5 颗地球静止轨道(GEO&…

​“前端已死”甚嚣尘上,全栈工程师卷到起飞

海量应届生入场,坑位却还是那多。具备前后端开发能力的全栈工程师兴起,不仅能够开发前端,还能够处理后端业务逻辑和数据库等技术,还能掌握整个软件开发的细节。企业自然会更愿意招聘全栈工程师,说白了,卷啊…

springboot整合quartz实现定时任务动态增删改查

springboot整合quartz quartz介绍Quartz 核心概念 使用依赖配置文件启动类quartz工具类job业务用到的对象类接口service实现类测试 quartz介绍 Quartz是OpenSymphony开源组织在Job scheduling领域又一个开源项目,它可以与J2EE与J2SE应用程序相结合也可以单独使用。…

【CMake 入门与进阶(6)】 CMakeLists.txt 部分常用变量(附使用代码)

变量也是 cmake 中的一个重头戏,cmake 提供了很多内置变量,每一个变量都有它自己的含义,通过这个链接地址cmake-variables(7) — CMake 3.5.2 Documentation可以查询到所有的内置变量及其相应的介绍,如下所示: 在这一份…

App移动端测试 —— Monkey的日志

Monkey的日志对于分析脚本的执行情况十分必要。 Monkey 日志由以下几部分组成: 测试命令信息:随机种子 seed、运行次数、可运行应用列表、各事件百分比。” 正文内容从这里开始(可直接省略,亦可配图说明)。 01—Mon…

使用python批量处理工作簿和工作表

案例01 批量新建并保存工作簿 将for语句与xlwings模块相结合,就可以轻松实现批量创建工作簿 import xlwings as xw # 导入xlwings模块 app xw.App(visibleTrue,add_bookFalse) # 启动Excel程序,但不新建工作簿 for i in range(6):workbook app.books…

Pyinstaller 快速找出所需库的方法

目录 【auto-py-to-exe】第三方库 使用【auto-py-to-exe】逐步尝试 1.什么文件都不添加,选择项目与单目录后直接打包 2.直接运行生成的exe文件 3.定位所需的包 4.--add-data 和 --hidden-import 打包为一个exe文件 【auto-py-to-exe】第三方库 其是pyinstaller操…

【头歌-Python】9.1 X射线衍射曲线绘制(project)第3~4关

第3关:X 射线衍射曲线峰值 任务描述 本关任务:读文件中的数据绘制线图形并加绘制峰值。 相关知识 为了完成本关任务,你需要掌握: python 读取文件中的数据使用 matplotlib 绘制图形 python 读取文件 python读取文件可以用以…

6.volatile与JMM

volatile与JMM 6.1 被volatile修饰的变量有两大特点 特点: 可见性 有序性:有排序要求,有时需要禁重排 内存语义: 当写一个volatile变量时,JMM会把该线程对应的本地内存中的共享变量值立即刷新回主内存中 当读一个vol…

Linux:ftp服务 (vsftpd)

我的ftp服务器为centos7 使用yum安装的vsftpd软件 (如果你需要离线yum库,而不会搭建可以查看) Linux:rpm查询安装 && yum安装_鲍海超-GNUBHCkalitarro的博客-CSDN博客 安装软件 配置环境 其次是Linux的防火墙和selinu…

写一个Orillusion编辑器(伪)

界面效果 思路 bootstrap控制界面效果jquery动态修改界面内容[Add]增加一个box[Play]导出play.html,打开play.html就可以看到程序运行效果 编辑器代码 <!DOCTYPE html> <html> <!-- TODO 1. 序列化数据,保存工程 2. 反序列化数据,打开工程 --><head>…

Python实现ACO蚁群优化算法优化随机森林回归模型(RandomForestRegressor算法)项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档视频讲解&#xff09;&#xff0c;如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 蚁群优化算法(Ant Colony Optimization, ACO)是一种源于大自然生物世界的新的仿生进化算法&#xff0c…

腾讯安全SOC+荣获“鑫智奖”,助力金融业数智化转型

近日&#xff0c;由金科创新社主办&#xff0c;全球金融专业人士协会支持的“2023鑫智奖第五届金融数据智能优秀解决方案评选”榜单正式发布。腾讯安全申报的“SOC基于新一代安全日志大数据平台架构的高级威胁安全治理解决方案”获评“鑫智奖网络信息安全创新优秀解决方案”。 …