Intel oneAPI笔记(1)--oneAPI简介、SYCL编程简介

news2024/9/21 3:31:30

oneAPI简介

Intel oneAPI是Intel提供的统一编程模型和软件开发框架。 它旨在简化可充分利用英特尔各种硬件架构(包括 CPU、GPU 和 FPGA)的应用程序的开发

oneAPI一个重要的特性是开放性,支持多种类型的架构和不同的硬件供应商,是一种统一的编程模型。使得开发人员拥有可以选择最佳硬件来做加速计算的自由,不用锁定某些厂商专有的硬件即可提高软件的开发生产力,并且获得与硬件加速设备相匹配的性能

随着大数据到来,仅仅依靠CPU平台的计算是不够的,使得不同种类的计算加速设备出现,比如:GPU、FPGA......但这些加速设备的引用也给应用程序的开发带来一个问题,如果想要从某个特定的计算加速设备切换到另一个厂商的另外一个加速设备,会带来非常大的工作量和开销,oneAPI这种统一变成模型的提出就是为了解决这个问题,它希望有一种统一的编程语言,有一种统一接口的库函数使得应用程序在不同硬件加速设备迁移的时候,所付出的代价可以达到最小

上图描述了异构计算软件生态现状,可以看出没有一个在总体上占优势的厂商,而是处于一种分散的状态。比如在AI的模型训练主要占主导地位的还是英伟达的一些库,高性能计算领域主导的还是英伟达的GPU

什么是异构计算?首先计算单元可以分成:通用计算单元(CPU),专用计算单元(GPU)等,简单说就是由一个或若干个通用计算单元加一个或若干个专用计算单元构建的系统就是异构计算系统,由两者协同起来共同执行通用计算任务就是异构计算,异构计算的目的一般是加速和节能,在过去GPU只能执行图形任务,现在GPU已经具备了通用计算的能力,和CPU协同工作就组成了一个异构计算系统。有了硬件的实现,同样需要软件的支持,目前比较流行的编程语言是C++AMP/OPENCL/CUDA

oneAPI有两种编程模型,第一种是直接编程(Direct Programming)有统一的编程语言SYCL,它是基于C++标准的编程语言。另一种是基于库的编程(API-Based Programming)。对于Level 0,这个跟硬件加速设备打交道的层上,如果硬件厂商实现了这层接口,那么它的设备就可以被oneAPI上层的框架使用

SYCL是由Khronos Group提供的一个开放的标准,主要是为了针对异构计算领域。标准C++是主机端适用的一个标准,针对异构计算领域,C++在不同种类的硬件加速设备的设备端的部分是没有提及的,SYCL就弥补了C++在异构计算领域硬件加速设备的缺失。SYCL是标准的C++,没有针对不同硬件有语法上的扩展。下图是SYCL和CUDA源代码在不同硬件设备上的比较

SYCLomatic是oneAPI产品里面的CUDA开源的迁移工具,所有源代码在github上:github.com/oneapi-src/SYCLomatic。

有的部分在CUDA源代码里面有,但是在迁移后的SYCL源代码里面没有,则会以注释的形式标记出来,程序员需要人工修改

通过上面的介绍,我们就可以知道,在不同的计算领域里面,可以使用不同的Intel oneAPI开发包,可以使得程序运行在不同种类的计算加速设备上面,比如在高性能计算、人工智能、嵌入式等领域都有oneAPI相应的工具包

oneAPI工具包简介

Intel® oneAPI Base Toolkit是基础工具套件,直接编程包括Intel® oneAPI DPC++/C++ Compiler,Intel® oneAPI DPC++ Compatibility Tool,Intel® Distribution for Python,Intel® FPGA Add-on for oneAPI Base Toolkit,API编程包括Intel® oneAPI DPC++ Library oneDPL等库,分析调试工具包括Intel® VTune Profiler,Intel® Advisor等

除了基础工具套件之外,还有其它工具包,比如高性能计算、物联网、渲染、人工智能等领域,可以在官网查看:

https://www.intel.com/content/www/us/en/developer/tools/oneapi/toolkits.html

SYCL编程简介

CPU端也称Host端,异构平台上面的其它硬件加速器称为Device端,SYCL应用程序分为在主机端执行的部分和在设备端执行的部分,主机端就在CPU运行,设备端是要由主机端的CPU递交给某一个设备,递交的过程是通过Command Queue模块去做

一个程序分为Host code和Device code,其中后者又总被称为Kernel

一个程序分为很多scope,比如Application scope,Command group scope,Device scope,不是所有的C++的内容适用于Device scope

buffer对象包含了服务于不同种类计算设备的每个数据临时存储的一块空间

queue对象很重要的目的就是递交计算任务

buffer对象可以通过调用get_access,使buffer的数据可以传到针对这个硬件设备的数据区域上

handler对象调用parallel_for去执行设备端的计算任务,通常与lambda函数搭配使用

SYCL有两个内存模式

一是Buffer Memory Model(BMM)内存模式,是使用buffer对象的一种方式,如下图

使用malloc_shared函数创建指针变量,可以使用另一种Unified Shared Memory(USM)内存模式,即CPU,GPU共享一片内存区域,在这种模型之下,parallel_for需要通过queue对象调用,并在最后使用wait函数,是因为,虽然CPU和GPU共享内存,但在一个时间段内,只能有一个访问

演示一个完整的SYCL程序(USM内存模式):

#include<CL/sycl.hpp>
constexpr int N=16;
using namespace sycl;
int main(){
queue q;
int *data=malloc_shared<int>(N,q);
q.parallel_for(N,[=](auto i){
data[i]=i;
}).wait();
for(int i=0;i<N;i++)std::cout<<data[i]<<’\n’;
free(data,q);
return 0;
}

device类描述硬件加速器,一个重要的接口是可以获取设备相关信息,可以通过这个设备信息创建设备选择器从而更好地选择设备,此外,queue的创建不需要参数,所以如果想要知道queue对应于异构计算平台的哪一个设备,就只能使用device类

device_selector包含default_selector,cpu_selector,gpu_selector,如果使用default_selector去创建queue,那么设备的选择就全部交给了SYCL内部的策略,比如:

default_selector selector;
queue q(selector);
std::cout<<”Device: “<<q.get_device().get_info<info::device::name>()<<std::endl;

queue对象用于CPU和GPU信息交换

举一个handle对象调用parallel_for的例子:

h.parallel_for(range<1>(1024),[=](id<1>idx){
//PASS
});

range对象用于描述设备端计算的范围,id对象用于描述kernel在并行空间中的某个实例,item对象和id的区别是在计算中可以显示更多细节

SYCL执行过程中,主机端在递交给设备端计算任务之后,可以计算去执行下面的事情

参考资料

1.http://t.csdnimg.cn/PNw2x

2.其它大部分内容是网上碎片化查找收集后进行的自我总结,部分图片侵权删

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1163683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

何恺明:在cuhk解答科研问题

文章目录 1. 大模型的未来:数据效益是个问题2. 未来三年研究重点:视觉自监督学习3. 选择课题的标准:好奇心和热情4. AI将成为几乎所有事情的基础工具5. 用疑问解答AI模型可解释性问题AcknowledgementReference何恺明最近在香港中文大学参加一个讲座过程中所述: 1. 大模型的…

MT8365安卓核心板—联发科MTK8365(I350)性能参数

MT8365安卓核心板是基于联发科MTK8365芯片开发的一款高性能核心板。该核心板模块板载内存容量为1GB8GB(也可选择2GB16GB、3GB32GB、4GB64GB)&#xff0c;默认搭载谷歌的Android 11.0系统。它集成了丰富的功能接口&#xff0c;包括LCM接口、摄像头接口、触摸屏接口、麦克风接口、…

[计算机提升] Windows系统软件:娱乐类

3.3 系统软件&#xff1a;娱乐类 3.3.1 Windows Media Player&#xff1a;dvdplay Windows Media Player是Windows操作系统自带的多媒体播放软件&#xff0c;用于播放和管理电脑中的音频和视频文件。它提供了以下功能&#xff1a; 播放音频和视频文件&#xff1a;Windows Med…

hugetlb核心组件

1 概述 hugetlb机制是一种使用大页的方法&#xff0c;与THP(transparent huge page)是两种完全不同的机制&#xff0c;它需要&#xff1a; 管理员通过系统接口reserve一定量的大页&#xff0c;用户通过hugetlbfs申请使用大页&#xff0c; 核心组件如下图&#xff1a; 围绕着…

农业中的机器学习

机器学习训练模型推荐&#xff1a; UnrealSynth虚幻合成数据生成器 - NSDT 机器学习是一个不断发展的领域&#xff0c;在农业中有许多潜在的应用。农民和农业科学家正在探索如何转向机器学习开发来提高作物产量、减少用水量和预测病虫害。未来&#xff0c;机器学习可以帮助农民…

内存管理设计精要

系统设计精要是一系列深入研究系统设计方法的系列文章&#xff0c;文中不仅会分析系统设计的理论&#xff0c;还会分析多个实际场景下的具体实现。这是一个季更或者半年更的系列&#xff0c;如果你有想要了解的问题&#xff0c;可以在文章下面留言。 持久存储的磁盘在今天已经不…

多特征线性回归模型

一、预测目标和原始数据展示 (一)预测目标: 通过Economy..GDP.per.Capita.(GDP)和Freedom预测Happiness.Score (二)部分数据展示: 特征有很多&#xff0c;本文研究Economy..GDP.per.Capita.(GDP)和Freedom&#xff0c;也就是用Economy..GDP.per.Capita.(GDP)和Freedom预测Happ…

B端企业形象设计的正确姿势,你学会了吗?

如今&#xff0c;企业形象设计在B端市场中变得越来越重要。它是企业与客户之间建立联系的桥梁&#xff0c;也是吸引目标客户的重要方式。为了帮助您打造一个独特而专业的企业形象设计&#xff0c;我将为您提供十个步骤。 步骤1&#xff1a;了解企业定位和目标 在设计B端企业形…

Angular模板语法

1 Angular数据文本绑定 Angular 中使用{{}}绑定业务逻辑里面定义的数据 <div class"title"> {{title}}</div>2 Angular模板里面绑定属性 [title]"student"绑定动态属性 ts: public title: string zhaoshuai-lc html: <div [title]"…

自制目录扫描工具并由py文件转为exe可执行程序

心血来潮让ChatGPT写了一个目录扫描工具&#xff0c;然后进行了一定的修改和完善&#xff0c;可以实现对网站目录的一个简单扫描并输出扫描结果&#xff0c;主要包括存在页面、重定向页面和禁止访问页面。 虽然代码很简单&#xff0c;但是做这个东西的过程还是挺有意思的&…

Jmeter只能做性能测试吗?

Jmeter除了可以性能测试&#xff0c;还能做接口测试 1、Jmeter和Fiddler&#xff0c;Postman有什么区别? Fiddler&#xff1a;虽然有接口测试功能&#xff0c;很少用来做接口测试。 一般用Fiddle来做抓包和异常测试&#xff0c;辅助接口测试。Postman&#xff1a; 是接口调试…

求任意连续子段的最小值之和

一道超级经典的单调栈问题&#xff0c;本题的关键在于你不要同时两边取等号&#xff0c;不然相等的区间会重复计算 还有记得开long long #include<bits/stdc.h> using namespace std; using lllong long; const int N 2e510; int n; ll a[N]; ll l[N]; ll r[N]; int m…

cudnn too short

原因是libcudnn.so为软链接&#xff0c;相当于快捷键&#xff0c;但是没有映射到真正的libcudnn.so.8.9.5上 cd /usr/local/cuda-11.6/lib64 ln -s libcudnn.so.8.9.5 libcudnn.so.8 ln -s libcudnn.so.8.9.5 libcudnn.so

VMware安装RedHat8.3虚拟机

red hat enterprise linux 8.3 ios镜像 链接&#xff1a;https://pan.baidu.com/s/1HbgXTh8q_YWlVVs8VAa14g?pwdot10 提取码&#xff1a;ot10 Red Hat Enterprise Linux&#xff08;RHEL&#xff09; 是一款由红帽公司开发和支持的商业操作系统。RHEL 8.3是RHEL 8系列的一个…

数据库事务提交后才发送MQ消息解决方案

项目场景&#xff1a; 在项目开发中常常会遇到在一个有数据库操作的方法中&#xff0c;发送MQ消息&#xff0c;如果这种情况消息队列效率比较快&#xff0c;就会出现数据库事务还没提交&#xff0c;消息队列已经执行业务&#xff0c;导致不一致问题。举个应用场景&#xff0c;…

stm32 ADC

目录 简介 stm32的adc 框图 ①电压输入范围 ②输入通道 ​编辑③ADC通道 ④ADC触发 ⑤ADC中断 ⑥ADC数据 ⑦ADC时钟 ADC的四种转换模式 hal库代码 标准库代码 简介 自然界的信号几乎都是模拟信号&#xff0c;比如光亮、温度、压力、声音&#xff0c;而为了方便存储、…

容器:软件性能测试的最佳环境

容器总体上提供了一种经济的和可扩展的方法来测试产品在实际情况下的性能&#xff0c;同时还能保持较低的资源成本和开销成本。 软件性能和可伸缩性是我们谈论应用程序开发时经常遇到的话题。一个很大的原因是应用程序的性能和可伸缩性直接影响其在市场上的成功。一个应用程序…

搭建Qt5.7.1+kylinV10开发环境、运行环境

1.下载Qt源码 Index of / 2.编译Qt 解压缩qt-everywhere-opensource-src-5.7.1.tar.gz 进入到qt-everywhere-opensource-src-5.7.1/qtbase/mkspecs这个目录下&#xff0c; 2.1找到以下目录 复制他&#xff0c;然后改名linux-x86-arrch64&#xff0c;博主这里名字取的有些问…

历年网规上午真题(2017年)

解析:D/C 计算机主要性能指标:时钟频率(主频)、运算速度、运算精度、内存大小、数据处理速率(PDR)等 数据库主要指标:最大并发、负载均衡能力、最大连接数等 解析:A 敏捷开发是一种应对快速变化的需求的一种软件开发方法,是一种以人为核心、迭代、循序渐进的开发方…