OpenCL 学习(1)---- OpenCL 基本概念

news2024/12/25 15:07:46

目录

        • Overview
        • 异构并行计算
        • OpenCL 架构
          • 平台模型
          • 执行模型
          • OpenCL 上下文
          • OpenCL 命令队列
          • 内核执行
          • 编程模型
          • 存储器模型
          • 存储器对象
          • 共享虚拟存储器

Overview

OpenCL(Open Computing Language,开放计算语言) 最早由苹果公司提交草案,并于 AMD, IBM ,intelnvdia 逐渐完善

  • 2008年 OpenCL 1.0 技术规范发布
  • 2010年 OpenCL 1.1 发布
  • 2011年 OpenCL 1.2 发布
  • 2013年 OpenCL 2.0 发布
  • 2020年 OpenCL 3.0 发布

OpenCL_Arch

异构并行计算

过去利用 GPU 对图像渲染进行加速的技术已经十分成熟,我们知道GPU的结构适合大规模的并行计算,CPU 则适合逻辑控制,因此不只局限于图像渲染,
人们希望将这种计算能力扩展到更多领域,但是那个时候的GPU 还是为图形渲染特殊设计的流水线,那时GPU的每个部件都是为了图形渲染的某个阶段特殊设计。
在那个时代,要使用GPU计算,则必须要将算法映射成图形的渲染过程

2007年NVIDIA推出 GTX8800 GPU(采用统一的渲染架构,使得在GPU上进行通用计算更容易)和 CUDA(Computing Unified Device Architecture)计算环境开始,
异构并行计算逐渐得到认可。异构并行计算包含两个子概念:异构并行

  • 异构指的是异构并行计算需要同时处理不同架构的计算平台的问题,比如目前主流的异构并行计算平台 x86+GPU、x86+FPGA,以及正在研发的 ARM+GPU
  • 并行指的是并行计算主要采用并行的编程方式,无论是x86处理器,还是ARM和GPU处理器,这里的处理器都是多核向量处理器,要发挥多种处理器混合平台的性能,也必须采用并行的编程方式

OpenCL是一个为异构并行计算平台编写程序的工业标准,此异构计算平台可映射到CPUGPUDSPFPGA等计算设备
OpenCL提供了底层硬件结构的抽象模型,旨在提供一个通用的开放API,既减轻开发人员的编程难度,又让开发人员能够写出高效可移植代码

OpenCL 架构

为了描述OpenCL设计的核心,khronos GroupOpenCL异构计算架构划分为平台模型(platform Model),存储器模型(memory Model),执行模型(excution Model)和编程模型(programming Model),这些模型既相互独立,又相互联系,组成了OpenCL的有机整体

平台模型

平台模型是关于opencl 如何看待硬件的一个抽象描述:
OpenCL平台模型由主机及其相连的一个或者多个OpenCL设备组成,通常主机包含x86ARM处理器的计算平台。
OpenCL 的平台是OpenCL设备和OpenCL框架的组合,不同的OpenCL厂商属于不同的平台

OpenCL 设计可以是 CPU(也可以将主机端的CPU作为设备)、GPUDSP、或者专门的硬件,OpenCL开发商支持的任何处理器。每个OpenCL设备有一个或者多个计算单元,而每个计算单元又是由
一个或者多个处理单元组成,处理单元是设备上执行数据计算的最小单元

OpenCL通常包含HostDevice两种处理器,如何连接这两种处理器就和在这两种处理器之间传输信息的性能密切相关,比如如果设备是 GPU 显卡,主机与其连接的方式就是PCI-E
Platform_Model

执行模型

OpenCL 程序包含主机端程序和设备端内核(kernel)程序,主机端程序运行在主机处理器上,主机端程序以命令的方式将内核程序从主机提交到OpenCL设备,
OpenCL 设备在处理单元上执行计算,OpenCL 没有定义主机代码如何工作的细节,只是定义了它通过
命令队列
OpenCL 设备进行交互

对于OpenCL来说,最重要的是上下文命令队列内核三个概念

OpenCL 上下文

主机使用 OpenCL API 创建和管理上下文,内核对此上下文中执行,上下文定义了内核执行的环境,包含了:

  • 设备: OpenCL 平台包含一个或者多个设备
  • 内核对象: OpenCL 设备上运行的 OpenCL 内核函数
  • 程序对象: 实现整个内核程序的源代码和目标二进制代码
  • 存储器对象: 对主机和OpenCL设备可见的对象,内核执行时操作这些对象的实例

OpenCL 提供了两种方式从代码中构建对象,一种是从源代码中构建,另一种是从源代码中已经编译好的代码上构建

OpenCL 支持了很多种平台,不同的平台有不同的存储器体系,为了处理这种情况,OpenCL引入了存储器对象的概念。
存储器对象在主机上明确定义,并在主机和OpenCL设备之间交换数据

OpenCL 命令队列

命令队列由主机或者运行在设备中的内核提交,命令会在命令队列中等待,直到被调度到 OpenCL 设备上运行,OpenCL 命令队列在上下文中关联到一个OpenCL设备
命令队列中命令分为下面三种类型:

  • 内核入队命令
  • 存储器入队命令
  • 同步命令
内核执行

主机发出一个命令,提交一个内核到OpenCL设备上执行,OpenCL执行时会创建一个整数索引空间。
索引空间是OpenCL支持一个N维的网格,称为NDRange,其中的 N 为 1,2,3 三个长度为N的数据确定了NDRange的下面特征:

  • 每个维度索引空间的范围
  • 一个偏移指数 F 表示每个维度的初始索引值
  • 一个工作组(局部大小) 每个维度大小

内核关联内核参数的参数值定义索引空间的参数,这三个定义了一个内核实例,对应这个索引空间的各个点将分别指向内核的一个实例
我们将指向内核的各个实例称为一个工作项(work-item),工作项将由它在索引空间的坐标来识别,这个坐标就是工作组的全局ID
值从 F 到 F 加上该维度的元素个数减 1,每个工作组使用内核定义的同样的指令序列,尽管指令序列是相同的,但是由于代码中通过全局 ID 选择的数据不同。
因此每个工作项的行为也不同,工作项提供了对索引空间细粒度的分解
多个工作项组织为工作组(work-group),工作组中的工作项的数量由内核入队的参数决定,工作组横跨了整个全局索引空间,提供了对索引空间粗粒度的分解。
同样,每个工作组被指定了一个唯一的ID,值从0开始,到该维度中工作组个数减1

对于分配到一个工作组内的每个工作项,除了有一个全局ID,也赋予了一个局部ID来表示它在所属工作组中的位置,这个局部ID的值从0开始,到工作组内该维度元素个数减 1
通过结合工作组ID和工作组中的局部ID可以唯一地定义一个工作项

例如: 下面定义了一个二维索引空间
NDRange

阴影方块的全局ID(6,5),工作组ID(1,1),工作项局部ID(2,1)

编程模型

定义了并行模型如何映射到实际的物理硬件

存储器模型

Memory_Model

  • 主机内存(Host Memory): 主机直接可用的内存,OpenCL 并未定义主机内存的具体行为,通过 OpenCL API 或者共享虚拟存储器接口,实际存储器对象可以在主机和设备之间传输

  • 全局存储器(global Memory): 这个存储器区域允许上下文设备中的所有工作组的所有工作项的读写,工作项可以读写存储器对象中的任何元素,全局存储器的读写可能被缓存,这个取决于设备能力

  • 常量存储器(constant Memory): 全局存储器的一块区域,在内核实例执行期间其保存的数据保持不变,对于工作项而言这个存储器对象是只读的,主机负责对该存储器对象的分配和初始化

  • 局部存储器(local Memory): 这存储器区域对工作组是局部可见的,它可以用来分配由该工作组的所有工作项共享的变量

  • 私有存储器(private Memory): 这个存储器区域是一个工作项的私有区域,一个工作项的私有存储器定义的变量对其他工作项是不可见的

全局存储器和常量存储器可以在一个上下文内的一个或者多个设备间共享,一个OpenCL设备关联局部存储器和私有存储器

存储器对象

全局存储器中的数据内容可以通过存储器对象来表示,一个存储器对象就是对全局存储器区域的一个引用,在OpenCL 中,存储器对象分为三种不同的类型:

  • 缓冲(buffer): 内核可用的一个连续的存储器区域,内核通过指针来访问缓冲区

  • 图像(image): 图像对象用于存储基于标准格式的图像

  • 管道(pipe): 管道存储器是数据项的有序的队列

共享虚拟存储器

通过映射,可以将设备全局存储器映射到主机可以访问的地址空间,除了这种方式,在 OpenCL 2.0 通过共享虚拟存储器(Shader Virtual Memory,SVM)机制扩展了全局存储器区域到主机内存区域的方式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2181003.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python14_运算符复合赋值

复合赋值缩写 A 7 B 3 C "hello" D "world" E True F False# 加法赋值运算符,7 3 10 def add1(a, b):a b # 等同于a a breturn a# 字符串加法赋值运算符,hello world helloworld def add2(c, d):c d # 等同于字符串拼接,c c dreturn c# …

尚乐代驾重做

微信小程序客户端登陆 一 总体流程 前段携带code发送请求给后端,后端利用微信小程序相关api解析这个code,获取能唯一认证登陆身份的openid。接着先到数据库查询是否有这个id,如果没有就保存用户信息实现注册,并返回token到前端…

百度百科 X-Bk-Token 算法还原

声明 本文章中所有内容仅供学习交流,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请私信我立即删除! 文章目录 声明案例地址参数分析X-Bk-Token算法追踪X-Bk-Token后缀算法还原c 值跟踪与算法还原往期逆向文章推荐最近太忙了,博客摆烂了好…

算法题——层序遍历(一层按一组输出)

输入[1,2,3,4,5] 输出[[1],[2,3],[4,5]] (按照一层输出为一组) 思路: 使用队列,在队列内层再加入一层for循环,每层的个数就是队列中当前队列的个数。 python: from collections import dequeclass Solution(Object):def levelO…

VUE a-table 动态拖动修改列宽+固定列

实现效果 实现思路 自定义表头,在标题后面加两个标签,分别用来显示拖拽图标(cursor: col-resize),和蓝色标记线(有的时候鼠标移动过程中不一定会在表内,这个时候不显示图标,只显示蓝…

独立样本t检验及其案例分析

作者简介:热爱数据分析,学习Python、Stata、SPSS等统计语言的小高同学~个人主页:小高要坚强的博客当前专栏:SPSS本文内容:独立样本t检验及其案例分析作者“三要”格言:要坚强、要努力、要学习 目录 一、引…

2024版Clion debug无法查看函数内数组内容 解决办法

参考Clion debug查看数组中的内容,新版本有所变化 众所周知,进入函数的数组debug不显示内容,解决办法如下: 在Evaluate expression中输入 *(int(*)[10])(数组名)

硬件设计基础之闲聊千兆以太网

一、千兆以太网的介绍 常见的以太网有几种形式,10Mbps、100MHz、1000Mbps、10Gbps等,当然还有更高的,接触的少些,暂且不聊。 10Mbps、100Mbps,多见于单片机使用,比如STM32/GD32 1000Mbps、10Gbps&#x…

React学习笔记(3.0)

classnames优化类名控制 classnames是一个简单的JS库&#xff0c;可以非常方便的通过条件动态控制class类名的显示。 安装classnames&#xff1a; npm i classnames 导入&#xff1a; import classNames from classnames <div className{classNames(box3,{box2:11})}&g…

ESXI识别USB设备

步骤&#xff1a; 插入usb设备到服务器。关闭虚拟机&#xff0c;添加USB控制器&#xff0c;根据U盘选择usb 3.0控制器&#xff0c;再添加usb设备如果usb设备灰色&#xff0c;进入主机打开SSH。使用xshell进行连接&#xff0c;运行以下命令&#xff1a; ESXI识别USB设备 - 插入…

浏览器插件的标准项目结构通常包括以下几个目录和文件

浏览器插件的标准项目结构通常包括以下几个目录和文件&#xff1a; my-extension/ ├── manifest.json // 插件的元数据和配置 ├── background.js // 背景脚本 ├── content_scripts/ // 内容脚本目录 │ └── content.js // 内容脚本…

如何使用ssm实现基于在线开放课程的Web前端设计与实现+vue

TOC ssm746基于在线开放课程的Web前端设计与实现vue 绪论 1.1 选题背景 当人们发现随着生产规模的不断扩大&#xff0c;人为计算方面才是一个巨大的短板&#xff0c;所以发明了各种计算设备&#xff0c;从结绳记事&#xff0c;到算筹&#xff0c;以及算盘&#xff0c;到如今…

基于ssm的宠物领养管理系统的设计与实现 (含源码+sql+视频导入教程)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于ssm的宠物领养管理系统3拥有两种角色 管理员&#xff1a;用户管理、管理员管理、宠物管理、领养管理、评论管理、团队活动管理、志愿者申请管理、领养列表 用户&#xff1a;查看各种…

51单片机应用开发(进阶)---数码管+按键+蜂鸣器(电磁炉显示模拟)

实现目标 1、加强数码管、按键的学习&#xff0c;实现数码显示变量数据&#xff08;四位数的显示&#xff09;&#xff1b; 2、4位数码2个按键无源蜂鸣器实现模拟电磁炉功率调节及显示&#xff1b; 一、内容描述 功能描述&#xff1a;1、开机显示电磁炉功率300&#xff0c;每…

Percona Monitoring and Management

Percona Monitoring and Management (PMM)是一款开源的专用于管理和监控MySQL、MongoDB、PostgreSQL

Java入门3——操作符+String

在入门2中忘了提 String 的事情了&#xff0c;所以这篇就放在开头啦&#xff0c;很有用 话不多说&#xff0c;开始正题~ 一、String 引用数据类型之——String 1.字符串的拼接 在Java中&#xff0c;如果要把两句话合并到一句话的时候&#xff0c;其实是很简单的&#xff0c;…

0109 图解多线程死锁问题

死锁场景 &#x1f92a;举例场景&#xff1a;两个憨憨Tom和Sam去西餐厅吃牛排&#xff0c;桌子上只有一把刀和一把叉&#xff0c;Tom先拿到了叉子&#xff0c;Sam拿到了刀。只有同时拿到刀叉才能吃牛排&#xff0c;于是两个憨憨陷入如下的僵局。 这个场景中&#xff0c;就存在…

信号处理快速傅里叶变换(FFT)的学习

FFT是离散傅立叶变换的快速算法&#xff0c;可以将一个信号变换到频域。有些信号在时域上是很难看出什么特征的&#xff0c;但是如果变换到频域之后&#xff0c;就很容易看出特征了。这就是很多信号分析采用FFT变换的原因。另外&#xff0c;FFT可以将一个信号的频谱提取出来&am…

可以白嫖PPT模板的6个网站,赶紧收藏

推荐6个PPT模板网站&#xff0c;免费下载&#xff0c;绝对的高质量&#xff0c;赶紧收藏&#xff01; 1、菜鸟图库 ppt模板免费下载|ppt背景图片 - 菜鸟图库 菜鸟图库网有非常丰富的免费素材&#xff0c;像设计类、办公类、自媒体类等素材都很丰富。PPT模板种类很多&#xff0…

高中教辅汇总【35GB】

文章目录 一、资源概览二、资源亮点三、获取方式 一、资源概览 这份教辅资源汇总&#xff0c;精心搜集了高中各学科的海量教辅资料&#xff0c;总容量高达35GB&#xff0c;覆盖了语文、数学、英语、物理、化学、生物、历史、地理、政治等所有必修及选修科目。从基础知识点到难…