如何通过ISPC使用Xe(核显)进行计算

news2024/11/15 9:23:13

我一直以为 ISPC 的 Xe 是只包含独立显卡的,比如 A770 这些,没想到看了眼文档是可以使用核显的,但只能在 Linux 和 Windows 上,macOS 不行,就想试试看。

写本文是因为 ISPC 已经出现了三四个版本的大改,但是官方文档Intel® ISPC for Xe并未提及这些。不过这篇官方文档依旧可以带来很多帮助。

准备工作

本文使用 Windows 系统进行操作,Linux 操作类似。(实际使用建议使用 Linux,Windows 上毛病比较多)

此外需要注意不能使用 WSL。个人猜测是因为 WSL 无法识别核显型号,因为 lspci的结果中,显卡显示是3D controller,而不是正经 Linux 发行版中的,比如VGA compatible controller(厂商数据也不对)。CUDA 是通过一个库实现的,也就是中继的,但是 Intel 好像没有弄这样的库。

此外,ISPC 最新的 Windows 版本针对我的核显的代码不能用:编译没问题,但是运行不成功,显示版本问题。原因是我使用的 UHD 630 是 Gen 9 的,而目前 Windows 版本只支持 11-13 代或者 Arc 独显。

目前 Windows 版本只支持 11-13 代或者独显

所以如果你和我遇到一样的问题,那么请安装 v1.18.1 或者 v1.18.0 的 ISPC,这样就可以成功运行了。

成功准备好 ISPC 之后,安装 Level Zero Loader。方法很简单,下载level-zero-sdk,之后配置环境变量LEVEL_ZERO_PATH即可。

运行原理

ISPC Runtime 是 Level Zero 的高级化产物(类似汇编语言和高级语言的关系),可以通过 Level Zero 控制 CPU 和 GPU。所以程序是将 ISPC 编译后得到的 ISPCRT objects 交给 ISPC Runtime,由 ISPC Runtime 决定是 CPU 还是 GPU 运行,并进行操作(但这个内容是在 ISPCRT Object 中设置的)。ISPCRT Object 是 SPIR-V 格式的,存放文件后缀为.spv

如果你熟悉 Java 的话就很好理解,ISPC 就是 javac,ISPC Runtime 就是 Java。

需要注意一点,如果你只需要代码运行在 CPU 上,那么不需要 ispcrt,只需要ispc编译器即可。

示例代码

示例代码是 ISPC 示例中的 Simple。Simple 项目有两个文件:simple.cppsimple.ispc

simple.cpp的内容如下:

#include <algorithm>
#include <cmath>
#include <iomanip>
#include <iostream>

// ispcrt
#include "ispcrt.hpp"

std::ostream &operator<<(std::ostream &os, const ISPCRTDeviceType dt) {
    switch (dt) {
    case ISPCRT_DEVICE_TYPE_AUTO:
        os << "Auto";
        break;
    case ISPCRT_DEVICE_TYPE_GPU:
        os << "GPU";
        break;
    case ISPCRT_DEVICE_TYPE_CPU:
        os << "CPU";
        break;
    default:
        break;
    }
    return os;
}

struct Parameters {
    float *vin;
    float *vout;
    int count;
};

void simple_CPU_validation(std::vector<float> vin, std::vector<float> &vgold, const unsigned int SIZE) {
    for (unsigned int i = 0; i < SIZE; i++) {
        float v = vin[i];
        if (v < 3.)
            v = v * v;
        else
            v = std::sqrt(v);

        vgold[i] = v;
    }
}

#define EPSILON 0.01f
bool validate_result(std::vector<float> vout, std::vector<float> vgold, const unsigned int SIZE) {
    bool bValid = true;
    for (unsigned int i = 0; i < SIZE; i++) {
        float delta = (float)fabs(vgold[i] - vout[i]);
        if (delta > EPSILON) {
            std::cout << "Validation failed on i=" << i << ": vout[i] = " << vout[i] << ", but " << vgold[i]
                      << " was expected\n";
            bValid = false;
        }
    }
    return bValid;
}

static int run(const ISPCRTDeviceType device_type, const unsigned int SIZE) {
    std::vector<float> vin(SIZE);
    std::vector<float> vout(SIZE);
    std::vector<float> vgold(SIZE);

    ispcrt::Device device(device_type);

    // Setup input array
    ispcrt::Array<float> vin_dev(device, vin);

    // Setup output array
    ispcrt::Array<float> vout_dev(device, vout);

    // Setup parameters structure
    Parameters p;

    p.vin = vin_dev.devicePtr();
    p.vout = vout_dev.devicePtr();
    p.count = SIZE;

    auto p_dev = ispcrt::Array<Parameters>(device, p);

    // Create module and kernel to execute
    ispcrt::Module module(device, "xe_simple");
    ispcrt::Kernel kernel(device, module, "simple_ispc");

    // Create task queue and execute kernel
    ispcrt::TaskQueue queue(device);

    std::generate(vin.begin(), vin.end(), [i = 0]() mutable { return i++; });

    // Calculate gold result
    simple_CPU_validation(vin, vgold, SIZE);

    // ispcrt::Array objects which used as inputs for ISPC kernel should be
    // explicitly copied to device from host
    queue.copyToDevice(p_dev);
    queue.copyToDevice(vin_dev);
    // Launch the kernel on the device using 1 thread
    auto res = queue.launch(kernel, p_dev, 1);
    // ispcrt::Array objects which used as outputs of ISPC kernel should be
    // explicitly copied to host from device
    queue.copyToHost(vout_dev);
    // Execute queue and sync
    queue.sync();
    double time = -1.0;
    if (res.valid()) {
        time = res.time() * 1e-6;
    }
    std::cout << time << std::endl;
    std::cout << "Executed on: " << device_type << '\n' << std::setprecision(6) << std::fixed;

    // Check and print result
    bool bValid = validate_result(vout, vgold, SIZE);
    if (bValid) {
        for (int i = 0; i < SIZE; i++) {
            std::cout << i << ": simple(" << vin[i] << ") = " << vout[i] << '\n';
        }
        return 0;
    }
    return -1;
}

void usage(const char *p) {
    std::cout << "Usage:\n";
    std::cout << p << " --cpu | --gpu | -h\n";
}

int main(int argc, char *argv[]) {
    std::ios_base::fmtflags f(std::cout.flags());

    constexpr unsigned int SIZE = 16;

    // Run on CPU by default
    ISPCRTDeviceType device_type = ISPCRT_DEVICE_TYPE_AUTO;

    if (argc > 2 || (argc == 2 && std::string(argv[1]) == "-h")) {
        usage(argv[0]);
        return -1;
    }

    if (argc == 2) {
        std::string dev_param = argv[1];
        if (dev_param == "--cpu") {
            device_type = ISPCRT_DEVICE_TYPE_CPU;
        } else if (dev_param == "--gpu") {
            device_type = ISPCRT_DEVICE_TYPE_GPU;
        } else {
            usage(argv[0]);
            return -1;
        }
    }

    int success = run(device_type, SIZE);
    std::cout.flags(f);
    return success;
}

simple.ispc的内容如下:

struct Parameters {
    float *vin;
    float *vout;
    int    count;
};

task void simple_ispc(void *uniform _p) {
    Parameters *uniform p = (Parameters * uniform) _p;

    foreach (index = 0 ... p->count) {
        // Load the appropriate input value for this program instance.
        float v = p->vin[index];

        // Do an arbitrary little computation, but at least make the
        // computation dependent on the value being processed
        if (v < 3.)
            v = v * v;
        else
            v = sqrt(v);

        // And write the result to the output array.
        p->vout[index] = v;
    }
}

#include "ispcrt.isph"
DEFINE_CPU_ENTRY_POINT(simple_ispc)

编译流程

编译需要用到 CMake 和 C/C++ 编译器。在 Windows 上就是使用 CMake 和 Visual Studio,Linux 上使用 CMake 和 Clang 或 GCC 就行。

ISPC 分发中包含了一些很有用的 CMake 函数,可以大大降低我们编译所需的工作量。但是需要注意本文中使用 CMake 函数的只能在 v1.18.1 之前的版本使用,后面版本中,相关函数出现了大的变化,但是官方并未对这些函数进行介绍。由于本人也没有 11-13 代核显或者 Intel 独显,所以无法进行尝试,未来如果进行了研究会在这里贴上链接。

建议别想不开非要自己用命令一条条编译。因为各种库都是要手动设置的,Linux 上还好,Windows 上由于库的位置,几乎全是绝对地址,而且cl.exe对有些库的引用有问题,需要设置的太多,这就导致编译所需的命令都超级长,手动编译确实不太方便。

在项目根目录下新建一个CMakeLists.txt,输入以下内容:

cmake_minimum_required(VERSION 3.14)

project(simple)
find_package(ispcrt REQUIRED)
add_executable(host_simple simple.cpp)
add_ispc_kernel(xe_simple simple.ispc "")
target_link_libraries(host_simple PRIVATE ispcrt::ispcrt)

由于计算需要交给 GPU 执行,所以操作 CPU 执行的代码加上host_前缀,交给 GPU 的任务就加上xe_前缀进行区分(Host 和 Device 的概念在 GPU 中还是非常常见的,如果你感兴趣)。

新版本的 ISPC 对新的核显架构使用了新的 CMake 函数,你可以在 ISPC 分发目录中的lib/ispcrt/ispc.cmake中看到。

然后就可以开始构建编译了。

按照惯例,新建一个build,在其中构建项目:

mkdir build
cd build
cmake ..

Linux

Linux 的话直接用make即可。

Windows

如果是在 Windows 上,这里会出现一个 Visual Studio 项目,我们点击.sln,然后生成解决方案。但是需要注意一个事情:不知道为什么,我在尝试的时候,有些情况下.sqv等一些文件会生成在build目录下,而不是Debug或者Release这些生成目录下(生成设置没有问题)。.sqv是关键,前文提到过这是程序与 ISPCRT 的桥梁。

解决方案有两种:

  1. 完成将.sqv后手动拖拽到生成目录下。这个方案对于简单的项目(比如说这个示例项目);
  2. 直接强制将其生成到.sln所在目录(也就是build目录下)。

如果使用第二种方法,需要在``的中间加入以下语句来设置生成环境(打开项目的时候 Visual Studio 会告诉你发生了修改):

SET( CMAKE_RUNTIME_OUTPUT_DIRECTORY_DEBUG "${OUTPUT_DIRECTORY}")
SET( CMAKE_RUNTIME_OUTPUT_DIRECTORY_RELEASE "${OUTPUT_DIRECTORY}")
SET( CMAKE_LIBRARY_OUTPUT_DIRECTORY_DEBUG "${OUTPUT_DIRECTORY}")
SET( CMAKE_LIBRARY_OUTPUT_DIRECTORY_RELEASE "${OUTPUT_DIRECTORY}")
SET( CMAKE_ARCHIVE_OUTPUT_DIRECTORY_DEBUG "${OUTPUT_DIRECTORY}")
SET( CMAKE_ARCHIVE_OUTPUT_DIRECTORY_RELEASE "${OUTPUT_DIRECTORY}")

这样我们就可以直接运行了(也不用切换工作目录)。

运行

这个程序既可以在 CPU 上 运行,也可以在 GPU 上运行(默认为 CPU)。

默认无选项(CPU):
请添加图片描述

GPU:

请添加图片描述

希望能帮到有需要的人~

参考资料

Intel® ISPC for Xe

cmake RUNTIME_OUTPUT_DIRECTORY on Windows - stack overflow

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1387796.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入了解WPF控件:基础概念与用法(三)

掌握WPF控件&#xff1a;熟练常用属性&#xff08;三&#xff09; DataGrid 用于显示和编辑数据的表格控件。它可以从多种数据源&#xff08;如SQL数据库、LINQ查询或任何其他可绑定的数据源&#xff09;中显示和编辑数据&#xff0c;支持排序、筛选、分页等功能。 DataGrid…

时间序列数据库选型: influxdb; netdiscover列出docker实例们的ip,docker管理工具lazydocker、scope

influxdb influxdb: 有收费版本、有开源版本 influxdb 安装、启动(docker) docker run -itd --name influxdb-dev -p 8086:8086 influxdb #influxdb的web客户端(端口8003)被去掉了 #8006是web-service端口#docker exec -it influxdb-dev bashinfluxdb 自带web界面 从后面的…

Express(二):文件下载 - 分片下载

效果&#xff08;比较下载速度&#xff09; 服务端 请求响应头 源码 const express require(express); const path require("path"); const fs require("fs"); const router express.Router();const fileName 下载文件.zip; const filePath path.j…

基于LabVIEW的声音信号采集分析系统开发

摘要&#xff1a;以美国国家仪器(NI)公司开发的LabVIEW虚拟仪器为软件开发平台&#xff0c;设计了一个可以同步实现声音信号采集和分析的多功能模块化软件系统&#xff0e;借助LabVIEW图形化软件相应的声音读取、写入和存储函数实现对声音信号的采集、存储、时域分析和频域分析…

精确掌控并发:滑动时间窗口算法在分布式环境下并发流量控制的设计与实现

这是《百图解码支付系统设计与实现》专栏系列文章中的第&#xff08;15&#xff09;篇&#xff0c;也是流量控制系列的第&#xff08;2&#xff09;篇。点击上方关注&#xff0c;深入了解支付系统的方方面面。 上一篇介绍了固定时间窗口算法在支付渠道限流的应用以及使用redis…

Spring Boot异常处理!!!

SpringBoot默认的处理异常的机制&#xff1a;SpringBoot 默认的已经提供了一套处理异常的机制。一旦程序中出现了异常 SpringBoot 会向/error 的 url 发送请求。在 springBoot 中提供了一个叫 BasicErrorController 来处理/error 请求&#xff0c;然后跳转到默认显示异常的页面…

vue:使用【3.0】:条件模块

一、条件层级效果图 二、代码 <template><ContentWrap><!-- 添加条件分支:level1 --><div class"btnBox" v-if"isEdit"><el-button type"primary" click"add">添加条件分支</el-button></div…

如何优化大型语言模型,让AI回应更智能、更准确?

什么是检索增强生成&#xff08;RAG)&#xff1f; 检索增强生成&#xff08;RAG&#xff09;是一种优化大型语言模型输出的过程&#xff0c;它在生成回应之前会参考其训练数据源之外的权威知识库。大型语言模型&#xff08;LLM&#xff09;在大量数据上进行训练&#xff0c;使…

Windows10解决大小核调度问题

文章目录 1.开启高性能模式2.下载安装PowerSettingsExplorer3.修改配置生效的异类策略异类线程调度策略异类短时间线程调度策略 4.你的电源策略5.CPU展示 该教程是给笔记本电脑用的&#xff0c;经过我实践是成功的。 1.开启高性能模式 使用管理员模式的PowerShell输入下列指令 …

微信小程序上传并显示图片

实现效果&#xff1a; 上传前显示&#xff1a; 点击后可上传&#xff0c;上传后显示&#xff1a; 源代码&#xff1a; .wxml <view class"{{company_logo_src?blank-area:}}" style"position:absolute;top:30rpx;right:30rpx;height:100rpx;width:100rp…

C++ 设计模式之享元模式

【声明】本题目来源于卡码网&#xff08;题目页面 (kamacoder.com)&#xff09; 【提示&#xff1a;如果不想看文字介绍&#xff0c;可以直接跳转到C编码部分】 【简介】什么是享元模式 -- 可重复使用 享元模式是⼀种结构型设计模式&#xff0c;在享元模式中&#xff0c;对象被…

基于深度学习的桃子熟度与大小智能检测

基于深度学习的桃子熟度与大小智能检测 基于深度学习的桃子熟度与大小智能检测引言1. 环境搭建与准备2. 数据准备3. 模型准备4. 训练准备5. 服务器端部署结语 基于深度学习的桃子熟度与大小智能检测 引言 随着时代的快速发展&#xff0c;人工智能时代为中国农业带来了新的机遇…

Leetcode刷题【每日n题】(1)

目录 1.题目一 2.思路分析 3.代码实现 4.题目二 5.思路分析 6.代码实现 1.题目一 11. 盛最多水的容器 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴…

Vue-20、Vue.set()的使用

1、添加对象某个属性 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Vue.set()的使用</title><script type"text/javascript" src"https://cdn.jsdelivr.net/npm/vue2/dist…

2023.12.30性质

若连通图上各边的权值均不相同&#xff0c;则该图的最小生成树是唯一的。 由k算法&#xff0c;即由边从小到大的顺序构造&#xff0c;如果边权值各不相同&#xff0c;那么构造出来的最小生成树唯一&#xff0c;就是唯一的顺序&#xff0c;从小到大 关于带权无向图的最小生成…

动态pv(nfs方式挂载)

1、定义 发布pvc之后可以生成pv&#xff0c;还可以在共享服务器上直接生成挂载目录 pvc直接绑定和使用pv 2、动态pv依赖两个组件 &#xff08;1&#xff09;provisioner卷插件&#xff1a;k8s本身支持的动态pv创建不包括nfs&#xff0c;需要声明和安装一个外部插件provisio…

HDFS和MapReduce综合实训

文章目录 第1关&#xff1a;WordCount词频统计第2关&#xff1a;HDFS文件读写第3关&#xff1a;倒排索引第4关&#xff1a; 网页排序——PageRank算法 第1关&#xff1a;WordCount词频统计 测试说明 以下是测试样例&#xff1a; 测试输入样例数据集&#xff1a;文本文档test1…

canvas截取视频图像(图文示例)

查看专栏目录 canvas示例教程100专栏&#xff0c;提供canvas的基础知识&#xff0c;高级动画&#xff0c;相关应用扩展等信息。canvas作为html的一部分&#xff0c;是图像图标地图可视化的一个重要的基础&#xff0c;学好了canvas&#xff0c;在其他的一些应用上将会起到非常重…

[VGG团队论文阅读]Free3D: Consistent Novel View Synthesis without 3D Representation

Vedaldi, C. Z. A. (n.d.). Free3D: Consistent Novel View Synthesis without 3D Representation. Chuanxiaz.com. https://chuanxiaz.com/free3d/static/videos/Free3D.pdf Free3D: 无需3D表示的一致新视角合成 Visual Geometry Group, University of Oxford 摘要 我们介绍…

C# 面向切面编程之AspectCore初探

写在前面 AspectCore 是Lemon名下的一个国产Aop框架&#xff0c;提供了一个全新的轻量级和模块化的Aop解决方案。面向切面也可以叫做代码拦截&#xff0c;分为静态和动态两种模式&#xff0c;AspectCore 可以实现动态代理&#xff0c;支持程序运行时在内存中“临时”生成 AOP 动…