CMake+OpenMP加速运算测试

news2024/9/22 17:38:37

目录

  • 写在前面
  • 代码
  • 编译运行
  • 关于加速效果
  • 参考

写在前面

1、本文内容
cmake编译测试openmp的效果

2、平台/环境
windows/linux均可,cmake
3、转载请注明出处:
https://blog.csdn.net/qq_41102371/article/details/131629705

代码

代码包含同样的for循环使用openmp加速,使用openmp加速并使用critical,不使用openmp的测试, 代码目录结构如下,请将test_openmp.cpp和CMakeLists.txt放入src
在这里插入图片描述
test_openmp.cpp

#include <iostream>
#include <vector>
#include <chrono>

#include <omp.h>

void computeWithOpenMP(const std::vector<int> &data)
{
    // #pragma omp parallel
    {
        std::vector<int> result(data.size());
#pragma omp parallel for
        for (int i = 0; i < data.size(); ++i)
        {
            if (i >= 0 && i <= 1000000)
            {
                // 使用 OpenMP 并行计算
                result[i] = data[i] * 2;
            }
        }
    }
}

void computeWithOpenMPCritical(const std::vector<int> &data)
{
    {
        std::vector<int> result(data.size());
        int count = 0;
#pragma omp parallel for
        for (int i = 0; i < data.size(); ++i)
        {
            if (i >= 0 && i <= 1000000)
            {
#pragma omp critical

                // 使用 OpenMP 并行计算
                result[i] = data[i] * 2;
            }
        }
    }
}

void computeWithoutOpenMP(const std::vector<int> &data)
{
    std::vector<int> result(data.size());
    for (int i = 0; i < data.size(); ++i)
    {
        // 未使用 OpenMP,串行计算
        if (i >= 0 && i <= 1000000)
        {
            result[i] = data[i] * 2;
        }
    }
}


int main(int argc, char **argv)
{
#ifdef _OPENMP
    std::cout << "use _OPENMP" << std::endl;
    std::cout << "max tread: " << omp_get_max_threads() << std::endl;
#else
    std::cout << "no _OPENMP" << std::endl;
#endif
    int size = std::atoi(argv[1]);
    std::vector<int> data(size, 1);

    // 使用 OpenMP 加速的计算
    auto start = std::chrono::high_resolution_clock::now();
    computeWithOpenMP(data);
    auto end = std::chrono::high_resolution_clock::now();
    auto durationOpenMP = std::chrono::duration_cast<std::chrono::microseconds>(end - start).count() / 1000.0;

    // 使用 OpenMP 加速,并使用了critical
    start = std::chrono::high_resolution_clock::now();
    computeWithOpenMPCritical(data);
    end = std::chrono::high_resolution_clock::now();
    auto durationOpenMPCritical = std::chrono::duration_cast<std::chrono::microseconds>(end - start).count() / 1000.0;

    // 未使用 OpenMP 的计算
    start = std::chrono::high_resolution_clock::now();
    computeWithoutOpenMP(data);
    end = std::chrono::high_resolution_clock::now();
    auto durationNoOpenMP = std::chrono::duration_cast<std::chrono::microseconds>(end - start).count() / 1000.0;

    // 打印时间结果
    std::cout << "With OpenMP: " << durationOpenMP << " ms" << std::endl;
    std::cout << "With OpenMPCritical: " << durationOpenMPCritical << " ms" << std::endl;
    std::cout << "No OpenMP: " << durationNoOpenMP << " ms" << std::endl;
    return 0;
}

CMakeLists.txt

cmake_minimum_required(VERSION 3.18)
project(TestOpenMP)

find_package(OpenMP)
add_executable(test_openmp ./test_openmp.cpp)
if(OpenMP_CXX_FOUND)
    target_link_libraries(test_openmp OpenMP::OpenMP_CXX)
endif()

compile.bat

cmake -DCMAKE_BUILD_TYPE=Release -S ./src -B ./build
cmake --build ./build --config Release --target ALL_BUILD

run.bat

.\build\Release\test_openmp.exe 500000000

其中参数500000000是数据量,测试时修改不同值看效果

编译运行

编译

cd test_openmp
./compile.bat

运行

./run.bat

下面是数据量是500000000是在笔记本i7-12700H上的结果
在这里插入图片描述
请通过第一个打印信息use _OPENMP或者no _OPENMP来判断openmp是否正常配置或可用

关于加速效果

根据实测,加速效果根据硬件、for循环的计算内容、数据量而不同,有时候还看运气。
下面是chatgpt关于openmo加速效果的回答:
当使用 OpenMP 进行并行化时,性能的提升并不是绝对的,它取决于多个因素,包括但不限于以下几点:

  1. 并行化开销:并行化需要额外的开销来进行线程间的同步和任务划分。当问题规模较小时,这些开销可能会超过并行化带来的性能收益,从而导致性能下降。

  2. 数据访问模式:并行化的效果受到数据访问模式的影响。如果数据访问存在竞争条件或者导致缓存冲突,那么并行化可能会导致性能下降。在某些情况下,串行执行可能更有效。

  3. 硬件资源限制:并行化的效果受到可用的硬件资源限制的影响。如果系统的物理核心数有限,而问题规模较大,那么并行化的效果可能会受到限制。

  4. 任务粒度:任务的粒度越细,可以提供更好的负载平衡和并行化效果。如果任务过于细小,可能会导致线程间的同步开销超过并行化带来的性能收益。

在使用 OpenMP 进行并行化时,可以尝试以下几种方法来判断是否应该使用 OpenMP:

  • 基于经验:根据以往的经验,对问题规模、计算复杂度和硬件环境进行评估。如果问题规模较大,计算复杂度高,并且有足够的硬件资源,那么可能值得尝试使用 OpenMP 进行并行化。

  • 性能分析:使用性能分析工具(如 perfgprofIntel VTune 等)来评估串行代码的性能瓶颈,并检查是否存在并行化的潜在机会。通过性能分析,可以确定哪些代码段可以获得较大的性能提升,并尝试将其并行化。

  • 实验验证:根据问题规模和计算复杂度,在小规模的样本上进行实验验证。比较串行和并行化的性能,并根据实验结果来决定是否使用 OpenMP 进行并行化。

重要的是要记住,并行化并不总是能够带来性能提升,有时甚至可能导致性能下降。在决定是否使用 OpenMP 进行并行化时,需要进行合理的评估和实验验证,结合问题的特点和硬件环境,做出明智的决策。

参考

CMakeLists 增加 OpenMP 的支持
CMake+OpenMP编译运行最简单的c++代码

主要做激光/影像三维重建,配准、分割等常用点云算法,技术交流、咨询可私信

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/735812.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Dockerfile自定义镜像 - 基于 java:8-alpine 镜像,将一个Java项目构建为镜像

目录 一、前置知识 1.镜像结构 2.Dockerfile是什么 二、自定义一个 java 项目镜像 1.创建一个空目录&#xff0c;在这个空目录中创建一个文件&#xff0c;命名为 DockerFile&#xff0c;最后将 java 项目打包成 jar 包&#xff0c;放到这个目录中 2.编写 Dockerfile 文件 …

Vue3+Vite项目引入Element-plus并配置按需自动导入

一、安装Element-plus # 选择一个你喜欢的包管理器# NPM $ npm install element-plus --save# Yarn $ yarn add element-plus# pnpm $ pnpm install element-plus我使用的是 pnpm&#xff0c;并且顺便将 element-plus/icons一起引入 pnpm install element-plus element-plus/…

Python开启Http Server

用 Python 部署了一个具有 FTP 功能的服务器&#xff0c;电脑在局域网内通过 FTP 下载想要传输的文件。 注&#xff1a;这种方法不仅在自己家的路由器上可行&#xff0c;亲测在下面两种场景也可行&#xff1a; 需要用手机验证码连接的公共 WIFI 上&#xff1b;用手机开热点&a…

Kubernetes的Pod中进行容器初始化

Kubernetes的Pod中进行容器初始化 在很多应用场景中&#xff0c;应用在启动之前都需要进行如下初始化操作&#xff1a; 等待其他关联组件正确运行(例如数据库或某个后台服务)。 基于环境变量或配置模板生成配置文件。 从远程数据库获取本地所需配置&#xff0c;或者将自身注…

将一个3x3的OpenCV旋转矩阵转换为Eigen的Euler角

代码将一个3x3的OpenCV旋转矩阵转换为Eigen的Euler角。 #include <iostream> #include <Eigen/Core> #include <Eigen/Geometry> #include <opencv2/core.hpp>using

Sharding-JDBC【Sharding-JDBC介绍、数据分片剖析实战】(一)-全面详解(学习总结---从入门到深化)

目录 Sharding-JDBC介绍 数据分片剖析实战 Sharding-JDBC介绍 背景 随着通信技术的革新&#xff0c;全新领域的应用层出不穷&#xff0c;数据存量随着应 用的探索不断增加&#xff0c;数据的存储和计算模式无时无刻不面临着创新。面向交易、大数据、关联分析、物联网等场景…

初始 Redis - 分布式,内存数据存储,缓存

目录 1. 什么是 Redis 1.1 Redis 内存数据存储 1.2 Redis 用作数据库 1.3 Redis 用作缓存 (cache) 1.4 用作消息中间件 1. 什么是 Redis The open source , in-memory data store used by millions of developers as a database, cache, streaming engine, and message br…

时间序列预测 | Matlab基于自回归移动平均模型(ARMA模型)时间序列预测

文章目录 效果一览文章概述部分源码参考资料效果一览 文章概述 时间序列预测 | Matlab基于自回归移动平均模型(ARMA模型)时间序列预测,单列数据输入模型 评价指标包括:MAE、RMSE和R2等,代码质量极高,方便学习和替换数据。要求2018版本及以上。 部分源码 %% 清空环境变量 w…

zookeper第二三课-Zookeeper经典应用场景实战

1. Zookeeper Java客户端实战 ZooKeeper应用的开发主要通过Java客户端API去连接和操作ZooKeeper集群。可供选择的Java客户端API有&#xff1a; ZooKeeper官方的Java客户端API。第三方的Java客户端API&#xff0c;比如Curator。 ZooKeeper官方的客户端API提供了基本的操作。例…

MFS分布式文件系统

MFS分布式文件系统 应用背景 公司之前的图片服务器采用的是 NFS&#xff0c;随着业务量增加&#xff0c;多台服务器通过 NFS方式共享一个服务器的存储空间&#xff0c;使得 NFS 服务器不堪重负&#xff0c;经常出现超时问题。 而且NFS存在着单点故障问题&#xff0c;尽管可以…

C++STL:顺序容器之vector

文章目录 1. 概述2. 成员函数3. 创建 vector 容器的几种方式4. 迭代器vector容器迭代器的基本用法vector容器迭代器的独特之处 5. 访问元素5.1 访问vector容器中单个元素5.2 访问vector容器中多个元素 6. 添加元素6.1 push_back()6.2 emplace_back()6.3 emplace_back()和push_b…

[元带你学: eMMC协议 24] eMMC Packed Command CMD23读(Read) 写(write) 操作详解

依JEDEC eMMC及经验辛苦整理&#xff0c;原创保护&#xff0c;禁止转载。 专栏 《元带你学&#xff1a;eMMC协议》 内容摘要 全文 3200 字&#xff0c; 主要内容 目录 前言 1 Packed Commands 有什么用处&#xff1f; 2 Packed Commands 怎么实现&#xff1f; Packed Wri…

【爬虫】5.4 Selenium 实现用户登录

目录 任务目标 创建模拟网站 创建服务器程序 键盘输入动作 鼠标点击动作 编写爬虫程序 任务目标 Selenium 查找的 HTML 元素是一个 WebElemen t对象&#xff0c; 这个对象不但可以获取元素的属性值&#xff0c;而且还能执行一 些键盘输入send_keys()与鼠标点击click()的动…

leetcode 617. 合并二叉树

2023.7.9 这题要求合并两二叉树&#xff0c;若节点重叠则将节点值相加。 和之前不同的是需要同时对两棵树进行操作&#xff0c;我选用队列来做这题。 大致思路&#xff1a;通过遍历两棵树的对应节点&#xff0c;将节点值相加并合并到第一棵树上。如果某个节点为空&#xff0c;…

Squid 缓存服务器

Squid 缓存服务器 作为应用层的代理服务软件&#xff0c;Squid 主要提供缓存加速和应用层过滤控制的功能 ☆什么是缓存代理 当客户机通过代理来请求 Web 页面时 指定的代理服务器会先检查自己的缓存&#xff0c;如果缓存中已经有客户机需要访问的页面&#xff0c;则直接将缓…

Qt实现思维导图功能(五)

前文链接&#xff1a;Qt实现思维导图功能&#xff08;四&#xff09; 思维导图纵向分布模式&#xff1a;模式一 百度网盘体验地址&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1YNSBiFOUwnSSKvHsBvOT3g 提取码&#xff1a;ifyc动态演示效果 静态展示图片 前文BUG维…

Linux 网络IO管理(epoll实现)

文章目录 1、网络IO模型1.1、阻塞IO&#xff08;blocking IO&#xff09;1.2、非阻塞IO&#xff08;non-blocking IO&#xff09;1.3、多路复用 IO&#xff08;IO multiplexing&#xff09;1.4、异步 IO&#xff08;Asynchronous I/O&#xff09;1.5、信号驱动 IO&#xff08;s…

可恶的剪绳子问题

1. 剑指 Offer 14- I. 剪绳子 题目描述&#xff1a;给你一根长度为 n 的绳子&#xff0c;请把绳子剪成整数长度的 m 段&#xff08;m、n都是整数&#xff0c;n>1并且m>1&#xff09;&#xff0c;每段绳子的长度记为 k[0],k[1]…k[m-1] 。请问 k[0]k[1]…*k[m-1] 可能的最…

3.6.共享内存的学习

目录 前言1. 共享内存2. shared memory案例3. 补充知识总结 前言 杜老师推出的 tensorRT从零起步高性能部署 课程&#xff0c;之前有看过一遍&#xff0c;但是没有做笔记&#xff0c;很多东西也忘了。这次重新撸一遍&#xff0c;顺便记记笔记。 本次课程学习精简 CUDA 教程-共享…

基于Qt5 实现的简易慕课爬取程序

基于Qt5 实现的简易慕课爬取程序 一、项目概述二、源代码 一、项目概述 名称&#xff1a;MookScrapy 这个项目主要是使用了 Qt 里面的 QNetworkAccessManager 去下载慕课网站的数据 https://coding.imooc.com&#xff0c;也就是这个网站里面的卡片信息。然后做一定的分析和展示…