鲲鹏920s 32核处理器linpack性能调优

news2024/12/28 3:06:18

1、BIOS参数调优

BIOS选项

设置值

Power Policy

Performance

Stream Write Mode

Allocate share LLC

CPU Prefetching Configuration

Enabled

Custom Refresh Rate

64ms

Die Interleaving

Disabled

NUMA

Enable

SSBS Support

Disabled

2、benchmark参数调优

主要调整HPL.dat配置文件内容

HPLinpack benchmark input file 
Innovative Computing Laboratory, University of Tennessee 
HPL.out      output file name (if any) 
6            device out (6=stdout,7=stderr,file) 
1            # of problems sizes (N) 
234320       Ns 
1            # of NBs 
232          NBs 
0            PMAP process mapping (0=Row-,1=Column-major) 
3            # of process grids (P x Q) 
4   8   16   Ps 
32  16  8    Qs 
16.0         threshold 
1            # of panel fact 
2            PFACTs (0=left, 1=Crout, 2=Right) 
1            # of recursive stopping criterium 
4            NBMINs (>= 1) 
1            # of panels in recursion 
2            NDIVs 
1            # of recursive panel fact. 
1            RFACTs (0=left, 1=Crout, 2=Right) 
1            # of broadcast 
1            BCASTs (0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM) 
1            # of lookahead depth 
1            DEPTHs (>=0) 
2            SWAP (0=bin-exch,1=long,2=mix) 
64           swapping threshold 
0            L1 in (0=transposed,1=no-transposed) form 
0            U  in (0=transposed,1=no-transposed) form 
1            Equilibration (0=no,1=yes) 
8            memory alignment in double (> 0)

第5-6行:

矩阵规模的数量和大小,如果第5行大于1,第6行可以设置多个数值,代表不同的规模大小,测试时会遍历运行;矩阵规模越大使用的内存越多,如果超过服务器的内存总容量,就会使用到SWAP空间,性能会急剧下降影响测试结果,所以矩阵规模的大小建议使用系统内存总容量的80%-90%,换算公式为:N^2 * 8 = memory_size(Bytes) * 90%

也可以通过网站https://www.advancedclustering.com/act_kb/tune-hpl-dat-file/进行DAT文件自动设置,输入服务器的信息即可生成推荐的配置。

第7-8行:

求解矩阵过程中矩阵分块的大小。分块大小对性能有很大的影响,NB的选择和软硬件许多因素密切相关。NB值的选择主要是通过实际测试得出最优值,一般遵循以下规律:

  1. NB不能太大或太小,一般小于384。
  2. NB×8一定是缓存行的倍数。
  3. NB的大小和通信方式、矩阵规模、网络、处理器速度等有关系。一般通过单节点或单CPU测试可以得到几个较好的NB值,但当系统规模增加、问题规模变大,有些NB取值所得性能会下降。因此建议在小规模测试时选择3个性能不错的NB值,再通过大规模测试检验这些选择。

第10-12行:

P表示水平方向处理器个数,Q表示垂直方向处理器个数。P×Q表示二维处理器网格。P×Q=系统CPU数=进程数。一般情况下一个进程对应一个CPU,可以得到最佳性能。对于Intel和AMD等支持HT的处理器,关闭超线程可以提高HPL性能。P和Q的取值一般遵循以下规律:

  1. P≤Q,一般情况下P的取值小于Q,因为列向通信量(通信次数和通信数据量)要远大于横向通信。
  2. P建议选择2的幂。HPL中水平方向通信采用二元交换法(Binary Exchange),当水平方向处理器个数P为2的幂时性能最优。

3、参考示例

针对鲲鹏920s,32核处理器,内存64GB,可以修改HPL.dat文件如下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2049202.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue项目将px转成其他单位,如rem、cqw,postcss-pxtorem的使用

安装插件 新建配置文件.postcssrc.js // module.exports { // "plugins": { // "postcss-pxtorem": { // rootValue: 1,//必须和rem的初始值一致 // propList: [*], // // selectorBlackList: [ // // ant…

计算函数(c语言)

1.描述 //小乐乐学会了自定义函数,BoBo老师给他出了个问题,根据以下公式计算m的值。 // //其中 max3函数为计算三个数的最大值,如: max3(1, 2, 3) 返回结果为3。 //输入描述: //一行,输入三个整数&#xff…

3的幂计算

给定一个整数,写一个函数来判断它是否是 3 的幂次方。如果是,返回 true ;否则,返回 false 。 整数 n 是 3 的幂次方需满足:存在整数 x 使得 n 3x。 示例 1: 输入:n 27 输出:tru…

SpringCloud天机学堂:学习计划与进度(四)

SpringCloud天机学堂:学习计划与进度(四) 文章目录 SpringCloud天机学堂:学习计划与进度(四)1、业务接口统计2、实现接口2.1、查询学习记录2.2、提交学习记录2.3、创建学习计划2.4、查询学习计划进度 1、业…

从零掌握keepalived合集

文章目录 keepalived简介keepalived部署keepalived基础设置主配置文件修改独立子配置文件实现实现日志分离 企业应用实例抢占式与非抢占式抢占式非抢占式 VIP单波配置消息通知脚本配置 实现IPVS高可用keepalivedlvs实现keepaliveshaproxy实现 keepalived简介 keepalived基于VR…

GAMES104:07游戏中渲染管线、后处理和其他的一切-学习笔记

文章目录 前言一,Ambient Occlusion环境光遮蔽1.1 Precomputed AO1.2 Screen Space Ambient Occlusion(SSAO)1.3 Horizon-based Ambient Occlusion(HBAO)1.4 Ground Truth-based Ambient Occlusion(GTAO)1.5 Rat-Tracing Ambient Occlusion 二,雾效2.1 D…

Java MessagePack序列化工具(适配Unity)

Java MessagePack序列化工具(适配Unity) 前言项目代码编写 结 前言 前后端统一用MessagePack,结果序列化的结果不一样,发现C#侧需要给每个类增加描述字段数量的Head,而Java却不用,所以在Java侧封装一下序列…

51系列LY-51S出现下载失败·的解法

1.他的下载电路是特殊设计的 一般连接1,2,另外的接口2,3一般不接,而且2,3的功能是用来diy自动下载电路的,你接上2,3又没独特的下载电路会一直复位

进程池详解

目录 进程池 1、什么是进程池? 2、实现进程池 (1)相关函数: pipe函数: write函数 read函数 waitpid函数 (2)代码实现面向过程进程池 Task.hpp processPool.cc 3、注意事项 进程池 …

坚鹏讲人才第12期:引领数字化未来—数字化人才与导师共赢之路

坚鹏讲人才第12期:引领数字化未来—数字化人才与导师共赢之路 ——抢占名额先机 成为坚鹏弟子 加速数字化转型 数字化浪潮汹涌而至,你是否感到迷茫、困惑、焦虑?想不想一脚油门冲进未来,和我一同探寻数字化人才的奥秘&#xf…

【迅为电子】RK3568驱动指南|第十七篇 串口-第202章 串口编程

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码,支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU,可用于轻量级人工…

计算机毕业设计选什么题目好?基于vue的音乐播放系统

✍✍计算机毕业编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java、…

LangGraph Studio:首款智能体(agent)IDE

0 前言 LangGraph Studio 提供了一个专门的智能体IDE,用于可视化、交互和调试复杂的智能体应用程序。本文来了解如何在桌面使用。 LLM为新型智能体应用程序的发展铺平了道路——随这些应用程序演进,开发它们所需工具也必须不断改进。今天推出的 LangG…

C++(10)类语法分析(1)

C(10)之类语法分析(1) Author: Once Day Date: 2024年8月17日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: 源码分析_Once-Day的博客-CSDN博客 …

JavaFX布局-DialogPane

JavaFX布局-DialogPane 常用属性标题区域headerTextheader 内容区域contentTextcontent graphic按钮设置expandableContent 实现方式Java实现 一个特殊的布局容器,常用于弹出框,与Dialog配合一起使用包含标题区,内容区域,扩展区域…

Merkle树(Merkle Tree):高效地验证某个数据块是否包含在数据集中

目录 Merkle树(Merkle Tree) 一、基本结构 二、构建过程 三、主要作用 四、应用领域 Merkle树(Merkle Tree) Merkle树(Merkle Tree),也被称为默克尔树或Merkle哈希树,是一种基于哈希的数据结构,主要用于验证大规模数据集的完整性和一致性。它的名字来源于其发明…

【Unity教程】使用 Animation Rigging实现IK制作程序化的动画

在 Unity 开发中,为角色创建逼真且自适应的动画是提升游戏体验的关键。在本教程中,我们将结合 Animation Rigging 工具和 IK(Inverse Kinematics,反向运动学)插件来实现程序化的动画。 视频教程可以参考b战大佬的视频 …

不只是翻译,更是智慧碰撞!有道翻译与3大强敌的全方位较量

现在的科技牛得不行,翻译软件早就成了咱们学习、工作、生活里少不了的帮手。它们不光是把语言的墙给推倒了,还让咱们说话交流快多了。今儿个,咱们就一块儿瞧瞧2024年的翻译软件圈子,瞅瞅那几个最火的翻译工具,它们怎么…

生信软件30 - 快速单倍型分析工具merlin

Merlin可用于连锁分析或关联分析、IBD和亲缘关系估计、单倍型分析、错误检测和模拟。 1. merlin下载 下载地址: http://csg.sph.umich.edu/abecasis/merlin/download/ # linux版本 wget http://csg.sph.umich.edu/abecasis/merlin/download/Linux-merlin.tar.gz …

如何在本地和远程删除 Git 分支?

如何在本地和远程删除 Git 分支? 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页,我是博主英杰,211科班出身,就职于医疗科技公司,热衷分享知识,武汉城市开发者社区主理人 擅长.n…