大咖培训讲座|高性能计算专场 认识真正的高性能计算,探究如何成为高性能计算工程师 ...

news2025/1/13 13:18:19

猿代码科技高性能计算讲座原文——OpenBLAS创始人无保留分享

我们如何成为一个高性能计算的工程师,或者这种性能优化的这一部分的软件工程师。

我其实想了一下,这一部分的入门的基础其实没那么难。

就是更主要的话,我还是在于兴趣和自驱力,它其实是因为是一个偏向于这种底层的开发嘛,所以说他可能会希望你有一个比较好的C和C++的这种底层的基础。

然后另外一部分的话,我希望就数学稍微好一些,因为里边有一些,就是算法开发会涉及到一些基础的一些的数学东西,但一般都不难,就是大家学过了一些基础的矩阵计算的话,都知道是什么东西,或者大学学过线性代数就基本上就可以了,不会超过这些东西相关的事情。

然后呢,第二个的话,对于这个计算机的这个专业来说的话,可能就是在这个计算机组成原理上要有了解,因为这个工作是一个横跨软件和硬件,或者横跨应用和硬件的一部分的工作,所以说这里边儿的话,对这个计算机组成原理要是有了解,有认识的,而不是说我们要去设计一个计算机或设计一个芯片,但是我们要对这个架构的基础大概有什么含义,这些要有认识。然后就当然如果你要又学过并行计算,那更好了,因为这里边很多这个并行化上市,或者异构计算,什么扩大啊,GPU编程啊,这些这些都是很重要的加分项。

然后第三点其实是就像我刚才提过尝试,更重要的就是要对这个事情有兴趣,就像我最开始说的就是要有初心,如果说你本身对这个事情是感兴趣,有初心的话。那那选择是没问题,如果说你对这个事情觉得没什么意思,因为这个高清计算的事情,因为是偏底层吧,就是它是做framework和library为主这一部分软件或一些并行应用软件,它可能不像你去做这种。

呃,算法应用这事情,比如说一些AI应用,我去相对比较简单的就是就是可能有很多现成的这一部分的框架搭好了,你去做新的算法开发,然后呢,然后可以做一些比较炫酷的视觉的,比如说效果,然后展示度还是比较炫的,但是高性能计算的很多领域,其实它的展示度。

相对没那么炫,它其实很枯燥的,他你最后评价的时候,啥是在评价那些性能图,比如说时间哪个高哪个低,然后你的曲线是什么样的,你的这个可扩展性,我在单机上是多快算完,我可能在机群上是多快算完,然后我的这个呃,准确度怎么样,它其实很多时候是相对。

呃,枯燥一些的,它不是那种可以做的很可能很炫酷的那种效果那种的话可能是相对弱一些,这个可能是。这个和这个就是和上层应用开发一个明显的不同地方,还有一个事情是,就是在这个领域下,其实呃,文章所做的要求其实是不一样的,就是说。

这个领域的会其实会比那些,呃,就是有很多领域的,就是那种顶级会相对要少一些,或者是每年录取的文章也不多,这个实际上是呃,他这背后的原因也是因为可能是整体上从事的人相对比较少,所以说这个呃,这个竞争程度呢,肯定是不低的,而且因为这个算作这种底层,或者做这种system的这个工作,你到最后的这些,不管你是毕业呀,或者说是你去。这个就是上到博士啊,或者是你去做一个科研项目的话,你最低最低你得去做到一个原型系统。

对吧,你得去做到一个以原型系统为展示的程度,而不是说我去这个呃贯几篇论文就结束,这肯定是不行的,所以说基本上所以说对这个系统的能力的要求会更高一些,这上是这个领域的一些的不同吧,这个也是,呃就是说会和这个其他的做这个,呃就是上层算法和上层应用开发一个典型的差别,这如果各位对这个事情感还感兴趣,那那那这个高清计算肯定会是一个比较好的方向,就对做这种系统这种事情感兴趣。

我们这次其实这个培训的这个体系的一个的考虑,因为我们觉得这个确实这个领域的培养在之前确实是非常少的,可能只是有限的几个研究所或者是一些高校,可能少量的,也就是少量的硕士生,博士生,可能少量的优秀本本科生才有机会去做这个领域,对而我们其实实际上去合作了一个这种的培训的课程体系,我们希望能去做一个入门吧,或者说是一个入门,当然这个领域很多还是比较高深的,我我们其实只是做一个基础的一个入门的一个培训体系,比如说首先在这次的话,我们其实做了一个CPU的这个,它的软件的性能优化工程师的一个体系,这里边的话,我们可能会是以Linux的实验环境为主。然后我们可能是描写。

像了这种国产的飞腾的按摩服务器,然后的话,这里边有一些基础入门的这些,比如说Linux常用命令编译啊什么这些的使用,后面的话我们会有这些,比如说算法流程分析啊,程序性能分析啊,然后包括一些类似典型的奔驰mark h pcg这些方面的学习的分析啊,包括相应的调试啊,然后这个后面会介绍一些基础的优化的方法,然后也包括在单核上如何做这种向量化,然后做这个呃,比如说这种open MP的这种的这个并行编程,最后会涉及到一些矩阵计算,矩阵矩阵性量程这部分的性能优化等等,这可能也是我们希望通过一个呃,时间不长的一个的。

呃,培训体系能让有兴趣的人能做一个入门吧,就当然他可能你去做到高手,可能这个还差得远,或者说这个人你已经有一定基础的话,上这个课可能会稍微觉得可能是简单了一些,但是对于这个,呃,他没对这个领域没有去做过,但是又很感兴趣的话,把这个课作为一个这种。

入门的这个培训的话,其实是一个不错的选择,这个实是我们在设计这个整个课程主题啊,然后这包括这个内容上上稍微做的这个事情,这上是我们在这个这培训上事情,然后之后的这个就业化,就像我之前。提到来说整体的背景还是因为。

这个整个的产业在升级,所以说需要这个计算去做更多的事情,所以说计算需求在上升,由此带动了整个高性能计算人才需求的上升,这实际上是我们大的背景,然后这个整目前这个领域的就业方向其实是几种类型吧,一种就是芯片公司了,因为芯片公司就是要为了适配它的这些的芯片,需要很多的这种计算类的软件站的人才,然后现在的芯片大家也知道,也比较火热嘛,随便。可能就有几十家,这范围之后的话,还有这些的算法的企业,然后包括云计算公司等等做的事情的话,基本上都是以这种框架呀,数据库啊,算子性能优化,应用部署开办为主。

然后从我个人的角度,或者说从我个人理解来说,呃,我觉得高性能计算领域是一个长期可发展的领域,是非常值得作为一个长期的职业道路在,为什么呢,一个呢是。这个领域其实是还挺难的,就是不是就是或者说他做往深了做,它实际上是可以往深做很多的东西。这也这个的好处是代表着呃,个人的经验是可累积的,然后你在这领域做了几年,几十年或者更长的时间的话,你你这部分的这个个人技术能力,个人经验的这价值提高度是很好,是可累积,这上是一个好的事情,因为大家想长期做一个行业的话,肯定是要它,要它有足够的厚度,这样的话你可能。十年后你能做的事情肯定会要比那些嗯七入行的人要做的好的多,这就代表了你的价值嘛,这个可能是你的个人累积起动来,第二个的话可能会大家考虑要考虑,要想的是就是。

我的工作会不会有可能会被一些机器替代,比如说现在什么rpa很火对吧,比如说现在什么无代码编程很火或者什么之类的这些事情,就是说呃,计算机辅助或者说AI辅助的这些的,或者其他这种辅助,这些事情必然会是一个的趋势,它它很有可能会替代一些。重复的劳动就是一些低技术门槛的劳动,而目前看到这个高层计算领域可能靠呃,这个。自动化完全替代,或者是所谓算法完全替代,AI完全替代的话,目前看可能性还是比较低的,因为这个领域的知识要求还比较广,很难有一个,呃。就是非常智能的东西,把这个把我们全部干掉,这个估计是比较困难,所以说从这个两个的角度来说,我觉得这是一个适合给这种对底层技术有爱好的长期从事的一个职业方向,这是我的这个的个人的观点啦。

然后后面的话就是说,比如说举一个具体例子,我一直觉得我们高层计算去做什么,其实你可以就是在做底层framework,或者做这个框架的人来说,很多时候我们其实是在做这种硬件和应用的桥梁。比如说你可以想象成一边是一个这种上层应用,比如说深度神经网络,或者什么解方程,或者什么其他这些的应用,呃,另外一边呢,可能是面向了不同的硬件,可能有CPU,有GPU,有NPNPFPJ,或者国产的重核,或者说大规模的病毒计算机,或者超算等等,你直接把这个应用放到这个硬件上,它很多时候是跑不起来的。

就很很多时候可能只有一些CPU可能能跑到,就举一个简单的例子,呃,大家可能都写过排序算法,对吧,如如果说一个排序算法可能只是一个非常简单的冒泡排序。我对这个数据量非常小的情况下,我的速度还很快,对吧,但是如果我数据量很大的时候。我的这部分的速度必然就会下降了,那我要怎么做呢?有我一个选择是我换更快的硬件,对吧,我我随着我这个处理器的主频提高,我的内存访问速度提高,我的软件的这部分,你如果把这个想象成我的应用调用了一个排序的一个的库或框架来说。我的软件不需要做更改,我只是随着硬件的变化,我就能获得一个比较高性能的,这个从应用上来说,我就解决了这个排序的事情。对吧,这个是理想的情况,这很多时候都是在这个,可能20几年前,当时摩尔单核摩尔定律还生效的时候,很多时候是这么做的,因为我硬件每每18个月就会性能翻番吧,单核的性能翻番。

但是现在从零几年以后看起来,你的硬件的单核性能,就是主频速度其实是没有变化,如果说你的代码就是你的框架,或者说你的库,不做针对性的,就是并行化也好,或者想更好的算法,或者用它的向量化,或者用易购也好。你其实是用不了这些硬件的性能的,因为这硬件所用的这些手段已经不是局限局限在这个主频了,主频上已经实际上是没什么提升,它都是用了这种体架构的状态。如果是以高性能计算,或者是以这种高性能计算机来说,高性能计算机的这个峰值性能。它是。每十年会提高1000倍。每十年提高一个1000倍,这其实是远远超过了摩尔定律的那个增长的倍数,所以它其实里边实际上除了摩尔定律这种或者工艺制成变化,它其实里边有很多的,呃,用了更大规模的机器,用了这种体系结构的变化,在你每十年你的硬件提高1000倍的话,如果我的软件没有变化,我的软件是。

我的这一部分的应用其实是没办法去跟上我硬件提升的步伐的,就是说虽然你硬件上提高了硬件背,但我软件上发挥的效率很低,这上就是问题所在。而高性能计算工程师。大部分时间就是要弥补这个差距,就是做这个framework和library的这部分的加速和优化,能让应能让上层的应用能追赶上我的这个硬件提高的这一部分步伐,这个在之前的传统的这些科学计算领域其实很多时候就做到了,比如典型的可能以稠密巨人计算为主,可能这些其实就很多都已经做得很好了。然后更具体来说,比如说对于现在比较火的这些AI,我可能又要提AI,其实这个报告举了很多AI例子,就是说很多在这些时候,他可能遇到的任务,就可能就会和你的这个,呃,这个AI的相关,或者说这个部署相关。

比如说我要。呃,部署一个DNN的模型去做推理,就是,呃,算法工程师可能已经是在这个GPU的机群上,我已经训练了一个模型,我现在要用这个模型,我要去做ER,我要用推理部手。那我们要怎么做?这边其实对于这一部分的一个优化的目标,实际上就是说在保证模型正确的前提上,我的速度越快越好,这上是你要想做的最终优化目标,这为什么这样一个呢?是意味着。我尝试可以用同样的硬件来支持更多的负载。比如说你可能之前做呃,比如说你的这个推理可能呃每秒可能是呃十十。1000个吧,1000个图像我随便加驶,可能别人的话可能做到2000个,这样的话我是不是就可以雇更少的机器,或者租用更少的云服务器来去达到类似的效果呢?

是吧,这样的话可以节省了硬件成本,然后另外一些说我达到类似的效果,我是不是可以不用GPU,对吧,我是不是可以只用CPU或者其他用一些其他的高性价比的硬件达到。类似的效果,或者是你这个经济账能算得过来,因为在云厂商里边,你你带GPU的这个服务器和不带GPU的这个服务器,它的这个价格还是差挺远的,对吧,这实上,这实际上,这实际上是举了一个服务器上的一个云端的做例子,在嵌入式端的话,做嵌入式的influence,其实也是类似,因为有芯片有很多种吧,有这种。

带NPU的,不带NPU的可能是便宜的贵的等等这些,其实很多人这个实际上就要求很多时候你就实要去开发或优化一个高性能的一个,呃,AI的推理框架,这里边你可以去自源,或者说基于开源的改,或者说是你可能直接开源的满足需求,这个里边,这里边就会涉及到要做这种高性能的这种的算子实现,包括什么卷积的实现呀,石化的实现呀,然后可能还有很多这种心情算子实现,然后支持这种的算子的融合呀,图优化这些相关的技术啊,然后要支持多精度啊,就是比如说有些可能是可以跑FP16,或者跑INT8或者甚至INT4,如果是有硬件支持啥,然后还有一些对于这个异购加速器的支持。等等的很多这种方面都是你需要做的这部分的开发任务,这上是我举的一个以AI为主的一个呃例子,如果说是在一个呃AI算法公司,这个对高清计算工程师的很多的需求,很多时候都会涉及到这些呃模型的部署上做的工作,而且这是你具体要做的事情。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/700741.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

idea自定义类注释以及方法注释,无警告

背景 idea:IntelliJ IDEA 2023.1.3 (Ultimate Edition) 效果 类 方法 正式:类 设置 代码 /** * author: 你的名字* date: ${DATE} on ${TIME}* desc: $NAME*/注意,请全部复制,空行也要,看设置截图选中部分 …

Jenkins定时执行JMeter脚本并查看测试报告实现

【整体思路】 通过Tomcat启动Jenkins服务,在Jenkins中创建自动化测试项目,项目配置中配置构建时执行的动作,配置构建后动作展示报告 【涉及软件及版本信息】 Tomcat版本:9.0.76 Jenkins版本:2.332.3(注…

ES批量上传数据 - Python操作ES

代码 # -*- coding: utf-8 -*- # Author : markadcimport randomfrom elasticsearch import Elasticsearch, helpersurl http://localhost:9200/ client Elasticsearch(url) index testsome [] for i in range(1, 10001):docu {uid: i, age: random.randint(1, 100)} …

ChatGPT中的Token:了解聊天模型的基本单位

✍创作者:全栈弄潮儿 🏡 个人主页: 全栈弄潮儿的个人主页 🏙️ 个人社区,欢迎你的加入:全栈弄潮儿的个人社区 📙 专栏地址:AI大模型 ChatGPT中的Token是什么? 在ChatGPT…

23-BOM和常见的BOM对象

一、是什么 BOM (Browser Object Model),浏览器对象模型,提供了独立于内容与浏览器窗口进行交互的对象 作用:跟浏览器做一些交互效果, 如何进行页面的后退,前进,刷新,浏览器的窗口发生变化&am…

ECS云服务器U实例评测,可以免费体验哦

目录 一、ECS云服务器U实例介绍 话题一、U实例使用体感如何,是否和主售型实例有区别,具体体现在哪里? 话题二、结合相关数据材料,对您感兴趣的场景 话题三、使用u实例是否为您的云上业务或者测试项目提供了帮助支持&#xff1…

Axure教程——表格内部修改

本文介绍的时用Axue中的中继器制作表内修改效果 效果 预览地址:https://w97xns.axshare.com 功能 点击某条数据的”编辑“按钮可以修改此条数据的每项数据,”编辑“和”删除“按钮变为”保存“和”取消‘按钮 制作 需要的元件:矩形、中继…

asp.net MVC

文件目录 页面 HTML与Script的联系 HTML元素通过调用脚本中的function来触发前端的动作要进行的后端逻辑操作 Script中通过选择器$(“#str”)来改变前端HTML的显示数据 Script中有两种类型的函数模式 $(function(){ … }) :window.onload时调用。function btnRese…

​Chamilo 学习管理软件存在命令执行漏洞(CVE-2023-34960)

Chamilo 学习管理软件存在命令执行漏洞(CVE-2023-34960) 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责&#xff…

Python基础语法笔记整理(黑马8天学会python笔记)

Python 第一章、基础语法 01.字面量(写在代码中的固定的值) 02.注释 # 单行注释 """ 多行注释 """03.变量 变量无类型,数据有类型 变量名 变量值04.数据类型 数据类型: type()05.类型转换 字符串转数字&#xff…

【unity实战】制作一个类帝国时代、红警——RTS战略性游戏

文章目录 先来看看实现的最终效果什么是RTS游戏一、两种方法实现相机的移动旋转缩放以及拖拽功能前言准备第一种办法1. 移动1.1 代码实现,里面都写了详细的中文注释,就不过多解释了1.2 效果:1.3 问题: 2. 缩放2.1 代码 3. 限制范围…

Linux内核TCP参数调优全面解读

Linux内核TCP参数调优全面解读 前言 TCP 性能的提升不仅考察 TCP 的理论知识,还考察了对于操心系统提供的内核参数的理解与应用。 TCP 协议是由操作系统实现,所以操作系统提供了不少调节 TCP 的参数。 如何正确有效的使用这些参数,来提高 T…

微前端框架MicroApp入门学习笔记(一)

1、简介 微前端是一种架构风格,旨在通过将前端应用程序拆分为更小、更可管理的部分,使多个团队能够独立开发、部署和维护这些部分,从而实现前端的可扩展性和可维护性。   MicroApp框架是京东出品的一种用于构建微前端架构的开源框架&#x…

Linux系统开机启动详细流程

目录 Linux系统开机启动流程为什么要了解系统开机启动流程关机的命令开机流程图:开机自检(Power-On Self-Test,POST)BIOSROM和RAMBIOS的介绍CMOS的介绍:BIOS和CMOS的区别和联系如何进入BIOS系统?如何改BIOS的顺序以及为…

vue js实现表格行拖拽

效果图&#xff1a; <a-table :dataSource"dataSource" :columns"columns" :pagination"false"><template #bodyCell"{ column, record }"><template v-if"column.key td"><div style"cursor: p…

|DataDirectory| 解决Web.config中数据库连接的相对路径问题

1、业务背景 维护老系统代码&#xff0c;Web.config中数据库字符串连接的相对路径的处理 2、核心代码如下 <connectionStrings><add name"connString" connectionString"ProviderMicrosoft.Jet.OLEDB.4.0;Data Source|DataDirectory|\FnDB.mdb"…

【Java】Java中的String类

文章目录 一、认识 String 类二、String 类的常用方法2.1 构造方法2.2 String 类对象之间的比较2.3 字符串查找2.4 字符串的转换2.5 字符串替换2.6 字符串拆分2.7 字符串截取2.8 字符串常量池2.9 字符串的不可变性 三、StringBuilder 和 StringBuffer3.1 StringBuilder3.2 Stri…

robotframework接口自动化测试详解

我们在使用rebotframework的时候&#xff0c;不只是能做UI自动化&#xff0c;接口自动化也是可以的。 那么这里就整理一下rebotframework_接口自动化的应用&#xff1a; 一、编写接口测试 由上图可知&#xff0c;该接口如下信息&#xff1a; 接口功能描述&#xff1a;预诊模…

Spring6快速入门

Spring6快速入门 各工具版本要求&#xff1a; JDK:Java17 Maven:3.6 Spring:6.0.9 简介 Spring是一个控制反转(IOC)&#xff0c;面向切面(AOP)编程的轻量级框架。 2002年&#xff0c;Rod Johnson首次推出Spring框架的雏形&#xff0c;interface21(https://interface21.io/) 200…

python爬虫-获取cookie实例小记

注意&#xff01;&#xff01;&#xff01;&#xff01;某XX网站逆向实例仅作为学习案例&#xff0c;禁止其他个人以及团体做谋利用途&#xff01;&#xff01;&#xff01; 第一步&#xff1a;请求拿到响应内容。并分析。 第二步&#xff1a;关键步骤分析(这部分参考的B站图灵…