算力基础篇:从零开始了解算力

news2024/12/28 3:07:29

什么是算力

算力即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理后实现结果输出的一种能力。虽然处理的内容不同,但处理过程的能力都可抽象为算力。比如人类大脑、手机以及各类服务器对接收到的信息处理实际都属于算力的应用。

图1:信息处理过程
图1:信息处理过程

随着信息技术的不断发展,《中国算力白皮书(2022)》中将算力明确定义为数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。当前行业中讨论的算力,狭义上可理解为CPU、GPU等芯片的计算能力,广义上可理解为芯片技术的计算能力,内存、硬盘等存储技术的存力,以及操作系统、数据库等软件技术的算法的三者集合。

算力的分类

随着数字经济时代的到来,算力发展迎来高潮,广泛应用于各个领域,其中包括但不限于日常消费领域、人工智能领域、半导体技术领域。不同应用场景对算力的需求各异,需要不同类型的算力支撑。目前算力主要分为通用算力、智能算力和超算算力。未来还会出现比传统计算更高效、更快速的新一代算力,例如量子算力等。

通用算力

通用算力主要以CPU为代表,即CPU芯片执行计算任务时所表现出的计算能力。不同架构的CPU计算能力不同,因为CPU算力受核心数量、主频、缓存大小等多种因素影响。目前可以根据DMIPS指标来衡量CPU性能。该指标表示CPU每秒能执行多少百万条Dhrystone指令。

分类

特点

引领者

优劣势

x86

复杂指令集、单核能力强

Intel、AMD、海光、兆芯

软件生态好,占有率高;

指令集实现复杂,功耗高

ARM

精简指令集、追求多核、低功耗

安谋、高通、Amazon

授权厂商多,能效比高;软件生态劣于x86

MIPS

精简指令集、低功耗

龙芯

软件生态弱、市占率正在下降

Power

单核能力强、高可靠性、高成本

IBM

IBM掌控技术,应用于金融领域

RISC-V

精简指令集

RISC-V基金会、阿里巴巴、兆易创新

完全开放开源、模块化、可扩展

Alpha

精简指令集、速度快

申威

软件生态弱,市占率小

通用算力计算量小,但能够提供高效、灵活、通用的计算能力。因为CPU的架构属于少量的高性能核心结构,即核心数量少,但核心频率高,更加擅长处理复杂的逻辑判断和串行计算的单线程任务,如操作系统的管理、应用程序的执行以及各类后台服务等。而这样的设计在面对大规模并行计算任务时则显得力不从心。

图2:CPU架构图
图2:CPU架构图

智能算力

智能算力主要以GPU、FPGA、ASIC芯片为代表。每种类型的芯片具有各自的特点和优势。

  • GPU(Graphics Processing Unit,图形处理器):GPU在设计之初用于图形渲染,即同时处理大量简单的计算任务。不同于CPU的少量高性能核心架构,GPU拥有大量的核心数但较小的控制单元和缓存,能够完成高度并行的计算任务。GPU主要应用在机器学习的训练阶段,因为机器学习的操作并不依赖于复杂指令,而是大规模的并行计算。

  • 图3:CPU和GPU的架构对比
    图3:CPU和GPU的架构对比
  • FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列):FPGA是在PAL、GAL 等可编程器件的基础上进一步发展的产物。FPGA是半定制集成电路,具有可重配置的逻辑结构。其内部的电路不是硬刻蚀的,而是可以通过HDL(硬件描述语言)编程来重新配置。这种可编程灵活性使其可以完成人工神经网络的特定计算模式,轻松升级硬件以适应AI场景中新的应用需求。除此以外,FPGA的每个组件功能在重新配置阶段都可以定制,因此在运行时无需指令,可显著降低功耗并提高整体性能。

    图4:FPGA和ASIC制作流程图
    图4:FPGA和ASIC制作流程图
  • ASIC(Application-Specific Integrated Circuit,应用特定集成电路):ASIC是专为满足特定需求而设计的全定制集成电路芯片。ASIC的优势在于其能够针对特定任务进行深度优化,从而实现更高的性能和更低的功耗。一旦量产,其单位成本会显著降低,尤其适合于大规模生产和应用。然而,ASIC设计周期长、成本高,一旦设计完成,很难进行修改或升级以适应新的应用需求。因此,在选择使用ASIC还是FPGA时,需要根据具体的应用场景和需求进行权衡。对于需要高性能、低功耗且应用场景相对固定的系统,ASIC可能是更好的选择;而对于需要快速适应新技术和市场需求变化的应用场景,FPGA则更具优势。

GPU、FPGA、ASIC能力对比表格:

GPUFPGAASIC
并行计算能力强大灵活配置高效但定制
灵活性较低(专用于图形和计算)高(可编程)低(定制后固定)
功耗适中
成本中等高(设计和制造)
整体性能中等(因可重置而消耗芯片资源)非常高(高度定制针对性强 )
应用领域图形处理、机器学习等实时计算、原型设计等特定应用场景(如数据中心)

超算算力

超算即超级计算,又称高性能计算 (HPC),利用并行工作的多台计算机系统的集中式计算资源,通过专用的操作系统来处理极端复杂的或数据密集型的问题。超算算力则是由这些超级计算机等高性能计算集群所提供的算力,主要应用于尖端科研、国防军工等大科学、大工程、大系统中,是衡量一个国家或地区科技核心竞争力和综合国力的重要标志。目前,美国的Frontier以 1.206 EFlop/s的HPL性能位居全球超级计算机Top500榜第一,达到了E级计算。

中国信息通信研究院结合业内实践和设想,提出了超算参考架构,由计算系统、存储系统、网络系统、管理系统、安全系统五部分构成。

  • 计算系统:由CPU和异构加速卡计算节点共同组成。

  • 存储系统:采用分布式存储,可提供PB级别以上的容量来进行数据和算据存储。

  • 网络系统:分为存储网络、业务网络以及监控网络等多个网络平面,实现超算系统间各个硬件设备以及子系统间的通信互联。

  • 管理系统:包括资源与业务监控、告警监控、可视化等功能。

  • 安全系统:由防火墙、负载均衡、堡垒机、抗DDoS、日志审计、漏洞扫描、DNS服务器等设备组成。

    图5:超算核心硬件架构
    图5:超算核心硬件架构

新一代算力

自人工智能加速应用后,算力需求激增,人们很难保证在未来经典计算能一直满足指数级的算力增长并应用于重大计算问题。于是在全球科技竞争加剧、数字经济快速发展以及新兴技术的推动下出现了以量子计算为代表的新一代算力。

量子计算运用量子态的叠加性,使得量子比特拥有更强的信息编码能力,并可实现多个量子比特的量子纠缠,性能上限远超经典计算。量子计算机使用亚原子粒子的物理学领域来执行复杂的并行计算,从而取代了当今计算机系统中更简单的晶体管。传统计算机中的字符,要么打开,要么关闭,要么是 1,要么是 0。而在量子比特计算中,计算单元是可以打开,关闭或之间的任何值。量子比特的“叠加态”能力,为计算方程增加了强大的功能,使量子计算机在某种数学运算中更胜一筹。

图6:经典比特与量子比特
图6:经典比特与量子比特

目前阿里巴巴、Google、Honeywell、IBM 、IonQ 和 Xanadu 等少数几家公司都运营着量子计算机,但仍存在退相干、噪声与误差、可扩展性等问题,处于硬件开发的早期阶段。根据专家预测,想要进入量子计算机真正有用的高保真时代,还得需要几十年。

数据中心算力组成

数据中心的计算能力主要依赖于服务器。目前CPU类型的服务器几乎部署在所有的数据中心中,而高性能算力GPU等更多的使用在AI应用场景中,小规模部署于部分数据中心中。然而随着机器学习、人工智能、无人驾驶、工业仿真等新兴技术领域的崛起,传统数据中心遭遇通用CPU在处理海量计算、 海量数据时越来越多的性能瓶颈。 在数据中心加快步伐部署48核以及64核心等更高核心CPU来应对激增的算力需求的同时,为了应对计算多元化的需求,越来越多的场景开始引入加速芯片,如前文提到的GPU、 FPGA、 ASIC 等。这些加速硬件承担了大部分的新算力需求。

然而实际上的数据中心是一个汇集大量服务器、存储设备及网络设备的基础设施,数据中心算力是服务器、存储及网络设备合力作用的结果,计算、存储及网络传输能力相互协同才能促使数据中心算力水平的提升。单独讨论服务器的算力水平并不能反映数据中心的实际算力水平。

图7:数据中心网络承载数据处理流程
图7:数据中心网络承载数据处理流程

总之,数据中心是人工智能、物联网、区块链等应用服务的重要载体。数据中心算力水平的提升将会在很大程度上推动全社会总体算力供给,满足各行业数字化转型过程中的算力需求。

数据中心网络设备

以实际情况来说,数据中心的算力水平不仅取决于服务器的算力,同时还会在很大程度上受到网络设备的影响,如果网络设备算力水平无法满足要求,很有可能引发“木桶效应”,拉低整个数据中心的实际算力水平。

星融元CX-N系列交换机可以帮助用户构建超低时延、 灵活可靠、按需横向扩展的数据中心网络。

  • 超低时延:所搭载的交换芯片具备业界领先的超低时延能力,最低时延达到400ns左右。

  • 高可靠性:通过MC-LAG、EVPN Multihoming、ECMP构建无环路、高可靠、可独立升级的数据中心网络。

  • RoCEv2能力:全系列标配RoCEv2能力,提供PFC、ECN等一系列面向生产环境的增强网络特性。

  • RESTful API:支持REST架构的第三方平台和应用都能自动化地管理、调度星融元数据中心网络。

    图8:AI场景组网
    图8:AI场景组网

不论是在AI智算还是HPC高性能计算场景下,CX-N交换机都达到了媲美InfiniBand专用交换机的性能,以下是场景测试数据表:

表一:AIGC场景性能测试结果

带宽

时延

备注

E2E网卡直连

392.95Gb/s

1.95us

E2E跨交换机

392.96Gb/s

2.51us

交换机时延560ns

NCCL网卡直连

371.27GB/s

/

NCCL跨交换机

368.99GB/s

/

CX-N交换机端口利用率95%。

表二:HPC应用测试(对比IB交换机)

HPC应用测试

CX-N交换机

MSB7000

HPC应用

Test1[sec]

Test2[sec]

Test1[sec]

avg[sec]

Test1[sec]

Test2[sec]

Test3[sec]

avg[sec]

WRF

1140.35

1134.64

1128.35

1134.44

1106.72

1099.36

1112.68

1106.25

LAMMPS

341.25

347.19

342.61

343.69

330.47

335.58

332.46

332.83

参考文献:

https://13115299.s21i.faiusr.com/61/1/ABUIABA9GAAgqvv2nAYowLyGBA.pdf

https://13115299.s21i.faiusr.com/61/1/ABUIABA9GAAgk4DrjQYo76ziRQ.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2216294.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

git 与 github 同步

1.配置账户 git config --global user.name "你的用户名" git config --global user.email "你的邮箱" 2.输入命令创建ssh key $ ssh-keygen -t rsa -C "邮箱" //你自己注册GitHub的邮箱 输入命令之后提示输入密码,回车直到出现…

C++类(3)

1.如果一个类什么成员都没有,简称空类 但是空类真的什么都没有吗? 并不是,任何类什么都不写,编译器会自动生成以下6个默认成员函数 1.构造函数 class Date { public:void Init(int year, int month, int day){_year year;_mo…

kubernetes简介及安装部署

目录 一、kubernetes简介 1、k8s的概念 2、k8s各个组件及用途 3、k8s各组件之间的调用关系 4、k8s常用名词概念 5、k8s的分层架构 二、kubernetes安装部署 1、k8s集群环境搭建 2、本地解析、swap禁用 3、安装docker 4、复制harbor仓库中的证书并启动docker 5、设定d…

基于Cesium.js的可视化大屏,效果绝对的震撼!

基于 Cesium.js 的可视化大屏确实能带来震撼的效果。Cesium.js 强大的三维渲染能力,能够逼真地呈现地理信息和各种数据模型。 在大屏上,广袤的地形地貌、精细的建筑模型以及动态的数据展示,仿佛将观众带入一个全新的虚拟世界。无论是用于地理…

网络分析仪——提升网络性能的关键工具

目录 什么是网络分析仪? 1. 实时流量监控 2. 历史数据回溯分析 3. 网络性能关键指标监测 4. 可视化界面与报告生成 总结 在当今的数字化世界,网络的稳定性和性能直接影响企业的运营效率。网络拥堵、延迟和丢包等问题会导致用户体验的下降&#xff…

“屏” 步青云:轻松开启录屏功能,Windows 实例教学

你知道 Windows 的录屏功能怎么打开吗?在当今数字化时代,录屏功能成为了许多人工作、学习和娱乐中的得力助手。无论是制作教学视频、记录游戏精彩瞬间,还是为线上会议留存资料,掌握录屏技能都至关重要。今天我们不仅会介绍 Window…

springboot智能网上问诊系统-计算机毕业设计源码99634

摘要 智能网上问诊系统作为医疗健康领域的重要应用之一,为患者提供了便捷的医疗服务途径。本研究旨在基于Springboot框架设计和实现一套智能网上问诊系统,结合医疗专业知识,实现患者与医生之间的在线咨询和诊疗服务。 通过对Springboot框架…

如何从模块内部运行 Pytest

在 Python 中,pytest 是一个强大的测试框架,用于编写和运行测试用例。通常我们会在命令行中运行 pytest,但是有时你可能希望从模块或脚本的内部运行 pytest,比如为了自动化测试或集成到某个工作流程中。 1、问题背景 当你从模块…

网络爬虫-数美滑块验证码

仅供研究学习使用。 今天带来的是数美滑块验证码的逆向 目标站 --> 传送门 解决此类验证码 首先要解决滑动距离的判定 无论是使用selenium还是使用协议的方式来破解 都绕不开滑动距离的识别 滑动距离可以参考以前我博客上的方式,或者找一找开源的一些算法&am…

秋招突击——8/6——万得数据面试总结

文章目录 引言正文面经整理一1、讲一下java的多态,重载,重写的概念,区别2、说一下Java的数组,链表的结构,优缺点3、创建java线程的方式有哪些,具体说说4、创建线程池呢、每个参数的意义5、通过那几种方式保…

java基础(5)继承与多态

目录 ​编辑 1.前言 2.正文 2.1继承 2.1.1继承概念 2.1.2继承语法 2.1.3子类访问父类 2.1.4super关键字 2.2多态 2.2.1多态概念 2.2.2多态条件 2.2.3重写 2.2.4向上转型与向下转型 2.2.5为什么要使用多态 3.小结 1.前言 哈喽大家好啊,今天继续来为大…

汽车开发流程管理工具赋能安全与质量

随着数字化、人工智能、自动化系统及物联网技术的迅速发展,工程驱动型企业正面临重大转型挑战,亟需加速并深化其变革步伐。众多企业正试图通过采用基于模型的系统工程(MBSE)、产品线工程(PLE)、ASPICE、安全、网络安全、软件定义汽车、敏捷和精益开发实践…

微信小程序上传组件封装uploadHelper2.0使用整理

一、uploadHelper2.0使用步骤说明 uploadHelper.js ---上传代码封装库 cos-wx-sdk-v5.min.js---腾讯云,对象存储封装库 第一步,下载组件代码,放置到自己的小程序项目中 第二步、 创建上传对象,执行选择图片/视频 var _this th…

【java Web如何开发?】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

讯飞与腾讯云:Android 实时语音识别服务对比选择

在 移动端 接入实时语音识别方面,讯飞和腾讯云都是优秀的选择,但各有其特点和优势。以下是对两者的详细比较: 一、讯飞语音识别 1.1 讯飞实时语音识别介绍 1.1.1 功能特点 1.支持多种语言识别,满足不同语种用户的需求。(普通话/…

Kafka之消费者组与消费者

消费者(Consumer)在Kafka的体系结构中是用来负责订阅Kafka中的主题(Topic),并从订阅的主题中拉取消息后进行处理。 与其他消息中间件不同,Kafka引入一个逻辑概念——消费组(Consumer Group&…

使用excel.js(layui-excel)进行layui多级表头导出,根据单元格内容设置背景颜色,并将导出函数添加到toolbar

本段是菜狗子的碎碎念,解决办法请直接从第二段开始看。layui多级表头的导出,弄了两天才搞定,中途一度想放弃,还好坚持下来了。一开始用的是layui的toolbar里自带的那个导出,但是多级表头没有正常导出,单元格…

FPGA学习(6)-基础语法参数化设计阻塞与非阻塞

目录 1.两种参数化不改变源文件,只改仿真文件的值 2.参数化设计实现模块的重用 2.1不用参数化方法 2.1.1源文件 2.1.2仿真文件 2.1.3仿真波形及实验 2.2 用参数方法 2.2.1调用之前写的led灯闪烁模块,在本源函数中,例化4次调用之前的模…

【pyspark学习从入门到精通7】DataFrames_2

目录 创建 DataFrames 生成我们自己的 JSON 数据 创建 DataFrame 创建临时表 简单的 DataFrame 查询 DataFrame API 查询 SQL 查询 创建 DataFrames 通常,您会通过使用 SparkSession(或在 PySpark shell 中调用 spark)导入数据来创建 …

SpinalHDL之错误集(一)

本文作为SpinalHDL学习笔记第七十六篇,作为错误集使用,类似高中生的错题集,记录使用SpinalHDL过程中遇到的问题,小到语法错误、版本兼容问题,大到SpinalHDL库函数错误等等,持续更新。 SpinalHDL学习笔记总…