Arm发布最新内核 : Corte-X4/A720/A520,支持Armv9.2

news2024/12/24 9:20:44

1、背景

在这里插入图片描述
Arm 是一家设计智能手机的CPU内核的公司,并且每年它都会进行新的迭代,这些迭代随后将集成进芯片SOC,例如当年的旗舰 Snapdragon 、 MediaTek Dimensity。2023年,发布了新的旗舰级内核: Cortex-X4 超大核、Cortex-A720 性能大核和 Cortex-A520 功耗小核。这些core构成了公司新的 Arm v9.2 兼容设计和公司的 2023 年整体计算解决方案或 TCS23 的基础。除此之外,我们还看到了一个新的 DynamIQ 共享单元和一个更新的 Immortalis-G720 GPU。 这三个新内核都是去年的微架构继承者,主要侧重于引入 IPC 和提高效率。
在这里插入图片描述

2、仅支持64位 – 64-bit only: “Mission accomplished”

在这里插入图片描述
今年 Arm 的整体计算解决方案的最大变化之一是已经完全过渡到 64 位,即该core仅支持aarch64,不再支持aarch32了。事实上在2022年发布的几个core,也已经是仅支持aarch64了,但今年 Arm 的内核仅支持 AArch64。也就意味着在你的最新架构的Android机器上,跑不了32 位的应用程序了。注意,谷歌本身已经要求自 2019 年以来更新的所有应用程序都以 64 位二进制文​​件的形式上传。

正如 Arm 所说,64 位过渡被认为是“任务完成”。原因是中国应用市场阻碍了整个行业的转型,但中国应用商店中的绝大多数应用现在也都兼容 64 位。
在这里插入图片描述
延迟的原因是缺乏同质化的应用生态系统,这意味着不同的应用商店需要不同标准的开发者。然而,由于 Arm 已与中国的多家应用商店合作,并且反复警告可能会发生转变,因此这些应用商店一直在鼓励开发人员也进行转换。
在这里插入图片描述
现在似乎是完全实现这种转变的时候了,无论如何,我们还需要几个月的时间才能在新的芯片SOC中应用这些arm core。

3、Arm Cortex-X4:更高的性能和更高的效率

在这里插入图片描述
几年前,Arm 的 X 系列核心从 A 系列中分离出来,理念是它是一个超大核。通常情况下,芯片组制造商最多只会包括其中的一两个,因为他们非常耗电,尽管他们也有能力。
在这里插入图片描述
从上图可以看出,Cortex-X4 是迄今为止最强大的 Arm core,但这些计算能力是以功耗为代价的。Cortex-X4 与去年的 X3 类似,正如 Arm 所说,它甚至可以以与去年内核相同的频率运行,并且功耗降低多达 40%。它的物理尺寸大不到 10%,是有史以来最高效的 Cortex-X 内核。

至于这些 IPC 改进来自何处,X4 有许多前端和后端改进。在这些前端改进中,大量工作被投入到重写和改进分支预测上,因为不正确的分支预测在性能方面代价高昂。Arm 还承诺,2MB 的 L2 缓存大小会产生更高的性能,与其说是在基准测试中,不如说是在实际使用中。
在这里插入图片描述
新的 Cortex-X4 内核将算术逻辑单元 (ALU) 的数量从 6 个增加到 8 个,添加了一个额外的分支单元(总共 3 个),添加了一个额外的乘法累加器单元,以及流水线浮点和平方根运算.

至于后端,也有许多改进。加载-存储地址生成已从每周期 3 条指令增加到 4 条指令,因为加载-存储管道被采用并拆分。L1 中还有一个双倍的翻译后备缓冲区。

所有这些结合在一起,为 Arm 的 Cortex-X4 带来了一些令人印象深刻的性能提升。总而言之,您可以预期 Cortex-X4 的性能平均提高 15%。在 Arm 共享的功率和性能曲线中,X4 在性能和功耗方面都领先于 X3。换句话说,15% 的性能提升伴随着相当大的功耗。不过,也值得一提的是,这并不是一个同类比较。Cortex-X3 去年配备了 1MB 的二级缓存,这意味着如果制造商今年坚持使用相同的二级缓存大小,则不一定会有 15% 的性能提升。

不过有一件事是肯定的,那就是如果您以最大速度运行 X4,它很可能是一个主要的耗电大户。今年我们可能会看到一些原始设备制造商继续做他们去年所做的事情,并开箱即用地限制今年的许多芯片SOC。例如,OnePlus 和 Oppo 都这样做,并且在以与 X3 相同的性能点运行时获得这些能效提升,这些公司继续这样做可能会受益。我们可能不会看到全面的 15% 的性能提升,但我们可能会看到明年的芯片SOC的效率进一步提高。

4、Arm Cortex-A720:平衡性能和功耗

在这里插入图片描述
虽然 Arm 的 X 系列Core通常有点疯狂,但 A 系列内核通常旨在平衡功耗与性能。借助 Cortex-A720,Arm 承诺内核效率提高 20%,在与去年的 A715 相同的功率下提高性能。

至于今年A720的改进从何而来,大部分都在前端。从分支错误预测引擎中删除了一个周期,从而缩短了流水线,据说这一单周期下降导致基准测试增加了 1%。基准测试通常会导致最少的分支错误预测,这意味着这可能会以更显着(但在很大程度上无法衡量)的量改善整体现实世界的性能。
在这里插入图片描述
在乱序内核中,我们看到了一些结构上的改进,这些改进有助于在不影响内核占用的面积或效率的情况下提高性能。对于初学者,就像在 X4 中一样,浮点除法和平方根运算现在是流水线化的。还有从浮点数、NEON 和 SVE2 数字到整数的更快传输以及其他整体改进以加快处理速度。
在这里插入图片描述
Arm 分享了上图来说明 A720 与去年的 A715 在性能和效率方面的比较,其中在 SPECint_base2006 中使用了 ISO 过程和 ISO 频率。缓存大小也保持不变,因此这是一个同类比较。
在这里插入图片描述
在功耗方面,A720 与去年的型号基本保持一致,但在相同功率水平下它的性能略高一些。对于 A720,就像 X4 一样,Arm 似乎更专注于强调它如何从去年的功率限制中获得更好的性能,而不是不断增加这些内核的能力。
在这里插入图片描述

5、Arm Cortex A520:相同功耗点效率翻倍

在这里插入图片描述
当然,说到 Arm 的内核,并不仅仅关乎性能。X 系列将一切都投入原始计算能力,A7xx 平衡计算需求和功耗,而 A5xx 系列则完全专注于高效处理。它是单位面积功耗最低的 Arm v9.2 内核,并建立在我们看到的与 A510 相同的合并内核架构之上。

这种合并核心架构意味着一些资源可以在两个核心之间共享,其中两个核心可以组合成一个“复合体”。L2 高速缓存、L2 翻译后备缓冲区和向量数据路径在该复合体中共享。需要明确的是,这并不意味着它必须捆绑成两个内核,可以组装一个单核复合体以获得最佳性能。事实上,他们向我们展示的 Arm 的 TCS2023 核心布局之一涉及单个 X4 核心、五个 A720 核心和三个 A520 核心,这意味着至少有一个 A520 核心是隔离的。
在这里插入图片描述

A520 是一种效率优先的设计,与其他内核一样,Arm 主要侧重于在与上一代相同的功率点上提高效率。这包括改进分支预测,同时删除或缩减某些性能特征。结果,通过更高的效率恢复了这种性能。同样有趣的是,Arm 移除了 A510 中的第三个 ALU,从而节省了发布逻辑和转发结果的功耗。

在现实世界的结果中,A520 似乎没有像 A720 和 X4 那样与其前辈相比有很大的飞跃。它在较低功率间隔下的许多功能与上图中的 A510 重叠,并且只有在性能的上层我们才能看到效率提升。两个内核之间在性能和功率方面的差异是有希望的,但尚不清楚在比较 A520 和 A510 时我们是否会看到任何实际的实际优势。毕竟,在现实世界中很难真正正确地衡量两者之间的性能和效率差异。
在这里插入图片描述

6、DSU-120:多达 14 个计算优势核心

在这里插入图片描述

DynamIQ 共享单元或 DSU 是一个集成了一个或多个内核的 L3 内存系统、控制逻辑和外部接口,以形成一个多核集群。它本质上是 Arm 的结构,允许所有这些内核相互通信并共享资源,因此,对于任何希望使用 Arm 的内核设计构建芯片的芯片组制造商来说,这是一个相当重要的难题。

在 DSU-110 的基础上,Arm 对 DSU-120 进行了多项改进,这将有利于包含它的整个芯片。对于初学者来说,现在每个集群最多有 14 个核心(从 12 个增加),并支持高达 32MB 的 L3 缓存。它还大大提高了一些关键领域的效率,包括在缓存未命中的情况下,同时还减少了功耗。

在某种程度上,Arm 的 DSU 是 TCS23 的骨干,因为它构成了这些核心如何相互交互和共享数据的基础。这里的任何改进都会使整个集群受益,但似乎大多数变化都与功耗和效率有关。

在这里插入图片描述

7、效率是新目标

在这里插入图片描述

这个行业似乎已经发生了一段时间的变化,但我从这些核心中得到的主要第一印象是效率现在是游戏的名称。虽然我们被告知 X4 内核的速度有多快以及它如何成为公司有史以来最快的内核,但他们很快注意到以去年的峰值性能运行它的效率提高了。

总体而言,每一次性能提升都取决于该组件的效率有多高,而 DSU 的所有变化或多或少都体现在效率和功耗方面。性能很重要,但确实感觉整个行业都在努力提高当前的计算水平,而不是逐年大幅提高性能。

我们预计这些内核将构成联发科天玑 9400 和高通骁龙 8 Gen 3 的基础,但具体形式还有待观察。如前所述,Arm在自己的内部测试中谈到使用1+5+3的核心布局,但这并不意味着像联发科和高通这样的合作伙伴也会这样做。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/583319.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据集成到可视化分析,轻松驾驭数据洞察力:ETLCloud与帆软BI完美结合

在当今数据驱动的业务环境中,企业需要快速而准确地获取、处理和分析大量的数据。为了满足这一需求,ETLCloud通过和帆软BI的集成提供了一种强大的数据采集和数据分析解决方案,通过可视化的ETL工具和灵活的BI功能,帮助企业快速实现高…

【笔记整理】元学习笔记

【笔记整理】元学习笔记 文章目录 【笔记整理】元学习笔记一、元学习基础概念1、概述(“多任务,推理,快速学习”)1)Meta-learning(“学习如何学习” “老千层饼”)2)Transfer learn…

JDBC查询数据库——普通、流式、游标

问题 通过JDBC对MySQL进行数据查询时,有个很容易踩的坑,以下面代码为例: public static void selectNormal() throws SQLException{Connection connection DriverManager.getConnection("jdbc:mysql://localhost:3306/test", &qu…

【一次调频】考虑储能电池参与一次调频技术经济模型的容量配置方法(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

【IEEE/TOP录用】中科院2区TOP仅3个月录用~

一、【录用案例】 喜提一篇IEEE旗下中科院2区TOP录用; 2023/1/31提交,2023/5/26录用,仅3个月零26天录用; 传感器类SCIE&EI 【IF及分区】IF:4,JCR1/2区,中科院2区; 【检索情况】SCIE&E…

c语言编程练习题:7-42 整除光棍

#include <stdio.h>int main() {int x,s1,n1;scanf("%d",&x);while(s<x){ss*101;n;}while(1) {printf("%d",s/x); if(s%x0) break;s(s%x)*101;n;}printf(" %d",n);return 0; }代码来自&#xff1a;https://yunjinqi.top/article/16…

pdf如何转换成jpg图片?

pdf如何转换成jpg图片&#xff1f;PDF&#xff08;Portable Document Format&#xff09;是一种常见的文件格式&#xff0c;由Adobe Systems创建。与其他文档格式相比&#xff0c;它具有固定页面布局和跨平台兼容性等优点&#xff0c;因此广泛应用于电子书、论文、技术手册、合…

从外包到阿里,这 2 年 5 个月 13 天到底发生了什么?

个人背景&#xff1a; 本人毕业于浙江某二本院校&#xff0c;算是科班出身&#xff0c;毕业后就进了一家外包公司做测试&#xff0c;当然不是阿里的外包&#xff0c;具体什么公司就不透露了&#xff0c;在外包一呆就呆了整整 2 年多&#xff0c;直到现在才从外包离开&#xff…

Linux上jdk无法执行二进制文件及​gzip: stdin: invalid compressed data–format violated​报错

首先输入命令 java -version 直接给我报错&#xff1a;无法执行二进制文件 网上找了一堆&#xff0c;后面你得看看自己的Linux架构是什么&#xff0c;输入以下命令查看linux的操作系统版本 cat /proc/version 我当时华为云选择的服务器是openEuler。看到aarch64才反应过来我…

ATECLOUD芯片自动化测试平台,打破传统自动化测试5大问题

芯片测试通常包括以下几个步骤&#xff1a;设计验证测试&#xff08;Design Verification Testing&#xff09;&#xff1a;在设计阶段&#xff0c;通过一系列的仿真和验证测试来确保设计的正确性和可行性。这些测试可能包括电路板布局、逻辑分析、时序分析等。原型验证测试&am…

U盘超级加密3000忘记密码该怎么办?

作为一款专业的U盘加密软件&#xff0c;U盘超级加密3000是目前最受欢迎的U盘加密软件之一&#xff0c;它可以简单有效地加密U盘数据&#xff0c;最大程度的降低U盘数据泄露的风险。那么U盘超级加密3000忘记密码该怎么办呢&#xff1f; U盘超级加密3000一共有4处可以设置密码的场…

【Python】一个房贷计算器功能的小案例

题目要求&#xff1a; 房贷计算公式如下: 〉每月月供参考贷款金额[月利率(1&#xff0b;月利率)^还款月数]{[(1月利率)^还款月数]–1}>还款总额每月月供参考期限 12 ≥支付利息还款总额–贷款金额10000 以上计算方式中月利率(月利率利率12&#xff09;)指以月为计息周期计算…

Flutter的RawMaterialButton按钮

RawMaterialButton介绍 简介 Flutter的RawMaterialButton是一个具有原始材料样式的可点击的按钮控件。它可以用于创建自定义的按钮和交互元素&#xff0c;具有许多可自定义的属性。自定义更灵活。 重要属性 以下是RawMaterialButton的一些常用属性&#xff1a; onPressed&…

为什么要进行业务连续性管理?

为什么要进行业务连续性管理&#xff1f;在现代社会中&#xff0c;企业日常经营所面临的风险越来越多样化、复杂化。突发事件如自然灾害、供应链中断、网络攻击等都有可能对企业生产经营带来巨大影响&#xff0c;甚至导致公司破产倒闭。因此&#xff0c;保证业务连续性显得尤为…

GPT Demo 分享|日不落直播间接入虚拟人AI互动

摘要 虚拟人和数字人是人工智能技术在现实生活中的具体应用&#xff0c;它们可以为人们的生活和工作带来便利和创新。在直播间场景里&#xff0c;虚拟人和数字人可用于直播主播、智能客服、营销推广等。接入GPT的虚拟人像是加了超强buff&#xff0c;具备更强大的自然语言处理能…

面试:JS运行机制

浏览器端和node端的js运行机制执行的过程&#xff0c;进行两者的运行机制比较&#xff0c;以及同步任务和异步任务的说明&#xff0c;两种异步任务的必要性&#xff0c;以及各自有哪些回调&#xff0c;部分回调的优先级。 JS运行机制复述 首先js执行&#xff0c;会有一个函数执…

深度学习--优化器篇(超详细付代码测试流程包含:SGD,SGDM,NAG,Adagrad,RMSProp,Adam,Adadelta,Nadam等常用优化器)

引言 在深度学习过程中总会在代码中遇到优化器.Adam()&#xff0c;在上一篇实现卷积神经网络CNN的代码分析中也提到了优化器的概念,那么优化器如何通俗的理解呢&#xff1f;个人通俗理解(仅供参考)&#xff1a;为梯度下降法配置的一个的"领航员"&#xff0c;寻找模型…

realman——控制真实的机械臂

概述 MoveIt!完成运动规划后的输出接口是一个命名为“FollowJointTrajectory”的 action,其中包含了一系列规划好的路径点轨迹,与使用 MoveIt!控制 Gazebo中的机械臂不同的是,虚拟机械臂有 gazebo 的 ros_control 插件自动帮我们获取了follow_joint_trajectory 的动作 acti…

MVI56-GSC 串行增强通信模块

通用ASCII串行增强通信模块 MVI56E-GSC/GSCXT 通用ASCII串行增强通信模块允许Rockwell Automation ControlLogix可编程自动化控制器(PACs)使用非特定ASCII字符文本串或字节值串行通信协议轻松与串行设备连接。 MVI56E-GSC增强功能包括通过模块的以太网端口进行本地和远程诊断…

2023年高性能计算就业前景如何?IT人的机遇与挑战

在当今数字化时代&#xff0c;高性能计算&#xff08;HPC&#xff09;作为一项关键技术&#xff0c;正迅速成为各行各业的核心需求。不论是在职程序员还是在校大学生&#xff0c;懂高性能计算都将大大提升工作及科研、做课题的效率。而且加之2023年大模型的风靡&#xff0c;人工…