AI PC的引擎 – 英特尔第 14 代处理器Meteor Lake架构分析

news2024/10/2 7:39:56

英特尔从2023年12月开始在笔记本电脑中发售首款 Meteor Lake 第 14 代 Core Ultra 芯片,开启新的“AI PC”时代。这款芯片采用了全新的架构,将CPU分为四块“瓷砖”(tiles):CPU Tile,SoC Tile,Graphics Tile和I/O Tile,从而降低功耗并提高产量。而图形性能翻倍和新的人工智能引擎有助于满足寻求新功能的消费者。

Meteor Lake Tiles (图片来源:英特尔公开文档)

传统上,英特尔 CPU 分为封装在一起的两个主要部分:CPU 和平台控制中心 (PCH)。直接媒体接口 (DMI) 总线将两者连接起来。在此方案中,很容易将其视为 CPU 和“其他一切”:I/O、内存等。英特尔在Meteor Lake上采用的tiles则解决了几个问题。首先,每块瓷砖都可以按照自己的路线图单独加工,并按照其所需的制造工艺进行制造。英特尔使用其Foveros 技术将它们连接并堆叠在一起。在 14 纳米制造工艺停滞多年后,英特尔的新计划是通过在四年内以前所未有的速度跨越五种新制造工艺技术,重新获得制造领先地位,并在Meteor Lake上采用了新的制程技术:Intel 4。英特尔的新模块还意味着其逻辑可以智能地相互分离,从而节省电力。每个块都通过提供大约 128GB/s 带宽的结构连接。除此以外,tiles还有一个巨大的次要好处:可制造性。英特尔的Intel 4工艺是第一个使用极紫外(EUV)光刻技术的技术,该技术解决了一个基本问题:英特尔从其光阻硅晶圆上雕刻出的晶体管小于蚀刻过程中使用的光的波长。EUV(需要设备内部的硬真空)被视为迈向 Intel 4 及更高版本的道路。英特尔甚至不自己生产所有的瓷砖。英特尔的 Meteor Lake GPU 模块由台积电采用 5nm N5 工艺制造;SOC模块由台积电采用6nm N6工艺制造,而CPU模块由英特尔采用Intel 4工艺制造。(英特尔没有透露其 I/O 模块的制造商是谁)

英特尔制程路线图(图片来源:英特尔公开文档)

接下来,我们详细地看一下Meteor Lake的这四个Tiles。

(图片来源:英特尔公开文档)

CPU Tile

与第 13 代 Raptor Lake 一样,英特尔第 14 代 CPU 模块由两个主要部分组成:性能核心(P 核心)(现称为 Redwood Cove)和代号为Crestmont的新效率核心(E 核心)。我们不太了解 Raptor Lake 的 P 核和 E 核与 Meteor Lake 中的核之间有什么区别。然而,Redwood Cove 确实提供了更高的性能效率和带宽,并具有更大但未公开的二级缓存。

全新的REDWOOD COVE P核心(图片来源:英特尔公开文档)

英特尔也没有透露任何有关 Redwood Cove 性能改进的信息。不过,英特尔客户端系统和软件部门的研究员 表示,与 Raptor Lake 相比,Crestmont 的每时钟指令数的性能提升快了 4% 到 6%。(IPC 改进意味着,如果 Raptor Lake 和 Meteor Lake 以相同的速度运行,Meteor Lake 的 Crestmont E 核的运行速度将快 4% 到 6%。)

全新的CRESTMONT E-核心(图片来源:英特尔公开文档)

SOC Tile:低功耗的E-核心

Meteor Lake 的两个新的低功耗 E 核心包含在 SOC 模块中,就其功能阵列而言,SOC 模块是 Meteor Lake 中最复杂的。虽然 CPU 区块包含 CPU 核心,但 SOC 区块本质上是旧的 PCH,包含 Meteor Lake 的绝大多数辅助功能。在这里,您将找到低功耗 E 核、新的 NPU AI 引擎以及显示引擎、PCI Express 等。为什么要把低功耗E核放在SOC模块中?同样,这是英特尔低功耗计划的一部分:通过将低功耗 E 核心与 CPU 模块分离,这意味着只有 SOC 模块(或其特定部分)需要被唤醒进入活动电源状态。这样可以节省电量,延长笔记本电脑的电池寿命。

低功耗的E-核心(图片来源:英特尔公开文档)

低功耗E核呢是一个“新”E-core,是 Gracemont 架构的不同版本。E 核最初是为低功耗任务而设计的。新的低功耗 E 核是为高管们所说的后台“IT 任务”而设计的,但目前尚不清楚这些任务到底是什么。我们也不知道这些新内核的“功耗”有多低。这些“IT 任务”所涉及的一个相当例子是,英特尔使用低功耗 E 核来播放《钢铁之泪》,这是一个被广泛用来测量笔记本电脑电池寿命的开源视频文件。从历史上看,直到 2017 年左右,播放视频都需要整个 CPU 的注意力。从Lakefield 和 Alder Lake,英特尔开始将该任务分配给 E 核和 P 核。仅根据这项任务,笔记本电脑的电池寿命就有显着增加。

(图片来源:英特尔公开文档)

在Meteor Lake中,大部分的IT后台工作都可以在低功耗E-核运行(图片来源:英特尔公开文档)

英特尔还大规模改变了 Thread Director,这是 Meteor Lake 中线程或工作负载在内核之间分流的机制。Windows 或 Linux 知道需要做什么并指示 CPU 接管。然后该工作将交给 Thread Director。在Core i9-13900K 上运行的Thread Director 2中,任务首先路由到性能核心,然后在需要时分流到 E 核心。

在 Meteor Lake 中,情况恰恰相反线程首先分配给低功耗 E 核,然后分配给全功率 E 核,最后分配给 P 核。Thread Director 为任务分配不同的优先级,然后相应地分配任务。(任务的评级不是根据其表现,而是根据其他特征:“0”是“空闲”,“2”是“持续”,“3”是“突发”)。如果低功耗 E 核心完成任务并被释放,即使 P 核心可用,可用线程也会被推送给它。即使在 P 核空闲且英特尔线程控制器针对性能进行了优化(可能通过Windows 电源滑块)的情况下,任务也会首先分配给 低功耗E 核。

Meteor Lake Thread Director改进(图片来源:英特尔公开文档)

尽管英特尔似乎能够将 Thread Director 作为一项政策进行调整优化,但我们不知道它是否会这样做。比如游戏优化笔记本电脑是否可以主要采用 P 核,并让 Thread Director 首先将线程路由到 P 核?英特尔技术人员评论可以根据游戏的需要调整 Thread Director。尚不完全清楚的是,例如,在低功耗 E 核上启动游戏线程,然后逐步进入 E 核,然后进入 P 核,是否会造成性能损失?

SOC 块也是英特尔所称的 NPU的所在地。2022年,英特尔CEO基辛格确认AI即将登陆Meteor Lake,开启“AI PC时代”,英特尔将出货“数百万”台此类人工智能电脑。顺便说一句,英特尔证实,该 NPU 将出现在所有版本的 Meteor Lake 上。

SOC Tile架构(图片来源:英特尔公开文档)

英特尔实际上正在开发第三代人工智能:第一代是它于 2016 年从 Movidius 购买的,第二代将独立卡内置到三星 Galaxy Book3 Ultra等一些 PC 中,使这些 PC 能够通过 Windows Studio 进行背景模糊和噪声过滤效果。(虽然 Windows Studio Effects 使用 Movidius 技术,但 Zoom、Teams、Google Meet 和其他工具只需使用 PC 的 CPU 或 GPU。)

英特尔试图做的是将个人电脑定位为未来的人工智能应用,展示了一款 AI 艺术生成器Stable Diffusion ,还演示了音频编辑器 Audacity 的插件,该插件不仅将人声与伴奏乐器分开,而且后来使用文本提示改变了乐器风格。英特尔的目标似乎是齐头并进,加速 WinML、DirectML 等 AI API 及其自有的 OpenVINO 推理引擎。英特尔 SOC 设计总经理 Tim Olson 在一次单独的演讲中表示:“我们的目标是让人工智能平民化。”NPU 就是其中的一部分。英特尔的 NPU 包括一对神经计算引擎,每个引擎内部都有两个 VLIW Shade DSP,推理引擎每个周期最多可处理 8 条指令。即使对于习惯于解析每个芯片的核心数量、基本时钟和涡轮时钟的消费者来说,这也没有多大意义。英特尔试图传达的是,人工智能每个周期需要大量乘法累加 (MAC) 指令,而这些引擎每个可以执行 2,048 次 MAC 计算。

不过,英特尔的秘密武器不仅仅在于 AI NPU,还在于 CPU、GPU 和 NPU 如何相互帮助。以下面的例子为例。英特尔运行了 20 次Stable Diffusion迭代,尝试了各种组合:在 CPU 上执行所有计算、在 GPU 上执行所有计算、在 NPU 上执行所有计算以及三者的组合。在 NPU 上执行所有这些任务需要 20.7 秒,总功耗为 10 瓦,这是最有效的利用。但全部在 GPUNPU 上执行需要 11.3 秒,消耗 30W。

Stable Diffusion测试结果(图片来源:英特尔公开文档)

Graphics Tile

Meteor Lake的 XeLPG 图形模块结合了集成显卡和独立显卡两个市场的元素,更新了过去几年一直内置于 Core 处理器中的 Xe(或 XeLP)集成 GPU。从本质上讲,英特尔正在尽可能地从其独立的 Arc GPU 中汲取灵感,并将其放入集成的 Meteor Lake GPU 中,目标是实现早期 Xe 核心性能的两倍,以及每瓦性能的两倍。英特尔正在提高 XeLPG 的时钟速度,为其投入更多芯片,并提高其效率。英特尔将 Arc A770 的 8 个 Xe 核心以及 8 个光线追踪单元引入 Meteor Lake,这意味着光线追踪现在是基本集成 GPU 的一部分,而不仅仅是一个独立芯片。

(图片来源:英特尔公开文档)

Meteor Lake 的 XeLPG 还支持 XeSS,这是英特尔对 Nvidia DLSS 的回应。英特尔的技术以较低的分辨率渲染帧,然后将其超级采样为高分辨率图像。这样可以节省能源并改善图像。Meteor Lake 引入了英特尔所谓的 Endurance Gaming,它将使用英特尔 Arc Control 应用程序进行电源管理。该应用程序直接与英特尔的移动驱动程序对话,调节性能并提高效率;在“常规游戏”模式下,Arc Control 可以为整个系统分配 28W,包括 CPU 和 GPU。在 Endurance Gaming 中,总功耗可以削减至 10W,只为 CPU 提供 1W 功耗。根据英特尔的测试, 《火箭联盟》这款游戏可以在不到1W的功率下以每秒30帧的速度运行。

I/O Tile

I/O Tile包含处理器 PCI-Express 接口的物理层接口,以及 Thunderbolt 和 USB4 等 PCIe 衍生接口。I/O Tile本质上是 SoC 块的扩展。英特尔认为需要单独的 I/O Tile,因为这将允许他们使用不同大小的 I/O Tile来满足不同的处理器型号。演示中的 I/O 模块采用顶级配置,拥有最多的 PCIe 通道、USB4 和 Thunderbolt 接口,英特尔打算在“Meteor Lake”中提供这些接口,不过一些低端 SKU 可能会配置较少的 PCIe 通道,并且缺少 Thunderbolt,使用物理上较小的 I/O Tile。不仅仅是 I/O Tile,还可能存在 P 核数量较少的计算块的变体,从而导致物理块更小。

I/O Tile(图片来源:英特尔公开文档)

作者个人Blog(HY's Blog):https://blog.yanghong.dev

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1412849.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python学习从0到1 day9 Python函数

苦难是花开的伏笔 ——24.1.25 函数 1.定义 函数:是组织好的,可重复使用的,用来实现特定功能的代码段 2.案例 在pycharm中完成一个案例需求:不使用内置函数len(),完成字符串长度的计算 #统计字…

海外云手机三大优势

在全球化潮流下,企业因业务需求对海外手机卡等设备的需求不断攀升,推动了海外云手机业务的蓬勃发展。相较于自行置备手机设备,海外云手机不仅能够降低成本,还具备诸多优势,让我们深入探讨其中的三大黄金优势。 经济实惠…

Vulnhub靶机:FunBox 9

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.15) 靶机:FunBox 9(10.0.2.37) 目标:获取靶机root权限和flag 靶机下载地址:https://www.vulnhub.com/entry/funb…

NGINX如何实现rtmp推流服务

最近直播大火,直播推流软件遍地开花,那么用NGINX如何进行推流呢?下面我们就简单的介绍一下用NGINX的rtmp模块如何实现视频推流,我们主要从一下几点介绍: 推流拉流推流认证拉流认证 package mainimport ("fmt&qu…

Elasticsearch基础篇(八):常用查询以及使用Java Api Client进行检索

ES常用查询以及使用Java Api Client进行检索 1. 检索需求 参照豆瓣阅读的列表页面 需求: 检索词需要在数据库中的题名、作者和摘要字段进行检索并进行高亮标红返回的检索结果需要根据综合、热度最高、最近更新、销量最高、好评最多进行排序分页数量为10&#xf…

vscode 代码格式化很短就换行,以及缩放设置

安装vetur 打开vscode设置settings.json { "editor.tabSize": 2,//缩进单位"vetur.format.defaultFormatter.html": "js-beautify-html","vetur.format.defaultFormatterOptions": {"js-beautify-html": {"wrap_line…

项目测试 手机系统 改串号 写IMEI 改MEID 改手机型号 等信息配置信息 演示视频 和一键新机

项目测试 手机系统 改串号 写IMEI 改MEID 改手机型号 等信息配置信息 演示视频 和配置说明 项目-手机系统支持直接改串号 IMEI MEID 手机型号 等信息配置信息 演示视频 支持 条形码 SN IMEI 1 IMEI 2 MEID 唯一SN 蓝牙地址 wifi地址 mac "一键新机"这个术语通常出现…

视频有点大能做二维码吗?视频转成二维码图片的方法

怎么把一个比较大的视频转二维码图片呢?现在很多人会以二维码为载体来存储视频文件,其他人只需要扫码生成二维码就可以观看视频。有的视频因为时间比较长,尺寸比较大,文件会比较大,那么几十几百m大小的视频如何快速制作…

不学前沿技术与朽木浮草何异 Java 10新特性

不学前沿技术与朽木浮草何异? Java 10新特性 ​ 发布于 2018 年 3 月 20 日,最知名的特性应该是 var 关键字(局部变量类型推断)的引入了,其他还有垃圾收集器改善、GC 改进、性能提升、线程管控等一批新特性。 概览(…

Shell脚本------函数与数组

目录 一、函数 1、函数是什么? 2、函数的格式 3、函数的调用方法 ①脚本:查看当前操作系统 ②脚本二:函数备份yum线上源,创建yum本地源和清理缓存安装httpd 4、函数的返回值 5、函数传参 6、函数变量的作用范围 1、实例…

2024年【安全员-B证】考试技巧及安全员-B证操作证考试

题库来源:安全生产模拟考试一点通公众号小程序 安全员-B证考试技巧参考答案及安全员-B证考试试题解析是安全生产模拟考试一点通题库老师及安全员-B证操作证已考过的学员汇总,相对有效帮助安全员-B证操作证考试学员顺利通过考试。 1、【多选题】《建筑施…

Rocky8 顺利安装 Airflow 并解决数据库报错问题

rocky是替代centos的服务器系统,稳定可靠。rocky8会比centos7新,可以支持更多服务软件的安装,免去升级各种库的麻烦,本文运行airflow服务就用rocky8系统。airflow是一个定时任务管理系统,功能强大,目前是ap…

机器学习算法(二)

一、朴素贝叶斯 朴素贝叶斯(Naive Bayes)是基于贝叶斯定理。它测量每个类的概率,每个类的条件概率给出 x 的值。这个算法用于分类问题,得到一个二进制“是 / 非”的结果。看看下面的方程式。 先验概率:即基于统计的概…

python基础学习-03 安装

python3 可应用于多平台包括 Windows、Linux 和 Mac OS X。 Unix (Solaris, Linux, FreeBSD, AIX, HP/UX, SunOS, IRIX, 等等。)Win 9x/NT/2000Macintosh (Intel, PPC, 68K)OS/2DOS (多个DOS版本)PalmOSNokia 移动手机Windows CEAcorn/RISC OSBeOSAmigaVMS/OpenVMSQNXVxWorksP…

万物简单AIoT 端云一体实战案例学习 之 空气质量检测系统

学物联网,来万物简单IoT物联网!! 下图是本案的3步导学,每个步骤中实现的功能请参考图中的说明。 1、简介 环境污染、空气污染是人类一直所关心并且讨论的永恒话题,人们对优质的环境和健康的身体非常向往。因此,如果有一种可以检测周围环境的空气质量的设备并且环境数据…

各个阶段直播流程和运营重点

塑型期直播流程与运营重点 成长期直播流程与运营重点 成熟期直播流程与运营重点 小结

每个开发人员都应该知道的6个Nodejs库

Node.js被视为许多Web开发人员的理想运行时环境。它是世界上最流行的编程语言之一,Node.js提供了通过JavaScript库重用代码的能力,但是在项目中选择合适的库可能很困难。 有用的库可以缩短开发时间,并为您的Web应用程序提供几个优点&#xf…

Unity学习之坦克游戏制作(2)游戏场景的制作

文章目录 1. 基础场景的搭建2. 游戏主面板2.1 拼出面板2.2 创建新面板2.3 设置面板复用2.4 退出界面 3. 坦克基类3.1 创建基类脚本3.1.1 基类基本属性3.1.2 抽象开火函数3.1.3 受伤虚函数3.1.4 死亡虚函数 4 玩家——基础移动旋转摄像机跟随4.1 玩家对象脚本4.2 控制坦克移动4.…

22.Lambda 表达式

Lambda 表达式 1. 概况2. 函数式接口3. 格式3.1 完整格式3.2 省略格式 4. 代码示例5. 输出结果6. 注意事项 学习Lambda表达式之前最好先学会 匿名内部类 1. 概况 Lambda 表达式是一种在编程中用来表示匿名函数的简洁语法。它是基于函数式编程风格的一种特性,最初在…

2024.1.26每日一题

LeetCode 边权重均等查询 2846. 边权重均等查询 - 力扣(LeetCode) 题目描述 现有一棵由 n 个节点组成的无向树,节点按从 0 到 n - 1 编号。给你一个整数 n 和一个长度为 n - 1 的二维整数数组 edges ,其中 edges[i] [ui, vi,…