大模型时代的计算机系统革新:更大规模、更分布式、更智能化

news2024/9/29 15:29:48

编者按:2023年是微软亚洲研究院建院25周年。借此机会,我们特别策划了“智启未来”系列文章,邀请到微软亚洲研究院不同研究领域的领军人物,以署名文章的形式分享他们对人工智能、计算机及其交叉学科领域的观点洞察及前沿展望。希望此举能为关注相关研究的同仁提供有价值的启发,激发新的智慧与灵感,推动行业发展。


mao-yang-system-author

“大模型的不断涌现和下一代人工智能需求的迅速增长,促使我们加速对传统计算机系统的革新。同时,构建于大规模高性能计算机系统之上的现代人工智能技术也为未来计算机系统的研究带来了无限的机遇。创新超级计算机系统、重塑云计算、重构分布式系统,将是实现计算机系统自我革新的三个重要方向。”

——杨懋,微软亚洲研究院副院长

在计算机科学的诸多细分研究领域之中,计算机系统研究可能是最兼具“古典”与“摩登”特质的研究方向。说它古典,是因为计算机系统的雏形可以追溯到古代的算盘、算筹、数据表等计算工具,其发展远远早于软硬件、云计算、人工智能等技术的研究;至于摩登的一面,大数据、云计算等现代技术又促进了计算机系统的不断进化。传统计算机系统研究领域,如分布式系统理论和实践、编译优化、异构计算等成果,已在当今的大模型时代大放异彩。同时,以大规模 GPU 集群为代表的高性能计算机系统也推动人工智能实现了质的飞跃。

然而,随着人工智能技术更新迭代速度的加快,我们也愈发清晰地看到传统计算机系统面临着新的挑战:当前的 GPU 集群在规模和效率上,已经难以满足新一代人工智能模型的训练和服务的需求,而现有的云计算和移动计算系统平台,也需要从服务传统的计算任务向服务智能应用转变。

面对这一系列挑战,我们意识到构建于大规模高性能计算机系统之上的现代人工智能技术,将为计算机系统的研究带来无限的机遇。因此,计算机系统的革新也势必要从这三个方向展开:创新超大规模计算机系统以支持未来人工智能的发展;重构云计算这一重要的 IT 基础平台;设计前沿的分布式系统,以适应更广泛的分布式智能需求。

mao-yang-system-1

大规模和更高效的计算机系统是下一代人工智能发展的基石

强化学习领域的创始人之一 Rich Sutton 曾说过,“从70年的人工智能研究中可以总结出的最重要的经验是,最大化利用计算能力是最有效,也是最有优势的方法。从长远来看,唯一重要的事情就是利用好算力。”

超级计算机系统作为当前最有效的计算力“源力”,是现代人工智能成功的重要基石。然而,在基于超级计算机系统构建大规模 GPU 集群的过程中,系统的可靠性、通信效率和总体性能优化成为制约大模型训练性能上限的关键问题。因此,我们需要创造一个更高性能、更高效率的基础架构和系统,以推动下一代人工智能的发展。

过去五年中,我们从体系结构、网络通信、编译优化和上层系统软件等多个角度,开展了计算机系统的创新研究,为人工智能基础架构的演化提供了有力支持。例如,我们推出了能够跨多个加速器执行集体通信算法的微软集体通信库 MSCCL[1],以及有助于开发大规模深度神经网络模型的高性能 MoE(Mixture of Experts,混合专家)库 Tutel[2]。这些研究成果为包括大语言模型训练及推理在内的各种人工智能任务提供了高效的支持。

超级计算机系统不能仅依靠传统系统方法来实现革新,而是要利用人工智能实现创新和演进。这也是微软亚洲研究院正在探索的研究方向,我们认为人工智能的新能力将为解决传统计算机系统问题提供新视角,包括更智能和高效地优化复杂系统的性能,更快速和智能的问题诊断,以及更便捷的部署和管理。

人工智能与系统结合将为计算系统设计带来新的范式。从芯片设计、体系结构创新、编译优化到分布式系统设计,人工智能可以成为系统研究者的智能助手,甚至承担大部分工作。在人工智能的协助下,系统研究者可以将更多精力用于更大规模系统的整体设计,关键模块和接口的抽象,以及系统整体的演进路线。比如,对于人工智能编译系统的设计,我们推出了 Welder、Grinder 等编译器[3],可以更专注于模型结构、编译系统和底层硬件之间的关系和抽象,而更多具体的编译优化搜索算法和实现可以由人工智能辅助完成。这些新的系统研究范式将成为构建更大规模和更高效的人工智能基础架构的真正基石。

基于统一切块(tile)抽象的四个核心 AI 编译技术

基于统一切块(tile)抽象的四个核心 AI 编译技术

以智能化为内核,重塑云计算系统

“操作系统管理着计算机的资源和进程以及所有的硬件和软件。计算机的操作系统让用户在不需要了解计算机语言的情况下与计算机进行交互。”这是我们对计算机系统的最初理解。

但是,随着以 GPU、HBM、高速互联网络为代表的分离式(Disaggregation)服务器架构逐渐取代传统以 CPU 为中心的服务器,人工智能智能体(AI Agent)和大模型成为云计算平台的主流服务,深度学习算法逐渐替代传统服务核心算法,云计算这个始于本世纪初的最重要的 IT 基础系统也需要重塑自身。

传统云计算领域的研究方向,如虚拟机(VM)、微服务(Micro-services)、计算存储分离、弹性计算等,在人工智能时代下需要被重新定义和发展。虚拟化技术需要在分离式架构的背景下进行重新设计;微服务及其相关云计算模块需要为 AI Agent 和大语言模型构建高效且可靠的服务平台;数据隐私和安全需要成为云计算系统创新的核心要素。所有这些变革创新都要服务于云计算系统的智能化(Cloud + AI)。

在过去几年中,我们在体系结构方面围绕分离式架构展开研究,在系统软件上以大语言模型和 AI Agent 为核心,提出了诸多构想,推出了多项创新技术。这些技术将在未来的云计算平台中发挥重要作用。

云计算自身的变革也为云计算平台上的传统服务,如数据库系统、大数据系统、搜索和广告系统、科学计算等大规模系统,带来了新的进化机遇。一方面,大规模异构计算系统在云端的普及为传统大规模系统提供了新的计算平台;另一方面,深度学习特别是大模型的发展为传统大规模系统的内在算法设计和实现提供了崭新的思路。以搜索系统为例,我们基于异构计算系统和深度学习方法对搜索系统进行了创新,从 Web Scale 的矢量搜索系统 SPANN[4] 到最新的 Neural index 索引系统 MEVI[5] 的设计,这些创新不仅极大提升了搜索和广告系统的性能,也为未来信息检索系统提供了新的范式。类似的创新也发生在数据库系统、科学计算系统等领域。

云计算系统不仅为人工智能的发展提供了保障,其自身和构建其上的大规模系统服务也将受益于人工智能技术,从而实现持续演进。未来的云计算平台也将成为新一代人工智能基础架构的关键组成部分。

分布式系统将是分布式智能的关键基础设施

“人类的智能不单存在于人类的头脑中,还广泛分布在整个物理世界、社会活动和符号体系中——这就是‘分布式智能’。”美国认知科学家 Roy Pea 在 1993 年发表的一篇论文《Distributed Cognition: Toward a New Foundation for the Study of Learning》中提出了分布式智能(distributed cognition)的概念,为我们提供了一种新的视角来理解人工智能系统与社会以及环境之间的相互作用。

目前,大模型的技术链条,从训练到推理都依赖于云计算中心。但我们相信,智能广泛存在于分布式环境中,未来的智能计算也必然存在于任意的分布式环境中。

人类和物理世界的交互、基于符号系统的交流,都是智力活动的体现。在未来,这些智力活动应该能被大模型更好地感知和学习,人们也可以在任意终端更实时地获取人工智能模型的能力。这种泛在的相互感知和不断演进的能力,将是未来分布式系统研究的重点之一。

那么,如何支持智能技术在更分布式的场景下发展?我们需要考虑在由云端、边缘端和设备组成的广泛计算平台中,如何更好地进行人工智能计算。除了传统的模型稀疏化、压缩等优化模型推理性能的技术外,更为关键的是要克服大模型等算法在边缘端运行时遇到的挑战,如实时性和可靠性等基础问题。为此,我们推出了PIT[6]、MoFQ[7]等多种移动端模型量化、稀疏化以及运行时优化的技术。

另外,对于边缘计算平台和设备,硬件和推理算法的创新也至关重要,这将从根本上革新端侧的推理方式,比如利用基于查找表(Lookup Table)等全新的计算范式来提升端侧推理效率,包括 LUT-NN[8] 等技术。

我们还与多个不同的机器学习团队紧密合作,使学习算法可以更好地从任意信号(Signals)中捕捉智能。除了传统的多模态模型,我们也在寻找更简洁和内在一致的模型结构和学习算法,可以从任意信号中进行学习。我们也在探索更优的模型结构和算法,这些模型应当更稀疏、更高效,且具有良好的可扩展性,能够有效地支持自学习和实时更新。

未来,智能将融入广泛的分布式环境中,而创新的分布式系统将是分布式智能的关键基础设施,也是人类社会获得更实时、更可靠的人工智能交互能力的前提。

未来的计算机系统将自我进化

未来的计算机系统研究将是一个持续自我革新的过程。这不仅意味着计算机系统需要不断进化来满足未来人工智能发展的需求,也意味着计算机系统本身将更加智能化,并具备自我演化的能力。

过去几年的变革创新让我们窥见了些许未来的样貌。然而,从基础架构、云计算平台到分布式智能化,人工智能时代的计算机系统研究领域,还有很多新的可能性等待我们去探索。当然,我坚信那些更加智能、更强大的助手和工具,一定会在未来的研究道路上给我们带来尚未被发现,但又足以令人兴奋的惊喜。

本文作者

杨懋博士现任微软亚洲研究院副院长,领导微软亚洲研究院在计算机系统和网络领域的研究工作。

杨懋博士于2006年加入微软亚洲研究院,主要从事分布式系统、搜索引擎系统和深度学习系统的研究、设计与实现。同时领导团队在计算机系统、计算机安全、计算机网络、异构计算、边缘计算和系统算法等方向进行关键技术研究。团队及个人在 OSDI、SOSP、NSDI、SIGCOMM、ATC 等计算机系统和网络的顶级会议上持续发表多篇论文。团队在研究的同时还注重与实际计算机和网络系统的演进结合,与 Azure 云计算、Bing 搜索引擎系统、Windows 操作系统、SQL Server 数据库系统以及多个开源社区密切合作。杨博士同时还是中国科学技术大学博士生导师。

杨懋博士拥有北京大学计算机体系结构专业博士学位以及哈尔滨工业大学硕士和学士学位。

相关链接:

[1] Microsoft Collective Communication Library (MSCCL)

[2] Tutel MoE: An Optimized Mixture-of-Experts Implementation

[3] 微软亚洲研究院推出AI编译器界“工业重金属四部曲”

[4] SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search

[5] Model-enhanced Vector Index

[6] PIT:通过排列不变性优化动态稀疏深度学习模型

[7] Integer or Floating Point? New Outlooks for Low-Bit Quantization on Large Language Models

[8] LUT-NN: Empower Efficient Neural Network Inference with Centroid Learning and Table Lookup

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1407512.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

搭建网站使用花生壳的内网穿透实现公网访问

目录 一 搭建网站 二 使用花生壳进行内网穿透 1、创建内网映射 2、linux系统安装花生壳客户端 3、重新打开浏览器,输入http://b.oray.com,完成账户登录,激活(SN登录) 一 搭建网站 准备工作: [rootse…

主播产品对比话术

—、价格对比 主播产品A︰这款产品定价相对较高,但是其品质和功能都是一流的,对于追求高端体验的消费者来说,物有所值。 主播产品B∶这款产品的价格相对较低,性价比很高,对于预算有限的消费者来说,是个不…

基于Java SSM框架现图书馆借阅管理系统项目【项目源码+论文说明】

基于java的SSM框架实现图书馆借阅管理系统演示 摘要 以往的图书馆管理事务处理主要使用的是传统的人工管理方式,这种管理方式存在着管理效率低、操作流程繁琐、保密性差等缺点,长期的人工管理模式会产生大量的文本借书与文本数据,这对事务的…

控制项目风险

一、风险预算 暴雪公司经理艾莉森,暴雪公司是一家小型工业企业,该公司的高管为了降低生产成本,决定搬迁工厂。项目经理明白实际情况与初始计划之间常常会有很大的出入。项目经理需要事先为一些事情做好准备,并在项目运作或预算方面…

Vue基础-Computed-Watch

一、computed计算属性使用 1.复杂data的处理方式 我们知道,在模板中可以直接通过插值语法显示一些data中的数据。 但是在某些情况,我们可能需要对数据进行一些转化后再显示,或者需要将多个数据结合起来进行显示; 比如我们需要…

ORA-12528: TNS: 监听程序: 所有适用例程都无法建立新连

用了网上的办法: 1、修改listener.ora的参数,把动态的参数设置为静态的参数,红色标注部分 位置D:\oracle\product\10.2.0\db_1\NETWORK\ADMIN SID_LIST_LISTENER (SID_LIST (SID_DESC (SID_NAME PLSExtProc) (ORACLE_HOME D:\oracle\produ…

微信小程序(十)表单组件(入门)

注释很详细&#xff0c;直接上代码 上一篇 新增内容&#xff1a; 1.type 属性指定表单类型 2.placeholder 属性指定输入框为空时的占位文字 源码&#xff1a; form.wxml <!-- 提前准备好的布局结构代码 --> <view class"register"><view class"…

【LangChain学习之旅】—(10) 用RouterChain确定客户意图

【【LangChain学习之旅】—&#xff08;10&#xff09; 用RouterChain确定客户意图 任务设定整体框架具体步骤如下&#xff1a; 具体实现构建提示信息的模板构建目标链 Reference&#xff1a;LangChain 实战课 任务设定 首先&#xff0c;还是先看一下今天要完成一个什么样的任…

Pyro —— DOP Nodes

目录 Smoke Object —— 创建smoke对象及相关场 Smoke Solver —— Smoke解算器 Color Relationships Advanced Pyro Solver —— Pyro解算器 Smoke Object (Sparse) —— 创建smoke对象及相关场 Smoke Solver (Sparse) —— Sparse Smoke解算器 Simulation Advanced …

[足式机器人]Part2 Dr. CAN学习笔记- 最优控制Optimal Control Ch07

本文仅供学习使用 本文参考&#xff1a; B站&#xff1a;DR_CAN Dr. CAN学习笔记 - 最优控制Optimal Control Ch07-1最优控制问题与性能指标 1. 最优控制问题与性能指标2. 动态规划 Dynamic Programming2.1 基本概念2.2 代码详解2.3 简单一维案例 3. 线性二次型调节器&#xff…

SourceTree修改仓库密码

1、找到 SourceTree缓存文件目录&#xff1a; passwd 目录保存账号对应的密码&#xff08;已加密&#xff09; 2、删除密码 删除passwd文件即可。重启 SourceTree 软件&#xff0c;进行操作&#xff0c;就会有输入密码的弹窗&#xff0c;输入即可。

高标准农田气象站

在当今社会&#xff0c;科技的发展正在深刻地改变着我们的生活。特别是在农业领域&#xff0c;科技的运用已经成为了保障粮食安全、提高农业生产效率的重要手段。其中&#xff0c;高标准农田气象站作为现代农业的重要组成部分&#xff0c;正在发挥着越来越重要的作用。 TH-NQ14…

【原生小程序-分包】

1.创建分包-文件夹 subPackages app.json中写入subPackges对象&#xff0c;在里面写分包路径 {"pages": ["pages/index/index"],"subPackages": [{"root": "subPackages","name": "分包A","pag…

【强化学习】QAC、A2C、A3C学习笔记

强化学习算法&#xff1a;QAC vs A2C vs A3C 引言 经典的REINFORCE算法为我们提供了一种直接优化策略的方式&#xff0c;它通过梯度上升方法来寻找最优策略。然而&#xff0c;REINFORCE算法也有其局限性&#xff0c;采样效率低、高方差、收敛性差、难以处理高维离散空间。 为…

leetcode—课程表 拓扑排序

1 题目描述 你这个学期必须选修 numCourses 门课程&#xff0c;记为 0 到 numCourses - 1 。 在选修某些课程之前需要一些先修课程。 先修课程按数组 prerequisites 给出&#xff0c;其中 prerequisites[i] [ai, bi] &#xff0c;表示如果要学习课程 ai 则 必须 先学习课程 …

仓储管理系统——软件工程报告(总体设计)③

总体设计 一、需求规定 软件工程仓库存储管理系统的需求规定是确保系统能够满足用户期望、提高工作效率、确保数据安全性和系统可维护性的基石。其涵盖了功能性、性能、数据管理、用户界面和系统可维护性等多个方面。通过严格的验收标准&#xff0c;可以确保系统在实际应用中…

【服务器】安装宝塔面板

目录 &#x1f33a;【前言】 &#x1f33c;【前提】连接服务器 &#x1f337;方式一 使用工具登录服务器如Xshell &#x1f337;方式二 阿里云直接连接 &#x1f33c; 1. 安装宝塔 &#x1f337;获取安装脚本 方式一 使用下面提供的脚本安装 方式二 使用官网提供的脚本…

一文读懂RabbitMQ核心概念及架构

1. RabbitMQ简介 RabbitMQ是一个开源的消息代理软件&#xff0c;实现了高级消息队列协议&#xff08;AMQP&#xff09;。它是一个应用程序对应用程序的通信方法&#xff0c;基于消费-生产者模型。在RabbitMQ中&#xff0c;消息的生产者将消息发布到队列中&#xff0c;而消息的…

AI智能绘图

AI智能绘图是一种创新的图像生成技术&#xff0c;它使用人工智能算法来根据用户输入的文本描述或参考图片自动生成艺术作品。这种技术分为两个方面&#xff1a;文生图和图生图。 首先我们需要浏览器搜索“固乔科技”官网&#xff0c;先下载并安装固乔智创助手软件。完成后&…

vue3源码(二)reactiveeffect

一.reactive与effect功能 reactive方法会将对象变成proxy对象&#xff0c; effect中使用reactive对象时会进行依赖收集&#xff0c;稍后属性变化时会重新执行effect函数。 <div id"app"></div><script type"module">import {reactive,…