AI 原生时代,操作系统厂商要全面优先拥抱 AI,深度融合 AI 能力,发挥关键生态位作用,做好上游芯片与下游 AI 应用开发商之间的纽带,打造最 AI 的服务器操作系统,实现 AI 能力的快速价值转化。
AI 原生趋势下,底层硬件需要提供更复杂的计算资源,包括多元化的通用处理器与 AI 加速芯片、更高效的内存、网络、存储 IO 等等,硬件的变化要求操作系统具备更加有效管理和分配能力,确保 AI 应用的高效运行。
操作系统如何满足 AI 应用场景需求?未来发展趋势如何?2024 龙蜥操作系统大会上,龙蜥社区副理事长张东分享了题为《智算引领 系统创新》的主题演讲,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。以下为演讲全文:
(图/龙蜥社区副理事长张东)
AI 原生化加速,操作系统面临全新挑战
AI 可谓是现在最大的产业变革,带来的影响比以往任何技术都更为深远。甚至就像计算机诞生一样,对于整个人类的发展产生很大的影响。AI 的影响力不仅体现在 IT 领域,它还从根本上改变了很多行业创新和发展模式,成为推动生产力向前发展非常重要的一点,现在国家提出要发展新质生产力,AI 就是新质生产力最典型代表。
目前,AI 已经应用于各个领域,比如,通过 AI 大数据的加持,传统科学研究方法大大加速,让攻克难题成为可能;通过自动化生产线和智能机器人,AI 提高了制造效率和质量控制……
AI 应用的快速发展,对底层硬件需求激增,加速卡、存储的不断增长造成单机功率、密度越来越大,并且数据中心规模不断扩张,而硬件资源扩展对资源调度能力提出考验,操作系统也要随资源变化进行调整。
通过堆砌资源的方式满足 AI 需要的道路很难持续,这个过程中操作系统面临几个挑战:一是对多元算力的支持,操作系统需要协调 CPU、GPU 以及其他专用芯片,如何把算力高效组织起来;二是 AI 本身的编程环境非常复杂,软烟囱林立,用户面临环境选择难题;三是效率、性能的优化和可靠性、稳定性等方面,对操作系统提出更高要求,在出现故障的时候能够快速定位,能够快速恢复;最后,确保 AI 原生的安全,防止数据隐私泄露。
应对AI原生,以应用为导向,以系统为核心创新架构设计
面对 AI 原生化对基础设施带来的变革,浪潮信息提出“以应用为导向,以系统设计为中心,建立多元异构算力融合、软硬协同优化”的技术发展路线,其中,操作系统是软硬协同设计与优化的核心。
张东表示:“我们提出以应用为导向,是面向最终的应用场景,以系统为中心,系统则是指包括了服务器整机+操作系统+基础应用环境在内的整体。应对 AI 带来的改变,需要软硬件整体创新来解决。”
围绕着 AI 大模型的训练,浪潮信息从硬件上引入了多项的技术,构建面向大规模计算的融合架构 3.0 系统,通过高速互联总线,对计算、存储进行了解耦,实现内存、存储、异构加速及通用计算等资源池化,支持硬件资源快速部署,完善各类芯片之间的内外部互联,并引入 400G 高速网络及海量存储。
在系统软件层面,对于操作系统进行多项改进。一方面,在 AI 原生背景下,操作系统需要持续演进去满足对异构算力环境的支持,对数据多态、跨模态巨量数据的管理,以及对各种新型融合网络架构支持。再者,大模型的开发涉及到数据准备、模型调整、基础训练、微调训练、模型评估、部署验证、服务发布等复杂的流程,在模型开发过程中,也需要操作系统给予支撑。
同时,AI 的发展也会对操作系统带来的变化,在未来的环境里,算力的维护、管理更加复杂,很多工作靠传统的人工很难实现,AI 可以提供更多的辅助,让数据中心的运维管理,从原来自动化走向智能化,真正实现 AIOps。此外,操作系统的开发也可以利用 AI 进行辅助编程,测试用例的自动生成,帮开发人员自动找到系统 bug。
对此,浪潮信息升级服务器操作系统 KOS,实现多元算力高效调度,通过自动化工具快速配置 AI 开发环境,并在调度、内存管理、网络、IO 方面进行了大量优化,具备了智能运维、系统故障智能定位、自动化部署管理能力。
基于开源开放的理念,浪潮信息积极参与社区工作,围绕技术创新、标准、规范以及生态合作和应用推广进行大量工作。同时,浪潮信息也在推动国内开放计算的体系建设,龙蜥社区及其他开源软件是整个开放计算重要组成部分。
AI 原生 First,打造最 AI 的服务器操作系统
“云+AI”开启算力新时代,龙蜥则让更多 AI 大模型新应用长在创新操作系统上。据了解,龙蜥社区是业界最早展开操作系统 AI 探索的,现已兼容国内外主流 GPU,并针对广泛使用的 AI 框架提供 OpenVino 在内的原生支持。
本次大会,龙蜥社区正式发布了“CentOS 替代计划”“Anolis OS 23生态衍生计划”“AI 应用推广计划”三大计划,并首次公布了“AI 原生操作系统”发展路线,提出 AI 容器镜像、智能运维 AIOps、OS Copilot 文档建设等三大探索方向,加速 AI 与操作系统的融合发展。
作为龙蜥社区副理事长单位,浪潮信息自 2022 年加入社区以来,积极投入社区建设,依托浪潮信息龙蜥联合实验室,在技术创新、标准制定、生态建设、运营推广等多个维度推动社区建设,获得最佳合作伙伴奖。
“现在操作系统对 AI 的适应实际上还远远不够,操作系统如何进一步真正变成 AI 原生,更好支撑 AI 的训练和推理,还需要更大级别的创新,希望产业界能够形成合力,共同打造最 AI 的服务器操作系统”,张东谈到。
在演讲最后,张东对服务器操作系统及社区发展,提出三大建议:
一是 AI 原生 First,社区要全面优先拥抱 AI,深度融合 AI 能力,发挥操作系统关键生态位作用,做好上游芯片与下游 AI 应用开发商之间的纽带,打造AI场景下原生兼容、稳定的基础软件,实现 AI 能力的快速价值转化;
二是坚持应用导向,强调需求牵引,将社区技术创新与应用场景紧密结合,创新基础软件与硬件、应用之间的协同模式,打造面向领域垂直场景的最优解决方案;
三是强化开放中立,社区撕掉单一厂商标签,强调共治共建共享,建立开放标准,积极与国际领先的社区接轨,保持同步发展,形成繁荣的生态系统。
「2024龙蜥大会主论坛」直播回放及技术 PPT上线啦,欢迎点击下方链接观看~
回放链接:Video - OpenAnolis龙蜥操作系统开源社区
—— 完 ——