AI时代,需要什么样的服务器操作系统?

news2024/11/15 23:19:09

文|刘俊宏

编|王一粟

AI时代,中国的服务器系统正在面临一场双重挑战。

今年6月底,最主流的开源服务器操作系统CentOS正式停服,找一个合适的操作系统进行迁移成为了必选项。同时,AI时代的到来,大模型追求更大、更快的训练及推理,也对整个算力产业提出了算力形态多元异构、算力供给服务化、算力应用智能化,这些更高、更新的要求。

众所周知,只有强大的云计算,才能孕育强大的AI大模型,而云计算的基础就是服务器。如何管理好这些服务器?操作系统是最底层、最关键的平台软件。夹在行业和时代的剧变中,IT行业的从业者们需要一个足够稳定、社区能够长期支持和AI原生的服务器OS,以此角逐接下来的“AI十年计划”。

正如中国工程院院士、龙蜥高级顾问团代表陈纯所言,“云计算的调度与弹性,大模型的训练与推理,都离不开一个稳定、安全、高效的服务器操作系统”。

8月30日,在第二届龙蜥操作系统大会上,国内开源操作系统根社区龙蜥,推出官方正式版Anolis OS 23 ,可以更好支撑模型训练和AI应用,全面兼容国内外主流CPU、GPU架构。

最令人惊喜的,还是龙蜥OS当前已经有了超800万套的装机量。这意味着,龙蜥OS在当前超过1000家合作伙伴和100万用户的落地中,初步实现了可长期自循环的生态,是国内规模最大、生态最全面的服务器操作系统之一。

而这仅仅是开始。

参考PC端的Windows系统在英特尔和众多开发者的帮助下,最终称霸全球的经验:一款操作系统的成功,背后其实是整个上下游产业合作共创的结果。

面向未来,龙蜥也正式启动了“Anolis OS 23生态衍生”、“CentOS替代”和“AI应用推广”的三大计划,正在从底层生态、满足市场需求和AI应用三个层面做全力追赶。

作为软件产业的三座大山之一,中国本土服务器系统正在迈入新阶段,AI大模型的机遇中,甚至还有了弯道超车的可能。

AI原生的操作系统,到底长啥样?

“Android之父”安迪·鲁宾曾观察到操作系统存在以12年为周期更迭的现象,并在移动互联时期网依然昌盛的2017年便提到,“AI是下一个重要操作系统”。

他的论断还有待时间的检验,但在新一轮AI技术的迅猛发展下,手机、PC等各种硬件,都开始拥有了所谓的AI原生操作系统,以更好地支持AI推理和应用。

然而,在承接最关键的AI大模型训练任务的服务器端,用于大模型训练的AI化操作系统却迟迟没有到来。

背后原因,在阿里云基础软件部副总裁、龙蜥社区理事长马涛看来,主要是不同端的操作系统,要面临和处理的场景、难度完全不一样。

“手机AI,可能操作系统去支持唤醒Siri;桌面操作系统,比如windows,可能是支持AI编个日程、写个总结之类的任务。但服务器操作系统是完全不一样的,大模型训练现在基本上跑在云上,这对调度和管理算力资源的服务器操作系统,就提出了更大的挑战。另一方面,一个操作系统运行在上万台或者几十万台的服务器集群上,需要AI去分析系统的疑难杂症和风险。”

服务器硬件厂商的感受更为明显。浪潮云海首席科学家、龙蜥社区副理事长张东就直言,“ AI技术这两年发展太快,底下的硬件和操作系统都是被拉着走的。”

“用户说一台服务器里面塞8块卡不行,要塞16卡;存储60块盘不行,得配100块,很快就200块了,这逼着硬件厂商把机器越做越大。集群规模也越来越大,一百张卡不够,要一千张,一万张,这些硬件资源往上跑,怎么高效管理和调度?操作系统是解决这个问题非常重要的环节。”

一方面,操作系统本身要能处理AI相关硬件的爆发式增长和异构硬件的兼容等问题;另外一方面,需要用AI的能力去改造操作系统,把适配、搭建环境和系统等复杂的工作都自动处理掉,让用户很方便地去直接使用。

“我觉得把操作系统往AI方向发展的未来是确定的,但是现在对AI的适应实际上还远远不够。服务器操作系统怎么进一步真正变成AI原生,更好支撑AI的训练和推理,同时操作系统本身也能够变成一个智能体,还需要更大级别的创新。”张东如此总结道。

龙蜥尝试解决这个问题,一边是 “System for AI”,一边是“AI for System”。

具体而言,“System for AI”主要是系统针对大模型训练和推理的兼容性、稳定性和安全性进行了大量的优化工作,以更好支撑AI发展。

全新发布的Anolis OS 23正式版,采用 ANCK 6.6 内核,显著增强了对多平台的兼容性,已经全面支持国内外主流的CPU、GPU架构。在针对AI场景大量使用的AI框架中,提供了包括OpenVino在内的原生支持。

并且,Anolis OS 23 适配更新、更丰富、更安全的 AI 容器服务生态(Alibaba cloud AI containers),包括 AI on NVIDIA、 AI on AMD、AI on Intel 和 AI on 国产 GPU 等多生态场景。

容器服务承担了目前80%的云上AI任务,是最主流的AI开发方式,龙蜥新版本的这一迭代,势必会帮助更多AI推理和应用直接从龙蜥操作系统上长出来。

在“AI for System”这边,则主要是考虑到了用户在使用龙蜥过程中的效率和易用性,强化了AI原生操作系统的优势。龙蜥操作系统利用利用大模型打造了AI助手Copilot,能够回答用户问题,执行简单操作,分析系统问题。

此外,龙蜥还探索利用AI能力去辅助上系统管理人员、研发人员、安全和运维人员更好地使用好这个操作系统等,用户用起来就会感觉它是根据AI做的设计,真正体会到“AI原生”的意涵。

好的操作系统,需要软硬件全产业链协同

“操作系统由几万个(软件)包构成,这几万个包就像是街道上的几万只猫,操作系统需要让几万只猫一会排成W形、一会儿排成S形,难度可想而知。”在统信软件服务器产品线总经理崔湛看来,做出一个好的操作系统并不容易。

更难的是做一个大家都用的、成功的操作系统。纵观整个IT行业发展史,这极其仰赖于产业链上下游的共同努力。

在PC时期,是微软Windows早期坚定“抱紧”英特尔。或许,英特尔的X86架构并不一定是所有CPU指令集的最优选,从DOS系统迭代的Windows也不一定是最好的PC操作系统。但在PC早期渗透的时期,“Wintel”联盟凭借软硬件一体的合作,与PC行业的第一批程序员们,共创了Windows与Intel的全球的霸主地位。

在移动互联网时期,这一合作成了安卓与ARM。安卓追求更便宜、更定制化的芯片硬件,ARM架构恰恰是当时最好的选择,双方强强联手,铸造了移动互联网时代的AA传奇(Android&ARM)。

透过Windows和Android的成功经验看到,操作系统要想成功,除了需要本身性能足够好用外,更需要从硬件到软件的全产业链协同创新。

作为龙蜥社区创始成员的阿里云,前两年就提出“一云多芯”,底下是不同厂商、不同功能的芯片,上面是一朵统一输出算力的云。

要达成这样的目标,就必须要在服务器操作系统这一关键的平台软件层实现最大程度的兼容。

龙蜥新发布的Anolis OS 23正式版,显著增强了对多平台的兼容性,还更新了开发工具和语言,在GCC上针对国产芯片平台做了专项优化,可带来11%的性能提升。

龙蜥全面兼容国产芯片,对国际主流芯片也能很好支撑。

英特尔也是龙蜥社区的理事单位之一,英特尔资深技术总监、龙蜥社区副理事长杨继国就提出,“企业从CentOS过渡到龙蜥以后,在性能和兼容上不会有任何障碍”。

一方面,英特尔最新的芯片产品也能和龙蜥兼容,比如Anolis OS23就率先支持了英特尔今年刚刚发布的至强6芯片平台;另一方面,对于广泛使用的英特尔芯片,英特尔也能持续在龙蜥社区提供兼容性和生态扩展的支持。

“从CentOS迁移到龙蜥,我们发现对新平台的支持、对于芯片的优化,龙蜥可能做得更好,并且做的更加快,而且效率更高”。杨继国称。

杨继国还透露,英特尔在龙蜥社区做了很多工作,让龙蜥操作系统与AI硬件能更好兼容;在软件框架层面,英特尔则把开放的异构编程框架引入集成到龙蜥社区里面去,让用户能够以一种非常开放、开源的模式做AI开发工作。

另一大芯片领域的巨头Arm,也在探索如何更好贡献于龙蜥社区。

本届龙蜥大会上, Arm、阿里云、平头哥、中兴新支点等公司也联合宣布,将组建龙蜥社区Arm工作组,协同推进基于Arm架构的基础软件生态。

操作系统的桥梁纽带作用通过开源社区的协作,放大了体系的效果。通过各方的努力,龙蜥社区如今已经聚集了超过1000家的整个社区参与者和伙伴,是国内规模最大、生态最全面的操作系统根社区之一。

这显然也会有益于开源社区里的每一个成员。

阿里云基础设施事业部总经理蒋江伟更是直言,得益于众多通用异构芯片的厂商,特别是在国产自研芯片厂商,在龙蜥社区的积极参与和贡献,阿里云可以更好的发展一云多芯的战略,在获得更健壮的硬件供应链保障的同时,也实现了统一资源的管理和调度,进而向广大的客户提供了更高效的算力基础设施服务。

统一内核,坚持开源,破解碎片化难题

数据显示,2023年,我国平台软件市场高速增长,规模达816.6亿元,同比增长17.4%。我国操作系统市场增速进一步加快,高达23.2%,而操作系统市场增长的动力主要来自服务器操作系统。

操作系统市场迅猛发展,也伴随着底层内核不统一、版本碎片化的烦恼。

张东直言:“操作系统发展出现了很多版本,国内情况也比较复杂,可能比国外情况还复杂。作为整机厂商,在过去的应用推广过程里面临的碎片化问题,对我们来讲就是一个很头疼的问题。因为我们任何一款设备在出厂之前都是要经过大量的测试,每引入一个新的部件都要进行测试,测试过程里面市面上主流操作系统都要跑一遍。”

龙蜥社区为此提出了新的方案。

“我们希望通过Anolis OS23,把很多兼容性问题通过标准、规范等方式确认下来,形成一个比较统一、稳定的基础。比如硬件厂商只要适配了Anolis OS23,理论上来说可以适配任何一款基于Anolis OS23的商业版本,比如目前已经有的12家衍生版本,都可以适配,这样让整个操作系统生态链里的上下游成本都降低。”马涛解释,这就是Anolis OS23生态衍生计划的最重要的意义。

Anolis OS 23生态衍生计划,需要整合技术的内核、供应链等社区参与的标准,并发行相应的商业衍生版、社区开源版等不同版本。这样,整个中国及未来商业上下游的软件生态,才能一套机制统一内核、工具链和KAPI,进而推动整个中国国产化操作系统的生态发展。

在龙蜥大会上,中科院院士王怀民还特别提到,在国家部委的协调下,龙蜥社区等中国开源操作系统社区,已经就Linux内核版本的选择以及相关运行时程序包的选择上达成了一致。

除Anolis OS 23生态衍生计划外,龙蜥社区还推出了“CentOS替代计划”和“AI应用推广计划”两大计划。

CentOS今年6月30日彻底停服,许多企业面临迁移和连续性的挑战。龙蜥社区做了大量的APP、软件生态的适配,希望通过Anolis OS23、借助各种各样的版本升级和迁移工具,让用户更方便地迁移到龙蜥上。

在崔湛看来,龙蜥社区非常有担当:“CentOS停服会导致业务停掉,停服以后到用户真正完完全全脱离这个平台需要时间,龙蜥社区成立一个组专门做CentOS的运维监管,统信软件也参与其中,做了大量补丁维护和升级的支持。”

“AI应用推广计划”,则是代表了未来。本次大会,龙蜥社区首次推出“AI原生操作系统”发展路线,围绕AI时代也推出了AI容器镜像、智能运维AIOps、OS Copilot文档建设三大计划,持续推动龙蜥操作系统在Sys for AI和AI for Sys两个方向的持续突破,重塑操作系统在AI时代的核心竞争力。

马涛总结到:“三大计划,简单说是我们以Anolis OS23为核心,在‘继往’和‘开来’两个方面推进,最终通过以龙蜥操作系统为核心推动操作系统开源生态发展。”

开源开放的生态,是龙蜥社区的关键词,这也成为吸引众多头部企业参与龙蜥的原因之一。

杨继国坦言,自己做了二十多年的开源,在开源本身技术上、理念上中国和国际没有太大区别: “做开源的人认同这个理念:开放的心态、开放的开发模式共同推动科技发展。”

他也观察到,与国外开源社区由商业公司主导、有公司商业目的不同,中国的开源更像一个真正的社区,大家有同样的目标,一起参与去贡献。

“像龙蜥社区,我们坚持开放、中立,而且是一人一票的社区,所以基本上这个社区能够有一个更加好的机制,把共同的商业伙伴聚在一起,包括英特尔,和英特尔的竞争对手,都在社区里。从科技发展角度来说,更能够促进开源社区的发展,这是更加良好的模式,我们英特尔也是非常愿意投入到像龙蜥这样的开源社区的。”杨继国说。

结语

“操作系统市场增长的动力主要来自服务器操作系统,一方面是行业信息化建设中的新增市场需求,另一方面是人工智能服务器放量带来的新增市场需求。”赛迪顾问股份有限公司总裁助理高丹说道。

当前,计算产业面临着以人工智能为驱动力的新变革,这一变革会对整个计算产业的生态格局,以及基础设施,软硬件供应链的演进带来深刻的影响和重塑。

服务器操作系统社区作为这一基础设施不可或缺的一环,机遇和挑战并存。未来几年,结合中国产业的发展趋势,我们也会看到CentOS替代和国内开源生态也会因这一变革,并加速演进。

从中国本土孕育成长,以龙蜥为代表的开源社区,未来还要走向世界。

“通过龙蜥社区培养中国开发者参与到国际社区,让来自中国的操作系统和开发者,在国际上做更多关键工作,甚至成为标准的制定者,或者核心组件维护者,将一些我们有优势的技术和理念,贡献于全球开源社区,共同推动国际开源项目的发展。”马涛说。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2095893.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

笔记:《利用Python进行数据分析》之数据聚合

观前提示:这节内容不多,但难度较大,尤其是要能熟练运用时很不容易的 数据聚合 聚合指的是任何能够从数组产生标量值的数据转换过程。之前的例子已经用过一些,比如mean、count、min以及sum等。你可能想知道在GroupBy对象上调用me…

网络原理 - 初识

文章目录 局域网(LAN)广域网(WAN)网络设备IP地址格式 端口号格式 认识网络协议协议分层 OSI七层模型(只是理论,没有实际运用)TCP/IP五层(或四层)模型网络设备所在分层 封装和分用 计算机之间通过网络来传输数据,也称为网络通信。 根据网络互连…

AI问答:.NET核心组成概要、程序运行步骤和查询SDK版本的方法

.NET三大组成 ①Runtime (运行时): CLR:公共语言运行时,执行程序、内存管理、垃圾回收(GC)、安全性检查、异常处理,是跨平台的关键要素。 JIT:实时编译器,将中间语言…

JDBC与数据库之间的操作(增删改查、获取主键、业务逻辑分离、属性文件配置)

参考视频哔哩哔哩 1、Service和Servicelmpl的概念 java中service和servicelmpl是常见的代码组织方式 Service是指业务逻辑的接口,定义了系统对外提供的功能。Servicelmpl是Service接口的具体实现,实现了具体的业务逻辑。 Service和Servicelmpl的好处…

Android自定义View实现不同朝向字体变色

实现效果: 1.一个文字两种颜色 2.实现不同朝向 3.结合ViewPager 思路:TextView可行?系统提供的只能够显示一种颜色,需要自定义View extends TextView:onMeasure()不需要实现 textColor颜色,textSize字体大小…

OpenAI Whisper API (InvalidRequestError)

题意: OpenAI Whisper API(无效请求错误) 问题背景: Im trying to use OpenAI Whisper API to transcribe my audio files. When I run it by opening my local audio files from disk, it worked perfectly. Now Im developing a FastAPI e…

学习WebGl基础知识(二)

学习目标&#xff1a; 掌握WebGl基础知识 学习内容&#xff1a; 创建一个Webgl程序 创建三维上下文对象创建顶点着色器和片元着色器创建和编译顶点着色器和片元着色器创建着色器程序对象绘制图元 创建一个Webgl程序 1.第一步获取画布&#xff0c;创建三维上下文对象 <ca…

一些硬件知识(十七)

电源芯片选型&#xff1a; 1.考虑拓扑结构 2.考虑功率&#xff0c;从而决定自行搭建电路还是选择芯片 3.对于低功耗产品&#xff0c;静态电流是非常重要的因素&#xff0c;一定重要考虑&#xff1a; 同步buck省去了续流二极管&#xff0c;效率比异步的高。 如果真的比耐压值…

ESP32小车:1.硬件模块与连接

一、硬件模块 总的元器件清单:亚克力板(三轮),两个普通减速电机,一个开关模块,一个 首先,需要一块亚克力单层底板,推荐随便在淘宝上买一块2WD亚克力单层板,比如: 最好亚克力板自带电机,买一套也不过15块。如果没有需另外购买两个普通TT直流减速电机和轮子。…

基于yolov8的102种昆虫检测系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv8的102种昆虫检测系统是一款高效、准确的昆虫识别工具&#xff0c;它利用YOLOv8这一先进的目标检测算法&#xff0c;实现了对102种不同昆虫的实时检测与识别。该系统在农业、生态研究、生物多样性保护等多个领域具有广泛的应用价值。 YOLOv8算法以其高…

HTML沙漏爱心

目录 写在前面 完整代码 下载代码 代码分析 系列文章 写在最后 写在前面 教你用HTML语言实现炫酷的沙漏爱心,该代码不仅可以用电脑运行,手机、平板也可以直接运行哦。 完整代码 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"><…

【Linux】:文件IO

目录 1.C文件接口 1.1 当前路径是什么&#xff1f; 1.2 "w"和"a"​编辑 2.系统文件I/O 2.1 "比特宏"标识符的实现: 2.2 open 1.系统默认创建文件的权限只写 2.设置新建文件的权限 3. 覆盖写/清空写/追加写 3.访问文件的本质 3.1 文件…

茴香豆Web实践

茴香豆 是由书生浦语团队开发的一款开源、专门针对国内企业级使用场景设计并优化的知识问答工具。 茴香豆特点&#xff1a; 三阶段 Pipeline &#xff08;前处理、拒答、响应&#xff09;&#xff0c;提高相应准确率和安全性 打通微信和飞书群聊天&#xff0c;适合国内知识问…

提高工作效益方法(一)

目录 如何提高工作效率? 如何提高工作效率?&#xff08;每日工作安排&#xff09; 怎么在职场做好时间管理&#xff1f; 如何提高工作效率? 提高工作效率的关键在于采用一系列策略和方法&#xff0c;以确保工作能够高效、有序地进行。通过这些方法&#xff0c;可以有效地提…

【whisper】使用whisper实现语音转文字

whisper需要ffmpeg支持 官网下载ffmpeg https://www.gyan.dev/ffmpeg/builds/下载完毕后解压放到合适的位置 添加环境变量 在cmd中输入以下 ffmpeg -version出现下面结果代表成功 安装whisper pip install openai-whisper在vscode中运行 测试代码 import whisperif __n…

【c++】cout打印char * 或者char[]的细节详解

目录 char* 类型 1.打印指向的字符串 2.打印指针指向的地址 问题描述 解决方法 char型数组 1. 想要输出字符串 2. 想输出字符数组的地址 printf 和cout 的对比 1.打印首字符 2.打印字符串 3.打印字符串首地址 &#x1f497;感谢阅读&#xff01;&#x1f497; char*…

新火种AI|减脂增肌没捷径?对不起,那是AI 出现以前的事情了...

作者&#xff1a;小岩 编辑&#xff1a;彩云 对于很多人来说&#xff0c;“拥有完美的身材”是人生的重要目标之一&#xff0c;练出好身材的人也会以此为傲&#xff0c;会把自己的好身材po到社交媒体上。换个角度来说&#xff0c;为了让自己社交媒体上的形象足够完美&#xf…

Axure RP下载+详细安装步骤资源百度云盘分享

众所周知&#xff0c;Axure全称“axure rp”&#xff0c;是一款专业的快速原型设计工具。 它能帮助网站需求设计者&#xff0c;快捷而简便的创建基于网站构架图的带注释页面示意图、操作流程图、以及交互设计&#xff0c;并可自动生成用于演示的网页文件和规格文件&#xff0c…

小琳python课堂:Python核心概念 类和对象

大家好&#xff0c;这里是小琳python课堂&#xff01;今天我们来聊聊Python中的类&#xff08;Class&#xff09;和对象&#xff08;Object&#xff09;&#xff0c;这是面向对象编程&#xff08;OOP&#xff09;的核心概念哦&#xff01;&#x1f31f; 面向对象编程就像是用“…

基于 INFINI Pizza 为 Hugo 静态站点添加搜索功能

INFINI Pizza 是 INFINI Labs 即将发布的一个基于 Rust 编写的搜索引擎&#xff08;即将完全开源&#xff09;&#xff0c;目前已经完成基本的搜索能力&#xff0c;并且基于 INFINI Pizza 的核心引擎&#xff0c;提供了一个 WASM 版本的超轻量级内核&#xff0c;可以很方便的嵌…