龙蜥副理事长张东:加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统

news2024/11/7 8:34:37

AI 原生时代,操作系统厂商要全面优先拥抱 AI,深度融合 AI 能力,发挥关键生态位作用,做好上游芯片与下游 AI 应用开发商之间的纽带,打造最 AI 的服务器操作系统,实现 AI 能力的快速价值转化。

AI 原生趋势下,底层硬件需要提供更复杂的计算资源,包括多元化的通用处理器与 AI 加速芯片、更高效的内存、网络、存储 IO 等等,硬件的变化要求操作系统具备更加有效管理和分配能力,确保 AI 应用的高效运行。

操作系统如何满足 AI 应用场景需求?未来发展趋势如何?2024 龙蜥操作系统大会上,龙蜥社区副理事长张东分享了题为《智算引领 系统创新》的主题演讲,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。以下为演讲全文:

(图/龙蜥社区副理事长张东)

AI 原生化加速,操作系统面临全新挑战

AI 可谓是现在最大的产业变革,带来的影响比以往任何技术都更为深远。甚至就像计算机诞生一样,对于整个人类的发展产生很大的影响。AI 的影响力不仅体现在 IT 领域,它还从根本上改变了很多行业创新和发展模式,成为推动生产力向前发展非常重要的一点,现在国家提出要发展新质生产力,AI 就是新质生产力最典型代表。

目前,AI 已经应用于各个领域,比如,通过 AI 大数据的加持,传统科学研究方法大大加速,让攻克难题成为可能;通过自动化生产线和智能机器人,AI 提高了制造效率和质量控制……

AI 应用的快速发展,对底层硬件需求激增,加速卡、存储的不断增长造成单机功率、密度越来越大,并且数据中心规模不断扩张,而硬件资源扩展对资源调度能力提出考验,操作系统也要随资源变化进行调整。

通过堆砌资源的方式满足 AI 需要的道路很难持续,这个过程中操作系统面临几个挑战:一是对多元算力的支持,操作系统需要协调 CPU、GPU 以及其他专用芯片,如何把算力高效组织起来;二是 AI 本身的编程环境非常复杂,软烟囱林立,用户面临环境选择难题;三是效率、性能的优化和可靠性、稳定性等方面,对操作系统提出更高要求,在出现故障的时候能够快速定位,能够快速恢复;最后,确保 AI 原生的安全,防止数据隐私泄露。

应对AI原生,以应用为导向,以系统为核心创新架构设计

面对 AI 原生化对基础设施带来的变革,浪潮信息提出“以应用为导向,以系统设计为中心,建立多元异构算力融合、软硬协同优化”的技术发展路线,其中,操作系统是软硬协同设计与优化的核心。

 张东表示:“我们提出以应用为导向,是面向最终的应用场景,以系统为中心,系统则是指包括了服务器整机+操作系统+基础应用环境在内的整体。应对 AI 带来的改变,需要软硬件整体创新来解决。”

围绕着 AI 大模型的训练,浪潮信息从硬件上引入了多项的技术,构建面向大规模计算的融合架构 3.0 系统,通过高速互联总线,对计算、存储进行了解耦,实现内存、存储、异构加速及通用计算等资源池化,支持硬件资源快速部署,完善各类芯片之间的内外部互联,并引入 400G 高速网络及海量存储。

在系统软件层面,对于操作系统进行多项改进。一方面,在 AI 原生背景下,操作系统需要持续演进去满足对异构算力环境的支持,对数据多态、跨模态巨量数据的管理,以及对各种新型融合网络架构支持。再者,大模型的开发涉及到数据准备、模型调整、基础训练、微调训练、模型评估、部署验证、服务发布等复杂的流程,在模型开发过程中,也需要操作系统给予支撑。

同时,AI 的发展也会对操作系统带来的变化,在未来的环境里,算力的维护、管理更加复杂,很多工作靠传统的人工很难实现,AI 可以提供更多的辅助,让数据中心的运维管理,从原来自动化走向智能化,真正实现 AIOps。此外,操作系统的开发也可以利用 AI 进行辅助编程,测试用例的自动生成,帮开发人员自动找到系统 bug。

对此,浪潮信息升级服务器操作系统 KOS,实现多元算力高效调度,通过自动化工具快速配置 AI 开发环境,并在调度、内存管理、网络、IO 方面进行了大量优化,具备了智能运维、系统故障智能定位、自动化部署管理能力。

基于开源开放的理念,浪潮信息积极参与社区工作,围绕技术创新、标准、规范以及生态合作和应用推广进行大量工作。同时,浪潮信息也在推动国内开放计算的体系建设,龙蜥社区及其他开源软件是整个开放计算重要组成部分。

AI 原生 First,打造最 AI 的服务器操作系统

“云+AI”开启算力新时代,龙蜥则让更多 AI 大模型新应用长在创新操作系统上。据了解,龙蜥社区是业界最早展开操作系统 AI 探索的,现已兼容国内外主流 GPU,并针对广泛使用的 AI 框架提供 OpenVino 在内的原生支持。

本次大会,龙蜥社区正式发布了“CentOS 替代计划”“Anolis OS 23生态衍生计划”“AI 应用推广计划”三大计划,并首次公布了“AI 原生操作系统”发展路线,提出 AI 容器镜像、智能运维 AIOps、OS Copilot 文档建设等三大探索方向,加速 AI 与操作系统的融合发展。

作为龙蜥社区副理事长单位,浪潮信息自 2022 年加入社区以来,积极投入社区建设,依托浪潮信息龙蜥联合实验室,在技术创新、标准制定、生态建设、运营推广等多个维度推动社区建设,获得最佳合作伙伴奖。

“现在操作系统对 AI 的适应实际上还远远不够,操作系统如何进一步真正变成 AI 原生,更好支撑 AI 的训练和推理,还需要更大级别的创新,希望产业界能够形成合力,共同打造最 AI 的服务器操作系统”,张东谈到。

在演讲最后,张东对服务器操作系统及社区发展,提出三大建议:

一是 AI 原生 First,社区要全面优先拥抱 AI,深度融合 AI 能力,发挥操作系统关键生态位作用,做好上游芯片与下游 AI 应用开发商之间的纽带,打造AI场景下原生兼容、稳定的基础软件,实现 AI 能力的快速价值转化;

二是坚持应用导向,强调需求牵引,将社区技术创新与应用场景紧密结合,创新基础软件与硬件、应用之间的协同模式,打造面向领域垂直场景的最优解决方案;

三是强化开放中立,社区撕掉单一厂商标签,强调共治共建共享,建立开放标准,积极与国际领先的社区接轨,保持同步发展,形成繁荣的生态系统。

「2024龙蜥大会主论坛」直播回放及技术 PPT上线啦,欢迎点击下方链接观看~

回放链接:Video - OpenAnolis龙蜥操作系统开源社区

—— 完 ——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2234898.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

详解Java之Spring MVC篇二

目录 获取Cookie/Session 理解Cookie 理解Session Cookie和Session的区别 获取Cookie 获取Session 获取Header 获取User-Agent 获取Cookie/Session 理解Cookie HTTP协议自身是“无状态”协议,但是在实际开发中,我们很多时候是需要知道请求之间的…

【金融风控】相关业务介绍及代码详解

金融风控相关业务介绍 【了解】项目整体介绍 1.风控业务和风控报表</span> 零售金融产品 相关的指标 风控建模流程 ​ #2.特征工程 特征构造 特征筛选 ​ 3.评分卡模型构建 逻辑回归 集成学习 XGBoost LightGBM 模型评估 ​ #4.样本不均衡问题/异常点检测 【了解】今日…

了解数据库设计中的反规范化

反规范化是指通过增加冗余数据来提高数据库的读取效率。也就是说,反规范化通过在表中增加冗余字段来减少数据库中的表连接,以提高查询速度。规范化和反规范化是关系型数据库设计中的两个重要方面,它们分别代表了数据组织方式上的两个不同方向。规范化是为了减少数据冗余和提…

Perforce《2024游戏技术现状报告》Part2:游戏引擎、版本控制、IDE及项目管理等多种开发工具的应用分析

游戏开发者一直处于创新前沿。他们的实践、工具和技术受到各行各业的广泛关注&#xff0c;正在改变着组织进行数字创作的方式。 近期&#xff0c;Perforce发布了《2024游戏技术现状报告》&#xff0c;通过收集来自游戏、媒体与娱乐、汽车和制造业等高增长行业的从业者、管理人…

JAVA基础:数组 (习题笔记)

一&#xff0c;编码题 1&#xff0c;数组查找操作&#xff1a;定义一个长度为10 的一维字符串数组&#xff0c;在每一个元素存放一个单词&#xff1b;然后运行时从命令行输入一个单词&#xff0c;程序判断数组是否包含有这个单词&#xff0c;包含这个单词就打印出“Yes”&…

通过 SSH 连接远程 Ubuntu 服务器

目录 安装 SSH 服务器允许 SSH 通过防火墙远程 SSH 连接&#xff08;选&#xff09;重启向日葵 安装 SSH 服务器 更新软件包列表 sudo apt update安装 OpenSSH 服务器 sudo apt install openssh-server检查 SSH 服务器状态 sudo systemctl status ssh如果 SSH 服务器正在运…

http请求响应详解

http介绍 http协议&#xff1a; Http”协议称为是“超文本传输协议”&#xff08;HTTP-Hypertext transfer protocol&#xff09;。它定义了浏览器怎么向万维网服务器请求万维网文档&#xff0c;以及服务器怎么样把文档传送给浏览器。 https协议&#xff1a; 传统的HTTP协议…

使用 OpenCV 实现图像的透视变换

概述 在计算机视觉领域&#xff0c;经常需要对图像进行各种几何变换&#xff0c;如旋转、缩放和平移等。其中&#xff0c;透视变换&#xff08;Perspective Transformation&#xff09;是一种非常重要的变换方式&#xff0c;它能够模拟三维空间中的视角变化&#xff0c;例如从…

Oracle视频基础1.4.4练习

1.4.4 [dbs] 删干净上次创建的bbk ll rm -f *dbf ll rm -f spfilebbk.ora clear ll创建bbk的pfile&#xff0c;准备对应的目录 ll strings spfilewilson.ora | more strings spfilewilson.ora > initbbk.ora :%s/wilson/bbk :%s/*\.//g :wq ll vi initbbk.ora####### 创…

【spring】Cookie和Session的设置与获取(@CookieValue()和@SessionAttribute())

&#x1f490;个人主页&#xff1a;初晴~ &#x1f4da;相关专栏&#xff1a;程序猿的春天 获取Cookie 使用 Servlet 获取Cookie&#xff1a; Spring MVC 是基于 Servlet API 构建的原始 Web 框架&#xff0c;也是在 Servlet 的基础上实现的 RestController RequestMapping…

神经网络基础--什么是神经网络?? 常用激活函数是什么???

前言 本专栏更新神经网络的一些基础知识&#xff1b;案例代码基于pytorch&#xff1b;欢迎收藏 关注&#xff0c; 本人将会持续更新。 神经网络 1、什么是神经网络 人工神经网络&#xff08; Artificial Neural Network&#xff0c; 简写为ANN&#xff09;也简称为神经网络…

030集——分组法——C# CAD二次开发

重叠的图行进行分组&#xff0c;效果如下&#xff1a; 纵向投影重叠&#xff08;横向移动冲突&#xff09;可以分组: 纵向冲突也可以分组&#xff1a; 也可根据颜色不同分组&#xff1a; 部分代码如下&#xff0c;完整代码见文章下方名片 public class Class1{[CommandMethod(…

Edge 浏览器插件开发:图片切割插件

Edge 浏览器插件开发&#xff1a;图片切割插件 在图片处理领域&#xff0c;按比例切割图片是一个常见需求。本文将带你开发一个 Edge 浏览器插件&#xff0c;用于将用户上传的图片分割成 4 个部分并自动下载到本地。同时&#xff0c;本文介绍如何使用 cursor 辅助工具来更高效…

关于圆周率

关于圆周率 大约20年前的2005年&#xff0c;我在上大学的时候&#xff0c;网上流传这样一段程序&#xff0c;被称之为“外星人计算圆周率程序”。程序如下&#xff1a; long a 10000, b, c 2800, d, e, f[2801], g; main() {for (; b - c;) f[b] a / 5; for (; d 0, g …

【docker】6. 镜像仓库/镜像概念

Docker Registry&#xff08;镜像仓库&#xff09; 什么是 Docker Registry 镜像仓库 (Docker Registry) 负责存储、管理和分发镜像&#xff0c;并且提供了登录认证能力&#xff0c;建立了仓库的索引。 镜像仓库管理多个 Repository&#xff0c; Repository 通过命名来区分。…

debian系统安装qt的时候 显示xcb相关文件缺失

如果是安装之后的问题 我们可以选择使用ldd的命令查看当前依赖的so那些文件确实 ldd /home/yinsir/Qt/5.15.2/gcc_64/plugins/platforms/libqxcb.so 本人在进行打包的时候 出现则会个报错 ERROR: ldd outputLine: “libxcb-util.so.1 > not found” ERROR: for binary: “/…

怎么查看navicat的数据库密码

步骤1:打开navicat连接数据库工具&#xff0c;顶部的文件栏-导出结果-勾选导出密码-导出 步骤2&#xff1a;导出结果使用NotePad或文本打开&#xff0c;找到&#xff0c;数据库对应的的Password"995E66F64A15F6776“”的值复制下来 <Connection ConnectionName"…

清华大学提出Mini-Omni2:开源多模态模型,功能与GPT-4o媲美!

&#x1f310; 在人工智能领域&#xff0c;多模态模型的发展正如火如荼。今天&#xff0c;我们要介绍的是由清华大学提出的Mini-Omni2&#xff0c;这是一个开源的多模态语言模型&#xff0c;它在功能上与GPT-4o相媲美&#xff0c;能够理解和生成视觉、听觉和文本内容&#xff0…

webrtc前端播放器完整案例

https://download.csdn.net/download/jinhuding/89961792

网管平台(进阶篇):如何正确的管理网络设备?

网络设备作为构建计算机网络的重要基石&#xff0c;扮演着数据传输、连接和管理的关键角色。从交换机、路由器到防火墙、网关&#xff0c;各类网络设备共同协作&#xff0c;形成了高效、稳定的网络系统。本文将详细介绍网络设备的种类&#xff0c;并探讨如何正确管理这些设备&a…