AI 场景下如何构建运维的标准化能力?SOMA 智能运维计划发布 | 2024 龙蜥大会

news2024/9/20 14:22:30

8 月 30 日,2024 龙蜥操作系统大会(OpenAnolis Conference)在北京盛大召开。 与此同时,由龙蜥社区运营委员会副主席、龙腾计划生态负责人金美琴,阿里云智能集团高级技术专家毛文安,云杉网络 VP 向阳联合出品的系统运维联盟闭门会也圆满举办。本次闭门会上,来自云杉网络、阿里云、信通院、浪潮信息、凝思软件、中科院、基流科技、必示科技以及北京邮电大学等企业和高校的 14 位大咖,聚焦 AI 场景下如何构建与提升运维的标准化能力,共同探讨当前智算运维在落地过程中的难题及合作路径。会上也隆重举行了 SOMA 智能运维计划发起仪式,龙蜥社区理事长马涛也参与了该计划的讨论和发起。

图片

(图/SOMA智能运维计划发起合照)

会议伊始,龙蜥社区技术委员会主席杨勇开场致辞。杨勇指出,未来,中国有两大机遇,一个机遇是 CentOS 的国产替代,让国内的一些操作系统生态能够被更多的人认可。另外一个机遇就是 AI 的基础设施建设。从千卡集群到万卡集群,规模越来越大,将来的推理也会有更多的应用,而且它是基于天然的云原生的分布式系统去部署这些应用,这就需要有强大的智能运维能力。同时也希望更多企业和个人加入到系统运维联盟的智能运维计划,抓住这个千载难逢的 AI 机遇。

(图/杨勇)

闭门会上,云杉网络 VP 向阳分享了主题为《AI 基础设施需要什么样的可观测性》的演讲。向阳分析了 AI 训练和推理面临的基础设施稳定性和可靠性需求,总结了传统可观测性工具的痛点和缺陷,分享了 DeepFlow 使用 eBPF 技术在 AI 基础设施可观测性方面进行的探索和实践,介绍了使用 eBPF 能够实现的全栈智算可观测性效果,并分享了 DeepFlow 在国内头部券商企业通义千问智算集群中的落地实践。

(图/向阳)

阿里云智能集团技术专家、龙蜥社区系统运维 SIG Maintainer 陈诗雁做了《基于 LLM Agent 的 SysOM 智能诊断机器人》主题分享。陈诗雁介绍了系统运维的现状和难点、智能对话机器人的发展、大模型在系统运维的应用、基于大模型智能体的诊断机器人设计,并演示了 SysOM 智能诊断机器人。智能机器人和运维平台是相辅相成的关系,运维平台的诊断能力成就了智能机器人解决实际问题的能力,智能机器人帮助运维平台更好地发挥和展示运维能力。

(图/陈诗雁)

本次闭门会上,现场嘉宾针对“大模型+运维:标准化方向探索”、“运维 for AI:如何让 LLM 基础设施更高效”、“AI for 运维:如何让运维更智能”等当下热门话题展开讨论。现场交流异常热烈,嘉宾们纷纷给出了他们的建议和看法。龙蜥社区标准化 SIG 董翰文主持讨论“大模型+运维:标准化方向探索”,邀请嘉宾分享自己眼中的智能运维,其发展方向和标准化工作发表看法。中国信通院云计算与大数据研究所高级业务主管王海清认为框架类标准能有效提升用户对智能运维的认知,引领和促进整个行业的发展。中国科学院计算机网络信息中心副研究员裴昶华认为协同是标准的重要作用,数据格式、交互接口、标准化模块等都是现在智能运维需要的标准方向。龙蜥社区系统运维 SIG 负责人毛文安表示标准化的工作极为重要,智能运维涉及到指标采集和分析加工等方方面面。当前,业界也相当迫切地需要一套标准化的评测和打分流程。浪潮信息首席工程师、人工智能算法研究员李峰指出智能运维底层就是“三自”的智能系统,即自组织、自适应、自学习。数据语义标准是智能运维标准需要的方向。凝思软件解决方案总监田辉表示,数据集和评测标准是目前智能运维所需的标准,但是不同领域中运维的关注重点不同,这加大了智能运维标准制定的难度。

云杉网络 VP 向阳主持“运维 for AI:如何让 LLM 基础设施更高效”话题。嘉宾们就自己在 LLM 基础设施性能优化和稳定性保障方面的工作进行了介绍,从基础设施供应商、科研院校、操作系统内核开源社区不同的视角分享了 LLM 基础设施的高性能和稳定性需求。基流科技研发 VP 陈维介绍了基流科技在搭建网卡集群过程中积累下来的行之有效的性能和稳定性保障机制,并对未来 AIOps 赋能从而进一步降低运维成本表达了非常积极的预期。北京邮电大学博士研究生刘克非表示智算网络对整个 LLM 基础设施的稳定性和性能所发挥着至关重要的作用。龙蜥社区跟踪诊断技术 SIG Maintainer 陆扬介绍了龙蜥在 eBPF GPU Profiling、PyTorch Profiling 等方面的探索,并分享了龙蜥社区未来一年的亮眼 Milestone。

“AI for 运维:如何让运维更智能话题”必示科技产品总监温希道主持,就 AIOPS 这么多年的 good case 和 bad case、未来可能出现的 good case 和怎么去走向更大量的 good case 和嘉宾做了深入的探讨。龙蜥社区系统运维联盟主席冯富秋结合历史对大模型现状进行了分析, 表示当年深度神经网络得益于对垂直领域的研究(图像卷积、音频梅尔倒频谱等)效果得到显著的改进, 大模型基础模型也需要结合垂直领域特征进行增强。阿里云智能集团技术专家陈诗雁分享了大模型的知识检索和知识沉淀对于智能运维工作的帮助,通过大模型进一步提升运维效率。但他也提到,大模型当前存在信任问题,或许建立权威的评测手段可以帮助我们实现这一点。浪潮信息运维专家张鹏将目光更多地放在服务器的单机可用性和集群可用性上,他结合自身经验分享了大模型的回答出现错误的问题,并表示,无论是大模型还是小模型,解决监控失误、诊断失准、预测时效和可解释性的问题都迫在眉睫。

(图/圆桌讨论环节嘉宾发言)

值得一提的是,会上,龙蜥社区联合系统运维联盟生态合作伙伴,共同发起了“SOMA 智能运维计划”,该计划分成四个部分:第一智能运维标准和评测系统的建立;第二搭建一个运维知识库,第三搭建联盟的智能运维机器人,第四解决在 AI 场景和架构下性能问题。龙蜥社区系统运维联盟诚挚地邀请广大企业、专家以及高校老师一起畅想、落实该计划。

感谢本次闭门会出品团队:金美琴、向阳、毛文安、刘寅、董翰文、卫硕、贺迪、李会佳。

视频回放、课件获取:

「系统运维联盟闭门会」直播回放及技术 PPT上线啦,欢迎点击下方链接观看~

回放链接:Video - OpenAnolis龙蜥操作系统开源社区

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

—— 完 ——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2134740.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java--常见的接口--Comparable

String类型的compareTo方法: 在String引用中,有一个方法可以比较两个字符串的大小: 和C语言中是一样的,两个字符串一个字符一个去比较。 那么这个方法是怎么实现的呢? 其实就是一个接口:Comparable接口里…

阿里云rds数据迁移

记录一下rds数据同步操作,官方文档: 跨阿里云账号迁移RDS实例. 背景:不同阿里云账号的rds中指定数据库迁移. 操作说明: 使用阿里云数据传输服务产品,选择数据迁移.注意是从目标阿里云账号的rds中操作,按照文档操作基本上没有问题. 源阿里云账号设置如上. 需要注意的是需要从源…

有伸缩镜头也能实现IP68级防尘防水,Pura 70 Ultra兼顾时尚与便捷

在这个快节奏的时代,手机不仅仅是通讯的工具,更是我们日常生活中不可或缺的伙伴。它记录着我们的回忆,承载着我们的工作,甚至在紧急时刻成为我们的救星。然而生活中总有一些不可预测的时刻,比如突如其来的大雨&#xf…

【C++算法】分治——归并

排序数组 题目链接 排序数组https://leetcode.cn/problems/sort-an-array/description/ 算法原理 代码步骤 class Solution {vector<int> tmp; public:vector<int> sortArray(vector<int>& nums) {tmp.resize(nums.size());merge(nums, 0, nums.size…

腾讯元器初体验

文章目录 前言什么是腾讯元器&#xff1f;前端编程助手智能体搭建智能体效果智能体入口腾讯元器体验感受 前言 一个后端开发人员可能没有办法快速实现前端代码&#xff0c;此时&#xff0c;如果有一个工具可以根据界面设计或者描述生成前端代码&#xff0c;那么对于后端开发而…

Prometheus监控系统部署及应用

Prometheus 由 Go 语言编写而成&#xff0c;采用 Pu11 方式获取监控信息&#xff0c;并提供了多维度的数据模型和灵活的査询接口。Prometheus不仅可以通过静态文件配置监控对象,还支持自动发现机制,能通过KubernetesCons1、DNS 等多种方式动态获取监控对象。在数据采集方面,借助…

电脑录屏怎么录?录屏软件哪个好,推荐5个视频录制软件免费版!

在当今这个日新月异、高速发展的数字化时代&#xff0c;屏幕录制软件毫无疑问已经成为了我们日常工作和学习中至关重要、不可或缺的得力工具。随着信息技术的不断进步&#xff0c;人们对于信息传播和知识分享的需求日益增长&#xff0c;屏幕录制软件的重要性愈发凸显。无论是教…

OBD服务07--请求当前或上一个完成的驾驶周期中检测到的与排放相关的诊断故障码(DTC)

功能描述 此服务的目的是允许外部测试设备获取在当前或上一个完成的驾驶周期中检测到的“pending”诊断故障码&#xff0c;这些故障码与排放相关的组件/系统有关。服务0x07适用于所有DTC&#xff0c;并且独立于服务0x03。这些数据的主要用途是在车辆维修后和清除诊断信息后&am…

重学SpringBoot3-集成RocketMQ(一)

更多SpringBoot3内容请关注我的专栏&#xff1a;《SpringBoot3》 期待您的点赞&#x1f44d;收藏⭐评论✍ 重学SpringBoot3-集成RocketMQ&#xff08;一&#xff09; 环境准备1. 配置项目依赖2. 配置 RocketMQ 信息2.1配置文件2.2导入自动配置类2.3创建Topic 3. 生产者代码示例…

ERP进销存多仓库管理系统源码 带完整的安装代码包以及搭建部署教程

系统概述 ERP进销存多仓库管理系统是一款专为中小企业量身定制的集成化管理软件&#xff0c;它集成了采购管理、销售管理、库存管理、财务管理以及多仓库协同作业等核心模块。通过统一的平台&#xff0c;企业可以实时掌握商品从入库到出库的全过程&#xff0c;实现库存的自动化…

【OpenGL】OpenGL学习笔记(一):绘制三角形、初识VAO和VBO

文章目录 前言绘制目标 前言 最近开始研究用 QT 做开发来学习 OpenGL &#xff0c;想着别学完了就忘了&#xff0c;所以准备新开一个 OpenGL 专栏。开发环境已经搭好了&#xff0c;但是没弄教程&#xff0c;最近比较忙&#xff0c;暂时先把核心代码放过来&#xff0c;先开个草…

微信支付开发-需求整理及需求设计

一、客户要求 1、通过唤醒机器人参与答题项&#xff0c;机器人自动获取题目&#xff0c;用户进行答题&#xff1b; 2、用户答对题数与后台设置的一样或者更多&#xff0c;则提醒用户可以领取奖品&#xff0c;但是需要用户支付邮费&#xff1b; 3、用户在几天之内不能重复领取奖…

分布式新能源的能量管理

在新能源的概念下&#xff0c;可以将其定义为&#xff1a;新能源是指具有一定能量的清洁的可再生能源&#xff0c;它是一种新型的可持续发展的资源和能源。生物质能是借助各类绿色植物的光合作用实现能量转换。地热能主要来源于地球熔岩内部存在的天然热能&#xff0c;海洋能通…

Vue3项目打包报错-内存溢出解决方法

错误&#xff1a;FATAL ERROR: Ineffective mark-compacts near heap limit Allocation failed - JavaScript heap out of memory 1、安装cross-env和increase-memory-limit 命令行&#xff1a;npm install cross-env increase-memory-limit 2、package.json添加如下内容&a…

胤娲科技:一场前所未有的运维革命

嘿&#xff0c;朋友们&#xff0c;你们有没有想过&#xff0c;如果电信网络里突然来了位“超级大脑”&#xff0c;我们的生活会是啥样&#xff1f; 以前啊&#xff0c;网络一有点小情绪&#xff0c;运维小哥就得像侦探一样&#xff0c;层层抽丝剥茧找问题。但现在&#xff0c;大…

CMU 10423 Generative AI:HW1(编程部分:在GPT-2模型中实现RoPE、GQA)

完整代码和PDF笔记&#xff1a;https://github.com/YM2025/CMU_10423_2024S 文章目录 1 概述Rotary Positional Embeddings (RoPE)Grouped Query Attention (GQA)实验任务 2 项目文件1. requirements.txt2. input.txt3. chargpt.py4. mingpt/a. model.pyb. trainer.pyc. utils.…

从 Postgres 到 ClickHouse:数据建模指南

本文字数&#xff1a;7149&#xff1b;估计阅读时间&#xff1a;18 分钟 作者&#xff1a;Sai Srirampur 本文在公众号【ClickHouseInc】首发 上个月&#xff0c;我们收购了专注于 Postgres CDC 的 PeerDB。PeerDB 使得数据从 Postgres 复制到 ClickHouse 变得既快速又简单。Pe…

iceoryx共享内存通信

共享内存原理 当POSIX系统中的进程启动时,它会被赋予自己的虚拟地址空间。 虚拟地址空间跨越的范围对于不同的进程可能是相同的,但是在特定地址可访问的数据对于每个进程可能是不同的。 在进程的虚拟地址空间内,有许多“内存区域”用于加载或映射数据。这些内存区域通常是…

内存魔术师:精通内存函数的艺术

嘿嘿,家人们,今天咱们来详细剖析C语言中的内存函数,好啦,废话不多讲,开干! 目录 1.memcpy使用与模拟实现 1.1:memcpy的使用 1.2:memcpy的模拟实现 2:memmove的使用与模拟实现 2.1:memmove的使用 2.1.1:memcpy处理重叠空间 2.1.2:memmove处理重叠空间 2.2:memove的模拟实…

【机器学习随笔】基于kmeans的车牌类型分类注意点

kmeans是无监督的聚类算法&#xff0c;可用于数据的分类。本文尝试用kmeans对车牌类型进行分类&#xff0c;记录使用过程中的注意点。 kmeans使用过程中涉及两个大部分&#xff0c;模型与分析。模型部分包括训练模型和使用模型&#xff0c;分析部分主要为可视化分析。两部分的主…