云原生团队如何实现加量不加价

news2024/9/29 19:28:26

随着云原生技术的快速发展,越来越多的业务实现了上云,云原生团队在工作量增大的同时也随之变成了所有问题对接的入口,如何承担这个保姆的角色成为了一道难题,故障的定界和问题证据的交接更是让人头疼的问题。在这种情况下需要有工具帮助云原生团队快速完成故障的定界与故障的根因分析,并进行相关数据证据整理收集,做好接棒和交棒工作,才能摆脱保姆角色,实现加量不加价。

面临的挑战 

一方面要支撑新业务的快速上线,另一方面又要保证稳定性。云原生团队也逐步成为底层基础设施的供给方,就变成了有了问题先找云原生团队看看再说,导致公司内云原生团队在同等团队资源情况下承担了越来越多的工作压力,而且常常忙于疲于应付来自各方的问题。

  • 故障的定界与根因定位困难: 随着业务规模的扩大,系统故障变得更加复杂,团队需要更快速、更准确地定位故障,并找到问题的根本原因,以便有效解决问题。

  • 问题证据的交接不清:多团队协作中,由于故障处理和交接不够清晰,导致问题的处理难以延续和交接,增加了团队间沟通和协作的难度。

  • 工作量剧增:团队需要处理更多的容器部署、监控、维护和故障排查工作,使得团队工作量急剧增加。

  • 资源限制: 虽然工作量增加,但团队的资源并没有得到相应的增加,这导致团队面临了资源不足的挑战,如人手不足、时间紧迫等。


    AiOps无法解决核心问题

    目前也有很多团队通过引入AIOps相关工具来试图解决眼下的问题,它的引入也确实帮很多团队解决了很多自动化、智能化运维的问题。但是由于当前AIOps的概念是过大的,导致没有清晰的产品边界和落地的核心能力项,另一方面现有很多产品并不能给出其推理根因的证据链数据,使得相关团队在实际处置中仍需要人工介入。

  • 结论的可解释性: AIOps给出概率性的故障定位和根因分析,但并不能给出可解释的结论,同时也不能根据结论立即采取行动,仍需要人工介入梳理。

  • 无法进行故障定界与流程闭环:多团队协同工作中,仍需要相关数据及进行佐证并进行工作的交接,才能形成排障流程的闭环。同时故障处置需要可行动的结论才能够展开,目前仍都需要人工参与。

  • 专家经验的重要性:在涉及到特定领域的复杂问题时,AIOps 的结论仍需要相关领域的专家进行分析和验证。

在引入了很多工具后往往没有从根本上帮助团队提高能效,反而增加了学习成本和新的维护项。


需要有工具能够指明方向

 

Kindling-OriginX 通过自动化分析每条 Trace,找出 Trace 中节点 Span 突变的根因,并自动关联各种数据生成可行动、可解释的故障根因报告。相关团队可以由此快速完成故障的定界与数据证据收集,即可迅速展开标准化排障处置与故障问题交接。将云原生团队从保姆的角色中解放出来,能够将更多精力放在基础设施能力建设,为业务方提供更高效稳定的云原生技术底座。


 结语

在云原生团队承担更多责任和职能的情况下,如何保证工作效率和质量是一个目前亟待解决的问题。Kindling-OriginX 的思路是通过自动化分析每条 Trace,找出 Trace 中节点 Span 突变的根因,关联各种数据证明推理的准确性,让团队能够更加清晰地完成故障定界与根因分析,为业务方提供强有力的支撑,帮助团队实现加量不加价。

相信随着技术的发展会有更多的工具和方法能够帮助到云原生团队来更好地应对各种挑战,也欢迎大家和我们一起讨论自己团队面临的挑战与解法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1491444.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年租用阿里云服务器多少钱?阿里云服务器租用价格表(最新版)

2024年租用阿里云服务器一年多少钱?不同时期阿里云服务器的租用价格不同,随着2024年阿里云上云采购季活动的开启和阿里云最新一轮的云产品降价调整,阿里云服务器租用价格也做了一些调整,配置最低的1核1G云服务器收费标准为22.8/月…

【中间件】RabbitMQ入门

📝个人主页:五敷有你 🔥系列专栏:中间件 ⛺️稳中求进,晒太阳 MQ的优劣: 优势 应用解耦:提升了系统容错性和可维护性异步提速:提升用户体验和系统吞吐量消峰填谷&#xff1…

【Spring云原生】Spring官宣,干掉原生JVM,推出 Spring Native!整体提升性能!Native镜像技术在Spring中的应用

🎉🎉欢迎光临🎉🎉 🏅我是苏泽,一位对技术充满热情的探索者和分享者。🚀🚀 🌟特别推荐给大家我的最新专栏《Spring 狂野之旅:从入门到入魔》 🚀 本…

c++的队列的用法

基本介绍 c的队列就是std::queue。 需要包含的头文件&#xff1a; #include<queue>queue就是先进先出队列 queue,就是队列&#xff0c;队列是一种容器适配器&#xff0c;专门设计用于在FIFO上下文中操作(先进先出)&#xff0c;其中将元素插入容器的一端并从另一端提…

LangChain 教程:构建 LLM 支持的应用程序的指南

作者&#xff1a;Aditya Tripathi GPT-4 和 LLaMA 等大型语言模型 (LLM) 在过去几年中创造了一个充满可能性的世界。 它预示着人工智能工具和应用程序的繁荣&#xff0c;ChatGPT 似乎一夜之间成为家喻户晓的名字。 但如果没有为促进新一代应用程序而创建的强大工具和框架&#…

【面试题】webpack的五大核心、构建流程、性能优化

【面试题】webpack的五大核心、webpack的构建流程、webpack的性能优化 webpack是什么?webpack的五大核心webpack的构建流程webpack性能优化 webpack是什么? js静态模块打包工具。 功能 将多个文件打包成更小的文件&#xff0c;(压缩)翻译 babal-loader es6进行降级兼容。 …

【pyinstaller打包记录】Linux系统打包可执行文件后,onnxruntime报警告(Init provider bridge failed)

简介 PyInstaller 是一个用于将 Python 程序打包成可执行文件&#xff08;可执行程序&#xff09;的工具。它能够将 Python 代码和其相关的依赖项&#xff08;包括 Python 解释器、依赖的模块、库文件等&#xff09;打包成一个独立的可执行文件&#xff0c;方便在不同环境中运行…

如何根据企业司法涉诉大数据合理规避风险?

在当前的商业环境中&#xff0c;企业司法涉诉的信息越来越成为衡量一家企业信誉和运营风险的重要标准。大数据时代的到来&#xff0c;让我们有了更加丰富的手段对这些信息进行挖掘与分析&#xff0c;从而对企业可能面临的风险进行预警。本文将探讨如何通过对企业司法涉诉的大数…

服务器硬件监控,保障系统稳健运行的关键策略

服务器硬件在运维中扮演着至关重要的角色&#xff0c;超过一半的网络中断是由硬件故障引起的&#xff0c;这使得硬件性能监控成为运维中不可或缺的一部分。对于一个组织或企业的信息技术基础设施而言&#xff0c;重要性不言而喻&#xff1a; 1. 安全性&#xff1a;服务器硬…

虚拟内存地址动静态库

前言 大家好我是jiantaoyab&#xff0c;这是我所总结作为学习的笔记第5篇,在这里分享给大家,还有一些书籍《[深入理解计算机系统》《计算机组成&#xff1a;结构化方法》《计算机体系结构&#xff1a;量化研究方法》《程序员的自我修养》&#xff0c;今天我们来了解程序的虚拟…

聚观早报 | 2024款腾势D9将发布;岚图汽车2月销量

聚观早报每日整理最值得关注的行业重点事件&#xff0c;帮助大家及时了解最新行业动态&#xff0c;每日读报&#xff0c;就读聚观365资讯简报。 整理丨Cutie 3月2日消息 2024款腾势D9将发布 岚图汽车2月销量 苹果Vision Pro防汗新专利 真我12 Pro正式开售 Redmi K70/Pro…

wvp-gb28181-pro国标设备录像下载

点击【国标设备】&#xff0c;进入设备通道 每个通道右边都有对应的操作&#xff0c; 点击操作栏中的【设备录像】按钮 点击【设备录像】进入录像查看页面&#xff0c;选择要查看的日期即可对录像进行播放和下载 播放&#xff1a;双击录像名称 下载&#xff1a;点击下载按钮 下…

SpringBoot实现分页模糊查询

1. Navicat查询数据 Navicat中查询所有数据 SELECT * FROM sys_user;Navicat中查询前两条数据&#xff08;俩种方式&#xff09; SELECT * FROM sys_user LIMIT 2; //从0开始&#xff0c;第一个参数是起始位置即(pageNum-1)*pageSize&#xff0c;第二个参数是步长 SELECT * …

一文搞定Pytorch CUDA Toolkit与Driver的关系

1. 在我们使用Pytorch不同的版本时&#xff0c;有这样一个大致的对应关系&#xff0c;即&#xff1a;Pytorch版本CUDA Toolkit版本NVIDIA Driver 版本。 难点在于CUDA版本与Driver版本的关系&#xff0c;简单通过NVIDIA官网解决&#xff1a;CUDA Compatibility 这里既有关于Li…

JavaScript的`call`方法:实现函数间的调用!

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

Golang 程序启动原理详解

一.编译 go源代码首先要通过 go build 编译为可执行文件,然后去机器上直接执行的&#xff0c;在 linux 平台上为 ELF 格式的可执行文件&#xff0c;linux 能直接执行这个文件,而编译阶段会经过编译器、汇编器、链接器三个过程最终生成可执行文件 编译器&#xff1a;*.go 源码通…

基于“xxx” Androidx平台的驱动及系统开发 之 触摸板篇

目录 一、基于全志 A133 Android10平台&#xff0c;适配1366x768 - ilitek2511触摸1、原理图分析2、驱动移植与适配3、补丁和资源文件 二、基于瑞芯微 RK3566 Android11平台&#xff0c;适配GT9XX触摸1、原理图分析2、补丁及资源文件 三、遇到的问题与解决1、基于amlogic Andro…

【Leetcode】1588.所有奇数长度子数组的和

题目描述 思路 题目要求我们求解所有奇数长度数组的和。若暴力循环求解&#xff0c;时间复杂度过高。所以&#xff0c;我们可以采用前缀和优化。 如上图输入arr数组&#xff0c;sum[i]用于计算arr数组中前i个数的和。(在程序中&#xff0c;先给sum[0]赋值&#xff0c;等于arr[0…

python.模块与包

1.模块是什么 本质上是一种python文件&#xff0c;以.py结尾&#xff0c;里面有类&#xff0c;函数&#xff0c;变量等&#xff0c;认为这是一个工具包&#xff0c;每个模块有不同的功能&#xff0c;导入后可以直接使用 2.模块的导入 方法1 import 模块名 使用&#xff1a…

LLM 模型量化推理速度评测

最近了解了下些常见的推理和加速方案&#xff1a; 1、量化方案&#xff1a; gptq、quantization、int8、int4、AWQ、Speculative Decoding、GGUF 2、Attention加速方案&#xff1a; atten的不同种类fused attention 3、内存层面&#xff1a; kv_cache策略、page_attention…