大模型赋能全链路可观测性:运维效能的革新之旅

news2024/10/6 14:33:02

目录

全链路可观测工程与大模型结合---提升运维效能

可观测性(Observability)在IT系统中的应用及其重要性

统一建设可观测数据

统一建设可观测数据的策略与流程

全链路的构成和监控形态

云上的全链路可视方案

 为什么一定是Copilot

大模型的Copilot能帮助什么”特别是在智能运维场景中的应用

全链路可观测和Copilot在日志分析中的应用

主要内容集中在如何使用先进的技术和方法来有效地分析和处理日志数据,以实现全链路的可观测性。

Chat2Data工具

更好获取可观测数据

后端辅助智能诊断系统

对运维场景中使用自然语言处理技术改善故障分析和解决过程


全链路可观测工程与大模型结合---提升运维效能

可观测性(Observability)在IT系统中的应用及其重要性

  • 首先,可观测性被定义为从系统外部输出的信息中推断系统内部运行状态的能力,这一能力对于确保系统稳定运行、及时发现并解决问题至关重要。
  • 在IT系统中,可观测性的实现依赖于四个核心要素:指标(Metrics)、日志(Logs)、调用链(Traces)和告警(Alerts)。指标提供了系统性能的量化数据,如CPU使用率、内存占用等,帮助监控系统的整体状态。日志则记录了系统的详细运行信息,为问题排查提供了丰富的线索。调用链追踪了系统调用的链路,揭示了请求的处理过程,有助于发现性能瓶颈和潜在问题。告警机制则在系统出现异常时及时通知相关人员,确保问题得到及时处理。
  • 图A为当前IT可观测数据实践的现状,即各类可观测数据往往单独建设,缺乏统一的关联和分析。而图B为IT可观测数据关联的重要性,通过整合各类可观测数据,加速信息的获取和问题的定位。这种关联不仅提高了系统的可观测性,还使得故障发现和解决过程更加迅速和高效。
  • 可观测性在“五星图”中的价值,即五种对象(指标、日志、调用链、告警和资源)之间的联动。这种联动使得系统运行状态更加透明,有助于从多个角度全面了解系统的健康状况。同时,从资源和日志的视角出发,需要获取所有的可观测数据,并进行挂载治理,以确保数据的完整性和准确性。

如何通过整合多种可观测数据来提高IT系统的可观测性,从而加速故障发现和解决的过程。在现代IT系统中,可观测性已经成为确保系统稳定运行、提升用户体验的关键能力之一。


统一建设可观测数据

 一套统一的可观测数据建设方案,其核心在于制定一套数据定义标准,以确保不同厂商和系统间能够顺畅地交换和共享数据。

  • 数据定义标准涵盖了log、trace、metric、event等多个方面,明确了这些数据的属性命名规则、数据类型、采集定义规范、序列化方式以及IT资源的标准模型。尽管Opentelemetry已成为业内通用的数据定义标准,但考虑到各厂商因历史项目建设兼容性的需求,云智慧基于其服务数百个客户的经验,提出了兼容OT的可观测数据标准。
  • 数据被细分为多个类别,包括应用系统、服务、服务实例、业务监控数据、交易数据以及基础设施数据等。每种数据类型都配备了详细的数据说明和数据来源,确保数据的准确性和可追溯性。

通过这套统一的可观测数据建设方案,企业能够实现对IT系统的全面监控和管理,提升系统的可观测性和运维效率。

统一建设可观测数据的策略与流程

提出了三个核心步骤:数据采集、数据处理和数据存储。

  • OmniAgent作为数据采集的核心组件,支持从基础设施到用户体验层各类标准IT资源的统一日志、指标和trace数据的采集。这一步骤确保了数据的全面性和一致性,为后续的数据处理和分析奠定了基础。
  • 对于除了OmniAgent标准数据之外的第三方数据,会议强调了在数据处理阶段进行治理的重要性。通过数据治理,可以确保第三方数据也能达到标准化采集的要求,从而与标准数据无缝对接,提升整体数据的质量和可用性。

经过治理的标准数据(包括日志、指标和trace)将统一进入可观测数据库。为了便于数据的读取和分析,推荐使用一套统一的语义CQL(查询语言)进行数据操作。这种统一的数据处理方式不仅提高了数据处理的效率,也降低了数据使用的门槛。还展示了一个数据处理平台的整体架构,该平台涵盖了统一采集、统一处理、统一存储和数据应用等多个环节。这一架构的提出,为可观测数据的统一建设和管理提供了清晰的路径和方案。

通过OmniAgent和数据处理平台实现可观测数据的统一建设和管理,为提升数据质量和应用效率提供了有力的支持。

全链路的构成和监控形态

会议提供了一个从服务实例出发,横纵双向拓展的完整视角。全链路概念的核心在于其横纵向的全面覆盖。横向上,它聚焦于服务调用链路关系,通过构建横向拓扑图,清晰地展示了服务之间的调用关系和业务场景。纵向上,则以IT基础设施的物理部署关系为基础,构建了服务的纵向拓扑图,让我们能够深入了解服务在基础设施层面的依赖和布局。

  • 在监控形态方面,流程图明确标出了健康性、连续性、可用性和稳定性等关键指标。其中,健康性得分高达100分,连续性达到了344天,而可用性和稳定性均获得了满分。这些指标为我们提供了服务运行状态的直观数据,有助于我们及时发现潜在问题并进行优化。
  • 流程图还详细列出了应用层、服务层、网络层、主机层和交换机层等多个层面的业务指标和CMDB关系。这些详细信息不仅有助于我们深入理解服务的运行环境和依赖关系,还能为我们提供丰富的数据支持,以便进行更深入的分析和决策。

会议提供了一个全面、深入的全链路视角,有助于更好地理解和监控服务的健康状况、可用性和稳定性,从而确保整个系统的正常运行。

云上的全链路可视方案

  1. 全链路可视方案概述:该方案旨在实现云上系统的全链路可视化,即从系统的输入到输出,每一个环节都能被监控和可视化展示。这有助于提升系统的可观测性,使得运维团队能够更快速地定位问题、分析性能瓶颈,并优化系统。
  2. 全链路可视能力架构
    • 架构包含多个关键模块:数据采集、数据处理、数据存储、数据分析、数据可视化。
    • 每个模块都承担着特定的角色,共同协作以实现全链路可视化。
    • 数据采集模块负责从系统中收集各种可观测数据,如指标、日志、调用链等。
    • 数据处理模块对数据进行清洗、转换和聚合,以便后续分析和存储。
    • 数据存储模块负责保存处理后的数据,以便长期分析和历史回溯。
    • 数据分析模块对数据进行深入挖掘,提取有价值的信息和模式。
    • 数据可视化模块将分析结果以图形化方式展示,便于用户理解和决策。
  3. 流程图解析
    • 流程图从数据采集开始,展示了数据在整个架构中的流动路径。
    • 采集到的数据经过处理后,被存储到适当的数据仓库中。
    • 数据分析模块对数据进行挖掘和分析,生成有价值的洞察。
    • 最后,这些洞察通过数据可视化模块以图形化方式呈现给用户。
  4. 方案的价值和优势:通过全链路可视化,运维团队可以更快速地定位和解决系统中的问题。方案提供了丰富的可观测数据,有助于深入分析系统性能和用户行为。
  5. 应用场景和展望
    • 该方案适用于各种规模的云上系统,特别是微服务架构和分布式系统。
    • 随着技术的不断发展,全链路可视化方案将进一步集成更多的智能分析和预测功能。未来,该方案有望成为云上系统运维的标准配置,为企业的数字化转型提供有力支持。

 为什么一定是Copilot

  1. 多因素影响
    • 服务A接口E的Latency延迟告警作为一个示例,说明Copilot需要考虑各种具体的监控指标。
    • 不同报障人员对异常的理解和解决方案的差异也被指出,反映了Copilot需要处理的主观性和多样性。
  2. 深层解决方案:代码优化、缓存以及扩容等可能的解决方案,这些都是在更技术或更深入的层面来处理问题的方法。Copilot可能考虑多种技术手段和策略来应对不同的运行状况。

Copilot作为一个复杂且多维度的概念,涉及多个难以精确定义的因素,并需要考虑多种解决方案和技术手段。Copilot的目标是作为一个普遍的软件运行状况指标,帮助用户更有效地实现其工作目标。

大模型的Copilot能帮助什么”特别是在智能运维场景中的应用

  1. 数据处理
    • 大模型能够协助在数据处理阶段进行自动化和智能化的操作。
    • 它可以帮助收集和整理来自不同源的数据,提高数据处理的效率和准确性。
    • 通过大模型的处理,数据可以更容易地被用于后续的分析和决策。
  2. 知识推理
    • 大模型具备强大的知识推理能力,可以从大量数据中提取出有用的信息和模式。
    • 它可以帮助运维团队发现潜在的问题和趋势,从而提前采取预防措施。
    • 通过知识推理,大模型还可以提供对复杂问题的深入理解和解释。
  3. 决策支持
    • 大模型可以为运维团队提供决策支持,帮助他们做出更明智、更基于数据的决策。
    • 它可以提供对不同选项的评估和预测,帮助团队选择最佳的行动方案。
    • 通过大模型的辅助,决策过程可以更加快速和准确。
  4. 大模型的优势
    • 会议强调了大模型在计算能力、处理复杂问题和提供精确结果方面的优势。
    • 这些优势使得大模型成为智能运维场景中不可或缺的工具。
    • 通过利用大模型,运维团队可以提高工作效率,减少错误,并更好地应对各种挑战。

大模型在智能运维场景中的应用和优势。通过大模型在数据处理、知识推理和决策支持方面的能力,在提高运维效率、准确性和智能化水平方面都有很重要的作用。

全链路可观测和Copilot在日志分析中的应用

主要内容集中在如何使用先进的技术和方法来有效地分析和处理日志数据,以实现全链路的可观测性。

  1. 日志聚类与分类:会议提到了日志的聚类和分类。这是一个重要的步骤,因为通过聚类,我们可以将相似的日志分组在一起,从而更容易地识别出异常或问题。分类则进一步帮助我们理解日志的性质和来源。
  2. 统计类算法与大模型:接着,介绍了使用统计类算法和大模型来识别日志中的异常。统计类算法可以帮助我们发现日志数据中的异常模式,而大模型(如深度学习模型)则可以对日志进行更深入的语义分析,从而提供更准确的问题诊断。
  3. 事后排查与日志缺失:还提到了事后排查的重要性。在某些情况下,我们可能无法立即找到相关的日志来诊断问题。这时,事后排查就显得尤为重要,它可以帮助我们回溯并找到问题的根源。同时,会议也指出了日志缺失是一个需要关注的问题,因为这可能会影响到我们的问题诊断能力。
  4. LMM Based RESTful API请求:最后,介绍了一种名为“LMM Based RESTful API请求”的技术。这项技术是为了提高日志处理能力而开发的。是一种利用大模型(LMM)来处理RESTful API请求的日志数据的方法,从而进一步提高日志分析的效率和准确性。

全链路可观测性和Copilot在日志分析中的应用。介绍了如何使用日志聚类、分类、统计类算法和大模型来有效地识别和解决日志异常,并强调了事后排查和日志缺失问题的重要性。同时,介绍了一种新的技术来提高日志处理能力

Chat2Data工具

  1. 工具的优势与应用:Chat2Data工具提供了一个便捷的方式来获取和处理数据,特别是对于非技术用户来说。它可以应用于多种场景,如系统监控、故障排查、数据分析等。

    通过大型语言模型的集成,该工具能够更准确地理解用户的意图,并提供相关的数据或执行相应的操作。
  2. 未来展望与改进:随着技术的不断发展,Chat2Data工具可能会集成更多的功能和智能特性。会提供更多的API接口和数据处理选项,以满足不同用户的需求。工具的性能和稳定性也可能会得到进一步的优化和提升。

更好获取可观测数据

  1. 数据可视化
    • 收集到的信息被转化为可视化的数据报告,这有助于更直观地理解和分析用户行为。
    • 可视化报告可能包括用户活跃度、问题类型分布、用户满意度等关键指标,为优化用户体验提供有力支持。
  2. 查询功能:该系统还提供了查询功能,用户可以通过输入关键词来查找特定的信息或问题。该系统不仅具备数据收集和分析能力,还能为用户提供便捷的查询服务,提高用户满意度。

一个旨在提高用户体验并更好地了解用户偏好和行为模式的系统。该系统通过分析聊天记录来收集用户信息,并将其转化为可视化的数据报告。


后端辅助智能诊断系统

  1. 讨论了SQL语句在数据处理和查询中的作用,以及它们如何支持智能诊断功能。
  2. 技术细节:会议探讨了实现该系统所使用的技术栈,包括数据库选择、消息队列技术、日志分析工具等。
  3. 应用场景:讨论该系统在实际运维或开发环境中的应用场景,以及它如何帮助团队提高效率或解决问题。
  4. 未来规划:最后会议讨论该系统的未来发展规划,包括计划添加的新功能、性能优化、可扩展性等。

主要围绕“后端辅助智能诊断系统”的介绍、流程步骤解析、技术细节、应用场景和未来规划展开。通过流程图,大家可以更清晰地了解该系统的整体架构和工作原理,以及它在实际运维或开发环境中的应用价值。

这样的系统能够显著提高故障排查的效率,减少人工干预,降低运维成本。

通过提高日志异常判定的准确率来帮助解决故障问题,并具有日志管理和故障记录与分析的功能。预期上,这样的系统能够为企业带来显著的运维效率提升和成本降低。

对运维场景中使用自然语言处理技术改善故障分析和解决过程

  1. 运维场景的挑战
    • 运维团队在日常工作中经常需要面对复杂的系统故障,这些故障可能涉及多个组件和层面。
    • 传统的故障分析和解决过程可能依赖于人工排查和经验判断,效率较低且易出错。
  2. LMM系统的功能:LMM系统具有智能识别特定告警的思维链的能力,这意味着系统能够理解告警背后的逻辑和关联,而不仅仅是表面的症状。LMM系统能够推荐相应的解决方案,帮助运维团队更快速地定位和解决问题。

未来展望:随着自然语言处理技术的不断发展,运维场景中的故障分析和解决过程可能会变得更加智能化和自动化。LLM和其他类似的公司或组织可能会继续探索和创新,将更多的AI技术应用于运维领域,以提高系统的稳定性和可靠性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1872142.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于iview.viewUI实现行合并(无限制/有限制合并)【已验证可正常运行】

1.基于iview.viewUI实现行合并(列之间没有所属对应关系,正常合并) 注:以下代码来自于GPT4o:国内直连GPT4o 只需要修改以下要合并的列字段,就可以方便使用啦 mergeFields: [majorNo, devNam, overhaulAdvic…

【EXCEL技巧】Excel如何将数字前面的0去掉

Excel文件中经常会遇到数据是0001345这种,那么,如何将数字前面的0去掉呢?今天和大家分享方法。 首先,选中一列空的单元格,然后在单元格中输入公式TEXT(D3,0),这里的D3指的是前面带有0的数据的位置 回车之后…

Linux基础- 使用 Apache 服务部署静态网站

目录 零. 简介 一. linux安装Apache 二. 创建网页 三. window访问 修改了一下默认端口 到 8080 零. 简介 Apache 是世界使用排名第一的 Web 服务器软件。 它具有以下一些显著特点和优势: 开源免费:可以免费使用和修改,拥有庞大的社区支…

小程序备案小程序认证双系统

​打造安全合规的线上平台 🔍 一、引言:为何需要小程序备案与认证? 在数字化快速发展的今天,小程序已成为企业、个人展示自身、提供服务的重要窗口。然而,随着小程序数量的快速增长,安全、合规等问题也逐渐…

jenkins设置定时构建语法

一、设置定时 定时构建的语法是*** * * * ***。 第一个*表示分钟,取值范围是0~59。例如,5 * * * *表示每个小时的第5分钟会构建一次;H/15 * * * 或/15 * * * 表示每隔15分钟构建一次; 第2个表示小时,取值范围是0~23。…

深度解析RocketMq源码-IndexFile

1.绪论 在工作中,我们经常需要根据msgKey查询到某条日志。但是,通过前面对commitLog分析,producer将消息推送到broker过后,其实broker是直接消息到达broker的先后顺序写入到commitLog中的。我们如果想根据msgKey检索一条消息无疑…

Embedding 、词嵌入、向量模型说的是一回事么?AI是如何理解世界?AI人不能不看的Embedding白话科普!

在AI理解世界的过程中,向量模型扮演着一个至关重要的角色,甚至可以说它是AI大模型用以构建和理解复杂数据的基础,也是对不同形态数据的一种标准化的“浓缩”。它能够将语言、图像、声音等多样化的信息,转化为一种通用的、数学化的…

知乎正通过乱码来干扰必应/谷歌等爬虫,从而限制中文数据集被用于AI训练

有用户反馈称使用微软必应搜索和谷歌搜索发现存在不少知乎乱码内容,即搜索结果里知乎内容的标题和正文内容都可能是乱码的,但抓取的正文前面一些段落内容可以正常查看。考虑到此前知乎已经屏蔽除百度和搜狗以外的所有搜索引擎爬虫 (蜘蛛 / 机器人)&#…

《数字图像处理与机器视觉》案例二(基于边缘检测和数学形态学焊缝图像处理)

一、前言 焊缝是评价焊接质量的重要标志,人工检测方法存在检测标准不统一,检测精度低,焊缝视觉检测技术作为一种重要的质量检测方法,正逐渐在各行各业中崭露头角。把焊缝准确的从焊接工件中准确分割出来是焊缝评价的关键一步&…

使用模板方法设计模式封装 socket 套接字并实现Tcp服务器和客户端 简单工厂模式设计

文章目录 使用模板方法设计模式封装套接字使用封装后的套接字实现Tcp服务器和客户端实现Tcp服务器实现Tcp客户端 工厂模式 使用模板方法设计模式封装套接字 可以使用模块方法设计模式来设计套接字 socket 的封装 模板方法(Template Method)设计模式是一…

百度ueditor如何修改图片的保存位置

背景 编辑器的保存图片是设置有默认规则的,但是服务器上一般会把图片路径设置为软连接,所以我就需要更改编辑器保存图片的路径,要不然,每次有新的部署,上一次上传的图片就会失效。先来看看编辑器默认的保存路径吧&…

目标检测算法之RT-DETR

RT-DETR算法理解 BackgroundModel ArchitectureEfficient Hybrid EncoderUncertainty-minimal Query Selection 总结 Background Real-time Detection Transformer(RT-DETR)是一个基于tranformer的实时推理目标检测模型。RT-DETR是2023年百度发布的一个…

七天速通javaSE:第五天 数组进阶

文章目录 前言一、二维数组二、Arrays类1.toString打印数组内各元素1.1 示例1.2 自己实现内部逻辑 2. sort升序排列3. fill数组填充(重新赋值)4.equals比较数组元素是否相等 三、冒泡排序 前言 本文将学习二维数组、arrays类以及冒泡排序 一、二维数组 …

重生奇迹MU新手攻略:如何一步步往大佬发展

装备强化攻略: 提纯装备:通过提纯装备可以提升基础属性,选择合适的装备进行提纯可以获得更好的效果。 镶嵌宝石:使用宝石进行装备镶嵌可以增加装备的属性,根据需要选择适合的宝石进行镶嵌。 洗练装备:通…

基于盲信号处理的声音分离——最大化信噪比的ICA算法

基于最大化信噪比的ICA算法是一种较新模式的ICA算法,在该算法中利用输出信号的信噪比建立信噪比函数作为该算法的代价函数。 在上式中,用S表示原信号,Y表示输出信号。由于原信号S并不知道,因此采用估计信号Y的滑动平均 来代替&…

激励视频广告的eCPM更高,每天的展示频次有限制吗?

在APP发展初期,由于DUA量级有限,所需的广告资源比较少,往往接入1-2家广告平台就能满足APP用户每日需要的广告展示量。而随着APP用户规模的扩大、广告场景的不断丰富,开发者要提升APP整体广告变现收益,一是可以尽可能多…

PLC数据采集案例

--------天津三石峰科技案例分享 项目介绍 项目背景 本项目为天津某钢铁集团下数字化改造项目,主要解决天津大型钢厂加氢站数字化改造过程中遇到的数据采集需求。项目难点PLC已经在运行了,需要采集里面数据,不修改程序,不影响P…

3D立体卡片动效(附源码)

3D立体卡片动效 欢迎关注:xssy5431 小拾岁月参考链接:https://mp.weixin.qq.com/s/9xEjPAA38pRiIampxjXNKQ 效果展示 思路分析 需求含有立体这种关键词,我们第一反应是采用动画中的平移、倾斜等实现。如果是立体,必然产生阴影&…

浅谈制造业EHS管理需要关注的重点

在快速发展的制造业中,EHS(环境、健康、安全)管理体系如同一道坚实的屏障,守护着企业的绿色与安全。那么,这个管理体系到底包含哪些内容呢?接下来,让我们一同探寻其奥秘。 一、EHS管理体系的丰富…

你的钱花得值不值?简谈FMEA培训的投资与回报

在探讨 FMEA(失效模式及影响分析)培训是否值得投资时,需要综合考虑多个方面。 从投资的角度来看,FMEA 培训通常需要一定的费用支出,包括培训课程的费用、培训期间员工的时间成本以及可能涉及的培训材料和设备成本。 然…