一直以来,优维都坚信AI有潜力改变运维行业并促进创新,这是我们的A面。但从行业和客户那里,我们所看到的B面也不容忽视。
自从去年底发布优维全面可观测以来(点击回顾),我们的团队在服务客户的进程中常常感慨:对于企业IT运维业务来说,AI项目是一个恒定的光源,但失败是企业追逐光源投下来的阴影——当你离光源越近,阴影面积也会越大——AI部署之路步履维艰,这在很长时间内让很多组织对AI项目的失败耿耿于怀。
根据Gartner的一份报告,在企业所部署的AI项目中,失败率高达85%,毫不夸张地说,这一令人发指的数据是近两年企业在做AI项目的部署决策时最大的心理屏障之一。从行业愈发普遍的讨论结果来看,造成这一高失败率的因素有很多,包括数据质量差、缺乏相关数据以及对AI的功能和要求了解不足等等,不一而足。
但优维更关心的是,这些问题的存在,其实凸显了强大的数据管理和精确的战略规划对于AI项目(包括基于云的模型和 LLM)的重要性。这种重要性常常在优维内部作为重点关照的对象被反复讨论,以至于成为优维全面可观测需要“集中力量办大事”的核心目标。
数据是AI和机器学习 (ML) 项目的命脉。
如果没有可靠的数据,AI模型就很难产生准确可靠的结果。
优维团队曾在今年上半年发起过一项针对客户群体的“田野调查”,从得到的反馈看,“数据”这一问题高频凸显——超过90%的IT高管认为数据是成功实施AI项目的最大障碍。
如果你觉得优维的调查不那么具备权威性和说服力,那么无独有偶,国外机构Vanson Bourne的一项专业调查结果或许更让你大跌眼镜——调查报告显示,99%的人工智能和机器学习项目都遇到了数据质量问题。这些统计数据凸显了对有效数据管理和监控解决方案的迫切需求。
优维的全面可观测有7大核心场景:架构可观测、故障可观测、变更可观测、用户可观测、应用服务可观测、资源可观测、运维状态可观测,但我们通常不将数据可观测性直接归类于其中的任何一个特定类目,但它与所有这些类目都有交集。数据可观测性主要关注于数据的健康、质量和完整性,它确保数据在整个“全面可观测”的体系中是可靠和可用的。
数据可观测性是指监控和了解数据系统状态的能力。它涉及跟踪数据管道中的数据质量、沿袭和性能。
组织可以通过监控数据的新鲜度、数量、分布、模式和沿袭来确保AI项目的成功。优维全面可观测提供强大的数据可观测性能力,旨在显著提高AI项目的成功率,例如:
但是,我们不能仅仅停留在数据可观测性上。如前所述,数据并不是AI项目失败的唯一原因。对AI的能力和要求理解不足也是其中的一部分。
AI可观测性涉及监控和理解AI模型和系统,以确保它们在实际应用中按预期运行。它包括:
▎性能监控:
跟踪准确度、精确度、召回率和token消耗等指标。
▎可解释性:
了解模型如何做出决策以确保透明度和可解释性。
▎漂移检测:
识别模型性能的变化,表明准确性或相关性存在问题。
对此我们让设计师做了一张图,用于展示AI可观测性如何检测和解决AI模型性能下降的问题:
数据和AI可观测性协同工作,提供系统的整体视图,数据可观测性专注于管道和基础设施,而AI可观测性则深入研究模型的性能和结果。这就是优维全面可观测的深层产品逻辑。
▶ 反馈机制
有效的AI可观测性依赖于反馈回路,而反馈回路又依赖于数据可观测性。例如,识别数据漂移需要对数据管道及其沿袭有深刻的理解。
▶ 快速解决问题
AI性能差异的根源通常在于数据管道中的问题。数据可观测性有助于追踪这些问题的根源,从而快速识别和解决影响AI系统的问题。
▶ 合规与治理保证
确保遵守法规和治理标准至关重要。数据可观测性确保数据管理符合行业标准,而AI可观测性确保模型遵守道德准则和法规。
自从2023年四季度落地以来,优维全面可观测已经在市场上为客户披荆斩棘整整3个季度了,在这期间,我们的产品矩阵为客户的运维组织提供了颇为可观的数据和AI可观测性工具,与此同时,随着优维首个运维大模型Murphy的上线(点击回顾),也让优维全面可观测展现出了更多维的价值。
通过提供对数据系统和AI模型的全面监控和理解,优维全面可观测可确保AI项目基于高质量数据,并确保AI模型在实际应用中可靠且透明地运行。现在,帮助客户构建可持续的AI应用已经显得不那么棘手。
- end -