Observability:利用 GCP Vertex AI 集成提升 LLM 可观察性

news2025/1/15 17:22:18

作者:来自 Elastic Ishleen Kaur•Muthukumar Paramasivam

随着组织越来越多地将 LLM 用于内容创建、检索增强生成 (Retrieval-Augmented Generation - RAG) 和数据分析等 AI 应用,SRE 和开发人员面临着新的挑战。监控工作流、分析输入和输出、管理查询延迟和控制成本等任务变得至关重要。LLM 可观察性有助于解决这些问题,它提供了有关这些模型如何执行的清晰见解,使团队能够快速识别瓶颈、优化配置并提高可靠性。有了更好的可观察性,SRE 可以自信地扩展 LLM 应用程序,尤其是在 Google Cloud Vertex AI 等平台上

使用 Vertex AI 的 AI 驱动应用程序的可观察性需求

利用 AI 模型会对 AI 驱动应用程序的可观察性和监控产生独特的需求。使用 LLM 带来的一些挑战与调用 LLM 的高成本、LLM 响应的质量和安全性以及 LLM 的性能、可靠性和可用性有关。

缺乏对 LLM 可观察性数据的可见性可能会使 SREs 和 DevOps 团队更难确保其 AI 驱动的应用程序满足其服务级别目标,即 AI 生成内容的可靠性、性能、成本和质量,并拥有足够的遥测数据来排除相关问题。因此,强大的 LLM 可观察性和实时检测托管在 Google Cloud Vertex AI 上的模型性能异常对于 AI 驱动应用程序的成功至关重要。

根据其 LLM 应用程序的需求,客户可以使用托管在 Vertex AI 上的越来越多的模型,例如 Gemini 1.5 Pro、用于图像生成的 Imagen 和用于文本的 PaLM 2。每个模型都在特定领域表现出色,并以语言、音频、视觉、代码等某些模式生成内容。没有两个模型是相同的,每个模型都有特定的性能特征,因此服务运营商能够跟踪每个模型的个体性能、行为和成本非常重要。

Elastic 与 Google Cloud Vertex AI 的新集成

在 Elastic,我们很高兴地宣布,我们现在支持通过 Google Cloud Vertex AI 集成监控托管在 Google Cloud 中的大型语言模型 (Large Language Models - LLMs)。这种集成弥合了 Elastic 强大的搜索和可观察性功能与 Vertex AI 尖端的生成式 AI 模型之间的差距,使组织能够获得更深入的见解并提升客户体验 —— 所有这些都在 Elastic 生态系统中实现。

通过提供对 Vertex AI 模型的运行性能(包括资源消耗、预测准确性和系统可靠性)的深入洞察,这种 Vertex AI 集成使用户能够体验增强的 LLM 可观察性。通过利用这些数据,组织可以优化资源使用率,识别和解决性能瓶颈,并提高模型效率和准确性。

使用 GCP Vertex AI 指标解锁洞察

Elastic GCP Vertex AI Integration 从托管在 Vertex AI 上的模型中收集各种指标,使用户能够有效地监控、分析和优化他们的 AI 部署。这些指标可分为以下几类:

1. 预测指标

预测指标提供有关模型使用情况、性能瓶颈和可靠性的关键洞察。这些指标有助于确保平稳运行、优化响应时间并保持稳健、准确的预测。

  • 按端点划分的预测计数:衡量不同端点的预测总数。
  • 预测延迟:提供有关生成预测所需时间的洞察,使用户能够识别性能瓶颈。
  • 预测错误:监控端点失败预测的数量。

2. 模型性能指标

模型性能指标提供了有关部署效率和响应能力的重要见解。这些指标有助于优化模型性能并确保可靠的操作。

  • 模型使用情况:跟踪不同模型部署之间的使用情况分布。
  • Token 使用情况:跟踪每个模型部署所消耗的 token 数量,这对于了解模型效率至关重要。

  • 调用率:跟踪每个模型部署的调用频率。
  • 模型调用延迟:测量调用模型所需的时间,帮助诊断性能问题。

3. 资源利用率指标

资源利用率指标对于监控资源效率和工作负载性能至关重要。它们有助于优化基础设施、防止瓶颈并确保 AI 部署的顺利运行。

  • CPU 利用率:监控 CPU 使用率,以确保为 AI 工作负载提供最佳资源分配。
  • 内存使用率:跟踪所有模型部署中消耗的内存。
  • 网络使用率:测量发送和接收的字节数,提供对模型交互期间数据传输的洞察。

4. 概览指标

这些指标概述了 GCP Vertex AI 中部署的模型。它们对于跟踪整体性能、优化效率和识别部署中的潜在问题至关重要。

  • 总调用次数:所有模型和端点的预测调用总数,提供活动的全面视图。
  • 总 token 数:所有模型交互中处理的令牌总数,提供对资源利用率和效率的洞察。
  • 总错误数:所有模型和端点中遇到的错误总数,帮助识别可靠性问题。

所有指标都可以按区域进行过滤,提供本地化洞察以便更好地进行分析。

注意:Vertex AI 集成提供了对两种部署模型的全面可见性:预配置吞吐量(容量预先分配)和按需付费(资源按需消耗)。

Vertex AI 概览仪表板

结论

GCP Vertex AI 集成代表着在增强 GCP Vertex AI 用户的 LLM 可观察性方面迈出了重要一步。通过解锁大量可操作数据,组织可以评估 LLM 的运行状况、性能和成本并解决运营问题,确保 AI 驱动应用程序的可扩展性和准确性。

现在你知道 GCP Vertex AI 集成如何增强 LLM 可观察性,现在轮到你尝试此集成了。启动 Elastic Cloud,并开始监控托管在 GCP Vertex AI 上的 LLM 应用程序。

原文:Elevate LLM Observability with GCP Vertex AI Integration — Elastic Observability Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2277112.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Node.js - Express框架

1. 介绍 Express 是一个基于 Node.js 的 Web 应用程序框架,主要用于快速、简便地构建 Web 应用程序 和 API。它是目前最流行的 Node.js Web 框架之一,具有轻量级、灵活和功能丰富的特点。 核心概念包括路由,中间件,请求与响应&a…

Linux Top 命令 load average 指标解读

前言 作为平台开发的同学,维护平台稳定性是我们最基本的工作职责,下面主要介绍下top 命令里 ,load average 这个指标如何去衡量机器负载程度。 概念介绍 load average 是系统在过去 1 分钟、5 分钟、15 分钟 的平均负载,它表示运…

【大数据】机器学习------神经网络模型

一、神经网络模型 1. 基本概念 神经网络是一种模拟人类大脑神经元结构的计算模型,由多个神经元(节点)组成,这些节点按照不同层次排列,通常包括输入层、一个或多个隐藏层和输出层。每个神经元接收来自上一层神经元的输…

【day5】Redis持久化之AOF + Redis事务_锁机制

AOF是什么 以日志的形式来记录每个写操作(增量保存),将 Redis 执行过的所有写指令记录下来(比 如 set/del 操作会记录, 读操作 get 不记录 只许追加文件但不可以改写文件 redis 启动之初会读取该文件重新构建数据 redis 重启的话就根据日志文件的内容将写指令从前到…

【Python】Python之locust压测教程+从0到1demo:基础轻量级压测实战(1)

文章目录 一、什么是Locust二、Locust 架构组成三、实战 Demo准备一个可调用的接口编写一个接口测试用例编写一个性能测试用例执行性能测试用例代码1、通过 Web UI 执行(GUI模式)2、通过命令行执行(非GUI模式) 小知识:…

Jaeger UI使用、采集应用API排除特定路径

Jaeger使用 注: Jaeger服务端版本为:jaegertracing/all-in-one-1.6.0 OpenTracing版本为:0.33.0,最后一个版本,停留在May 06, 2019。最好升级到OpenTelemetry。 Jaeger客户端版本为:jaeger-client-1.3.2。…

基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用-以ENSO预测为例讲解

1. 背景与目标 ENSO(El Nio-Southern Oscillation)是全球气候系统中最显著的年际变率现象之一,对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来,深度学习技术在气象领域…

【IDEA 2024】学习笔记--文件选项卡

在我们项目的开发过程中,由于项目涉及的类过多,以至于我们会打开很多的窗口。使用IDEA默认的配置,个人觉得十分不便。 目录 一、设置多个文件选项卡按照文件字母顺序排列 二、设置多个文件选项卡分行显示 一、设置多个文件选项卡按照文件字…

nginx的可视化配置工具nginxWebUI的使用

文章目录 1、nginx简介2、nginxWebUI2.1、技术解读2.2、开源版和专业版之间的区别2.3、功能解读 3、安装与使用3.1、下载镜像3.2、查看镜像3.3、启动容器3.4、使用 4、总结 1、nginx简介 Nginx 是一个高效的 HTTP 服务器和反向代理,它擅长处理静态资源、负载均衡和…

qt vs ios开发应用环境搭建和上架商店的记录

qt 下载链接如下 https://download.qt.io/new_archive/qt/5.14/5.14.2/qt-opensource-mac-x64-5.14.2.dmg 安装选项全勾选就行,这里特别说明下qt5.14.2/qml qt5.14.2对qml支持还算成熟,但很多特性还得qt6才行,这里用qt5.14.2主要是考虑到服…

系统思考—全局思维

在一个复杂的企业中,无论是生产、营销、研发、产品还是采购,作为核心团队,大家不只关注单一的问题——需要从整体出发。企业是一个有机的整体,每一个环节都息息相关。如果只解决一个问题,却忽视了其他部分的相互作用&a…

软件设计师 - 第10章 网络与信息安全基础知识

网络概述 功能:数据通信,资源共享,管理集中化,实现分布式处理,负载均衡 分类:局域网,城域网,广域网 拓扑结构:总线型,星型,环型,树型,分布式 ISO/OSI七层模型: 应用层:提供与用户交互的界面,并支持特定应用程序的服务,FTP、Telnet、SMTP、NFS、SNMP、HTTP、…

记录一次Android Studio的下载、安装、配置

目录 一、下载和安装 Android Studio 1、搜索下载Android studio ​2、下载成功后点击安装包进行安装: 3、这里不用打勾,直接点击安装 : 4、完成安装: 5、这里点击Cancel就可以了 6、接下来 7、点击自定义安装&#xff1a…

自定义注解使用AspectJ切面和SpringBoot的Even事件优雅记录业务接口及第三方接口调用日志实现思路

自定义注解使用AspectJ切面和SpringBoot的Even事件优雅记录业务接口及第三方接口调用日志实现思路 文章目录 1.前言2.思路2.1使用ELK收集日志2.1.1ELK搭建2.1.2项目中集成ELK日志收集2.1.2.1 引入依赖2.1.2.2 logback-xxx.xml配置2.1.2.3 yaml配置 2.2本文思路2.2.1书接上文--自…

Windows 正确配置android adb调试的方法

下载适用于 Windows 的 SDK Platform-Tools https://developer.android.google.cn/tools/releases/platform-tools?hlzh-cn 设置系统变量,路径为platform-tools文件夹的绝对路径 点击Path添加环境变量 %adb%打开终端输入adb shell 这就成功了!

保姆级图文详解:Linux和Docker常用终端命令

文章目录 前言1、Docker 常用命令1.1、镜像管理1.2、容器管理1.3、网络管理1.4、数据卷管理1.5、监控和性能管理 2、Linux 常用命令分类2.1、文件和目录管理2.2、用户管理2.3、系统监控和性能2.4、软件包管理2.5、网络管理 前言 亲爱的家人们,技术图文创作很不容易…

相机SD卡照片数据不小心全部删除了怎么办?有什么方法恢复吗?

前几天,小编在后台友收到网友反馈说他在整理相机里的SD卡,原本是想把那些记录着美好瞬间的照片导出来慢慢欣赏。结果手一抖,不小心点了“删除所有照片”,等他反应过来,屏幕上已经显示“删除成功”。那一刻,…

《C++11》nullptr介绍:从NULL说起

在C11之前,我们通常使用NULL来表示空指针。然而,NULL在C中有一些问题和限制,这就是C11引入nullptr的原因。本文将详细介绍nullptr的定义、用法和优点。 1. NULL的问题 在C中,NULL实际上是一个整数0,而不是一个真正的…

【搭建JavaEE】(2)Tomcat安装配置和第一个JavaEE程序

Tomcat–容器(Container) 下载 Apache Tomcat - Welcome! 下载完成 请求/响应 结构 测试 查看Jdk版本 改端口号localhost8080–>8099 学学人家以后牛逼了可以用自己名字当文件夹名 配置端口8099 找到server文件 用记事本打开 再打开另一个logging文件 ”乱码解决“步骤&…

​​​​​​​​​​​​​​★3.3 事件处理

★3.3.1 ※MouseArea Item <-- MouseArea 属性 acceptedButtons : Qt::MouseButtons containsMouse : bool 【书】只读属性。表明当前鼠标光标是否在MouseArea上&#xff0c;默认只有鼠标的一个按钮处于按下状态时才可以被检测到。 containsPress : bool curs…