为边缘开发由生成式 AI 驱动的视觉 AI 智能体

news2026/2/17 0:38:59

为边缘开发由生成式 AI 驱动的视觉 AI 智能体

文章目录

为边缘开发由生成式 AI 驱动的视觉 AI 智能体
- 什么是可视化 AI 智能体？
- 使用 Jetson 平台服务为边缘构建视觉 AI 智能体
- 构建基于 VLM 的视觉 AI 智能体应用程序
- - VLM AI 服务
  - 提示工程
  - 与 Jetson 平台服务和移动应用程序集成

AI 技术的一项令人振奋的突破——视觉语言模型 (VLM)——为视频分析提供了一种更加动态和灵活的方法。VLM 使用户能够使用自然语言与图像和视频输入进行交互，从而使该技术更易于访问和适应。这些模型可以在 NVIDIA Jetson Orin 边缘 AI 平台或通过 NIM 在独立 GPU 上运行。这篇博文探讨了如何构建可以从边缘运行到云的基于 VLM 的可视化 AI 智能体。

什么是可视化 AI 智能体？

可视化 AI 智能体由 VLM 提供支持，您可以在其中用自然语言提出广泛的问题，并获得反映录制或直播视频中真实意图和背景的见解。这些智能体可以通过易于使用的 REST API 进行交互，并与其他服务甚至移动应用程序集成。这种新一代可视化 AI 智能体有助于总结场景、创建各种警报并使用自然语言从视频中提取可操作的见解。

NVIDIA Metropolis 带来了视觉 AI 智能体工作流，这些参考解决方案可加速由 VLM 驱动的 AI 应用程序的开发，以从视频中提取具有上下文理解的见解，无论是部署在边缘还是云端。

对于云部署，开发人员可以使用 NVIDIA NIM，这是一组推理微服务，包括行业标准 API、领域特定代码、优化的推理引擎和企业运行时，为视觉 AI 智能体提供支持。首先访问 API 目录，直接从浏览器探索和尝试基础模型。在 Metropolis NIM Workflows GitHub 页面上查看 NIM 驱动的视觉 AI 智能体示例。

这篇博文重点介绍 Jetson Orin 上边缘用例的实现，我们将探讨如何使用 NVIDIA JetPack SDK 的一项新功能 Jetson Platform Services 进行边缘部署。我们将构建一个生成式 AI 应用程序，该应用程序能够检测用户在实时视频流中以自然语言设置的事件，然后通知用户，如下图所示。

使用 Jetson 平台服务为边缘构建视觉 AI 智能体

Jetson 平台服务是一套预构建的微服务，可提供在 NVIDIA Jetson Orin 上构建计算机视觉解决方案的基本开箱即用功能。这些微服务中包含支持生成 AI 模型（例如零样本检测和最先进的 VLM）的 AI 服务。在此博客文章中了解有关 Jetson 平台服务功能亮点的更多信息。

VLM 将大型语言模型与视觉转换器相结合，从而能够对文本和视觉输入进行复杂的推理。这种灵活性使 VLM 能够用于各种用例，并且可以通过调整提示进行动态调整。

Jetson 上首选的 VLM 是 VILA，因为它具有 SOTA 推理能力，并且通过优化每个图像的标记来提高速度。下图显示了 VILA 架构和基准性能的概述。

在文章“视觉语言智能和边缘 AI 2.0”中了解有关 VILA 及其在 Jetson 上的性能的更多信息。

虽然 VLM 很有趣，可以用于实验并实现对输入图像的交互式对话，但将这项技术应用于实际场景至关重要。

找到让大型语言模型执行有用任务的方法并将其整合到更大的系统中非常重要。通过将 VLM 与 Jetson Platform Services 相结合，我们可以创建一个基于 VLM 的视觉 AI 智能体应用程序，该应用程序可检测直播摄像头上的事件并通过移动应用程序向用户发送通知。

该应用程序由生成式 AI 提供支持，并使用 Jetson Platform Services 中的多个组件。图 4 说明了这些组件如何协同工作以创建完整的系统。它还可以与防火墙、IoT 网关和云服务一起使用，以实现安全的远程访问。

构建基于 VLM 的视觉 AI 智能体应用程序

以下部分将介绍使用 Jetson Platform Services 构建视觉 AI 智能体系统的高级步骤。此应用程序的完整源代码位于 GitHub 上。

VLM AI 服务

第一步是围绕 VLM 构建微服务。

nanoLLM 项目提供了 Jetson Orin 上的 VLM 支持。我们可以使用 nanoLLM 库通过 Python API 在 Jetson 上下载、量化和运行 VLM，并将其转换为微服务，如图 4 所示。

我们采取以下步骤：

将模型包装在易于调用的函数中。
使用 FastAPI 添加 REST API 和 WebSocket。
使用 mmj_utils 添加 RTSP 流输入和输出。
将元数据输出到所需的通道，例如 Prometheus、Websocket 或 Redis。

然后，微服务有一个主循环，用于检索帧、从 REST API 更新提示、调用模型，然后输出结果。以下伪代码捕获了此过程：

# Add REST API
api_server = APIServer(prompt_queue)
api_server.start()
# Add Monitoring Metrics
prometheus_metric = Gauge()
prometheus.start_http_server()
# Add RTSP I/O
v_input = VideoSource(rtsp_input)
v_output = VideoOutput(rtsp_output)
# Load Model
Model = model.load()
While True:
  
#Update Image & Prompt
image = v_input.capture()
prompt = prompt_queue.get()
# Inference Model
model_output = predict(image, prompt)
# Generate outputs
metadata = generate_metadata(image, model_output)
overlay = generate_overlay(image, model_output)
# Output to Redis, Monitoring, RTSP
redis_server.xadd(metadata)
Prometheus_metric.set(metadata)
v_output.render(overlay)