《Python实战进阶》No39:模型部署——TensorFlow Serving 与 ONNX

news2025/4/4 18:54:55

第39集:模型部署——TensorFlow Serving 与 ONNX


摘要

在机器学习项目中,训练好的模型需要被部署到生产环境中才能发挥实际价值。本集聚焦于如何将模型高效地部署到生产环境,涵盖TensorFlow ServingONNX两种主流工具的使用方法。我们将从理论入手,介绍模型部署的核心概念,并通过实战案例展示如何使用TensorFlow Serving部署图像分类模型,以及如何利用ONNX实现跨平台模型转换与部署。最后,我们还将探讨云原生部署和边缘计算中的相关策略。


在这里插入图片描述

核心概念和知识点

1. TensorFlow Serving 的架构与使用

  • TensorFlow Serving 是一个高性能的模型服务框架,专为 TensorFlow 模型设计。
  • 核心特点:
    • 支持动态模型更新(无需重启服务即可加载新版本模型)。
    • 提供 REST API 和 gRPC 接口,适合不同场景需求。
    • 高效的批处理能力,优化推理性能。

2. ONNX 的跨平台特性

  • ONNX(Open Neural Network Exchange) 是一种开放的模型格式,支持多种深度学习框架之间的互操作性。
  • 核心优势:
    • 跨平台兼容性:模型可以在不同框架(如 TensorFlow、PyTorch、MXNet)之间无缝迁移。
    • 易于优化:支持硬件加速(如 GPU、TPU)和量化等技术。

3. REST API 与 gRPC 接口

  • REST API:基于 HTTP 协议,简单易用,适合轻量级应用场景。
  • gRPC:基于 Protocol Buffers,性能更高,适合高吞吐量场景。

实战案例

案例 1:使用 TensorFlow Serving 部署图像分类模型

任务背景

我们使用一个预训练的 TensorFlow 图像分类模型(如 MobileNetV2),并通过 TensorFlow Serving 将其部署为 REST API 服务。

代码实现
步骤 1:保存 TensorFlow 模型
import tensorflow as tf
from tensorflow.keras.applications import MobileNetV2

# 加载预训练的 MobileNetV2 模型
model = MobileNetV2(weights='imagenet')

# 保存模型为 SavedModel 格式
export_path = './mobilenetv2/1'
model.save(export_path, save_format='tf')
print(f"模型已保存至: {export_path}")
步骤 2:启动 TensorFlow Serving

使用 Docker 启动 TensorFlow Serving 容器:

docker pull tensorflow/serving
docker run -p 8501:8501 --name tf_serving \
    -v "$(pwd)/mobilenetv2:/models/mobilenetv2" \
    -e MODEL_NAME=mobilenetv2 \
    tensorflow/serving
步骤 3:发送预测请求

通过 REST API 发送预测请求:

import requests
import json
from PIL import Image
import numpy as np

# 加载并预处理图像
def preprocess_image(image_path):
    img = Image.open(image_path).resize((224, 224))
    img_array = np.array(img) / 255.0
    img_array = np.expand_dims(img_array, axis=0)
    return img_array.tolist()

# 发送 REST 请求
url = "http://localhost:8501/v1/models/mobilenetv2:predict"
data = {"instances": preprocess_image("cat.jpg")}
response = requests.post(url, json=data)

# 解析结果
predictions = response.json()['predictions'][0]
print("预测结果:", predictions)
运行结果
预测结果: [0.0001, 0.0002, ..., 0.9876, ...]
分析

通过 TensorFlow Serving,我们成功将 MobileNetV2 模型部署为 REST API 服务,并能够快速获取预测结果。


案例 2:使用 ONNX 转换模型并部署

任务背景

我们将一个 PyTorch 训练的模型转换为 ONNX 格式,并通过 ONNX Runtime 进行推理。

代码实现
步骤 1:训练并导出 PyTorch 模型
import torch
import torch.nn as nn
import torch.onnx

# 定义简单的神经网络
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc = nn.Linear(4, 1)

    def forward(self, x):
        return self.fc(x)

# 训练模型
model = SimpleModel()
dummy_input = torch.randn(1, 4)
torch.onnx.export(model, dummy_input, "simple_model.onnx", input_names=["input"], output_names=["output"])
print("模型已导出为 ONNX 格式")
步骤 2:使用 ONNX Runtime 进行推理
import onnxruntime as ort
import numpy as np

# 加载 ONNX 模型
session = ort.InferenceSession("simple_model.onnx")

# 准备输入数据
input_data = np.random.randn(1, 4).astype(np.float32)

# 执行推理
outputs = session.run(None, {"input": input_data})
print("推理结果:", outputs[0])
运行结果
推理结果: [[0.12345678]]
分析

通过 ONNX,我们将 PyTorch 模型转换为跨平台格式,并使用 ONNX Runtime 实现高效推理。


与AI大模型的相关性

  • TensorFlow ServingONNX 在 AI 大模型的部署中扮演重要角色:
    • TensorFlow Serving 提供了高效的分布式推理能力,适合大规模模型服务。
    • ONNX 支持多框架互操作性,便于在不同硬件平台上部署大模型。
  • 在大型语言模型(如 Qwen、GLM、DeepSeek、GPT)中,这些工具可以显著提升推理效率并降低部署成本。

总结

  • 模型部署的重要性:模型部署是机器学习落地的关键环节,直接影响系统的性能和用户体验。
  • 工具选择
    • TensorFlow Serving:适合 TensorFlow 模型的高效部署。
    • ONNX:适合跨平台模型转换与兼容性需求。
  • 接口选择
    • REST API:简单易用,适合轻量级应用。
    • gRPC:高性能,适合高吞吐量场景。

扩展思考

  1. 云原生部署(如 Kubernetes)对模型服务的影响

    • Kubernetes 提供了容器编排能力,可以轻松实现模型服务的弹性扩展和负载均衡。
    • 可以结合 Istio 等服务网格技术,实现流量管理和故障恢复。
  2. 边缘计算中的模型部署策略

    • 边缘设备资源有限,需选择轻量级框架(如 TensorFlow Lite、ONNX Runtime Mobile)。
    • 可以结合模型压缩技术(如量化、剪枝)进一步优化性能。

通过本集的学习,相信你已经掌握了如何使用 TensorFlow Serving 和 ONNX 部署模型,并能将其应用到实际项目中。下一期,我们将深入探讨如何利用自动化工具简化模型监控与维护流程,敬请期待!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2327177.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv11区域检测

TrackZone 使用Ultralytics YOLO11 -Ultralytics YOLO 文档 如何通过Ultralytics YOLO11 在Python 中使用 TrackZone? 只需几行代码,您就可以在特定区域设置对象跟踪,从而轻松将其集成到您的项目中。 import cv2from ultralytics import s…

手工win提权土豆家族一键梭哈

手工提权 就是在没有工具使用的时候进行提权(或者是win版本过新导致的exp作者没更新等) 优点就是 随选随用 缺点就是非常繁琐(建议是先土豆梭哈然后再手工提权) 先进行信息收集(这边靶机以例子) 这个…

在Qt中直接在构建目录下直接运行.exe文件报错问题分析

在Qt中直接在构建目录下直接运行.exe文件报错问题分析 在学习Qt的过程中遇到过一个问题,直接在Qt构建目录下运行生成的.exe文件时会报错。这和MFC有一定的差别,如果MFC是可以直接运行的。 这是怎么回事呢? 在 Qt 中直接运行构建目录下的 .…

头戴式面捕头盔:高精度捕捉真人面部表情,赋能元宇宙多场景应用

随着元宇宙虚拟人与现实场景的不断交融,如何赋予虚拟人更加自然,灵动的表情成为了业内人员共同讨论的话题,尤其是在虚拟人直播,影视动画制作方面。在虚拟人直播间,丰富的面部表情可以赋予虚拟人更加生动的情感表达&…

LLM大模型教程——什么是AI大模型

引言 当GPT-4展现出惊人的上下文理解能力,当Stable Diffusion创造出媲美人类画师的图像作品,当AlphaFold2破解蛋白质折叠密码——这些里程碑事件标志着人工智能发展进入大模型主导的新纪元。本综述将深入解析这一技术革命的核心载体——AI大模型。 一、AI 大模型是什么​ 概…

机器学习(八):K-Means聚类原理与实战

声明:未经允许禁止转载与抄袭。 前言 k k k均值( k k k-means)聚类算法是一种经典的无监督聚类算法,本文将深入解析其理论原理,并在真是数据集上进行算法实践,话不多说,请看下文。 算法原理 …

【stm32--HAL库DMA+USART+空闲中断不定长收发数据】

串口通信-Hal库实现不定长度收发,DMAUSART DMA串口STM32CUBEMX配置(工程创建)基础配置时钟配置工程配置 代码编写现象 DMA 在正式配置之前,我们先来一起简单了解一下DMA。DMA(Direct Memory Access,直接内…

【SPP】蓝牙串口配置中LM互操作性要求深度解析

在蓝牙协议栈中,链路管理器(Link Manager, LM)承担着链路建立、安全管理、功耗控制等核心功能。对于串行端口配置文件(SPP)而言,LM 的互操作性直接影响连接稳定性、数据安全性和设备功耗。本文基于蓝牙核心…

Java迭代器【设计模式之迭代器模式】

目录 一.前言 二.正文 1.我写的类为什么不能使用增强for(迭代器遍历) 2.代码健全性——迭代器常见的两个Exception 1.NoSuchElementException 2.ConcurrentModificationException 三.后言 一.前言 本篇面向对象主要为和我一样的小白,主要是对迭代器模式的浅…

Eclipse IDE

创建新的Java项目和类 在 Eclipse IDE 中创建一个新的 Java 项目和 Java 类的步骤如下: 1. 创建新的 Java 项目 打开 Eclipse IDE。在菜单栏中,点击 File > New > Java Project。在弹出的对话框中,输入项目名称(例如&…

计算机视觉算法实战——基于YOLOv8的自动驾驶障碍物实时感知系统

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​ ​​​​​​​​​ ​​ 引言:自动驾驶感知系统的关键挑战 自动驾驶技术正以前所未有的速度重塑交通出行方式&#xff…

【boost搜索引擎】下

boost搜索引擎 1. 编写搜索引擎模块 Searcher2. 编写 http_server 模块3. 编写前端模块4. 添加日志5. 补充 去掉暂停词6. 项目扩展方向 1. 编写搜索引擎模块 Searcher 这一模块主要提供建立索引,以及收到用户的发起的http请求通过Get方法提交的搜索关键字&#xff…

数据结构优化DP总结

单调栈:Codeforces Round 622 (Div. 2) C2. Skyscrapers (hard version) 简单来讲就是最后需要呈现出一个单峰数组,使得总高度最高。 最开始想到暴力枚举每一个元素都充当最高的“单峰”,但是这里的 n 过大,这样枚举肯定会TLE。 …

[Linux系统编程]进程间通信—system V

进程间通信—system V 1. System V 共享内存(Shared Memory)1.1 共享内存的建立过程1.2 共享内存函数2. System V 消息队列(Message Queues)3. System V 信号量(Semaphores)4. 总结前言: 之前所提的管道通信是基于文件的,OS没有做过多的设计工作。 system V 进程间通信…

第十四届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组(部分题解)

文章目录 前言日期统计题意: 冶炼金属题意: 岛屿个数题意: 子串简写题意: 整数删除题意: 总结 前言 一年一度的🏀杯马上就要开始了,为了取得更好的成绩,好名字写了下前年2023年蓝桥…

分析sys高问题的方法总结

一、背景 sys高的问题往往属于底层同学更需要关注的问题,sys高的问题往往表现为几种情况,一种是瞬间的彪高,一种是持续的彪高。这篇博客里,我们总结一下常用的分析方法和分析工具的使用来排查这类sys高的问题。 二、通过mpstat配…

智谱发布AI Agent“AutoGLM沉思”,开启AI“边想边干”新时代

近日,智谱正式推出全新AI Agent产品——AutoGLM沉思,标志着人工智能从“思考”迈向“执行”的关键突破。该智能体不仅具备深度研究能力,还能自主完成实际操作,真正实现“边想边干”的智能化应用。 在演示环节,智谱展示…

使用Leaflet对的SpringBoot天地图路径规划可视化实践-以黄花机场到橘子洲景区为例

目录 前言 一、路径规划需求 1、需求背景 2、技术选型 3、功能简述 二、Leaflet前端可视化 1、内容布局 2、路线展示 3、转折路线展示 三、总结 前言 在当今数字化与智能化快速发展的时代,路径规划技术已经成为现代交通管理、旅游服务以及城市规划等领域的…

【小兔鲜】day02 Pinia、项目起步、Layout

【小兔鲜】day02 Pinia、项目起步、Layout 1. Pinia2. 添加Pinia到Vue项目3. 案例:Pinia-counter基础使用3.1 Store 是什么?3.2 应该在什么时候使用 Store? 4. Pinia-getters和异步action4.1 getters4.2 action如何实现异步 1. Pinia Pinia 是 Vue 的专…

PyTorch 激活函数

激活函数是神经网络中至关重要的组成部分,它们为网络引入了非线性特性,使得神经网络能够学习复杂模式。PyTorch 提供了多种常用的激活函数实现。 常用激活函数 1. ReLU (Rectified Linear Unit) 数学表达式: PyTorch实现: torch.nn.ReLU(inplaceFals…