【深度学习推荐系统 工程篇】二、从TF-Serving看生产环境的模型推理服务

news2025/1/23 13:04:27

前言

模型训练完成后,到在线部署是其所必须要做的一步,伴随模型结构复杂/算力增加,打造低延时/低资源占用的模型预测服务是模型上线的关键;

tensorflow 很早就开源了tf-serving(代码连接:https://github.com/tensorflow/serving),虽然在性能上多有诟病,但我们仍然可以从其设计/实现上 发现一个模型推理服务应该具备什么样的功能

阅读本文后,希望读者可以:

1. 了解tf-serving的基本架构/流程
2. 了解生产环境的中模型推理服务会遇到的问题及常用优化思路

一、TF-Serving整体架构

在TF-Serving的文档(https://github.com/tensorflow/serving/blob/master/tensorflow_serving/g3doc/performance.md)中,用一个序列图描述了一次推理请求的调用栈:

在这里插入图片描述

上图比较简洁,我这里再画个图补充下:
在这里插入图片描述

上图中主要包含几点:

  • 函数调用流程
  • 底层依赖TensorFlow
  • CPU/GPU异构硬件平台的支持

二、模型推理服务

依据TF-Serving的架构,我们可以抽象出一个模型推理服务框架,如下:

在这里插入图片描述
上图中主要包括了几点:

2.1 自定义模型格式

TF-Serving仅支持 saved_model.pb格式,其他深度学习框架在在线推理的场景下,也有相应的解决方案(如ONNXRuntime等)。

从本质上讲,模型数据仅仅保存了训练得到的参数,理论上只需要模型服务实现了读取格式协议,然后推理时正确使用即可。

但另一方面,在线推理、服务真实上线部署时,可能会遇到各种问题, 如:

  • TB级别(超过单机规格)的模型如何上线服务
  • 如何做增量更新
  • 在线如何对模型结构进行优化

等等,要解决上述的问题,一般需要根据业务场景和服务框架 自定义模型格式。

2.2 模型链路的时效性

如果模型链路需要的时效性不强,一般**天级的模型更新(第T天的样本数据,第T+1天上线)**即可满足业务需求;

如果业务需要有时效性的需求,模型的训练/产出/更新 频次 需要进化到 “小时级/分钟级”(样本数据从曝光到Serving上线的时间间隔在小时/分钟),甚至是流式框架;

这对模型服务的数据管理提出了更高的要求,可能会遇到以下的问题:

  • 如何设计合适的数据协议格式?达到在时间的限制下完成数百GB模型更新的效果
  • 更新时,服务的稳定性如何保证?(常见新模型上线后,平响/999线 会有飙升,接收流量一段时间后平响才会趋于平稳)

2.3. 硬件平台的支持与优化

一般模型的复杂度和业务场景相关:

  • 算力需求较少(模型结构简单+业务峰值流量少),一般可以进行CPU部署;
  • 算力需求较大,且工程指标要求高(如 模型结构复杂 + 业务峰值流量高 + 业务峰值流量下 平响/失败率 要求严格),需要CPU + GPU的异构部署;

这就导致了模型推理服务 仅支持单平台不够,往往需要支持多平台的异构部署(通常方案是CPU + GPU)

另外提下:在搜索/推荐等包含大量稀疏特征的场景中,模型推理在不同的阶段有不同的特点:

(1)稀疏特征的处理,更偏向于 “IO-bound(IO密集型)”,在生产环境中,容易受限的是IO 是 访存网络
(2)网络计算的处理,更偏向于“CPU-bound(计算密集型)

针对如上特点,模型服务在完成部署后 还需要针对相应的硬件平台进行优化,从开源方案中,一般有以下几种优化点:

1. CPU

CPU在不同的部署下,负责的事情不一样:

  • CPU部署,一般是网络计算,另外如果在PS架构中,做访存也比较多(如查询KV-Embedding等)
  • CPU+GPU 异构部署,CPU仅负责网络IO、线程调度、H2D等 轻量级 任务

根据以上任务,CPU平台有如下的优化点:

  • 充分发挥指令集的优势,如充分利用AVX指令集,减少流程中执行周期,指令周期内操作更多的数据
  • 充分发挥计算库的优势,一般DNN网络比较简单,MLP占了绝大部分的计算资源,这种情况可以使用MKL等矩阵乘计算库进行加速

2. GPU

GPU 有 2个特点:

  • 算力供给高(单位时间提供更多的浮点运算次数)
  • 显存带宽高(以 NVIDIA A10显卡为例,显存24GB,显存带宽达到了600GB/s,相比之下 相连的PCIE 带宽 仅有64GB/s)

因此,可以将以下2种操作放在GPU上实现:

  • 计算密集型的网络计算
  • 访存密集型的操作,譬如HashTable的Lookup 以及 Reduce Sum

以上是针对 GPU的硬件特点提出的具体操作,但能否充分发挥出GPU的性能 还与具体实现相关

一般而言,我们 用以下几个指标来量化工作效果:
(1)服务的吞吐/平响
(2)GPU利用率

3. SSD

整体模型推理服务上,要提供的一个功能是计算,还有一个功能是存储(如特征/KV-Embedding的存储),

从存储介质来看,一般 访问带宽越高/成本越高,由于搜索/推荐场景中的数据 存在冷热不均的特点,在不降低(或微降)服务性能的前提下,使用成本更低的存储介质有了可能。

整体思路是依据 访问频次不同,将数据分别放置在带宽/成本 不同的 存储介质上

部分开源的框架实现了GPU Memory -> CPU Memory -> SSD 的三级缓存架构,达到节省成本的目的,如:

  • oneflow框架的OneEmbedding(一块GPU训练TB级推荐模型不是梦,OneEmbedding性能一骑绝尘)
  • DeepRec框架的Embedding多级存储(Embedding多级存储)

4. 网络传输

如果数据过大单机难以放下的时候,在线可能会需要分布式部署,这个时候网络带宽可能会成为瓶颈。

这种情况下,伴随着硬件/网络协议的升级 可以缓减这方面的问题(如RDMA协议,brpc框架在v1.4.0版本中增加了对RDMA的支持, 减少了网络传输中协议栈的开销)

以上仅举了4个典型的硬件场景以及相关的优化点,但实际生产环境远比这个复杂的多,需要针对实际问题具体分析优化

三、总结

这篇主要是以TF-Serving为基础,简单介绍了生产环境中模型推理服务所面临的问题。

针对搜索/推荐等稀疏特征场景,有不少开源的训练框架(如xdl/DeepRec/HugeCtr等),但由于在线推理过程与业务逻辑强相关,实现上与业务/部署较多的耦合在一起,各个公司也大多是基于自身的业务对模型推理服务进行深度定制优化,很少有能普适的开源高性能模型推理框架。

而且模型推理服务 是 整个推荐系统中最不可或缺的一环,是算法能否落地的关键。其 工程指标+稳定性+性能 要求 是整条链路中最高的一个阶段。

针对 构建高性能模型推理服务,xdl项目(https://github.com/alibaba/x-deeplearning/blob/master/blaze/serving/README.md)中给出了以下 几点优化建议,列出来供有相关需求的同学参考:

  1. 使用别的高性能的rpc框架而不是HTTP服务,毕竟HTTP协议栈耗时在这种场景下并不是可忽略的。
  2. 客户端与服务端之间的通讯使用protocol的BinaryFormat而不是JsonFormat,这将大大提高序列化/反序列化的效率。
  3. 在ModelManager类中创建blaze::predictor的对象池,而不是在每个session中重复创建和销毁。
  4. 使用memcpy来将Blaze output中的数据拷贝到返回消息的protobuf中,而不是像此示例中一个一个赋值。(然而这种做法依赖与protobuf的实现,可能造成兼容性问题)

另后续的 工程篇 会继续介绍 针对搜索/推荐等特征稀疏场景 的开源框架,这样大家能对模型推理服务 的问题/开发 有更深层次的了解

本文仅简单的提到模型服务的在线推理可能会遇到的问题,工作的中的许多优化 涉及到业务细节 不能分享。想进一步了解的同学可以看下 美团分享的这篇文章,分享了大规模模型工程的实践中的问题以及优化点,梳理的很详细: 外卖广告大规模深度学习模型工程实践

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/711310.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Pygame中获取键盘按键的方法

1 事件与队列 在Pygame中,将用户对游戏的操作叫做“事件”。键盘按键是一种事件,鼠标点击和游戏手柄的输入也是一种事件。在Pygame的子模块locals中,对这些事件进行了定义。当用户通过键盘、鼠标或者游戏手柄对游戏进行操作后,产…

Bootstrap 代码

文章目录 Bootstrap 代码更多实例实例1实例2实例3&#xff0c;4实例5实例6 Bootstrap 代码 Bootstrap 允许您以两种方式显示代码&#xff1a; 第一种是 <code> 标签。如果您想要内联显示代码&#xff0c;那么您应该使用 <code> 标签。第二种是 <pre> 标签。…

mysql 创建用户(修改用户访问数据库权限,被外界IP访问权限)

我们执行,下面代码&#xff1a; select user,host from mysql.user;生成表: 这里面存放我们所有的用户&#xff0c;user 表示用户名, host表示 能被访问的IP范围。 1.修改用户能被访问的范围 # "%" 表示,能被所有IP访问。 update mysql.user set host "%&q…

力扣 538. 把二叉搜索树转换为累加树 1038. 从二叉搜索树到更大和树

题目来源&#xff1a; 538&#xff1a;https://leetcode.cn/problems/convert-bst-to-greater-tree/description/ 1038&#xff1a; https://leetcode.cn/problems/binary-search-tree-to-greater-sum-tree/description/ C题解1&#xff1a;递归法。二叉搜索树由大到小&#…

CST仿真半波偶极子天线学习笔记

CST仿真半波偶极子天线 文章目录 CST仿真半波偶极子天线1. 新建工程模板2.建模3. 激励方式设置4. 求解器设置5. 仿真分析6. 数据后处理 设计要求&#xff1a; 谐振频率为3.48GHz&#xff0c;基板采用Rogers RT5880板材&#xff0c;介电常数2.2&#xff0c;损耗角正切0.0009&…

Git学习笔记(三)

导航小助手 五、远程操作 5.1 理解分布式版本控制系统 5.2 远程仓库 5.2.1 新建远程仓库 5.2.2 克隆远程仓库 5.2.3 向远程仓库推送 5.2.4 拉取远程仓库 五、远程操作 5.1 理解分布式版本控制系统 前面博客所介绍的 关于 Git 的内容&#xff08;比如说&#xff1a;工作…

输入和输出处理

目录 1.File类 2.流 2.1.InputStream 2.2.OutputStream 总结 内容仅供学习交流&#xff0c;如有问题请留言或私信&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 有空您就点点赞 1.File类 文件&#xff1a;相关记录或存放在一起的数据的集合 Java程序如…

高考考了657分想重新复读一年,又害怕白费一年

高考考了657分想重新复读一年&#xff0c;又害怕白费一年。 如果你想重新复读一年&#xff0c;可能需要考虑到以下几点&#xff1a; 复读的代价&#xff1a;复读需要花费一年的时间和精力&#xff0c;而且这个过程中你可能会面临很多挑战和压力&#xff0c;包括学习上的、生活上…

多模态之论文笔记BEiT, BEiT V2, BEiT V3

文章目录 OverviewBEiT1.0. Summary1.1. BEiT VS BERT2.1. Two Views: visual tokens2.1. Two Views: image patches3. Results BEiT V21.0. Summary1.1. Motivation2.1. Methods -- VQ-KD2.2. Methods -- patch aggregation3.1. Results -- image classification & semant…

ChatGPT Plugins内幕、源码及案例实战(二)

第6章 ChatGPT Plugins内幕、源码及案例实战 检索插件的API需要以下环境变量才能工作,如表6-2所示。 ChatGPT检索插件示例中,“.well-known”目录里面的ai-plugin.json是一个插件的说明文档,插件名为Retrieval Plugin,用于搜索用户的文档(如文件、电子邮件等),该插件…

HDLbits--Exams/review2015 fsm

示例&#xff1a; 题目的主要意思是&#xff1a;复位之后寻找1101序列&#xff0c;找到之后shift ena在四个周期内为1&#xff0c;此后输出counting&#xff0c;如果done-counting0&#xff0c;则counting一直为1&#xff0c;直到done-counting1&#xff0c;counting才为0&…

Redis高可用——持久化

Redis高可用——持久化 一、Redis 高可用的相关知识1、什么是高可用2、Redis的高可用技术3、持久化的功能4 redis持久化的方式 二、RDB持久化1、RDB持久化的触发方式①.手动触发②.自动触发③.其他自动触发机制 2、bgsave执行流程3、启动时加载 三、AOF持久化1.开启AOF2.执行流…

RSUYZM9智能路侧终端使用说明书

1 产品概览 本说明 书适用于 RSUYZM8型及 RSUYZM9型智能路侧终端 产品 。智能路 侧终端 作为智能 车路协同系统 路侧的基础 设备&#xff0c; 是车载设备和路口 所有 设备的 汇 聚点&#xff0c;路侧设备和车载之间 通过 LTE-V进行 信息交互 。同时 &#xff0c;智能路侧终 端还…

【JavaWeb】JavaScript的基础语法

目录 1、JS简介 1.1、JavaScript的运行过程 1.2、了解浏览器的开发人员工具 2、JavaScript的书写形式 2.1、行内式 2.2、内嵌式 2.3、外部式 3、JavaScript的输入输出函数 4、JavaScript语法 4.1、变量声明 4.1.1、动态类型 4.2、基本数据类型 4.2.1、数字类型 4.…

青岛大学_王卓老师【数据结构与算法】Week03_13_线性表的链式表示和实现13_学习笔记

本文是个人学习笔记&#xff0c;素材来自青岛大学王卓老师的教学视频。 一方面用于学习记录与分享&#xff0c;另一方面是想让更多的人看到这么好的《数据结构与算法》的学习视频。 如有侵权&#xff0c;请留言作删文处理。 课程视频链接&#xff1a; 数据结构与算法基础–…

C++数据结构笔记(6)栈的链式存储结构

对于栈的链式存储结构&#xff0c;实现原理本质上是受限的链表&#xff1b;此外与顺序存储不同的是&#xff0c;链式结构选用左边&#xff08;头结点&#xff09;作为栈的顶部&#xff0c;这样的好处是只要找到头结点即可实现插入元素等操作。 LinkStack.h头文件 #ifndef LIN…

CentOs7 64位 32位ISO镜像下载

链接: https://pan.baidu.com/s/1N181e6KFFFWPHhCTB7thMw 提取码: zht1

<Oracle>《(史上最完整)Linux 下安装Oracle数据库 - Oracle 19C By CentOS 8 》

《Linux 下安装Oracle数据库 - Oracle 19C By CentOS 8 》 1 说明1.1 前言1.2 资源下载 2 安装步骤2.1 上传安装包2.2 下载数据库预安装包2.3 安装数据库预安装包2.4 安装Oracle数据库2.4.1 第一次安装报错2.4.2 解决安装报错第一步&#xff1a;安装libnsl.so.1第二步&#xff…

MATLAB 层次分析法

✅作者简介&#xff1a;人工智能专业本科在读&#xff0c;喜欢计算机与编程&#xff0c;写博客记录自己的学习历程。 &#x1f34e;个人主页&#xff1a;小嗷犬的个人主页 &#x1f34a;个人网站&#xff1a;小嗷犬的技术小站 &#x1f96d;个人信条&#xff1a;为天地立心&…

文件上传靶场upload-labs通关

文章目录 前言Pass-01&#xff08;JavaScript绕过&#xff09;Step1、分析源码Step2、修改webshell文件后缀名Step3、修改报文重新发送Step4、使用webshell程序测试是否能连接 Pass-02&#xff08;MIME-Type绕过&#xff09;Step1、分析源码Step2、burp抓包&#xff0c;修改数据…