config.pbtxt 配置参数手册
backend或platform参数用于指示nvidia triton用对应的backend加载模型参数,它的使用示例如下:
name: "xxx"
platform: "pytorch_libtorch"
max_batch_size: 8
input [
{
name: "input0"
data_type: TYPE_UINT8
dims: [ -1 ]
},
...
所有的backend参数可见于 Triton Inference Server教程2
使用–gpus命令失败
需要安装依赖,参考离线安装nvidia-container-toolkit
triton 自动配置功能
model_configuration.md#auto-generated-model-configuration tritong能为多数平台自动生成模型配置。
动态batch相关的配置
Dynamic Batching
model_configuration.html#dynamic-batcher
文中的链接 What is Dynamic Batching? 给出了不同参数下的动态batch表现情况
Ragged batching
Ragged batching,默认情况下,动态batch技术只支持固定维度的输入,那么当输入batch的向量长度不同时,就需要使用padding,而这会带来额外显存开销。
有了Ragged batching模式以后,就能支持不定长的输入了。