0、前言
人体属性识别,是一个典型的多标签分类场景。每个人体有多个标签,如年龄、性别、衣着颜色等,而每个属性又有多种类别,如年龄分儿童青年老人、性别分男女、颜色分红绿青蓝紫...
本文提供了一个网络结构来执行这种任务。
1、网络结构
如图所示,网络接受一个批量的图像,经过backbone(骨干网络,可以是当前已开源的各种网络,如ResNet、EfficientNet、RepVGG等)提取特征,然后将此特征送入后续多个heads,每个head代表一个属性(性别、年龄等)的分类器(使用线性层构建),最后每个head即可输出在该属性上各个类别的概率(如性别head输出[女性概率,男性概率]):