- 任务描述: 语义分割是一种典型的计算机视觉问题,其是将一些图像作为输入并将它们转换为具有突出显示的感兴趣区域的掩模,即图像中的每个像素根据其所属的感兴趣对象被分配类别。如下图中左图所示,其语义是人骑自行车,语义分割的结果如右图所示,粉红色代表人,绿色代表自行车。
- 数据集:使用图像语义分割任务中常用的PASCAL VOC2012数据集,PASCAL VOC2012数据集可以从 http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar 下载。此数据集总共有20类(背景为第21类),分别为人、鸟、猫、牛、狗、马、羊、飞机、自行车、船、公共汽车、汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽、沙发、电视。
- 初始化模型:本教程使用的基础网络为ResNet101 V2。为加快模型训练和加速模型收敛,本文使用在ImageNet数据集上预训练的模型作为本文网络的初始化模型。初始化模型可以在