图像分割实战-系列教程1：语义分割与实例分割概述

news2026/2/12 17:51:31

1、图像分割任务概述

1.1 图像分割

分割任务就是在原始图像中逐像素的找到你需要的轮廓

如图分别是（物体检测）与（图像分割）两个任务的效果对比，实际上会比检测任务要稍微麻烦一些，将图像会分为几个区域把需要的单独拿出来，不需要的当成背景处理，分割也分为语义分割和实例分割。

1.2 语义分割

语义分割就是把每个像素都打上标签（这个像素点是人，树，背景等）
语义分割只区分类别，不区分类别中具体单位

1.3 实例分割

在右图中将五个人的轮廓都描绘出来了，但是没有把5个人区分出来，这就是一个基本的语义分割

实例分割不光要区别类别，还要区分类别中每一个个体，每一个个体都是不同的

往基本的要求做，就是可以做语义分割，往高级的做就是实例分割

和物体检测的任务对比呢，比如YOLO是将分类任务变成回归，找一些坐标点分别是什么。那分割任务呢？

2 语义分割损失函数解析

2.1 损失函数

逐像素的交叉熵
还经常需要考虑样本均衡问题
交叉熵损失函数公式如下：

$pos_{weight} = \frac{num_{neg}}{num_{pos}}$
这里的 $pos_{weight}$ 是一个额外权重，是前景像素点和背景像素点的数量的比例值。

$loss = -pos_{weight}*y_{true}log(y_{pred})-(1-y_{true})log(y_{pred})$
首先一张图像有几万几十万甚至更多个像素点，需要对每一个像素点都进行多分类任务，也就是逐像素进行交叉熵的过程。上式就是一个2分类交叉熵的公式再加上前面提到的额外权重

2.2 Focal loss

样本也由难易之分，就跟玩游戏一样，难度越高的BOSS奖励越高
$-(1-y_{pred})^γ*y_{true}log(y_{pred})-y^γ_{pred}*(1-y_{true}log(1-y_{pred}))$

正负样本的比例完全就是由数量决定的，每一个像素点都会去做交叉熵，都会产生一个损失值，像素点是不应该相同对待的，有些像素比较好处理，很明显是背景和前景的，难处理的就是轮廓上的，一个人去描边，边里面的好处理外面的也好处理，但是边上的不好处理。但是这些难处理的像素点应该要体现出比较高的重要性

在上面的公式中，Gamma通常设置为2，例如预测正样本概率0.95，那预测效果就非常好，也就是说这个像素处理的比较简单， $1-0.25)^2=0.0025$ ，0.0025也就意味着当前这个样本提供的损失值比较低，如果是0.5， $1-0.5)^2=0.25$ ，这个难度高一点，权重也就大一些。可以类似理解为错题本，想要学的更好得高分，错的题比较重要。这里就是对γ值的解释