计算机视觉框架OpenMMLab开源学习（六）：语义分割基础

news2026/2/11 19:36:15

✨写在前面：强烈推荐给大家一个优秀的人工智能学习网站，内容包括人工智能基础、机器学习、深度学习神经网络等，详细介绍各部分概念及实战教程，通俗易懂，非常适合人工智能领域初学者及研究者学习。➡️点击跳转到网站。

语义分割

前言：本系列第六篇文章主要介绍语义分割知识，了解计算机视觉框架OpenMMLab的MMSegmentation工具基本原理及使用，为后续语义分割实战做铺垫。

本节内容：

• 语义分割的基本思路

• 深度学习下的语义分割模型

• 全卷积网络

• 空洞卷积与 DeepLab 模型

上下文信息与 PSPNet 模型

• 分割模型的评估方法

• 实践 MMSegmentation

语义分割概念

任务：将图像按照物体的类别分割成不同的区域等价于：对每个像素进行分类。

语义分割应用：

无人驾驶汽车，人像分割，智能遥感，医疗影像分析

mmdet是实例分割，先做检测

语义分割：仅考虑像素的类别不分割同一类的不同实体
实例分割：分割不同的实体仅考虑前景物体
全景分割：背景仅考虑类别前景需要区分实体

语义分割的基本思路

在原图上计算卷积，计算复用结果相同

问题：全连接层要求固定输入大小

兼容任意尺寸的图，没有全连接层

深度学习下的语义分割模型

升采样：双线性插值和转置卷积

池化，卷积降采样，语义分割需要升采样

卷积，空间语义会因为降采样逐渐丢失位置信息

问题:基于顶层特征预测，再升采样 32 倍得到的预测图较为粗糙

分析:高层特征经过多次降采样，细节丢失严重

解决思路: 结合低层次和高层次特征图

Unet 2015

上下文信息和PSPNet

图块周围的像素块，图像周围的内容：上下文

有歧义的区域：

滑动窗口会丢失上下文信息，并且低效，需要更大范围的信息

图像周围的内容（也称上下文）可以帮助我们做出更准确的判断。

方案：增加感受野更大的网络分支，将上下文信息导入局部预测中

PSPNet2016

不同感受野的上下文信息

空洞卷积与DeepLab系列算法

DeepLab 是语义分割的又一系列工作，其主要贡献为:

使用空洞卷积解决网络中的下采样问题
使用条件随机场 CRF 作为后处理手段，精细化分割图
使用多尺度的空洞卷积(ASPP 模块)捕上下文信息

DeepLab v1

发表于2014 年，后于 2016、2017、2018 年提出 v2、v3、v3+ 版本

空洞卷积解决下采样问题

问题：图像分类模型中的下采样层使输出尺寸变小

如果将池化层和卷积中的步长去掉
可以减少下采样的次数;
特征图就会变大，需要对应增大卷积核，以维持相同的感受野，但会增加大量参数

解决方案：

使用空洞卷积(Dilated Convolution/Atrous Convolution)，在不增加参数的情况下增大感受野

下采样加标准卷积等价于空洞卷积

使用空洞卷积可以得到相同分辨率的特征图，且无需额外插值操作

去除分类模型中的后半部分的下采样层
后续的卷积层改为膨胀卷积，并且逐步增加rate来维持原网络的感受野

条件随机场Conditional Random Field，CRF

问题：模型直接输出的分割图较为粗糙，尤其在物体边界处不能产生很好的分割结果

一种后处理，使得语义边界分割精确

能量函数，可以看做一种损失函数

ASPP 空间金字塔池化 Atrous Spatial Pyramid Pooling

PSPNet 使用不同尺度的池化来获取不同尺度的上下文信息

DeepLab v2&v3 使用不同尺度的空洞卷积达到类似的效果

更大膨胀率的空洞卷积--->>>更大的感受野--->>>更多的上下文特征

DeepLab v3+

DeepLab v2 / v3 模型使用 ASPP 捕捉上下文特征
Encoder / Decoder 结构（如 UNet）在上采样过程中融入低层次的特征图，以获得更精细的分割图

DeepLab v3+ 将两种思路融合，在原有模型结构上增加了一个简单的 decoder 结构

Encoder 通过ASPP 产生多尺度的高层语义信息
Decoder 主要融合低层特征产生精细的分割结果

经典语义分割算法

语义分割模型的评估

在机器学习分类项目中，我们一般：

用precision来评估某类别分类的准确性；用accuracy来评估总体分类的准确性。

recall与precision区别：

（1）recall，召回率又名查全率，与漏报率有关，（漏报率，FN，即错误的预测为负样本，换句话说，将实际为正的样本预测为负），详情参照混淆矩阵，如下。

	预测为正样本（positive，P）	预测为负样本（negative，N）
实际为正样本 (True, T)	TP	FN
实际为负样本 (False, F)	FP	TN

其中，T指预测正确（预测为正样本，实际也为正样本的情况），F指预测错误。

recall=TP/(TP+FN)，可理解为，实际为正的样本中，预测正确的样本的比例。

应用于，医生预测病人癌症的情况，病人更关注的是是否漏报，漏报会导致病被忽略，延误治疗。
通过记忆漏报率，可清晰理解recall的概念。

（2）precision，精准率又名查准率，与误报率有关，（误报率，FP，即错误的预测为正样本，换句话说，将实际为负的样本预测为正）。

precision=TP/(TP+FP)，可理解为，在预测为正的样本集合中，预测正确的样本的比例。

总结：

本系列第六篇文章主要介绍语义分割知识，了解计算机视觉框架OpenMMLab的MMSegmentation工具基本原理及使用，为后续语义分割实战做铺垫。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/337311.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

计算机视觉框架OpenMMLab开源学习（六）：语义分割基础

语义分割

本节内容：

语义分割概念

语义分割应用：

语义分割的基本思路

深度学习下的语义分割模型

Unet 2015

上下文信息和PSPNet

PSPNet2016

空洞卷积与DeepLab系列算法

DeepLab v1

条件随机场Conditional Random Field，CRF

DeepLab v3+

经典语义分割算法

语义分割模型的评估

相关文章

工地安全帽智能识别系统 YOLOv5

Allegro172版本线到铜皮不按照设定值避让的原因和解决办法

2023金三银四季跳槽季，啃完这软件测试面试题，跳槽不就稳稳的了

day4——与数组有关的练习

第四章：搭建Windows server AD域和树域

LANP架构搭建

个人ChatGPT账号注册

服务降级和熔断机制

状态机设计中的关键技术

IT行业寒冬，干测试从月薪18k降到了15k，“我”的路在何方

【C语言】“指针类型”与“野指针”

如何编写Python程序调用ChatGPT，只需3步

Deepwalk深度游走算法

c++11 标准模板（STL）（std::multimap）（三）

SCI论文阅读-使用基于图像的机器学习模型对FTIR光谱进行功能组识别

自己家用的电脑可以架设游戏吗

SQL语句训练

深度学习实战（11）：使用多层感知器分类器对手写数字进行分类

2021年新公开工业控制系统严重漏洞汇总

什么是自动化测试？自动化测试现状怎么样？