分割1——图像分割的前世今生

news2025/1/11 3:40:34

首先讲讲:什么是计算机视觉?

计算机视觉是一门让计算机学会“看”的学科,研究如何自动理解图像和视频中的内容。


其次讲讲:计算机视觉有哪些任务?我们所要讲的图像分割位于什么地位?

计算机视觉的三大经典任务:分类检测分割 (其他任务还有:目标跟踪、图像描述、场景文本识别、图像问答、图像内容生成、以图搜图、以文字搜图等)

分类:图像为单目标,从已知的类别标签集合中为给定的图像目标确定类别

检测:图像可为多目标,检测到图像中目标的具体位置以及置信度

分割像素级对前景和背景进行分类,将背景剔除。分为语义分割实例分割全景分割

其中,语义分割 是指 给图像中的每个像素分配一个类别,得到物体类别的mask。(仅考虑像素类别,不分割同一类的不同实体。)

实例分割 是指 对特定的物体进行分类,与目标检测输出物体的边界框不同,实例分割输出的是特定物体的mask和类别。(对特定的物体进行分类,仅考虑前景物体。)

全景分割 是指 语义分割+实例分割 plus。 (背景仅考虑类别,前景需要区分实例。)


图像分割应用场景有哪些?

1.无人驾驶:感知汽车周围的环境,例如车辆、行人。

2.人像分割:换背景、扣人像。

3.智能遥感:分析地表农作物->水域、道路、农田分布、船舶等。

4.医疗影像分析:x光、CT等肿瘤分析。


然后讲讲,语义分割算法的 演进历程 与 ~~有哪些?

经典的语义分割算法如下:

传统模式识别下的语义分割

按颜色分割

根据先验知识,得物体内部颜色相近,边界颜色变化。-> 按颜色相近的色块进行聚类。如下图 将红色的衣服抠出来。

存在问题

1.可以实现抠图,但是不能得到语义。

2.先验知识不完全准确。

3.不同物体内部颜色可能相近,物体内部可能包含多个颜色。


逐像素分类

步骤如下:

1.提取一个卷积窗口图像。

2.把这个图像输入卷积神经网络中预测一个类别,该类别作为提取图像的中心点坐标类别。

3.返回1,继续滑动窗口进行预测下一个像素。

优点

可以充分利用CNN模型

缺点

存在大量重复计算的重叠区域


重复区域优化

两个相邻的滑窗中间的重叠区域卷积后表现为相同特征,因此这一块可以被优化,在滑窗上计算卷积等于在原图上计算卷积,因此可以在原图上先计算一次卷积,然后复用这个结果。-> 先卷积再滑窗,减少重复计算


在讲深度学习的语义分割之前,讲讲语义分割数据集。

深度学习下语义分割的数据集

VOC数据集

voc数据集重要介绍

PASCAL VOC 2007数据集的简单介绍icon-default.png?t=N6B9https://blog.csdn.net/XiaoyYidiaodiao/article/details/113897617Segmentation文件下对应的.txt文件如:

Segmentation  (目标分割图像信息)
|
|----train.txt 训练集(1464)
|----val.txt   验证集(1449)
|----trainval.txt 训练集+验证集(2913)

 例如,图像2007_000323.jpg

在SegmentationClass中找到相应的标注图像,例如,2007_000323.png

在语义分割中,标注的图像,是P模式 -> 单通道的图像。在背景处的像素值0(转化为三通道(0,0,0)),目标边缘处的像素值255 (转化为三通道为(224,224,129))。因为目标这个类,所以在人目标的像素位置存的是人在voc数据集的序号15。

 VOC数据集的类别如下,从0开始数序列,person为15。

VOC_CLASSES = [
    "aeroplane",
    "bicycle",
    "bird",
    "boat",
    "bottle",
    "bus",
    "car",
    "cat",
    "chair",
    "cow",
    "diningtable",
    "dog",
    "horse",
    "motorbike",
    "person",
    "pottedplant",
    "sheep",
    "sofa",
    "train",
    "tvmonitor",
]

COCO数据集

coco针对图像中的每一个目标都记录了多边形坐标polygons,比如下图的人在annotation中记为

[428.19,219.47,430.94,209.57,430.39,210.12,421.32,216.17,412.8,
217.27,413.9,214.24,422.42,211.22,429.29,201.6,430.67,181.8,...]

其中一个坐标为x,一个坐标为y,例如428.19为x坐标,219.47为y坐标,(428.19,219.47)一对。430.94为x坐标,209.57为y坐标,(430.94,209.57)一对。

将其读出来后,换为单通道图,目标的每个像素点的xy坐标存入coco数据集的80个类的序列号,背景还是0,但是目标边界的像素值不为255了,就是目标的coco序列号。

 如图,语义分割的单通道标记图像。


深度学习下的语义分割

全连接卷积化

1×1 的卷积核等价于全连接(来源:原来是 VGG 中提出的)-> 反向量化

问题

全连接层输入固定的,但是输入的图像随机大小的,这样导致特征图大小也是随机的。

解决

卷积取代全连接层。

兼容任意尺寸的图,没有全连接层,每个通道代表了一个类别概率。

 应用

FCN (CVPR 2015)

升采样 双线性插值和转置卷积

池化 卷积降采样


参考博文

PASCAL VOC2012数据集介绍

语义分割和目标检测是什么关系?


下一话

讲讲,语义分割的评价指标

分割2——语义分割评价指标icon-default.png?t=N6B9https://blog.csdn.net/XiaoyYidiaodiao/article/details/125149509之后讲讲 转置卷积(升采样)

分割3-转置卷积可逆吗?icon-default.png?t=N6B9https://blog.csdn.net/XiaoyYidiaodiao/article/details/131705741

再将FCN

未完...

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/749404.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机体系结构基础知识介绍之使用动态调度、多重问题和推测来利用流水线

我们已经了解了动态调度、多发射和推测等单独的机制是如何工作的。(具体请参见本人前几篇博客) 现在我们把这三种机制结合起来,得到一种和现代微处理器非常相似的微架构。为了简单起见,我们只考虑每个时钟周期发射两条指令的情况…

《算法竞赛·快冲300题》每日一题:“窗户”

《算法竞赛快冲300题》将于2024年出版,是《算法竞赛》的辅助练习册。 所有题目放在自建的OJ New Online Judge。 用C/C、Java、Python三种语言给出代码,以中低档题为主,适合入门、进阶。 文章目录 题目描述题解C代码Java代码Python代码 “ 窗…

es6 数组操作个人总结

es6 数组操作个人总结 动机数组数组生成可枚举对象转数组箭头函数筛选判断所有元素枚举循环 小结 动机 es6 ,说白了,就是增强版本的 js 。。。。。嗯,说到底,还是原生 js 罢了,不过比原有的 js 多了一些属性、类型、指…

【c++修行之路】智能指针

文章目录 前言为什么用智能指针智能指针简单实现unique_ptrshared_ptr 循环引用和weak_ptr的引入循环引用weak_ptr 定制删除器 前言 大家好久不见,今天来学习有关智能指针的内容~ 为什么用智能指针 假如我们有如下场景: double Div() {int x, y;cin …

Clion 配置Mingw64的 c++开发环境

1、Mingw64的安装与环境变量的配置 Mingw64文件下载 Mingw64下载地址:https://sourceforge.net/projects/mingw-w64/files/ posix相比win32拥有C 11多线程特性,sjlj和seh对应异常处理特性,sjlj较为古老,所以选择seh 配置环境变…

MongoDB踩过的坑

目录 启动MongoDB服务 可视化工具:MongoDB Compass 由于目标计算机积极拒绝,无法连接 BSONObj size: xxxx is invalid. Size must be between 0 and 16793600 (16MB) 启动MongoDB服务 1. 打开CMD 2. 进入安装MongoDB文件夹中的bin目录 3. mongod -…

mapBox 绘制多边形无法设置 边框宽度 解决方法

目录 一、问题 二、解决方法 三、总结 tips:如嫌繁琐,直接看有颜色的文字即可! 一、问题 1.使用mapBox在地图上绘制点、线、面。绘制多边形的时候发现 直接用 zh(一家提供地图引擎的公司),提供的绘制多边形的方法无法设置边框颜色和边框宽度。很是离…

龙蜥社区 6 月技术委员会会议召开!欢迎 5 位开放原子 TOC 导师加入

2023 年 6 月 16 日上午 10 点召开了龙蜥社区 6 月技术委员会线上会议,共计 38 人参会。本次会议由联通肖微主持,会议也荣幸的邀请到了开放原子 TOC 导师线上参会,技术委员们来自阿里云、统信、飞腾、中科方德、红旗、万里红、Intel、Arm、龙…

入门篇:从零上手GitOps

文章目录 GitOps 介绍如何将业务代码构建为容器镜像?如何将容器镜像部署到K8s?K8s如何实现自动扩容和自愈?1.传统的扩容和自愈2.k8s自愈机制3.k8s弹性扩容 如何借助GitOps实现应用秒级自动发布和回滚?1.传统 K8s 应用发布流程2.从…

高级细腻的家居照明,欧瑞博智能无主灯是怎么实现的?

作者 | 辰纹 来源 | 洞见新研社 如今的现代生活,人类对光的需求已超越简单照明,而是希望在不同场景下能有专属的细腻用光体验,智能照明应运而生,并成为上升趋势。现阶段,精细化家居需求要求智能照明不仅要巧妙融合美学…

二叉树进阶(AVLTree)

目录 1.AVLTree概念 2.AVLTree模拟实现 2.1 AVLTree节点 2.2 插入实现基本框架 2.3 左单旋 2.4 右单旋 2.5 LR双旋 2.6 RL双旋 2.7 AVLTree树验证 1.AVLTree概念 二叉搜索树虽可以缩短查找的效率,但如果数据有序或接近有序二叉搜索树将退化为单支树&#…

怎么从电影中截取动图?试试这个工具

图片、视频等都是当代流行的表达情感、传递信息的一种方式。其中,当属gif动图最受大众的欢迎,它比普通的静态图片画面丰富,又比视频的体积小。那么,如何从视频中截取动图呢?使用GIF中文网的视频转gif(https…

通过platform实现阻塞IO来驱动按键控制LED灯的亮灭

通过platform阻塞IO来驱动按键控制LED灯的亮灭 a .应用程序通过阻塞的io模型来读取number变量的值 b.number是内核驱动中的一个变量 c .number的值随着按键按下而改变(按键中断)例如number0按下按键number1 ,再次按下按键number0 d .在按下按键的时候需要同时将…

【Leetcode】42.接雨水(困难)

一、题目 1、题目描述 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例1: 输入:height = [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图,在这种情况下,可以接 6…

雪花算法 — 集群高并发情况下如何保证分布式唯一全局ID生成?

雪花算法 问题 为什么需要分布式全局唯一ID以及分布式ID的业务需求 在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识: 如在美团点评的金融、支付、餐饮、酒店猫眼电影等产品的系统中数据逐渐增长,对数据库分库分表后需要有一…

接口测试辅助,Fiddler抓取安卓手机https请求(详细)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 Fiddler 是一款免…

Java设计模式之行为型-迭代器模式(UML类图+案例分析)

目录 一、基础概念 二、UML类图 三、角色设计 四、案例分析 五、总结 一、基础概念 迭代器模式是一种常用的设计模式,它主要用于遍历集合对象,提供一种方法顺序访问一个聚合对象中的各个元素,而又不暴露该对象的内部表示。 举个简单的…

第二章:Cyber RT通信机制解析与实践

Cyber RT解析与实践 第二章:Cyber RT通信机制解析与实践 Cyber RT解析与实践 Cyber RT解析与实践一、Cyber RT 通讯机制简介1. 话题2. 服务3. 参数 二、数据通信基础Protobuf1. Protobuf 简介2. Protobuf 创建3. Protobuf 编译4. Protobuf 案例实战 三、Cyber RT 话…

CPU性能指标简览

作为计算机的运算核心和控制核心,CPU(Central Processing Unit)由运算器、控制器、寄存器和实现其之间联系的数据、控制及状态的总线构成,决定着计算机运算性能强弱。作为信息技术产业的核心基础元器件,CPU的运作可分为…

3-40V输入,2.7V启动,20A电流,PWM\模拟信号调光

应用说明: Hi600X 是一系列外围电路简洁的宽调光比升压恒流驱动器,适用于 3-40V 输入电压范围的 LED 照明领域。 Hi600X 系列芯片,2.7V 启动电压,工作电压范围 5-40V,VIFB反馈电压 0.2V,提高整体转换效率。…