【大厂AI课学习笔记】【1.5 AI技术领域】(7)图像分割

news2024/11/13 17:52:26

今天学习到了图像分割。

这是我学习笔记的脑图。

图像分割,Image Segmentation,就是将数字图像分割为若干个图像子区域(像素的集合,也被称为超像素),改变图像的表达方式,以更容易理解和分析。

图像分割,十分重要,也十分困难,是计算机视觉中的关键步骤。

图像分割分为三类:

  • 语义分割。预测出输入熟悉的每个像素点属于哪一类的标签
  • 实例分割。在语义分割的基础上,还要区分出同一类的不同个体
  • 全景分割。在实例分割的基础上,对背景的每个像素点,进行分割。 

图像分割的应用也是非常广泛的:

  • 医学核磁影像
  • 遥感
  • 交通领域的车辆轮廓提取 

下面我来了解更多:

图像分割是计算机视觉(CV)领域中的一个关键技术,旨在将图像或视频帧划分为多个部分或对象。这些部分通常基于某种相似性准则(如颜色、纹理、形状等)进行区分,以便对图像中的不同区域进行识别、分析和理解。图像分割是后续高级视觉任务(如目标检测、场景理解、图像描述等)的基础。

关键技术

  1. 深度学习:卷积神经网络(CNN)及其变体(如U-Net、Mask R-CNN等)已成为图像分割的主流方法。它们能够自动学习图像的多层次特征,并通过端到端的训练方式优化分割性能。

  2. 特征提取:传统方法依赖于手工设计的特征(如SIFT、SURF、HOG等),而现代方法则更多地依赖于深度学习自动提取的特征。

  3. 上下文信息:利用像素或区域之间的空间关系可以提高分割的准确性。条件随机场(CRF)、马尔可夫随机场(MRF)等方法常用于捕获上下文信息。

  4. 多尺度分析:由于图像中的对象可能具有不同的大小,因此多尺度分析对于捕捉不同尺度的信息至关重要。

  5. 边缘检测:识别对象的边界是分割的一个重要步骤,常用的边缘检测方法包括Sobel、Canny等。

  6. 图论方法:如Graph Cut、Grab Cut等,通过构造图模型并利用图理论中的算法进行优化,实现图像分割。

  7. 无监督与半监督学习:在缺乏大量标注数据的情况下,无监督和半监督学习方法对于图像分割尤为重要。

  8. 后处理:包括形态学操作(如膨胀、腐蚀)、区域合并等步骤,用于优化分割结果。

应用场景

  1. 自动驾驶:在道路场景理解中分割车道线、车辆、行人等。

  2. 医学图像分析:在CT、MRI等医学图像中分割肿瘤、血管、器官等结构。

  3. 人脸识别与生物特征分析:分割人脸区域以进行人脸识别或表情分析。

  4. 卫星遥感:在遥感图像中分割不同类型的地表覆盖(如森林、水体、城市等)。

  5. 视频监控:在安防视频中分割并跟踪移动目标。

  6. 增强现实:将虚拟对象准确地放置在现实世界的分割区域中。

  7. 时尚与零售:在服装图像中分割不同的服装项目,以支持虚拟试衣等功能。

主流的商业化产品

  1. DeepArt Structures(DeepMind):针对医学图像的分割工具,已在多种医学应用场景中取得显著效果。

  2. Photoshop(Adobe):虽然主要是一个图像处理软件,但Photoshop包含了强大的图像分割功能,支持用户进行精细的选区操作。

  3. Mask R-CNN(Facebook AI Research):一个广泛使用的实例分割框架,已在多个开源项目和商业产品中得到应用。

  4. Cityscapes Dataset(Daimler AG):虽然本身不是一个产品,但这个城市街景数据集推动了自动驾驶领域图像分割技术的发展,并催生了一系列相关商业化应用。

  5. TensorFlow Object Detection API(Google):提供了包括图像分割在内的多种目标检测功能,易于集成到各种应用中。

关于三个分类的图像分割——

语义分割

定义:语义分割是将图像中的每个像素标记为属于某个预定义的类别(如人、狗、天空等)的过程。它不考虑同一类别中不同实例之间的区别。

关键技术:深度卷积神经网络(DCNN)、上采样技术(如转置卷积、上采样层)、跳跃连接(如在U-Net中)、多尺度特征融合、上下文信息建模(如ASPP在DeepLab系列中)。

实现路径:通常通过端到端的训练方式,使用标注好的语义分割数据集(如PASCAL VOC、Cityscapes等)来训练深度神经网络模型。损失函数常采用交叉熵损失或Dice损失等。

实例分割

定义:实例分割是语义分割的一个扩展,它不仅要求将图像中的每个像素标记为某个类别,还要求区分同一类别中的不同实例(如区分图像中的多个人)。

关键技术:除了语义分割中提到的技术外,实例分割还需要额外的机制来区分不同实例。这通常通过引入目标检测框架(如Faster R-CNN)、使用掩码预测分支(如在Mask R-CNN中)或采用基于聚类的后处理方法来实现。

实现路径:一种常见的实现路径是在现有的目标检测框架(如Faster R-CNN)基础上添加一个并行的掩码预测分支(如Mask R-CNN)。这样,模型可以同时输出每个实例的边界框和像素级掩码。另一种路径是采用两阶段方法,首先进行语义分割,然后使用聚类或其他后处理步骤将同一类别的像素分组为不同的实例。

全景分割

定义:全景分割是语义分割和实例分割的结合体。它的目标是为图像中的每个像素分配一个唯一的标签,这个标签既包含了像素的语义类别信息,也包含了它属于哪个实例的信息(对于可计数的对象如人、车等)或它是否属于背景/不可计数的类别(如天空、草地等)。

关键技术:全景分割需要同时处理语义分割和实例分割的任务,因此它结合了这两者的关键技术。此外,还需要一种机制来融合语义和实例信息,以确保每个像素都有一个唯一的标签。这通常通过设计复杂的网络结构和使用特殊的训练策略来实现。

实现路径:一种常见的实现路径是采用一个共享的特征提取器来同时提取用于语义分割和实例分割的特征。然后,分别使用不同的解码器来生成语义分割图和实例分割图。最后,通过一个融合步骤来结合这两个结果,生成全景分割图。这个融合步骤可能涉及到复杂的逻辑判断和标签映射操作,以确保每个像素都被正确标记。另一种路径是采用端到端的训练方式,直接优化全景分割的损失函数。这种方法需要设计一种能够同时处理语义和实例信息的网络结构,并使用大量的标注数据来训练这个网络。由于全景分割任务的复杂性,这种方法通常需要大量的计算资源和时间来达到满意的性能。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1441193.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[HTTP协议]应用层的HTTP 协议介绍

目录 1.前言 2.使用fiddler抓包来观察HTTP协议格式 3.HTTP协议的基本格式 2.1请求 2,1.1首行 2.1.2请求头 2.1.3空行 2.2响应 2.2.1首行 2.2.2响应头 键值对 ​编辑2.2.3空行 2.2.4载荷(响应正文) 3.认识URL 3.1关于URL encode 1.前言 我们在前面的博客中,简单的…

测试管理_利用python连接禅道数据库并自动统计bug数据到钉钉群

测试管理_利用python连接禅道数据库并统计bug数据到钉钉 这篇不多赘述,直接上代码文件。 另文章基础参考博文:参考博文 加以我自己的需求优化而成。 统计的前提 以下代码统计的前提是禅道的提bug流程应规范化 bug未解决不删除bug未关闭不删除 db_…

【原创 附源码】Flutter海外登录--Tiktok登录最详细流程

最近接触了几个海外登录的平台,踩了很多坑,也总结了很多东西,决定记录下来给路过的兄弟坐个参考,也留着以后留着回顾。更新时间为2024年2月7日,后续集成方式可能会有变动,所以目前的集成流程仅供参考&#…

macOS Sonoma 14.3.1(23D60)发布

系统介绍 黑果魏叔2 月 9 日消息,苹果今日向 Mac 电脑用户推送了 macOS 14.3.1 更新(内部版本号:23D60),本次更新距离上次发布隔了 17 天。 魏叔 查询苹果官方更新日志,macOS Sonoma 14.3.1 修复内容和 …

MySQL之体系结构

华子目录 MySQL简介MySQL的特性MySQL版本MySQL常见版本 数据库排名网站MySQL结构体系查看最大连接数查询缓存配置情况 一条SQL语句执行流程 MySQL简介 MySQL是一个小型关系数据库管理系统,开发者为瑞典MySQL AB公司。在2008年1月16号被sun公司10亿美金收购。2009年…

8868体育助力法甲巴黎圣日耳曼俱乐部 运作球员转会

法甲的巴黎圣日耳曼足球俱乐部是8868的体育助力球队之一,根据法国媒体RMC的消息,巴黎圣日尔曼仍然希望在一月份增强球队的后防实力。虽然之前球队已经从圣保罗引进了20岁的巴西中后卫卢卡斯-贝拉尔多,而这名小将也将会是巴黎圣日耳曼冬窗的一…

放假--寒假自学版 day1(补2.5)

fread 函数: 今日练习 C语言面试题5道~ 1. static 有什么用途?(请至少说明两种) 1) 限制变量的作用域 2) 设置变量的存储域 2. 引用与指针有什么区别? 1) 引用必须被初始化,指针不必。 2) 引用初始…

QML用ListView实现带section的GridView

QML自带的GridView只能定义delegate,没有section,类似手机相册带时间分组标签的样式就没法做。最简单的方式就是组合ListViewGridView,或者ListViewFlow,但是嵌套View时,子级View一般是完全展开的,只显示该…

解决dockor安装nginx提示missing signature key的问题

问题描述 使用dockor安装nginx拉取nginx的时候提示key丢失问题 问题定位 由于dockor版本低导致 问题解决 卸载重新安装最新版本dockor 解决步骤 1. 卸载旧版本的Docker: sudo yum remove docker docker-common docker-selinux docker-engine 2. 安装依赖包&am…

Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度

概述 Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题,Stable Diffusion 采用了多种方式来加速图像生成,使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的 3512512 大小转换为更小的 46…

【杂谈】年尾做了这件事,我后悔了.......

文章目录 前言1. 花钱1.1 购买并安装幻兽帕鲁1.2 阿里云服务器 2. 配置3. 游玩4. 总结与感悟4.1 总结4.2 感悟 后记 幻兽帕鲁多人服务器部署 趁着过年放假,一本正经地玩游戏学习服务器部署啦! 但是,部署完我就后悔了… 前言 作为一名 游戏…

shellcode

生成shellcode 在漏洞利用中,shellcode是不可或缺的部分,所以在网上有许多公开分享的 shellcode ,在不同平台上并不通用,需要选择适合的shellcode 。这里推荐两个常 见公开的安全平台:一个为公开的漏洞库exploit-db&am…

【汇编】简单的linux汇编语言程序

一、Linux系统汇编语言 Linux系统上的汇编语言可以使用不同的语法风格,主要包括Intel语法和AT&T语法。这两种语法有各自的特点和风格区别,尽管它们表示的底层机器指令相同。下面分别对两种语法进行简要说明: Intel语法 Intel语法是由I…

深入理解ES的倒排索引

目录 数据写入过程 词项字典 term dictionary 倒排表 posting list FOR算法 RBM算法 ArrayContainer BitMapContainer 词项索引 term index 在Elasticsearch中,倒排索引的设计无疑是惊为天人的,下面看下倒排索引的结构。 倒排索引分为词项索引【…

【高频前端面试题--TypeScript篇】

🚀 作者 :“码上有前” 🚀 文章简介 :前端高频面试题 🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬 高频前端面试题--Vue3.0篇 什么是TypeScript?TypeScript数据类型TypeScript中命名空…

[word] word 2010宏已被禁用警告关闭方法 #媒体#学习方法

word 2010宏已被禁用警告关闭方法 Word2010宏已被禁用警告关闭方法:在「信任中心设置」选项的宏设置中选择「禁用所有宏,并且不通知」即可。 每次打开Word 2010,都会提示「完全警告:宏已被禁用」提示。自从Word 2010安装完毕&am…

JavaScript鼠标移动事件

🧑‍🎓 个人主页:《爱蹦跶的大A阿》 🔥当前正在更新专栏:《VUE》 、《JavaScript保姆级教程》、《krpano》、《krpano中文文档》 ​ ​ ✨ 前言 鼠标移动是用户界面中非常重要的交互行为。学习区分不同的鼠标移动事…

Vue事件中如何使用 event 对象

在Vue中,事件处理函数常常需要获取事件触发时的相关信息,比如鼠标位置、按键信息等。而要获取这些信息,就需要使用event对象。那么在Vue的事件中如何正确使用event对象呢?接下来就来详细介绍一下。 首先,在Vue的事件中…

ChatGLM2-6B模型的win10测试笔记

ChatGLM2-6B介绍: 介绍 ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性: 更强大的性能:基于 ChatGLM 初…

#Js篇:js里面递归的理解

定义: 递归是一种编程技术,它是指一个函数在其定义内部调用自身的过程。 特点: 一个问题可以分解为更小的问题用同样的方法解决;分解后的子问题求解方式一样,不同的是数据规模变小;存在递归终止条件 作…