光学遥感显著目标检测初探笔记总结

news2024/12/23 9:00:20

目录

  • 观看地址
  • 介绍
    • 什么是显著性目标检测
    • 根据不同的输入会有不同的变体(显著性目标检测家族)
    • 目前这个领域的挑战
  • 技术方案
    • 论文1(2019)
    • 论文2(2021)
    • 论文3(2022)
  • 未来展望

观看地址

b站链接

介绍

什么是显著性目标检测

一张图片里最吸引注意力的部分就是显著性物体,其实是模拟人的一个注意力机制。目标是希望通过计算机的方法让我们自动定位和模拟人的这种感知能力,从而去定位场景中的一个让人感兴趣的目标

根据不同的输入会有不同的变体(显著性目标检测家族)

  • 在RGB的基础上引入一个景深信息——RGBD显著性目标检测
  • 相关性的一个图像组的数据,引入图间关系——协同显著性目标检测
  • 引入运动、帧间关系等——视频显著目标检测
  • 引入多视角的关系,形成一个相机阵列来计算光场图像中的显著性物体——光场显著性目标检测
  • 摄像机架设到天上,俯视成像——光学遥感图像显著性目标检测
    在这里插入图片描述

目前这个领域的挑战

  1. 成像条件不同,从天空往下拍的过程中会存在很多干扰,比如云层、遮挡,光照(一个区域亮另一个区域暗)、重影(光照导致),并且场景范围比较宽大的,也就存在目标场景、背景复杂,比如树木,阴影这样的干扰。高空往下拍,目标整体的尺寸大小会参差不齐,比如拍的体育馆,体育馆比较大,容易检测,拍的舰船,舰船比较小,不容易检测,尺度变化是非常大的。
  2. 场景范围足够大,比如沙漠上去拍,就可能不存在显著性目标

技术方案

论文1(2019)

这篇论文是第一篇深度学习在遥感显著性检测的论文,并构建了第一个开源数据集ORSSD
在这里插入图片描述
主要贡献

  • 双流金字塔结构,L形状。学习互补特征。输入尺寸进行不同程度的下采样,让场景能够去捕获不同尺寸的特征图信息。
  • 嵌套连接的编码器和解码器结构,V形状。在编解过程中实现特征筛选,而不是一股脑直接concat

论文2(2021)

论文1的继承,想法是传统是特征由前一层往后传,但是真的有必要去传这样所有特征吗,特征融合完后可能存在一些冗余,为了更高效的传递论文提出了注意力密集传递,扩充了第一个数据集并命名为EORSSD
在这里插入图片描述
主要贡献

  • DAF(密集注意力流)结构可以进一步解耦成特征提取以及全局上下文注意力这么一个模块
  • 不光结合多尺度和多层次的线索,还产生了流动dense的结构来实现不同层次之间信息的高效的一个传递和交互。
  • GCA(全局上下文注意力)模块可以拆分为GFA(全局特征集成)和CPA(级联金字塔注意力)模块,GFA主要是编码全局上下的一个信息,去解决目标检测不完整的问题。CPA主要解决目标尺度多样化的问题。在遥感显著性目标检测中,一些细长的河流容易检测不全,被打散,原因可能是局部感受野非常难去捕获到一个区域与另外一个远端区域之间的关系。也就是这个卷积核的感受野太窄了,是在一个有限的范围去学习特征。GFA通过建模长程依赖关系来计算,概念是一个目标如果是显著的,那么其和目标整体内部的特性是相近的,也就是说一个像素点的位置和其他所有像素点位置进行一个相关性的求解后,得到全局上下文这样的一个依赖关系矩阵器,用这个信息来对原始特征进行加权,把全局上下文的关系编码到特征里去。
    通道注意力,来得到更紧致的通道信息
    空间注意力,来强调重要的区域位置对应在哪里

论文3(2022)

本片论文在全局上下文的计算方式使用的是关系感知,关系推理来做,引入graph(图推理)这种解决方案
在这里插入图片描述
主要贡献

  • 图推理是在高层后三层进行实现,并且不止局限于空间维度上的推理,其在通道维度上也实现了推理。把一个特征建模成多个节点,通过把不同节点之间进行关联之后,去学习边上的一个权重,模拟特征节点之间的相似性,进而去推断去实现推理这个功能。
  • 解码过程中在靠近结果输出最后两层中更加需要从编码器提取有效信息来对细节进行恢复,对结果进行修正,去抵抗目标尺寸变化的问题。通过attention图去挑选一些有用信息来指导我们的解码。一个分支是注意力用不同大小的卷积核,另一个分支是卷积用不同大小卷积核再过统一核大小的注意力块。相当于通过穷尽法来模拟得到多尺度注意图的这种方式。

未来展望

  • 根据新的数据集做更好的研究,更挑战的内容
  • 学习方法不一定要全监督,可以用弱监督,小样本的方式,来摆脱对GT的依赖
  • 做一些扩展,比如instance level,做一个即插即用的模块改善显著性检测,进一步提升性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1306647.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【大数据-Hadoop】从入门到源码编译-概念篇

【大数据-Hadoop】从入门到源码编译-概念篇 Hadoop与大数据生态(一)Hadoop是什么?(二)Hadoop组成1. HDFS1.1 NameNode(nn)1.2 DataNode(dn)1.3 Secondary NameNode&#…

公众号怎么提高2个限制

一般可以申请多少个公众号?许多用户在申请公众号时可能会遇到“公众号显示主体已达上限”的问题。这是因为在2018年11月16日对公众号申请数量进行了调整,具体调整如下:1、个人主体申请公众号数量上限从2个调整为1个。2、企业主体申请公众号数…

Docker - Android源码编译与烧写

创建源代码 并挂载到win目录 docker run -v /mnt/f/android8.0:/data/android8.0 -it --name android8.0 49a981f2b85f /bin/bash 使用 docker update 命令动态调整内存限制: 重新运行一个容器 docker run -m 512m my_container 修改运行中容器 显示运行中容器 d…

深入理解 Goroutines 和 Go Scheduler

本文将重点帮助您了解 Golang 中的 goroutines。Go 调度程序如何工作以在 Go 中实现最佳并发性能。我会尽力用简单的语言解释,这样你就可以理解了。 我们将介绍什么是操作系统中的线程和进程,什么是并发,为什么实现并发很难,以及 goroutines 如何帮助我们实现并发。然后,…

十八)Stable Diffusion使用教程:艺术二维码案例

今天说说怎么样使用SD生成艺术二维码。 我们直接上图。 方式有三种,分别如下: 1)方式一:直接 contronet 的tile模型进行控制 使用QRBTF Classic生成你的二维码。 首先输入网址,选择喜欢的二维码样式(推荐第一种就行): 然后选择相应参数,这里推荐最大的容错率,定…

IT圈茶余饭后的“鄙视链” C,C++,Java,Python

目录 C语言的自尊心 C语言的历史与地位 C语言的支持者心态 鄙视链的表现 自尊心的盲点 C的复杂之美 多范式编程的复杂性 高度的控制权 模板元编程的奇妙 面向对象的强大 Java的跨平台与舒适感 跨平台性的优势 舒适的开发体验 对其他语言的轻蔑 面向企业级应用的自…

不再兼容“安卓“,鸿蒙开发与android对比

首先,鸿蒙系统采用了分布式技术,其设计理念是“能用分布式解决的问题就不用单机解决”。这意味着鸿蒙旨在构建一个统一的分布式操作系统,可以支持不同设备之间的交互和通信。 而安卓系统基于Linux内核和Java编程语言构建,属于单机…

SqlServer中,数字-null的问题

一、业务描述 叫货单,已知叫货金额,填写本次付款金额,计算待付款金额 二、问题 在计算待付款金额时,偶尔会出现待付款金额为空的情况,百思不得其解 三、解决 仔细检查,发现了猫腻。 简单的说&#xff…

Axure元件的介绍使用以及登录界面

一、Axure元件介绍 简介: Axure元件是一种功能强大的设计工具,专门用于用户体验设计和交互设计。它可以帮助设计师创建可交互的原型,并实现各种界面元素的设计和布局。 Axure元件的基本特点包括: 多样性:Axure元件包括…

Unity检测AssetBundle是否循环依赖

原理:bundle的依赖关系构建一个二维的矩阵图,如果对角线相互依赖(用1标记)则表示循环依赖。 using PlasticGui; using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEditor; public cl…

数字社会观察:TikTok如何影响青少年文化?

TikTok,这个全球短视频巨头,正在成为塑造青少年文化的引领者。在这个数字社会中,TikTok的崛起不仅改变了信息传递的方式,更深刻地影响着青少年的价值观、审美观和社交方式。本文将深入探讨TikTok如何在数字社会中塑造和影响青少年…

都是星光赶路人

不知不觉已经快工作五年了,工作以后就感觉时间一年比一年快,仿佛昨天才刚毕业,就像陈鸿宇歌中的那样,多少遗憾自负存念想,唯有时间不可挡。五年,思考了很多,也想明白了许多。正好借着年末&#…

可视化 Java 项目

有一定规模的 IT 公司,只要几年,必然存在大量的代码,比如腾讯,2019 年一年增加 12.9 亿行代码,现在只会更多。不管是对于公司,还是对于个人,怎么低成本的了解这些代码的对应业务,所提…

【设计模式--行为型--策略模式】

设计模式--行为型--策略模式 策略模式定义结构案例优缺点使用场景 策略模式 定义 该模式定义了一系列算法,并将每个算法封装起来,使他们可以相互替换,且算法的变化不会影响使用算法的客户。策略模式属于对象行为模式,它通过对算…

【摸鱼向】利用Arduino实现自动化切屏

曾几何时,每次背着老妈打游戏的时候都要紧张兮兮地听着爸妈是不是会破门而入,这严重影响了游戏体验,因此,最近想到了用Arduino加上红外传感器来实现自动监测的功能,当有人靠近门口的时候,电脑可以自动执行预…

Vmd+lstm代码详解 完整代码数据可直接运行

项目视频讲解:Vmd+lstm时间序列预测分类回归预测代码详解 完整代码可直接运行_哔哩哔哩_bilibili 项目演示效果: 代码详解: # -*- coding: utf-8 -*- # 导入库pip install openpyxl -i https://pypi.tuna.tsinghua.edu.cn/simple import pandas as pd import numpy as np fr…

解决:ModuleNotFoundError: No module named ‘ldm‘

import sys sys.path.append(程序所在路径) 就好了

《TDA4》专栏导航

文章目录 1. 前言2. 章节1. 前言 《TDA4》专栏主要介绍TI TDA4芯片的工程应用笔记,“授人以鱼不如授人以渔”,本专栏着眼于如何从零上手一款复杂的多核异构的芯片平台,其中包含了博主如何查找资料,如何寻求资源,如何实验测试,如何搭建环境等点点滴滴的过程,希望对TDA4感…

计算机网络网络层(期末、考研)

计算机网络总复习链接🔗 目录 路由算法静态路由与动态路由距离-向量算法链路状态路由算法层次路由 IPv4(这个必考)IPv4分组IPv4地址与NAT子网划分与子网掩码、CIDRARP、DHCP与ICMP地址解析协议ARP动态主机配置协议DHCP IPv6IPv6特点 路由协议…

用什么台灯可以护眼?考研必备的护眼台灯推荐

台灯是我们日常生活中必不可少的一盏灯具,不管是休闲、办公,还是学习阅读都需要使用它。如今随着生活质量的提升,大家对健康的问题也越来越重视了,可以改善用光不适、预防眼睛近视的护眼台灯,也越来越受大家所拥戴。 …