深度学习之边缘检测算法论文解读(EDTER: Edge Detection with Transformer)

news2024/12/23 5:16:27

引言

边缘检测是计算机视觉中最基本的问题之一,具有广泛的应用,例如图像分割[8,23,39,44,45,47]、对象检测[23]和视频对象分割[5,57,59]。给定输入图像,边缘检测旨在提取精确的对象边界和视觉上显著的边缘。由于许多因素,包括复杂的背景、不一致的注释等等,这是具有挑战性的

边缘检测与图像的上下文和语义线索密切相关。因此,获得适当的表征来捕捉高和低水平的视觉线索是至关重要的。传统方法[6,14,28,34,41,63]大多基于低级局部线索,例如颜色和纹理来获得边缘。受益于卷积神经网络(CNN)在学习语义特征方面的有效性,边缘检测已经取得了重大进展[3,4,29,48]。随着感受野的扩大,CNN的特征逐渐捕捉全局的和有语义意识的视觉概念,同时许多重要的细节不可避免地逐渐丢失。为了包括更多的细节,在[22,36,37,65,66]中的方法集合了深层和浅层的特征。然而,这种浅层特征主要反映局部强度变化,而没有考虑语义上下文,导致噪声边缘

受视觉变形器最近成功的启发[9,16,61,72],特别是它们模拟远程上下文信息的能力,我们建议为边缘检测定制变形器。然而,有两个主要挑战需要解决。首先,由于计算方面的考虑,变换器通常应用于相对较大尺寸的面片,而粗粒度的面片不利于学习边缘的精确特征。在不增加计算负担的情况下对细粒度补丁执行自关注是至关重要的。第二,如图1 (d)所示,从相交的薄物体中提取精确的边缘是具有挑战性的。所以有必要设计一个有效的用于生成边缘感知高分辨率特征的编码器

为了解决上述问题,我们开发了一个两阶段框架(图2),称为边缘检测转换器(EDTER),以探索全局上下文信息和挖掘局部区域中的细粒度线索。在第一阶段,我们将图像分割成粗粒度的小块,并在其上运行全局转换器编码器来捕获大范围的全局上下文。然后,我们开发了一种新的双向多级聚合(BiMLA)解码器来产生高分辨率的边缘检测表示。在第二阶段,我们首先通过使用非重叠滑动窗口进行采样,将整个图像分成多个细粒度块序列。然后,局部变换器依次对每个序列进行工作,以探索短程局部线索。之后,所有局部线索被整合并馈入局部BiMLA解码器以获得像素级特征图。最后,来自两个阶段的信息通过特征融合模块(FFM)进行融合,然后被送入决策头以预测最终的边缘图。通过以上努力,EDTER可以生成清晰、噪音更少的边缘图。
在这里插入图片描述
在第一阶段,我们首先将图像输入到全局变换编码器中,以计算全局关注度。然后,全局BiMLA解码器(见图3)生成高分辨率特征,用于通过决策头预测边缘图。在阶段II中,类似于阶段I,分块的补丁被输入到局部变换编码器中以产生局部关注。连接的注意力被用于解码高分辨率特征。最后,决策头预测融合了FFM第一阶段和第二阶段特征的边缘图。

我们的贡献概括如下:(1)我们提出了一种新的基于变换的边缘检测器——边缘检测变换(EDTER ),用于检测自然图像中的物体轮廓和有意义的边缘。据我们所知,这是第一个基于变压器的边缘检测模型。(2) EDTER被设计成有效地探索长范围的全球背景(阶段I)和捕捉细粒度的局部线索(阶段II)。此外,我们提出了一种新的双向多级聚合(BiMLA)解码器来提高变压器中的信息流。(3)为了有效地整合全局和局部信息,我们使用一个特征融合模块(FFM)来融合从阶段I和阶段II提取的线索。(4)在三个著名的边缘检测基准上,包括BSDS500、NYUDv2和Multicue,大量的实验证明了EDTER的优越性

相关工作

最近,卷积神经网络(CNN)被成功地引入边缘检测研究[3,4,11,12,26,29,40,46,48,52,66]。DeepEdge [3]利用多级CNN提取的物体感知线索进行轮廓检测。[48]中的方法首先将轮廓面片划分为子类,然后学习模型参数以适合每个子类。最近,一些方法通过使用分级多尺度特征来改进边缘检测[22,36,37,65,66]、分割[8,54,70]和对象检测[35]。受[65]开创性工作的启发,大多数边缘检测器[22,36,37,66]通过多级学习从分层特征中生成对象边界。具体来说,HED [65]通过对侧输出层执行监督来学习丰富的分层特征,这提高了边缘检测的性能。RCF [36]将所有卷积层的分层特征组合成一个整体架构。为了获得有效的结果,BDCN [22]使用从双向级联结构推断出的特定层监督来指导每一层的训练。PiDiNet [53]将传统的边缘检测算子集成到CNN模型中,以提高性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/168859.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

webpack-dev-server:静态资源目录配置

目录 webpack-dev-server Webpack项目-配置自动打包 访问错误信息分析 简单配置静态资源访问目录 完整配置静态资源访问目录 directory属性 staticOptions属性 publicPath属性 serveIndex属性 watch属性 完整配置webpack.config.js示例 默认显示index.html内容配置 默…

fsdb DUMP的操作记录

参考链接: https://blog.csdn.net/ohuo666/article/details/124973939https://blog.csdn.net/ohuo666/article/details/124973939 https://blog.csdn.net/yuexiangallan/article/details/121760768https://blog.csdn.net/yuexiangallan/article/details/121760768…

基于 DolphinDB 的行情中心解决方案

随着国内量化金融的高速发展,行情数据所包含的微观交易结构信息越来越受到券商自营团队、资管团队以及各类基金的重视。这些交易团队迫切希望拥有一个与生产环境类似的投研仿真环境,提升研发的效率和质量。作为国内领先的高性能时序数据库厂商&#xff0…

【地铁上的Redis与C#】数据类型(七)--List类型

我们这篇文章开始讲解list类型。 什么是list list是一个存储空间保存多个数据,底层使用双向链表存储结构实现的一种Redis数据类型,。list类型一般用在存储多个数据,并需要对数据进入存储空间的顺序进行区分的情况下。list的存储方式是一个存…

气泡法检漏技术特点分析和新型压力衰减法测试技术

摘要:针对传统的气泡法检漏技术,本文详细介绍了气泡法的基本原理、气泡法中的两种标准方法——加压法和真空法以及对应的标准规范,并对这两种气泡法进行了对比分析。本文还对气泡法的技术特点进行了分析,指出了气泡法检漏技术的局…

使用ruoyi-vue控制数据权限

说在前面 啥是数据权限?例如校长可以看到全部学生的信息,系主任可以看到该院系的学生信息,老师可以看到本班的学生信息,学生自己只能查看自己的信息 对于ruoyi的角色,我们只能控制用户可以访问那些菜单以及接口,而不能控制接口返回的数据 假如有这样一个需求,不同用户上传各…

赛狐ERP | 亚马逊卖家FBA常见问题解析!

许多亚马逊卖家在使用亚马逊FBA时经常会遇到一些问题,如FBA如何收费、如何提升发货数量、物流方式问题等问题,这些问题是常见问题,也是亚马逊卖方们应该把握的问题。下面就来跟大家分享一些常见的亚马逊FBA相关问题。一、亚马逊FBA如何收费&a…

OSCP_vulnhub—GOLDENEYE: 1

vulnhub—GOLDENEYE: 1About信息搜集查看js泄露POP3 密码破解及登录使用admin/xWinter1995x!登录 getshell提权About GoldenEye: 1 ~ VulnHub Download (Mirror): https://download.vulnhub.com/goldeneye/GoldenEye-v1.ova DHCP service: Enabled IP address: Automaticall…

【Kubernetes 入门实战课】Day01——虚拟机创建及安装

文章目录前言一、实验环境选择二、选择合适的虚拟机软件1.VirtualBox2.VMWare三、Linux版本四、如何配置虚拟机1、安装VMware2、虚拟网络设置1、虚拟机网络编辑器2、设置 VMnet 8 网段3、创建虚拟机1、创建虚拟机2、启动虚拟机3、虚拟机配置4、虚拟机管理前言 俗话说&#xff…

[oeasy]python0052_ raw格式字符串_单引号_双引号_反引号_ 退格键

转义字符 回忆上次内容 最近玩的是\n、\r 之外的转义序列 \a是 ␇ (bell)\t是 水平制表符\v是 换行不回车 通过 16 进制数值转义 \xhh把(hh)16 进制对应的 ascii 字符输出 通过 8 进制数值转义 \ooo把(nnn)8 进制对应的 ascii 字符输出 这次加了 转义输出 反斜杠本身 \\ 输出…

24.Isaac教程--路径规划的区域划分

路径规划的区域划分 ISAAC教程合集地址: https://blog.csdn.net/kunhe0512/category_12163211.html 为了赋予地图区域关于通过它们规划的路径的语义意义,引入了三个新的规划器影响区域: No-replanning zones:当机器人通过这个多边形区域时&a…

python textwrap 模块,这里有你需要的学习资料

Python 标准库中的 textwrap 模块可以把长文本按照指定的宽度进行换行。这个模块提供了一些高级的文本处理功能,例如按照指定的宽度进行自动换行,保留段首缩进等。 python textwrap 模块python textwrap 模块主要函数textwrap.wrap(text, width70, \*\*k…

ruoyi-vue版本(四)@PreAuthorize 注解在若依里面的作用,springsecurity 框架相关的配置

目录1 需求2 实现2.1 背景2.2 实现2.3 springsecurity 框架相关的配置2.3.1 EnableGlobalMethodSecurity详解2.3.2 认证失败处理类AuthenticationEntryPointImpl2.3.3 自定义退出处理类LogoutSuccessHandlerImpl2.3.4 filter 为啥会多次执行3 PreAuthorize 注解1 需求 我们打开…

Flink面试题汇总

1,简单介绍一下 Flink Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务: DataSet API&#xf…

nacos多网卡服务器引发的问题

1、背景 某一日晚上,公司的一个微服务上线重启后,双节点,只有一个节点注册到了nacos服务器,另外一个节点一直在nacos界面上无法看到,两个节点的服务启动也没有报错,api网关转发给服务时,时不时有…

深度学习入门基础——卷积计算

卷积计算 卷积是数学分析中的一种积分变换的方法,在图像处理中采用的是卷积的离散形式。这里需要说明的是,在卷积神经网络中,卷积层的实现方式实际上是数学中定义的互相关 (cross-correlation)运算,与数学…

【进阶】数据在内存中的存储

目录 一、数据类型介绍 1、基本的内置类型 2、类型的基本归类 二、整型在内存中的存储 1、原码、反码、补码 2、大小端介绍 3、大端小端的经典例题 三、浮点数在内存中的存储 1、浮点数存储规则 2、浮点数存储例题 一、数据类型介绍 1、基本的内置类型 char /…

非标设备制造业项目管理软件如何帮助企业做好项目报价管理?

非标设备制造企业,由于需求的不确定性、方案的多样性、交期的紧迫性、以及批量小(很多需要先做单台样机)等特性,导致非标设备要在有限时间内做到准确报价存在一定的困难,这也是众多非标设备制造企业亟待解决的问题。报…

MySQL Shell 逻辑备份恢复API

MySQL8.0开始提供的MySQL Shell功能,是DBA推向了另一个高度,除SQL外,正式踏入Cloud数据库服务 和 shell操作数据库领域(MGR是一个代表点)。 日常DBA工作可以通过MySQL Shell更容易实现。因为MySQL Shell处理用JavaScr…

3、Ubuntu20Server安装远程连接

Ubuntu20Server安装 安装虚拟机virtualbox VMware Workstation Pro 下载Ubuntu安装光驱Get Ubuntu | Download | Ubuntu 都下载完毕准备安装驱动 配置信息 这里用的是Ubuntu Server 一路Done或回车过三关斩六将来到这里 安装到这里,需要修改镜像站点地址,修改为国内的163网易…