【论文阅读】Segment Anything Model for Road Network Graph Extraction

news2024/11/24 1:55:54

【论文阅读】Segment Anything Model for Road Network Graph Extraction (CVPRW 2024)

Paper链接:https://openaccess.thecvf.com/content/CVPR2024W/SG2RL/html/Hetang_Segment_Anything_Model_for_Road_Network_Graph_Extraction_CVPRW_2024_paper.html

文章目录

  • 【论文阅读】Segment Anything Model for Road Network Graph Extraction (CVPRW 2024)
    • 1. 摘要
    • 2. 方法
      • 2.1 整体结构
      • 2.2 Image Encoder
      • 2.3 Mask Decoder
      • 2.4 Topology Decoder
      • 2.5 Label Generation

1. 摘要

简单来说,本工作将矢量道路线提取的部分流程视为分割任务,利用SAM预训练模型的强大分割能力,实现了SOTA精度和极高的推理速度。

2. 方法

在这里插入图片描述

2.1 整体结构

SAM-Road整体由三个部分构成:

  1. Image Encoder:预训练SAM Image Encoder
  2. Geometry Decoder:即图中的Mask Decoder,由4层转置卷积构成,输出分割概率图
  3. Topology Decoder:由Transformer实现拓扑结构中的Message Passing

2.2 Image Encoder

采用最小版本,即ViT-B。训练时采用0.1倍的基础学习率来微调。

2.3 Mask Decoder

为了提升整体以及交叉点的提取精度,Mask Decoder同时输出两个通道数为1的masks,形状为(H_img, W_img, 2)。

  1. mask_0用于提取graph vertices。首先,道路由连续的mask表示,因此,每个像素点均有可能是graph vertex。为了获取sparse vertices,本工作设计了一种用于抑制多余vertices的NMS算法。

    NMS of Vertices算法
    1. 根据threshold预处理,消除分数低的像素。
    2. 以d_v为抑制距离(类似目标检测NMS中的IoU),半径内保留分数最高的vertex。
    

    这一步可能出现road vertices分数大于附近intersections的情况,从而出现误消除intersections的情况。

  2. mask_1用于提取intersections。使用同样的NMS算法。

两个masks经处理后,对二者进行join,并将intersections设置较高的分数,再次应用NMS得到最终的graph vertices。

2.4 Topology Decoder

Topology Decoder由3层多头注意力组成,用于将“离散”的vertices连接成拓扑结构。
在这里插入图片描述
本方法目的是寻找每个顶点的一阶邻居,并将此视为二分类任务。步骤如下:

  1. 选择一个source vertex;

  2. R n b r R_{nbr} Rnbr范围内选择至多 N n b r N_{nbr} Nnbr个target vertex,构成多个vertex pairs;

    注意,source vertex与每个target vertex都是一阶邻居关系

  3. 对所有选中的顶点计算特征(根据坐标,通过在特征图上进行Bilinear Sample得到顶点特征,即Figure 2中的Source Feat和Target Feat);

  4. 对所有vertex pairs计算offset,得到 d k d_{k} dk

  5. 拼接Source Feat,Target Feat和 d k d_k dk,得到形状为 ( N n b r , 2 D f e a t + 2 ) (N_{nbr}, 2D_{feat}+2) (Nnbr,2Dfeat+2)的向量,并proj到 ( N n b r , D f e a t ) (N_{nbr}, D_{feat}) (Nnbr,Dfeat)作为query;

  6. 经3层多头注意力后,将query输入线性层得到分类logits,表示vertex pairs相连的概率。

2.5 Label Generation

  • Mask Labels

    1. 使用宽度为3个像素的mask代表道路线段;
    2. 使用半径为3个像素的mask代表intersections;
  • Topology Labels

    • 以教师强制方式训练Topology Decoder

      1. 均匀采样gt mask得到模拟概率图,在此基础上应用NMS Vertices等算法;
      2. 使用高斯分布对gt vertices坐标进行随机扰动;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2188429.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SSM医疗信息管理系统(源码+定制+参考)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

vue文件的认识

1.package.json 项目包文件 里面包含许多可以在命令提示符中运行的命令,这里使用vue3创建的项目,所以dev是“vite”。 2.main.js 整个项目的入口文件,createApp创建应用实例 createApp(App).mount(#app) 这句话意思是以App作为参数生成一…

ElasticSearch备考 -- Search scroll

一、题目 Search for all documents in all indices As above, but use the scroll API to return the first 100 results while keeping the search context alive for 2 minutes Use the scroll id included in the response to the previous query and retrieve the next ba…

启用vnc访问Dell 服务器IDRAC 7虚拟控制台

Dell IDRAC 7 版本太老,SSL证书过期,IDRAC的Java和本地远程虚拟机控制台访问不了,怎么办? 可以启用vnc访问IDRAC 虚拟控制台

Vue2如何在网页实现文字的逐个显现

目录 Blue留言: 效果图: 实现思路: 代码: 1、空字符串与需渲染的字符串的定义 2、vue的插值表达式 3、函数 4、mounted()函数调用 结语: Blue留言: 在国庆前夕,突发奇想,我想…

SAP HCM 自定义累计期间

需求是按3月~8月,9月~次年2月,做为累计期间,怎么处理?

微信小程序hbuilderx+uniapp+Android 新农村综合风貌旅游展示平台

目录 项目介绍支持以下技术栈:具体实现截图HBuilderXuniappmysql数据库与主流编程语言java类核心代码部分展示登录的业务流程的顺序是:数据库设计性能分析操作可行性技术可行性系统安全性数据完整性软件测试详细视频演示源码获取方式 项目介绍 小程序端…

5G NR coreset 简介

文章目录 5G 为何引入CORESETCORESET介绍CORESET 分类 5G 为何引入CORESET 在LTE系统中,PDCCH频域占据整个带宽,始于占据每个RB的前1~3个OFDM 符号,这种情况下,UE 只需知道PDCCH 所占据的OFDM 符号数,就可以确定PDCCH…

内存对齐

内存对齐的基本规则是:只能在自己所占字节的整数倍的内存地址上存放(结构体也是如此)。 假如定义一下变量: 对应的存储格式为: 由于变量C占四个字节,所以从12开始。 对于整个结构体而言:结构体…

【Web】portswigger 服务端原型污染 labs 全解

目录 服务端原型污染 为什么服务器端原型污染更难检测? 通过受污染的属性反射检测服务器端原型污染 lab1:通过服务器端原型污染进行权限提升 无需污染属性反射即可检测服务器端原型污染 状态代码覆盖 JSON 空格覆盖 字符集覆盖 lab2:检测没有污染属性反射的…

Pikachu-xss防范措施 - href输出 js输出

总体原则: 输入做过滤,输出做转义 过滤:根据业务需要进行过滤,如:输入点要求输入手机号,则只允许输入手机号格式的数字; 转义:所有输出到前端的数据,都根据输出点进行转…

银河麒麟V10如何快速进入单用户模式?

银河麒麟V10如何快速进入单用户模式? 1. 进入GRUB菜单2. 编辑启动项3. 登录系统4. 修改启动参数5. 退出单用户模式 💖The Begin💖点点关注,收藏不迷路💖 银河麒麟高级服务器操作系统V10在系统维护或故障排查时&#xf…

70.【C语言】动态内存管理(重点)(3)

承接69.【C语言】动态内存管理(重点)(2)文章 目录 4.calloc函数 cplusplus网的翻译 提炼要点 使用 5.recalloc函数 使用说明 作用 调整内存空间的几种情况 1.原有空间之后有足够大的空间 2.原有空间之后没有足够大的空间 建议 代码 用recalloc函数来实现malloc函…

学习C语言(22)

整理今天的学习内容 1.常见的动态内存的错误 (1)对NULL指针进行解引用操作 (2)对动态开辟空间的越界访问 (3)对非动态开辟内存使用free释放 (4)使用free释放一块动态开辟内存的一部…

抖音巨量千川涨粉操作流程,值得学习

抖音巨量千川涨粉操作流程值得学习:rjxbb0616 1、找到抖音合作码(在抖音APP里:我-右上角三条杠-设置-账号与安全-我的合作码)复制合作码发给合作商。 2、合作商在千川平台上发布一个虚拟的热门作品到抖音,然后在千川账户建立目标账…

mysql连接池

MySQL连接池 什么是数据库连接池? ​ 定义:数据库连接池(Connection pooling)是程序启动时建立一定数量的数据库连接,并将这些连接组成 一个连接池,由程序动态地对池中的连接进行申请,使用&am…

HTML:相关概念以及标签

目录 什么是网页? 什么是HTML语言? 语法规范 HTML基本结构标签 DOCTYPE,lang以及字符集 HTML常用标签 5>图像标签(重要) 除此之外还有几个调整图片属性的标签 图像标签总结 什么是网页? 我们平时使用电脑和手机都是离不开网站和网页的,那么什么是网页呢?什么又是网…

Yolov8改进轻量级网络Ghostnetv2

1,理论部分 轻量级卷积神经网络 (CNN) 专为移动设备上的应用程序而设计,具有更快的推理速度。卷积运算只能捕获窗口区域中的局部信息,这会阻止性能进一步提高。将自我注意引入卷积可以很好地捕获全局信息,但会在很大程度上阻碍实际速度。在本文中,我们提出了一种硬件友好…

【技术分析】嘉楠科技SoC芯片K230

概述 K230是嘉楠科技Kendryte系列AIoT芯片中的最新一代SoC芯片,该芯片采用全新的多异构单元加速计算架构,集成的玄铁C908具有2个高能效RISCV计算核心,内置新一代KPU(Knowledge Process Unit)智能计算单元,…

【cpp/c++ summary 工具】 Hunter 报错 CMake hunter error: Unexpected MSVC_VERSION

原因:使用的MSVC编译器版本较高,而Hunter版本较低,可在https://github.com/cpp-pm/hunter/releases配置高版本Hunter # HunterGate( # URL "https://github.com/cpp-pm/hunter/archive/v0.23.297.tar.gz" # SHA1 "33…