PolyFormer：将图像分割称为顺序多边形生成

news2026/3/30 2:29:47

文章目录

PolyFormer: Referring Image Segmentation as Sequential Polygon Generation\
- 摘要
- 本文方法
- - Multi-modal Transformer Encoder
  - Regression-based Transformer Decoder
- 实验结果

PolyFormer: Referring Image Segmentation as Sequential Polygon Generation\

摘要

在这项工作中，参考图像分割的问题被公式化为顺序多边形生成，而不是直接预测像素级分割掩码，并且预测的多边形可以稍后转换为分割掩码。
这是由一个新的序列到序列框架Polygon Transformer（PolyFormer）实现的，该框架以一系列图像patch和文本查询token作为输入，并自回归地输出一系列多边形顶点。
为了更精确的几何定位，提出了一种基于回归的解码器，它可以直接预测精确的浮点坐标，而没有任何坐标量化误差。
代码地址

本文方法

在这里插入图片描述
PolyFormer不是预测密集的分割mask，而是按顺序生成边界框的角点和勾勒对象轮廓的多边形的顶点。具体来说，我们首先使用视觉编码器和文本编码器分别提取图像和文本特征，然后将其投影到共享的嵌入空间中。接下来，我们将图像和文本特征连接起来，并将它们输入到多模式转换器编码器中。
最后，基于回归的变换器解码器获取编码的特征，并以自回归的方式输出连续浮点边界框角点和多边形顶点
分割mask生成为多边形所包含的区域
在这里插入图片描述
图3。多边形序列表示的图示。多边形中的顶点按顺时针顺序排序，其中起点（橙色点）是最靠近图像原点的顶点。分割遮罩生成为多边形所包含的区域。

Multi-modal Transformer Encoder

输入：图像为swin transformer
文本为bert
融合：
在这里插入图片描述
线性映射到相同形状，然后concat
多模编码器由N个transformer层组成，其中每一层由一个多头自注意层、一个层归一化和一个前馈网络组成。它采用级联特征FM并逐步生成多模态特征FNM。

Regression-based Transformer Decoder

在这里插入图片描述
基于回归的transformer解码器的架构（a）。2D坐标嵌入是通过双线性插值从附近的网格点获得的，如（b）所示。

实验结果

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/622416.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

为什么会有分布式锁？分布式锁实现方案

为什么会有分布式锁？分布式锁实现方案

分布式锁是控制分布式系统之间同步访问共享资源的一种方式。分布式环境下会出现资源竞争的地方都需要分布式锁的协调。分布式锁的作用：在整个系统提供一个全局、唯一的锁，在分布式系统中每个系统在进行相关操作的时候需要获取到该锁，才能执…

阅读更多...

Calibre 6.18.1 正式发布，功能强大的开源电子书工具

Calibre 6.18.1 正式发布，功能强大的开源电子书工具

导读Calibre 开源项目是 Calibre 官方出的电子书管理工具。它可以查看，转换，编辑和分类所有主流格式的电子书。Calibre 是个跨平台软件，可以在 Linux、Windows 和 macOS 上运行。 Calibre 6.18.1 正式发布，此次更新内容如下&#…

阅读更多...

$数据挖掘(6.1)--神经网络$

数据挖掘(6.1)--神经网络

目录神经网络简介 BP算法 Delta学习规则的基本原理 BP神经网络的结构 BP神经网络的算法描述神经网络训练一般步骤后向传播算法的主要步骤优缺点 BP算法简单举例神经网络简介神经网络是一种计算模型，它受到人脑处理信息的生物神经网络过程的启发。人…

阅读更多...

围绕工业 APT 攻击的主要问题

围绕工业 APT 攻击的主要问题

高级持续威胁 (APT) 行动在受害者网络内取得成功的关键因素包括人为因素、安全措施不足、网络安全解决方案更新和配置方面的挑战以及其他因素。虽然其中一些原因可能看起来微不足道，但卡巴斯基专家在事件响应活动中经常遇到这些问题。为帮助公司减轻相关威胁并确…

阅读更多...

win系统将脚手架的软链接指向本地脚手架

win系统将脚手架的软链接指向本地脚手架

先了解一下脚手架研发、发布、安装、调试发大致流程： 本地研发，具体研发过程略当前目录下登录npm npm login发布脚手架 npm publish安装脚手架 npm i -g xxxx（win系统会在系统盘的nodejs文件夹下自动添加脚手架执行命令和执行文件&#xff0…

阅读更多...

94.构建样品餐部分第二节

94.构建样品餐部分第二节

上节课完成的页面是这样的 ● 之后我们设置一下图标 .meal-attribute {font-size: 1.8rem;font-weight: 500;display: flex;align-items: center;gap: 1.6rem; }.meal-img {width: 100%; }.meal-icon {height: 2.4rem;width: 2.4rem;color: #e67e22; }● 为了突出这些参数的…

阅读更多...

Go1.21 速览：新内置函数 clear、min、max 和新标准库包 cmp！

Go1.21 速览：新内置函数 clear、min、max 和新标准库包 cmp！

大家好，我是煎鱼。前面给大家分享了 Go1.21 正式不支持 macOS 10.13 和 10.14 的支持。吓得我赶紧把我的 2017 款的老爷机从 10.14 升成 13.4。感觉 mbp 已经变成了暖宝宝。😅 今天给大家分享的是 Go 1.21 中的两个双新增项，分别是新的 3 个…

阅读更多...

QTYX量化系统实战案例分享｜涨停股池中寻找反弹机会-202306

QTYX量化系统实战案例分享｜涨停股池中寻找反弹机会-202306

前言 “实战案例分享系列”是和大家分享一些股票量化分析工具QTYX在实战中的应用案例（包括失败的案例），这样能够帮助大家更好地去理解QTYX中的功能设计，也能更好地帮助大家搭建出属于自己的量化交易系统。关于QTYX的使用攻略可以…

阅读更多...

Clion开发STM32之链接文件进行模块的一个解耦(编程方式)

Clion开发STM32之链接文件进行模块的一个解耦(编程方式)

问题的引入在单片机的开发过程中，往往涉及到驱动的移植，但是移植的过程中又会去添加和修改主逻辑的驱动引脚初始化或时钟初始化，这里面就会存在一个问题就是：改动的地方太多了，容易影响到其它功能模块。所以能不能做…

阅读更多...

200SMART CPU输入/输出接线的几个关键点

200SMART CPU输入/输出接线的几个关键点

总结来看，S7-200系列PLC提供4个不同的基本型号的8种CPU，其接线方式也可大致分为6种： 1.CPU SR20接线 2.CPU SR40接线 3.CPU CR40接线 4.CPU ST40接线 5. CPU SR60接线 6. CPU ST60接线除了CPU外，我们还需要了解200smart PLC的数…

阅读更多...

Rocketmq面试（二）Rocketmq如何保证消息不丢失

Rocketmq面试（二）Rocketmq如何保证消息不丢失

如果想要保证消息不丢失就要知道，消息可能出现丢失得地方。 1.producer发送消息 2.Broker存储消息 3.Consumer消费消息 4.Broker主从切换下面一共有9个维度可以保证消息不丢失。目录维度一：同步发送维度二.异步发送维度三.刷盘策略维度四…

阅读更多...

后端——平台登录功能实战

后端——平台登录功能实战

这里写目录标题一、登录接口设计示意图二、后端设计三、创建用户表四、后端鉴权逻辑五、登录接口实现六、使用 JWT 生成 token七、路由鉴权八、登录与测试用例服务结合九、跨域一、登录接口设计示意图二、后端设计三、创建用户表 db=SQLAlchemy(app

阅读更多...

华尔街新风向：多基金失英伟达机会

华尔街新风向：多基金失英伟达机会

在过去一年多的美联储暴力加息周期中，科技成长股一直不怎么受到主流投资者待见，但面对今年美股“人工智能涨个不停”的局面后，过去两周里大量的知名基金都在撒开脚丫子狂追高速狂飙的“英伟达列车”。根据监管文件显示，包括道富…

阅读更多...

视频与AI，与进程交互(一)

视频与AI，与进程交互(一)

目的正在写一个视频与AI的工具，从接入，算法处理，转发，存储， 到调用AI进程，并且与AI进程进行交互，插件化，脚本化，做得比较辛苦，期间的进程和线程交互以及结果…

阅读更多...

基于奥比中光深度相机进行虹膜识别处理

基于奥比中光深度相机进行虹膜识别处理

MATLAB仿真实现效果展示图1 奥比中光红外深度相机拍摄效果 MATLAB仿真红外效果的图片，使用奥比中光的Astra_Pro深度相机和Astra进行拍摄，效果很好。声明：本文的虹膜识别系统模型参考了西澳大利亚大学，计算机科学与软件工程学…

阅读更多...

Spark 优化

Spark 优化

1.RDD分区数 Task是作用在每个分区上的，每个分区至少需要一个Task去处理改变分区数可间接改变任务的并行度，类似手动指定Reduce数量第一个RDD的分区数由切片的数量决定默认情况下子RDD的分区数等于父RDD的分区数 Shuflle类算子可手动指定RDD分区数设…

阅读更多...

chatgpt赋能python：Python屏幕截图并保存：简单易用的库

chatgpt赋能python：Python屏幕截图并保存：简单易用的库

Python屏幕截图并保存：简单易用的库屏幕截图是程序员们在软件开发中常用到的一个小技巧，对于调试、记录Bug、编写文档等方面有极大的帮助。而其中，Python成为了众多程序员的利器之一。在Python中，大量的库提供了屏幕截图的方法…

阅读更多...

PX4-机架选取（基于QG地面站）

PX4-机架选取（基于QG地面站）

因为我的无人机是F450，所以我选用F450的机架点击应用后，要稍等一会应用完成后在概述会标识

阅读更多...

经纬度坐标为中心点生成米距离长度半径的圆形面，含java js源码+在线绘制，代码简单零依赖

经纬度坐标为中心点生成米距离长度半径的圆形面，含java js源码+在线绘制，代码简单零依赖

文章目录 java版源码js版源码在线绘制预览效果关于计算的精确度前些时间在更新我的坐标边界查询工具的时候，需要用到经纬度坐标点的距离计算，和以坐标点为中心生成一个指定距离为半径的圆，搜了一下没有找到现成简单又合适的代码，…

阅读更多...

基于OpenCV 和 Dlib 进行头部姿态估计

基于OpenCV 和 Dlib 进行头部姿态估计

写在前面工作中遇到，简单整理博文内容涉及基于 OpenCV 和 Dlib头部姿态评估的简单Demo理解不足小伙伴帮忙指正庐山烟雨浙江潮，未到千般恨不消。到得还来别无事，庐山烟雨浙江潮。 ----《庐山烟雨浙江潮》苏轼 https://github.com/LIRUILONGS…

阅读更多...

推荐文章

最新文章