PromptGIP:Unifying lmage Processing as Visual Prompting Question Answering

news2025/3/18 13:16:56

“Unifying Image Processing as Visual Prompting Question Answering” 文章提出了一种名为 PromptGIP 的通用模型,将图像处理任务统一为视觉提示问答范式,在多个图像处理任务上展现出良好性能,为通用图像处理提供了新的思路和方法。

在这里插入图片描述

conference:2024 ICLR
paper:https://arxiv.org/pdf/2310.10513v2
code:https://github.com/lyh-18/PromptGIP

文章目录

  • 1. 研究背景与目的
    • 1.1 图像处理任务的重要性与传统方法的局限
    • 1.2 大模型发展趋势与视觉领域的探索
    • 1.3 研究目的
  • 2. 研究方法
    • 2.1 图像作为视觉问答
    • 2.2 掩码视觉提示范式
  • 3. 实验设置与结果分析
    • 3.1 实验任务设置
    • 3.2 实验细节
    • 3.3 实验结果分析
  • 4. 研究结论与展望
    • 4.1 研究结论
    • 4.2 研究局限与展望

1. 研究背景与目的

1.1 图像处理任务的重要性与传统方法的局限

图像处理涵盖图像恢复、增强、特征提取等,是计算机视觉基础任务,用于提升图像质量和提取特征。传统方法需针对不同任务开发特定模型,如SRCNN用于超分辨率、DnCNN用于去噪等,但泛化能力有限。目前的 All-in-one 恢复方法虽能处理多种恢复任务,但在生成替代表示(如风格化图像或图像边缘)方面存在不足。

1.2 大模型发展趋势与视觉领域的探索

大模型在自然语言处理领域成功统一多种任务,计算机视觉领域也有类似趋势,如Meta AI的SAM用于图像分割,通过大规模预训练实现零样本泛化。然而,当前大模型多关注高级视觉任务,低级视觉任务受关注较少。

1.3 研究目的

提出PromptGIP模型,统一多种图像处理任务,包括图像恢复、增强、特征提取等,采用视觉提示问答范式,处理不同输出域任务,探索模型泛化能力,为通用图像处理提供新方法。

2. 研究方法

2.1 图像作为视觉问答

受NLP提示学习启发,将图像处理统一为视觉提示问答范式。模型推理时,依据输入输出图像对(作为任务提示)处理新输入图像生成预测输出。例如,输入“雨天 - 无雨”图像对提示,模型对目标输入图像执行去雨操作;若提示答案与图像边缘相关,模型对查询图像进行边缘检测。
在这里插入图片描述

2.2 掩码视觉提示范式

采用掩码自动编码方法(MAE),训练时对答案图像随机掩码,促使模型从无掩码部分重建。模型训练于包含不同图像处理目标(如恢复、增强、边缘检测)的数据集,推理时根据输入输出对执行相应操作。
在这里插入图片描述

3. 实验设置与结果分析

3.1 实验任务设置

实验包含15种图像处理任务,分为三类:

  • 图像恢复任务(10种):包括高斯噪声、高斯模糊、泊松噪声、椒盐噪声、JPEG压缩、振铃伪影、R - L算法、图像修复、雾霾、雨等类型的处理。针对前八种通过对ImageNet数据集引入失真创建退化 - 干净图像对,去雾利用RESIDE数据集的ITS训练集,去雨采用两种雨添加模型(Simple Rain Model和Complex Rain Model),并使用多个常用数据集组成Common528数据集用于测试。
  • 图像增强任务(2种):低光图像增强(LLE)采用LOL数据集训练,局部拉普拉斯滤波(LLF)通过对Adobe - MIT Fivek数据集的expert - C修饰图像应用局部拉普拉斯滤波器形成输入输出对,LLF用于边缘保留细节增强。
  • 图像边缘检测任务(2种):使用Canny和Laplacian算子,基于ImageNet数据集创建输入输出训练对。

3.2 实验细节

采用ViT - large作为骨干架构。在训练期间,模型以“Q - A - Q - A”模式处理四个256×256图像的序列,从而得到4×256×256的总输入分辨率。使用L1损失作为损失函数。在优化方面,采用带有余弦退火学习率调度器的AdamW优化器。基础学习率为1e - 4。批量大小为48。使用8个8TeslaV100GPUs进行训练。总共执行50个轮次。对于测试Painter和PromptGIP,为每个任务构建20个图像提示取最佳结果

3.3 实验结果分析

  • 任务处理能力与视觉效果:PromptGIP能有效处理多种图像处理任务,视觉效果良好(如图5、6所示)。在图像恢复任务上表现出色,定量得分优于Real - ESRGAN等模型(如表1所示)。

在这里插入图片描述

  • QA范式和掩码训练策略有效性:QA范式改进了模型性能,掩码训练策略增强了模型处理不同任务的能力及稳定性。如在图像去雾任务中,直接预测效果不佳,而掩码训练策略有效(如表3所示)。
    在这里插入图片描述

  • 分布外任务泛化能力:模型在分布外任务(如混合退化恢复、颜色化、风格转移)上有一定泛化能力,但存在局限性,如无法完美处理未见过的混合退化图像和颜色化任务(如图8所示)。

4. 研究结论与展望

4.1 研究结论

PromptGIP模型可处理多种图像处理任务,通过视觉提示问答范式能解释任务线索并生成相关输出,具有一定泛化性。

4.2 研究局限与展望

模型在生成新兴结果方面能力有限,训练数据的质量、多样性和数量可能影响性能。当前骨干网络ViT在处理低级视觉任务时存在高频信息丢失问题,导致结果不理想,未来可采用更强的骨干模型提升性能,进一步探索模型在通用图像处理中的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2266335.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【MySQL】索引 面试题

文章目录 适合创建索引的情况创建索引的注意事项MySQL中不适合创建索引的情况索引失效的常见情况 索引定义与作用 索引是帮助MySQL高效获取数据的有序数据结构,通过维护特定查找算法的数据结构(如B树),以某种方式引用数据&#xf…

Doxygen 使用指南

Doxygen 是一个文档生成工具,可以从源代码中的注释生成高质量的文档,支持多种编程语言(如 C/C、Python、Java 等)。以下是 Doxygen 的基本使用方法。 1. 安装 Doxygen 1.1 下载 Doxygen 访问 Doxygen 官网。根据操作系统选择合适…

Jensen-Shannon Divergence:定义、性质与应用

一、定义 Jensen-Shannon Divergence(JS散度)是一种衡量两个概率分布之间差异的方法,它是Kullback-Leibler Divergence(KL散度)的一种对称形式。JS散度在信息论、机器学习和统计学等领域中具有广泛的应用。 给定两个概…

一个特别的串口通讯

背景 设备是EPICS流式细胞仪,这个设备的控制系统是在DOS系统上的。数据存储在硬盘上,不带串口通讯功能。我们遇到了这个设备后,就开发了一个DOS下的执行程序通过串口,将最新的数据自动上传到服务器上。 编译工具 Turbo C 数据…

4.系统学习-集成学习

集成学习 前言Bias and Variance过拟合(overfitting)与欠拟合(underfitting)集成学习为什么有效?Blending 模型集成Stakcing 模型集成Bagging模型集成Bagging 模型集成算法流程:Boosting模型集成作业 前言 …

电商项目高级篇07-redisson分布式锁

redisson分布式锁 1、引入maven依赖2、config类3、可重入锁设计 1、引入maven依赖 <!--引入redisson--><dependency><groupId>org.redisson</groupId><artifactId>redisson</artifactId><version>3.12.0</version></depend…

Nginx的性能分析与调优简介

Nginx的性能分析与调优简介 一、Nginx的用途二、Nginx负载均衡策略介绍与调优三、其他调优方式简介四、Nginx的性能监控 一、Nginx的用途 ‌Nginx是一种高性能的HTTP和反向代理服务器&#xff0c;最初作为HTTP服务器开发&#xff0c;主要用于服务静态内容如HTML文件、图像、视…

递归算法常见问题(Java)

问题&#xff1a;斐波那契数列,第1项和第2项都为1&#xff0c;后面每一项都为相邻的前俩项的和,求第n个数 解法&#xff1a;每一个数都为前俩个数之和&#xff0c;第1项和第2项都为1&#xff0c;所以写 方法f1(n)即为求第n个数&#xff0c;那么f1(n-1)为求第n-1个数&#xff0…

SpringBoot + HttpSession 自定义生成sessionId

SpringBoot HttpSession 自定义生成sessionId 业务场景实现方案 业务场景 最近在做用户登录过程中&#xff0c;由于默认ID是通过UUID创建的&#xff0c;缺乏足够的安全性&#xff0c;决定要自定义生成 sessionId。 实现方案 正常的获取session方法如下&#xff1a; HttpSe…

【流量、洪水数据下载】网站介绍和下载经验....不断更新!

EarthData 介绍 NASA:链接 数据下载 视频教程:Discover and Access Earth Science Data Using Earthdata Search 数据下载需要注册,已经被卡在邮箱验证上【2024-12-26】… Essential Climate Variables——【The Global Climate Observing System(GCOS) 介绍 其是支…

Pytorch | 利用SMI-FGRM针对CIFAR10上的ResNet分类器进行对抗攻击

Pytorch | 利用I-FGSSM针对CIFAR10上的ResNet分类器进行对抗攻击 CIFAR数据集SMI-FGRM介绍SMI-FGRM算法流程 SMI-FGRM代码实现SMI-FGRM算法实现攻击效果 代码汇总smifgrm.pytrain.pyadvtest.py 之前已经针对CIFAR10训练了多种分类器&#xff1a; Pytorch | 从零构建AlexNet对CI…

少儿编程在线培训系统:客户服务与学习支持

2.1 VUE技术 VUE它是由HTML代码&#xff0c;配上嵌入在HTML代码里面的Java代码组成的应用于服务器端的语言&#xff0c;使用VUE进行开发能够更加容易区分网页逻辑以及网页设计内容&#xff0c;让程序员开发思路更加清晰化&#xff0c;VUE在设计组件时&#xff0c;它是可以重用的…

流批一体向量化计算引擎 Flex 在蚂蚁的探索和实践

编者按&#xff1a;Flex是蚂蚁数据部自研的一款流批一体的向量化引擎&#xff0c;Flex是Fink和Velox的全称&#xff0c;也是Flexible的前缀&#xff0c;被赋予了灵活可插拔的寓意。本文将重点从向量化技术背景、Flex架构方案和未来规划三个方面展开论述。 作者介绍&#xff1a;…

upload-labs关卡记录11

先上传一个一句话木马试试&#xff0c;居然可以上传成功&#xff0c;复制图片链接&#xff0c;在另一个窗口打开&#xff1a; 会发现&#xff0c;我们明明上传的是shell.php&#xff0c;但是这里就是没有了php,这样我们在执行我们相关的语句的时候就无法执行了&#xff1a; 就…

WebRTC服务质量(08)- 重传机制(05) RTX机制

WebRTC服务质量&#xff08;01&#xff09;- Qos概述 WebRTC服务质量&#xff08;02&#xff09;- RTP协议 WebRTC服务质量&#xff08;03&#xff09;- RTCP协议 WebRTC服务质量&#xff08;04&#xff09;- 重传机制&#xff08;01) RTX NACK概述 WebRTC服务质量&#xff08;…

借助 obdiag,让 OceanBase 参数和变量的对比更简单

本文将介绍 obdiag 工具中参数对比和变量对比功能的适用场景和试用方法。​​​​​​​ obdiag 参数和变量对比功能的适用场景 参数对比功能适用场景 不同observer对于同一参数允许配置不同的值&#xff0c;实际生产环境中&#xff0c;用户可能因多种原因在不同observer上为同…

Net9解决Spire.Pdf替换文字后,文件格式乱掉解决方法

官方文档 https://www.e-iceblue.com/Tutorials/Spire.PDF/Program-Guide/Text/Find-and-replace-text-on-PDF-document-in-C.html C# 在 PDF 中查找替换文本 原文件如下图&#xff0c;替换第一行的新编码&#xff0c;把41230441044替换为41230441000 替换代码如下&#xff…

VBA技术资料MF246:将工作表中形状复制到WORD文档

我给VBA的定义&#xff1a;VBA是个人小型自动化处理的有效工具。利用好了&#xff0c;可以大大提高自己的工作效率&#xff0c;而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套&#xff0c;分为初级、中级、高级三大部分&#xff0c;教程是对VBA的系统讲解&#…

一次医院RIS系统的升级

2020-03-11 目录 数据库升级... 1 数据结构升级... 1 系统配置... 2 WEB服务器准备... 3 启动ASP.NET State Service服务... 3 检查IIS. 4 发布站点... 4 添加应用程序池... 4 发布网站... 5 处理打印模板... 6 web.config的配置... 6 处理图片文件目录... 6 修改W…

显示 Windows 任务栏

显示 Windows 任务栏 1. 取消勾选自动隐藏任务栏2. 重启 Windows 资源管理器References 1. 取消勾选自动隐藏任务栏 Windows 任务栏具有自动隐藏功能&#xff0c;不使用时自动隐藏&#xff0c;使用时显示。 鼠标右键单击桌面上的空白区域&#xff0c;个性化 -> 任务栏。不…