InstructIR: High-Quality Image Restoration Following Human Instructions 论文阅读笔记

news2024/12/24 20:35:39

在这里插入图片描述

  • 这是Radu大佬所在的Würzburg大学的computer vision lab实验室发表在ECCV2024上的一篇论文,代码开源。
  • 文章提出了一种文本引导的All-in-One的restoration模型,如下图所示:
    在这里插入图片描述
  • 这个工作其实跟"InstructPix2Pix: Learning to Follow Image Editing Instructions"这个工作很像,下面是instructPix2Pix的流程,其核心思想是利用GPT-3,stable diffusion和prompt2prompt这三个方法,生成图像编辑数据集,用来train一个stable diffusion model,实现文本引导图像编辑
    在这里插入图片描述
  • 而下面是instructIR的流程,backbone的模型用的是NAFNet。首先用GPT4先生成一堆prompt,并手动筛除掉一些低质量的prompt,这些prompt都是带有degradation type的标注的(可能是生成的时候就带有标注,并手动修正了),最终产生用于训练的1w个带分类标注的prompt。然后用一个纯NLP的sentence text encoder(而非常见的CLIP text encoder)来对句子提取文本编码。这个text encoder是在NLP任务上pretrain好后fix住的,文章说finetue这个text encoder效果不好,所以直接fix住,在其输出上再接一层MLP,只train这个MLP,MLP的输出e即是直接用到instructIR的文本embedding e e e
    在这里插入图片描述
  • 在训练的时候,会增加一个分类loss,把 e e e送进一个分类头,输出degradation type的分类结果,并计算分类损失。
  • NAFNet本来是没有文本进去的,所以要改一下,其实就是加了个通道的加权,把这个文本的embedding,送进MLP+sigmoid,得到的1维向量用来对特征进行通道乘法,然后加了个block进一步处理,再加个残差,这就是往NAFNet的encoder和decoder的各个layer中添加的ICB:
    在这里插入图片描述
  • 训练的时候,是在多种degradation的数据集的混合数据集上train的,包括BSD400,LOL等,然后每个sample是已知degradation(不过强度是多种的,比如denoise就有3种sigma,所以文章专门说自己是blind restoration因为只知道type不知道强度),所以从预先生成的对应degradation的prompt库中随机抽一个prompt。
  • 实验结果看起来不错:
    在这里插入图片描述
    在这里插入图片描述
  • 这里的w/o text就是消融实验,把文本的部分拆掉重新train一个模型出来,可以看到效果是很差的,说明文本确实起作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2229203.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

libavdevice.so.58: cannot open shared object file: No such file ordirectory踩坑

博主是将大图切分成小图时遇到 问题一、linux编译后,找不到ffmpeg中的一个文件 产生原因,各种包集成,然后安装以后乱七八糟,甚至官方的教程也不规范导致没有添加路径到系统文件导致系统执行的时候找不到 1.下载 博主进行的离线…

【SQL实验】表的更新和简单查询

完整代码在文章末尾 在上次实验创建的educ数据库基础上,用SQL语句为student表、course表和sc表中添加以下记录 【SQL实验】数据库、表、模式的SQL语句操作_创建一个名为educ数据库,要求如下: (下面三个表中属性的数据类型需要自己设计合适-CSDN博客在这篇博文中已经…

UHF机械高频头的知识和待学习的疑问

电路图如上所示: 实物开盖清晰图如下: 待学习和弄懂的知识: 这是一个四腔的短路线谐振。分别是输入调谐,放大调谐,变频调谐和本振 第一个原理图输入为75欧(应该是面向有同轴线的天线了)如下图…

学习路之TP6--workman安装

一、安装 首先通过 composer 安装 composer require topthink/think-worker 报错: 分析:最新版本需要TP8,或装低版本的 composer require topthink/think-worker:^3.*安装后, 增加目录 vendor\workerman vendor\topthink\think-w…

【三十八】【QT开发应用】vlcplayer视频播放器(一)实现视频播放,视频暂停,视频停止,进度条调节,音量调节,时长显示功能

效果展示 vlcplayer_test视频播放器 MainWidget.ui 注意控件的布局和命名,控件的命名和信号与槽函数的绑定有关,所以这点很重要。 下载VLC组件和环境配置 videolan下载地址我下载的是vlc-3.0.8-win64版本. 将下载的文件复制粘贴到项目文件中. 复制粘…

5G NR NARFCN计算SSB中心频率MATLAB实现

本期给大家带来5G NR中已知绝对射频信道号NARFCN如何计算SSB的中心频率,用MATLAB实现,参考3GPP 38.104 下图是NARFCN与SSB中心频率换算关系,其中NREF就是NARFCN。 函数输出频率的单位是MHZ,输入是NARFCN。 有不清楚的地方欢迎来…

auto 项目笔记

基础设置 1.设置python目录为根路径 1. merge_with_history debug (1) coomon.yaml 修改 最下边的 root: /mnt/sdb/daimler/EHPV2/Ruiming_InternalDaily (2) 环境变量设置为1时 不走此步骤做的任何处理,直把上步数据接透传出去 2.

深度学习(九):推荐系统的新引擎(9/10)

一、深度学习与推荐系统的融合 深度学习在推荐系统中的融合并非偶然。随着互联网的飞速发展,数据量呈爆炸式增长,传统推荐系统面临着诸多挑战。例如,在处理大规模、高维度的数据时,传统方法往往显得力不从心。而深度学习以其强大的…

如何建立测试团队的知识库

后台有同学留言,问了这样一个问题: 刚担任测试负责人,团队流程很乱,需求不甚明确,测试工作基本靠员工的熟练程度,项目交付质量堪忧。 迭代排期紧张,新招来的同学没人带,也没有文档之…

Spring 框架环境搭建

一、环境要求 JDK版本: JDK1.7及以上版本 Spring版本: Spring5.x版本 二、新建Maven项目 1. 创建 Maven 的普通 Java 项⽬ 2.设置项目坐标 3.设置项目的Maven环境 4.设置项目的名称和存放的工作空间 三、调整项目环境 1.修改JDK版本 properties&g…

[Wireshark] 使用Wireshark抓包https数据包并显示为明文、配置SSLKEYLOGFILE变量(附下载链接)

前言 wireshark安装包 链接:https://pan.quark.cn/s/febb28f57c01 提取码:fUCQ 链接失效(可能会被官方和谐)可评论或私信我重发 chrome与firefox在访问https网站的时候会将密钥写入这个环境变量SSLKEYLOGFILE中,在wir…

高考相关 APP 案例分享

文章首发于https://qdgithub.com/article/2032 一、核心内容 (一)高考相关 APP 案例 圈友朱康分享高考相关的 APP。提到猿题库,其主要功能有练习册和猿辅导,都是收费的。猿题库出题给学生练习,将易错的总结起来出练习…

【postman】工具下载安装

postman作用 postman用于测试http协议接口,无论是开发, 还是测试人员, 都有必要学习使用postman来测试接口, 用起来非常方便。 环境安装 postman 可以直接在chrome 上安装插件,当然大部分的同学是没法连接到谷歌商店的,我们可以在电脑本地…

【C++】 string的了解及使用

标准库中的string类 在使用string类时&#xff0c;必须包含#include头文件以及using namespace std; string类的常用接口说明 C中string为我们提供了丰富的接口来供我们使用 – string接口文档 这里我们只介绍一些常见的接口 string类对象的常见构造 #include <iostrea…

守护头顶安全——AI高空抛物监测,让悲剧不再重演

在城市的喧嚣中&#xff0c;我们享受着高楼林立带来的便捷与繁华&#xff0c;却往往忽视了那些隐藏在高空中的危险。近日&#xff0c;震惊全国的高空抛物死刑案件被最高院核准并执行。案件中被告人多次高空抛物的举动&#xff0c;夺去了无辜者的生命&#xff0c;也让自己付出了…

好消息:貌似稳定盈利了;坏消息:发财无望

声明&#xff1a;股市有风险&#xff0c;入市需谨慎。所有材料仅供学习参考&#xff0c;不构成投资建议。 作者&#xff1a;NazariteBruce 事实上&#xff0c;从8月份就开始在测试自己的量化系统&#xff0c;连续三个月赚钱了&#xff0c;虽然赚的不多&#xff0c;但是也验证了…

【Linux网络】TCP_Socket

目录 TCP协议&#xff08;传输控制协议&#xff09; listen状态 accept和connect TCP_echo_server (1)创建套接字 &#xff08;2&#xff09;绑定 &#xff08;3&#xff09;设置listen状态 &#xff08;4&#xff09;loop &#xff08;5&#xff09;客户端 多线程远程…

算法|牛客网华为机试11-20C++

牛客网华为机试 上篇&#xff1a;算法|牛客网华为机试1-10C 文章目录 HJ11 数字颠倒HJ12 字符串反转HJ13 句子逆序HJ14 字符串排序HJ15 求int型正整数在内存中存储时1的个数HJ16 购物单HJ17 坐标移动HJ18 识别有效的IP地址和掩码并进行分类统计HJ19 简单错误记录HJ20 密码验证…

Pandas DataFrame学习补充

1. 从字典创建&#xff1a;字典的键成为列名&#xff0c;值成为列数据。 import pandas as pd# 通过字典创建 DataFrame df pd.DataFrame({Column1: [1, 2, 3], Column2: [4, 5, 6]}) 2. 从列表的列表创建&#xff1a;外层列表代表行&#xff0c;内层列表代表列。 df pd.Da…

剖析高精度、直线电机技术八大常见问题你了解吗?

在现代工业自动化和机械工程的快速发展背景下&#xff0c;高精度直线电机技术逐渐崭露头角&#xff0c;成为推动各类高端设备和系统的重要力量。直线电机以其独特的工作原理和优越的性能特点&#xff0c;广泛应用于数控机床、自动化生产线、机器人等领域。 一、什么是高精度直线…