【传知代码】遵循人类指令的高质量图像修复（论文复现）

前言：在数字化时代的浪潮中，图像已成为我们生活中不可或缺的一部分。它们记录着我们的记忆，传递着信息，甚至塑造着我们的认知。然而，正如生活中难以避免的瑕疵，这些数字图像也时常因为各种原因出现损伤、失真或瑕疵，破坏了其原本的完整性和美感。想象一下，一张珍贵的家庭合影因为年代久远而模糊不堪，一幅精心创作的画作因为意外受损而遗憾残缺，一个记录历史瞬间的照片因为拍摄条件限制而细节缺失。这些遗憾，仿佛时光在无声中留下的伤痕，让我们对过往的记忆变得模糊，对艺术的欣赏变得局限，对历史的了解变得片面。

本文所涉及所有资源均在传知代码平台可获取

概述

演示效果

核心代码

写在最后

概述

在计算机视觉领域，图像恢复始终是一个受到广泛关注的议题，这是因为图像可能会因各种因素如噪声、模糊和雨滴等而受到降级处理。降级可以分为局部降级和全局降级两种方式。这些图像降级操作不仅降低了图像质量，还限制了图像在多种应用场景中的实用性。因此，如何对降级进行有效地分类和识别成为一个重要研究方向。尽管传统的图像恢复技术在某些特定的任务中表现得相当出色，但它们在处理多种不同的降级任务时，往往不能实现良好的泛化效果。为了提高退化图像恢复的精度和鲁棒性，需要研究新的算法来实现不同级别降级的有效分离。随着深度学习技术的发展，基于神经网络的图像恢复手段已经取得了很大的突破，但在应对多种降级策略时仍面临诸多挑战。

在当前的情境中，《High-Quality Image Restoration Following Human Instructions》介绍了一种创新的图像恢复技术。这种技术利用人为编写的命令作为导向，为图像恢复带来了一种创新的思维方式，这种思想是基于对降级场景的分析和理解，将其转化为一个简单且高效的计算过程。利用自然语言的指令，这种技术可以从降级后的图像中有效地恢复出清晰的高品质图像，并覆盖了众多的降级方式。实验表明，与传统的基于梯度和边缘信息的图像重建技术相比，这种新算法具有较好的鲁棒性。这篇学术论文不仅在图像恢复这一领域获得了普遍的关注，而且也为文本导向的图像处理任务开辟了全新的研究方向。

如下图所示，给定图像并对其进行升级的命令，在人的引导下我们全能恢复模型对图像进行矫正。InstructIR可以处理多种类型、不同程度的降级问题，并且在某些真实场景下可以泛化：

要想对《High-Quality Image Restoration Following Human Instructions》所做的贡献有更深入的认识，我们先来认识一下图像恢复问题产生的来龙去脉。图像恢复是指在降级后的图像上恢复质量高、清晰的图像，这是个比较复杂的问题，这是因为在同一图像上可能会存在着许多不同的恢复方法。噪声，模糊和雨滴的降级效果往往是图像难以避免的，特别是低光和其他复杂的环境情况。传统方法一般都是针对某一类降级进行设计，深度学习方法在多任务学习上表现突出，但是仍面临着泛化为多个降级等问题，以下是对图像恢复相关问题的概述：

图像降级的常见原因和效果：图像降级就是由于种种原因导致图像质量降低，这种影响可以从噪声，模糊和雨滴几种降级类型中反映。噪声是指图像在色彩或者亮度上随机发生突如其来的改变而导致图像失真的现象。模糊一般是由影像的移动或者光学系统造成的，它使得影像细节不够清晰。雨滴效应指雨天摄影影像中雨滴对影像内容的一部分遮挡而造成影像的模糊与失真。

图像恢复的概念和挑战：图像恢复的目的是利用算法或者模型将降级后的图像恢复到原始状态或者与原始状态相近的质量。这个问题相当复杂，因为一个图像可能会受到多重降级处理的影响，而每一种降级都需要采用不同的处理策略。传统方法通常需要先验知识或者任务的具体模型才能应对具体的降级类型，深度学习方法尝试通过端对端的学习，在降级图像中学习恢复映射。

涉及的降级类型：在《High-Quality Image Restoration Following Human Instructions》中，研究者们关注了多种降级类型，包括但不限于：

1）噪声（Denoising）： 由于环境或设备等原因引入的随机颜色或亮度变化。

2）模糊（Deblurring）： 由于运动或光学系统等原因导致的图像细节不清晰。

3）去雨（Deraining）： 针对雨滴效应，试图从雨天拍摄的图像中去除雨滴遮挡。

4）去雾（Dehazing）： 针对雾霾效应，试图使雾化图像变得更加清晰。

5）低光增强（Low-light Image Enhancement）： 针对低光条件下拍摄的图像，试图提高图像的亮度和可见度。

这些降级类型的综合处理是该论文的研究重点，为图像恢复问题带来了更全面的考虑。

回顾先前的图像恢复方法，传统技术和深度学习方法各有优势。传统技术主要专注于特定的降级类型，如噪声去除、去模糊、去雨等，但其泛化能力较差。深度学习方法则在全局学习中获得了显著的性能提升，尤其是一些通用的 All-In-One 恢复模型。然而，训练每个具体任务的模型需要大量的资源，而全局模型在处理多样性降级时也面临一定的困难。

如下图展示了我们采用常见图像数据集以及GPT-4生成的提示进行自监督学习的盲目图像恢复模型的训练过程。在推理阶段，我们的模型可以泛化到由人类编写的指令，并对图像进行恢复（或增强）处理：

传统方法：在图像恢复领域，传统方法主要依赖于先验知识和手工设计的特征。这些方法通常采用一些特定的模型或算法来处理特定类型的降级，如去噪、去雨、去雾等。虽然这些方法在某些场景下表现出色，但它们往往缺乏对多种降级类型的统一处理能力，需要针对不同问题使用不同的模型，因此在实际应用中存在一定的局限性。

基于深度学习的图像恢复方法：随着深度学习的兴起，基于深度学习的图像恢复方法逐渐成为主流。这类方法通常采用卷积神经网络（CNNs）和注意力机制等深度学习技术，通过端到端的学习从降级图像中学到恢复映射。与传统方法相比，基于深度学习的方法具有更强的表达能力，能够处理复杂的非线性映射关系，取得了一系列显著的成果。然而，这些方法通常需要大量的标记数据和计算资源，且在处理多种降级类型时存在一定的困难。

All-In-One 恢复模型的优势和挑战：

近年来，为了更好地解决多降级类型的图像恢复问题，研究者们提出了 All-In-One 恢复模型。这些模型试图通过一个统一的深度学习模型来处理多种降级类型，如去噪、去雨、去雾等。这种综合处理的优势在于简化了模型的管理和部署，并提高了模型的通用性。然而，挑战也随之而来，包括模型的复杂性、资源需求较大以及在处理多降级时的性能表现等方面的问题。在这一部分中，我们对传统方法和基于深度学习的图像恢复方法进行了回顾，并突出了 All-In-One 恢复模型的优势和挑战。在博客中，可以进一步介绍具体的传统方法和深度学习方法的代表性工作，以及它们在实际场景中的应用和局限性。

演示效果

InstructIR 模型的提出为图像恢复领域带来了一种创新的思路。通过引入人类编写的指令，模型能够更好地理解用户对图像的期望，从而在多种降级类型中进行准确而高效的恢复。该模型的训练使用了 GPT-4 生成的一万多个自然语言提示，这些提示覆盖了七种不同的图像恢复任务，为模型提供了多样性的训练数据。模型的设计考虑了使用纯文本编码器和 NAFFNet 作为图像模型的高效性和简单性，如下图所示：

InstructIR 模型作为《High-Quality Image Restoration Following Human Instructions》中的重要创新，采用了一种独特的图像恢复方式。其基本原理是利用人类编写的指令来引导图像的恢复过程。相较于传统的图像恢复方法，InstructIR 摆脱了对大量标记数据和特定问题定制模型的束缚，使用户能够通过自然语言指令来精准控制图像的处理过程，如下图所示：

InstructIR 引入了人类编写的指令作为图像恢复的新型引导方式。通过使用 GPT-4 生成的多样性指令集，用户可以用自然语言明确指出图像中存在的降级类型，如噪声、模糊、低光等。这种方式使得模型更贴近用户需求，提高了用户的交互体验，同时也降低了用户在领域专业知识上的要求。 InstructIR 模型的训练过程主要分为两个关键步骤。首先，通过 GPT-4 生成了一个包含上万条不同指令的训练集。这些指令涵盖了多种降级类型和处理任务。其次，构建了一个庞大的配对训练集，其中包含了指令与对应降级/清晰图像的配对。模型的结构设计采用了 NAFNet 作为骨干网络，这是一种简单而高效的结构，特别适用于各种图像恢复任务。如下：

训练策略：InstructIR 模型的训练过程涉及两个关键步骤，旨在确保模型具有对多样性指令的理解和对各种降级类型的适应性。通过使用 GPT-4 生成了一个庞大的指令集，包含上万种不同的指令。这些指令由模型自动生成，旨在涵盖多种降级类型和处理任务。这一步骤的目标是提供多样性和广泛性的指导，以使模型能够理解并应对用户提出的各种需求。其次，构建了一个大规模的配对训练集。这个训练集包含了指令与对应降级/清晰图像的配对。通过引入真实用户编写的指令，模型可以在更真实的场景中进行训练，确保模型对于用户输入的指令有更好的适应性。这个训练集的多样性确保了模型在不同任务和降级类型上的鲁棒性。

网络结构：InstructIR 模型采用 NAFNet 作为骨干网络。NAFNet 是一种高效而简单的结构，由一个 4 层的编码器-解码器组成，每个级别的块数量都有所不同。模型还包括 4 个中间块，用于进一步提取特征。在编码器和解码器之间使用 4 个中间块有助于加强特征的表达。此外，解码器中采用了加法而不是拼接的方式，以保持模型的简洁性。

指令生成的过程：指令生成是通过使用 GPT-4 模型实现的。在这一过程中，GPT-4 基于大规模的语言数据训练，生成多样性的自然语言指令。这些指令覆盖了多个领域，确保了用户可以通过各种方式表达对图像的期望。

指令引导在 InstructIR 模型中具有明显的优势。首先，通过采用人类编写的指令，模型更贴近用户需求，提高了用户的交互体验。用户无需了解专业的图像处理术语，只需通过自然语言简单地描述降级，即可得到满足期望的图像。其次，模型的高度通用性是指令引导的结果。由于模型在训练过程中接触了多样性的指令和任务，它能够很好地适应用户提出的各种需求。这种通用性使得 InstructIR 模型成为一种全能的图像恢复工具，可以在多个降级类型和任务上表现出色。

通过广泛的实验，InstructIR 在多个图像恢复任务上取得了令人瞩目的成果。无论是在图像去噪、去雨、去雾、去模糊还是低光增强等方面，该模型都展现出了强大的性能。论文详细呈现了模型在不同任务和数据集上的定量和定性结果，证明了其在图像恢复领域的领先地位。在五个图像恢复任务（5D）上的定量结果，与通用图像恢复和全能图像恢复方法的最新方法进行对比。我们突出显示没有文本（仅图像）的参考模型，最佳整体结果以及次优结果。同时，我们呈现了我们多任务变体的消融研究（从5到7个任务—5D、6D、7D），如下图所示：

通过与其他先进的图像恢复方法进行比较，InstructIR 显著地超越了传统方法和深度学习方法。论文列举了对比实验结果，并强调了 InstructIR 的优越性。与其他 all-in-one 恢复模型相比，InstructIR 不仅在性能上更具竞争力，而且通过引入人类编写的指令，为用户提供了更为直观和可控的图像处理方式。这种与用户的交互方式使得 InstructIR 在处理不同降级时更具灵活性和精确性，对于多任务处理，InstructIR 模型采用 3D 和 5D 设置，成功处理了图像去噪、去雨、去雾、去模糊、低光等多种任务。论文对比了不同任务数下的性能，强调了模型在处理多任务时的有效性。引入了 6D 和 7D 变体，其中 7D 模型还包括图像增强任务，扩展了模型的多任务处理能力。
在研究中详细探讨了 InstructIR 模型在多任务处理方面的性能，强调了该模型的卓越通用性和灵活性。基于指令的图像恢复。InstructIR能理解给定任务的各种指令（第一行）。在给定对抗性指令的情况下（第二行），该模型执行一种身份操作—我们在训练期间没有强制执行这一点，如下图所示：

InstructIR 通过单一模型涵盖了多个任务，展示了其对多任务处理的高效性。传统的图像恢复方法往往是单一任务模型，需要分别训练。相较之下，InstructIR 利用指令引导实现了一种模型即可处理多任务的机制。这种高效性不仅提高了模型的通用性，还简化了用户在处理不同降级时的操作流程。对于多个实际指令。我们可以提示多个指令（按顺序）来恢复和增强图像。这提供了额外的控制。我们展示了两个多指令应用于“输入”图像的例子——从左到右，如下图所示：

InstructIR 模型对自然语言指令的高度适应能力。这包括儿童、成年人和摄影师等各个群体。模型能够理解不同群体的表达习惯，对于儿童友好且容易理解，对于成年人提供更专业的处理，对于摄影师能够理解更复杂的指令。这种广泛适应不同群体的特点使得 InstructIR 模型更具通用性和普适性。不同领域和经验的用户都可以通过自然语言指令来操作模型，而无需深入了解复杂的图像处理技术。这种用户友好的设计为模型的实际应用提供了更广泛的可能性。用户通过自然语言指令参与到图像恢复的过程中，为模型提供更多信息，使得模型能够更好地理解用户需求，实现更加个性化的图像处理。这种人机交互方式代表了图像处理技术未来的发展方向，将更多地融入用户的实际需求和操作习惯中，如图所示：

图像太暗，光照不足，你能让它变亮吗？效果如下：

核心代码

环境部署代码如下：

pip install PTL numpy matplotlib yaml random

创建 InstructIR 模型，在这里，使用配置文件中的参数创建了 InstructIR 模型，代码如下：

model = instructir.create_model(input_channels=cfg.model.in_ch, width=cfg.model.width, 
                                enc_blks=cfg.model.enc_blks, middle_blk_num=cfg.model.middle_blk_num, 
                                dec_blks=cfg.model.dec_blks, txtdim=cfg.model.textdim)

加载图像恢复模型的权重，这里加载了预训练的图像恢复模型的权重，代码如下：

model.load_state_dict(torch.load(MODEL_NAME), strict=True)

如果配置中启用了文本信息 (cfg.model.use_text)，则初始化并加载了语言模型和 LMHead 的权重，加载语言模型的权重：

language_model = LanguageModel(model=LMODEL)
lm_head = LMHead(embedding_dim=cfg.llm.model_dim, hidden_dim=cfg.llm.embd_dim, num_classes=cfg.llm.nclasses)
lm_head.load_state_dict(torch.load(LM_MODEL), strict=True)

定义了一个图像处理函数 process_img，通过输入的图像和文本提示信息，使用 InstructIR 模型进行图像恢复，代码如下：

image = load_img(IMG)
restored_image = process_img(image, PROMPT)
plot_all([image, restored_image], names=["Before", "After"], figsize=(10,5))

通过示例图像和用户输入的提示信息，调用 process_img 函数进行图像处理，最后使用 Matplotlib 绘制了图像的对比结果。

写在最后

在今天快速发展的人工智能领域中，遵循人类指令的高质量图像修复技术正逐渐成为研究和应用的热点。通过结合计算机视觉、深度学习和图像处理等技术，这项技术正在以前所未有的方式改变着我们对图像修复的认知。从古老的艺术品到现代数字影像，遵循人类指令的高质量图像修复技术正展现出无限的可能性。通过本文的介绍，我们不仅了解到了遵循人类指令的高质量图像修复技术的前沿发展，更深入探讨了其对各个领域的潜在影响。无论是文物保护、医学影像、还是数字艺术创作，这项技术都将为人类带来巨大的益处和创新。随着技术的不断进步和应用场景的扩大，我们对于人类指令的高质量图像修复技术的期待也日益增加。

因此，让我们拭目以待，期待这项技术在不久的将来能够为我们带来更多惊喜和改变。它不仅仅是一种技术革新，更是对人类智慧和创造力的赞颂，为我们展现了科技与艺术的美妙融合。愿我们能够共同见证并参与其中，探索这个充满可能性的未来之旅。

详细复现过程的项目源码、数据和预训练好的模型可从该文章下方附件获取。