摘要:重点在于关联多个任务本质的联系。
不同恢复任务的关联性很重要。
揭示退化现象的内在机理联系很有意义。
多合一的方法能在单一模型中处理多种退化问题,可扩展性较差。
成分导向范式挖掘不同图像退化现象背后的物理规律或特征模式。
成分导向退化重构框架IDR包含两个核心阶段:任务导向知识收集与成分导向知识整合。
一、根据底层物理原理对退化类型进行定制化操作,为每类退化建立相应的先验中心库。
二、通过可学习的主成分分析PCA将任务导向的先验中心库重构为统一的成分导向中心库,并采用动态路由机制实现概率性未知退化去除。
摘要
探索不同图像恢复任务之间的关联性对于揭示退化现象背后的内在机理具有重要意义。近年来,各类"多合一"方法蓬勃发展,能够在单一模型中处理多种图像退化问题。然而,在实际应用中,鲜有研究尝试通过挖掘各类退化现象的根本性成分来建立任务间的关联性,导致当涉及更多任务时,模型的可扩展性较差。本文提出一种新颖的成分导向范式,以替代传统的任务导向范式,从而实现可扩展的学习。具体而言,我们提出的方法名为成分导向退化重构框架(IDR),包含两个核心阶段:任务导向知识收集与成分导向知识整合。在第一阶段,我们根据底层物理原理对不同退化类型进行定制化操作,并为每类退化建立相应的先验中心库。第二阶段则通过可学习的主成分分析(PCA)逐步将任务导向的先验中心库重构为统一的成分导向中心库,并采用动态路由机制实现概率性未知退化去除。大量实验表明,我们的方法在多种图像恢复任务上展现出优异的有效性和可扩展性。更重要的是,IDR框架对未知下游任务表现出良好的泛化能力。
1. 引言
图像恢复旨在从降质观测中重建高质量图像,这是涵盖一系列低级视觉任务的通用术语。除了在摄影领域实现令人满意的视觉效果外,图像恢复还广泛应用于自动驾驶、监控等现实场景。复杂环境对图像恢复算法提出了更高要求,尤其是当退化类型具有多样性和不确定性时。由于大多数现有方法专注于单一退化去除(如去噪[15,24,61]、去雨[20,52,55]、去模糊[8,40,42]、去雾[26,44,45]、低光增强[14,34,50]等),这些方法难以满足现实场景的应用需求。
近年来,“多合一”方法逐渐兴起,可在单一模型中处理多种图像退化。这类方法大致可分为两类:特定退化型和与退化无关型。前者(如文献[2,28])通过独立子网络处理不同退化,需预先指定退化类型,限制了应用范围;后者(如文献[25,47])则摆脱了退化类型的先验约束,提升了灵活性。然而,两者均面临扩展性不足的问题——随着任务数量增加,模型性能受限于潜在能力瓶颈,且未挖掘退化类型间的内在关联(即任务导向范式)。
为解决上述问题,我们提出两个核心问题:
i) “不同退化是否存在共性?” 近十年来,鲜有研究关注这一领域。文献[10]首次揭示了图像去雾与低光增强之间的关联。进一步观察发现,此类关联普遍存在,例如去模糊与去雨中的方向性特征、去雨与去噪中的非自然图像层叠现象。因此,探索不同恢复任务间的关联以学习退化背后的本质成分(即成分导向范式)具有重要意义。
ii) “退化图像是否必然仅属于单一退化类型?” 在现实场景中,多重退化可能同时存在(如暴雨常伴随薄雾,夜间监控中的低光与模糊叠加[63])。因此,孤立地学习每项恢复任务并不合理。
本文提出面向图像恢复的成分导向退化重构框架(IDR),提供了一种通过深入解析退化本质成分的新视角。具体而言,IDR的学习过程包含两个阶段:任务导向知识收集与成分导向知识整合。我们通过元先验学习模块(MPL)实现这一重构,该模块可嵌入任何基于Transformer的骨干网络。第一阶段根据底层物理原理对不同退化进行定制化操作,预嵌入各退化类型的物理特性先验,并建立独立的任务导向先验中心库,用于挖掘特定退化成分的组合表示。第二阶段通过可学习的主成分分析(PCA)逐步将任务导向中心库重构为统一的成分导向中心库,在成分层面寻找跨退化的共性,同时尽可能保留各自的差异信息。此外,MPL采用动态软路由机制,根据第一阶段嵌入的操作先验,实现概率性未知退化去除。
本工作的主要贡献总结如下:
- 重新审视当前“多合一”方法的范式,提出通过挖掘退化本质成分提升模型扩展性。
- 提出成分导向退化重构框架(IDR),包含两个阶段:任务导向知识收集与成分导向知识整合,协同作用于退化表征与退化操作。
- 大量实验验证了方法的有效性。据我们所知,IDR是首个能以“多合一”方式同时处理五类图像恢复任务的方法。
2. 相关工作
2.1 图像恢复
图像恢复旨在通过缓解设备或环境带来的不利影响,将退化图像复原为干净版本。近年来,图像恢复任务经历了从传统方法到基于学习的方法的重大范式转变,后者在去噪[15,24,61]、去雨[20,52,55]、去模糊[8,40,42]、去雾[26,44,45]、低光增强[14,34,50]等任务中展现出卓越性能。此外,还提出了多种通用图像恢复方法。文献[3]提出了一种非线性激活自由网络作为图像恢复的简单基线;文献[4]探讨了归一化在低级视觉任务中的潜力;文献[43,58,59]则通过展开策略将图像恢复建模为深层理性过程,强调上下文信息和空间细节的保持。随着视觉Transformer的兴起,其全局建模能力和对输入内容的适应性催生了一系列图像恢复方法,包括基于窗口注意力[29,49]、通道交互[57]和潜在注意力[5]的模型。
近年来,“多合一”方法逐渐流行,可在单一模型中处理多种退化问题。文献[2]提出了一种基于Transformer的多头多尾框架用于多退化去除;文献[28]设计了多编码器单解码器网络,并结合神经架构搜索以应对多种恶劣天气处理任务;文献[25]提出了一种无需任务特定头或尾的先验网络,通过对比学习提升灵活性;文献[47]利用天气类型查询,通过单编码器解码器Transformer处理多退化问题;文献[30]则尝试学习任务无关的先验知识,以应对各类图像恢复任务。
2.2 多任务学习
多任务学习[1]早于深度学习兴起前就被引入,并已应用于计算机视觉[31,37]、自然语言处理[16]、语音合成[51]和强化学习[17]等多个领域。由于多任务学习常伴随优化冲突,一系列研究被开发出来。文献[6]提出利用梯度幅度平衡各任务的损失函数;文献[22]基于每项任务的同方差不确定性设计了权重机制;文献[54]将多目标元学习建模为多目标双层优化问题,并提出基于梯度的优化算法寻找共同下降方向。
多任务学习的核心优势在于挖掘任务间的关联性。文献[19,21]通过任务聚类构建凸优化框架;文献[32,37]则提出关系网络和交叉缝合网络,以发现任务间的关系并学习共享表示与任务特定表示的最优组合。
3. 方法
本节首先介绍各类图像退化的建模原理,随后引入IDR的核心组件——元先验学习模块(MPL),该模块可显式嵌入任何Transformer架构以实现实用性(第3.1节)。IDR的优化过程包含两阶段学习流程:(a) 任务导向知识收集(第3.2节)和 (b) 成分导向知识整合(第3.3节)。优化目标简要概述于第3.4节。
退化建模
在文献中,图像退化过程通常定义为:
y
=
ϕ
(
x
;
A
)
+
N
,
(
1
)
y = \phi(x; A) + N, \quad (1)
y=ϕ(x;A)+N,(1)
其中
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅) 表示退化函数,
A
A
A 是其参数,
N
N
N 代表加性噪声,
y
y
y 和
x
x
x 分别表示退化观测值和潜在干净图像。当
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅) 为元素级加法时,式(1) 可重写为:
y
=
A
+
x
+
N
=
A
^
+
x
,
(
2
)
y = A + x + N = \hat{A} + x, \quad (2)
y=A+x+N=A^+x,(2)
这对应图像去雨[48]和去噪[9]的通用形式,其中
A
A
A 分别表示雨痕和独立同分布零均值高斯噪声。当
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅) 为元素级乘法时:
y
=
A
⋅
x
+
N
=
A
⋅
x
+
ϵ
⋅
x
=
A
^
⋅
x
,
(
3
)
y = A \cdot x + N = A \cdot x + \epsilon \cdot x = \hat{A} \cdot x, \quad (3)
y=A⋅x+N=A⋅x+ϵ⋅x=A^⋅x,(3)
这对应图像去雾[45]和低光增强[50]的通用形式,根据大气散射模型[36,41]和Retinex理论[23],
A
A
A 分别表示透射图和光照图。当
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅) 为卷积时:
y
=
A
∗
x
+
N
=
A
∗
x
+
ϵ
∗
x
=
A
^
∗
x
,
(
4
)
y = A * x + N = A * x + \epsilon * x = \hat{A} * x, \quad (4)
y=A∗x+N=A∗x+ϵ∗x=A^∗x,(4)
这对应图像去模糊[60]的通用形式,其中
A
A
A 表示模糊核。需注意,我们通过重新参数化噪声项来突出底层物理规律,而更复杂的退化可通过上述函数的组合建模(例如暴雨伴随雨幕效应)。本质上,不同退化类型基于上述基本原理遵循不同的组合建模原则。
3.1 元先验学习模块
元先验学习模块(MPL)旨在通过学习一组先验嵌入(在模型中预先“内置”一些关于图像退化类型的已知知识,比如物理规律或特征模式,帮助模型更高效地理解和处理不同的图像问题)来缓解特征上的已知退化影响,并可在优化过程中实例化为任务导向先验学习或成分导向先验学习。图2展示了MPL的结构,包含两个核心部分:基于先验的退化表示和基于物理原则的退化操作。
给定退化特征(退化图本身)输入和一组先验嵌入 P(其中 N 为先验中心库容量且N << C_d ),我们首先对 ( x ) 应用监督降级注意力模块(SDAM),以稀释背景内容并增强潜在的细微退化特征。这一设计灵感源自文献[59],但仅替换了退化监督信号。基于先验的退化表示过程可表示为:
h
p
=
MHCA
(
LN
(
SDAM
(
x
)
)
,
LN
(
P
)
,
LN
(
P
)
)
(
5
)
h_p = \text{MHCA}(\text{LN}(\text{SDAM}(x)), \text{LN}(\mathcal{P}), \text{LN}(\mathcal{P})) \quad (5)
hp=MHCA(LN(SDAM(x)),LN(P),LN(P))(5)
其中,(\text{MHCA}) 表示多头交叉注意力模块,(\text{LN}) 为层归一化。不同于将额外先验作为查询向量的方法[30,47],我们借鉴字典学习思想,将少量内在先验嵌入作为“键”,而释放大量退化特征标记作为“查询”,以实现知识压缩。退化表示 ( h_p \in \mathbb{R}^{H \times W \times C} ) 是通过先验字典查询建模的共注意力矩阵对先验中心库 (\mathcal{P}) 的聚合结果。我们通过投影矩阵对 (\mathcal{P}) 和 (x) 的维度进行对齐。
结合提取的 (h_p),基于物理原则的退化操作过程旨在根据底层物理规律修正退化特征,其数学表达式为:
x
′
=
∑
j
∈
{
a
,
m
,
c
}
ϕ
j
(
x
;
θ
j
(
[
W
h
h
p
,
W
x
x
]
)
)
(
6
)
x' = \sum_{j \in \{a, m, c\}} \phi_j(x; \theta_j([W_h h_p, W_x x])) \quad (6)
x′=j∈{a,m,c}∑ϕj(x;θj([Whhp,Wxx]))(6)
其中,([\cdot]) 表示通道级拼接,(W_h) 和 (W_x) 分别为两个独立的多层感知机(MLP),用于公共空间投影;(\phi_j) 表示基础物理原则函数(加法、乘法和卷积),(\theta_j) 为其参数生成函数。特别地,每个 (\theta_j) 包含一个 (3 \times 3) 卷积层和两个残差块,而 (\theta_c) 额外包含一个 (1 \times 1) 卷积层用于核生成。通过先验中心库 (\mathcal{P}) 和物理原则函数 (\phi_j),退化特征 (x) 被修正为伪干净特征 (x’ \in \mathbb{R}^{H \times W \times C})。为增加非线性能力并保持与Transformer块的一致性,我们在MPL末尾保留了前馈网络(FFN)。
3.2 任务导向知识收集
MPL在3.1节中需从退化特征中提取内在退化成分,但直接学习通用先验对多样化退化效果有限。因此,我们首先为不同恢复任务建立独立的任务导向先验中心库 ({T_k}_{k=1}^K)((K) 为任务数量),以挖掘特定退化成分,此时MPL实例化为任务导向的先验学习。
任务导向的退化表示 (h_k^{(i)}) 可表示为:
h
k
(
i
)
=
∑
j
=
k
MHCA
(
LN
(
SDAM
(
x
k
(
i
)
)
)
,
LN
(
T
j
)
,
LN
(
T
j
)
)
(
7
)
h_k^{(i)} = \sum_{j=k} \text{MHCA}(\text{LN}(\text{SDAM}(x_k^{(i)})), \text{LN}(T_j), \text{LN}(T_j)) \quad (7)
hk(i)=j=k∑MHCA(LN(SDAM(xk(i))),LN(Tj),LN(Tj))(7)
其中仅特定 (T_k) 与退化特征交互,避免其他先验库的干扰。根据退化类型分配对应的物理原则函数 (\phi_j)(如去雨使用加法),且仅涉及单一原则。任务导向的独立先验学习与硬性原则分配的协同设计,有助于收集强任务相关先验,得益于原则解耦的一致性。
3.3 成分导向知识整合
核心目标是通过挖掘任务间的关联性,实现通用退化成分的泛化学习。在获得任务导向先验中心库 ({T_k}_{k=1}^K) 后,第二阶段通过可学习主成分分析(PCA) 将其整合为统一的成分导向中心库 (I_0 \in \mathbb{R}^{N \times C_d})。
具体步骤如下:
- 奇异值分解(SVD):对每个 (T_k) 进行SVD分解,得到 (T_k = U_k S_k V_k^T)。
- 子空间整合:通过可学习函数 (G_u) 和 (G_v) 对奇异向量 ({U_k}) 和 ({V_k^T}) 进行整合(式(8)),同时冻结梯度以避免破坏任务导向先验。
- 动态权重调整:通过预测头 (M(x_k)) 对奇异值矩阵 ({S_k}) 进行加权重组(式(9)),生成动态倾向性矩阵 (S_I)。
最终,成分导向中心库为 (I_0 = U_I S_I V_I^T)。退化表示 (h_I) 通过 (I_0) 与退化特征的交互生成,同时采用动态软路由机制替代硬原则分配,根据物理原则动态调整各 (\phi_j) 的权重。
3.4 优化目标
我们通过重建损失 (L_{\text{rec}}) 和分类损失 (L_{\text{cls}}) 的组合端到端优化IDR:
L
total
=
L
rec
+
λ
cls
L
cls
(
10
)
L_{\text{total}} = L_{\text{rec}} + \lambda_{\text{cls}} L_{\text{cls}} \quad (10)
Ltotal=Lrec+λclsLcls(10)
其中:
- 重建损失 (L_{\text{rec}}) 包含恢复图像 (I) 与真实图像 (Y) 的 ℓ1 损失,以及各SDAM模块的退化监督:
L rec = L 1 ( I , Y ) + ∑ s ∈ C ∥ L 1 ( I x s , D s ) ∥ ( 11 ) L_{\text{rec}} = L_1(I, Y) + \sum_{s \in C} \|L_1(I_{x_s}, D_s)\| \quad (11) Lrec=L1(I,Y)+s∈C∑∥L1(Ixs,Ds)∥(11) - 分类损失 (L_{\text{cls}}) 采用交叉熵损失,用于任务标签预测:
L cls = ∑ s ∈ C ∥ L CE ( M s ( x s ) , y ) ∥ ( 12 ) L_{\text{cls}} = \sum_{s \in C} \|L_{\text{CE}}(M_s(x_s), y)\| \quad (12) Lcls=s∈C∑∥LCE(Ms(xs),y)∥(12)
其中 (M_s(\cdot)) 为阶段预测头,(y) 为任务标签。
术语一致性说明:
- 先验嵌入(Prior Embeddings):预存的退化类型知识库(如去雨、去雾的物理规律)。
- 动态路由(Dynamic Routing):根据退化类型自动分配修复策略的机制。
- 可学习PCA:通过神经网络整合任务导向先验的子空间分解方法。
翻译过程中确保技术术语与上下文一致,数学公式与原文严格对应。