Feature Corrective Transfer learning Framework (特征矫正迁移学习框架)
旨在引导非理想图像上的模型训练与理想图像上训练的模型的特中层更紧密地对齐
Model Selection and Training on Ideal Images
首先在理想图像上训练,得到理想参数
θ
ideal
=
arg
min
θ
L
det
(
M
(
D
ideal
;
θ
)
)
\theta_{\text{ideal}} = \arg \min_{\theta} \mathcal{L}_{\text{det}}(M(D_{\text{ideal}}; \theta))
θideal=argθminLdet(M(Dideal;θ))
M是目标检测模型
Generation of Non-Ideal Image Versions
对于每一个 x ∈ D i d e a l ,合成产生一个非理想图像 x ′ (如雨天),可以通过添加噪声做到。 对于每一个x \in D_{ideal} ,合成产生一个非理想图像x'(如雨天),可以通过添加噪声做到。 对于每一个x∈Dideal,合成产生一个非理想图像x′(如雨天),可以通过添加噪声做到。
Training the Same Object Detection Model on Non-Ideal Images
在非理想图像上训练M,同样使用对应的理想图像作为验证集。在这一阶段,一个或多个特征层将会被用来评估理想图像上训练的模型和非理想图像上训练的模型的相似性
$$
\theta_{\text{non_ideal}} = \arg \min_{\theta} \left( \mathcal{L}{\text{det}}(M(D{\text{non_ideal}}; \theta))
- \lambda \mathcal{L}{\text{fs}}(F{\text{ideal}}, F_{\text{non_ideal}}) \right) \
F_{idal} 和 F_{non_ideal} 分别代表理想图像的特征图和非理想图像的特征图, \lambda 用来平衡两个损失
$$
Incorporating Feature Similarity Loss during Backpropagation
L
=
L
d
e
t
+
λ
L
f
s
θ
=
arg
min
θ
L
t
o
t
a
l
\mathcal{L} = \mathcal{L}_{det} + \lambda\mathcal{L}_{fs} \\ \theta = \arg \min_{\theta}{\mathcal{L}_{total}}
L=Ldet+λLfsθ=argθminLtotal
特征相似性损失Lfs旨在有效地衡量在理想图像上训练的模型特征图与在非理想图像上训练的模型特征图在结构和内容上的差异。值得注意的是,特征空间中的相似性可能与图像相似性存在显著差异,因此需要一个不同的评估指标。本文引入了Extended Area Novel Structural Discrepancy Loss (EANSDL)来评估特征级别的相似性。
Method
Training on Ideal Images
先在理想图像上进行训练
θ
i
d
e
a
l
=
arg
min
θ
L
F
a
s
t
e
r
−
R
C
N
N
(
D
i
d
e
a
l
;
θ
)
\theta_{ideal} = \arg \min_{\theta}\mathcal{L}_{Faster-RCNN}(D_{ideal};\theta)
θideal=argθminLFaster−RCNN(Dideal;θ)
Feature Corrective Transfer Learning
非理想图像上训练的backbone由以下损失引导
t
o
t
a
l
=
L
d
e
t
(
D
n
o
n
i
d
e
a
l
;
θ
)
+
λ
L
E
A
N
S
D
L
(
F
i
d
e
a
l
,
F
n
o
n
i
d
e
a
l
)
L
E
A
N
S
D
L
用来表示特征图之间的相似性
\mathcal{total} = \mathcal{L}_{det}(D_{non_ideal};\theta) + \lambda\mathcal{L}_{EANSDL}(F_{ideal},F_{non_ideal}) \\ \mathcal{L}_{EANSDL}用来表示特征图之间的相似性
total=Ldet(Dnonideal;θ)+λLEANSDL(Fideal,Fnonideal)LEANSDL用来表示特征图之间的相似性
EANSDL ( A , B , δ , r L ) = D ( δ ) ⋅ 1 W ⋅ H ∑ x = 1 W ∑ y = 1 H ( exp ( − Δ S ( x , y ) ) ⋅ Δ S ( x , y ) + λ ⋅ Ω ( A , B , x , y , r L ) ) \text{EANSDL}(A, B, \delta, r_{\mathcal{L}}) = D(\delta) \cdot \frac{1}{W \cdot H} \sum_{x=1}^{W} \sum_{y=1}^{H} \left( \exp(-\Delta S(x, y)) \cdot \Delta S(x, y) + \lambda \cdot \Omega(A, B, x, y, r_{\mathcal{L}}) \right) EANSDL(A,B,δ,rL)=D(δ)⋅W⋅H1x=1∑Wy=1∑H(exp(−ΔS(x,y))⋅ΔS(x,y)+λ⋅Ω(A,B,x,y,rL))
δ = c u r r e n t e p o c h t o t a l e p o c h s \delta = \frac{current_epoch}{total_epochs} δ=totalepochscurrentepoch
时变衰减因子,引入了一种动态机制来调整整个训练期间损失函数的响应性,这一因素的实施促进了模型重点的方法转变,从纠正初始训练阶段的突出结构差异到在训练过程的后续阶段磨练更精细的细节。
D
(
δ
)
=
e
x
p
(
−
α
∗
δ
β
)
α
调节衰变轨迹的初始陡度
,
β
调节曲率以减缓衰减速度
D(\delta) = exp(-\alpha * \delta^\beta) \\ \alpha 调节衰变轨迹的初始陡度, \beta调节曲率以减缓衰减速度
D(δ)=exp(−α∗δβ)α调节衰变轨迹的初始陡度,β调节曲率以减缓衰减速度
从根本上说,D(δ)使模型最初能够专注于纠正特征图之间的显著不匹配,确保建立坚实的基础。随着训练的进行和模型复杂性的演变,衰减因子减少了对这些失配的强调。这一修改有助于减少EANSDL对后期目标检测总损失的影响,从而更专注于目标检测的典型任务。
Gradient Computation Function
G()应用Sobel operator来描绘特征图上的边缘和结构属性。这个操作将特征图与两个不同的3*3核进行卷积,每个核都被设计维沿各自的方向挖掘边
垂直边缘通过水平梯度(Sobel-x)识别,而水平边缘(Sobel-y)则通过垂直梯度精确定位。通过合并这些正交梯度来确定总梯度幅度
Local Gradient Magnitude Difference
该指标量化了直接的结构差异,突出了由于非理想成像条件导致边缘和纹理信息显著不同的区域。从本质上讲,∆S(x,y)精确地指出了模型需要纠正的局部差异,以更好地对齐从非理想和理想场景中得出的特征图。
e
x
p
(
−
Δ
S
(
x
,
y
)
)
作为加权因子调节每个局部差异
Δ
S
(
x
,
y
)
对全局损失的影响
exp(-\Delta S(x,y))作为加权因子调节每个局部差异\Delta S(x,y)对全局损失的影响
exp(−ΔS(x,y))作为加权因子调节每个局部差异ΔS(x,y)对全局损失的影响
当 e x p ( − Δ S ( x , y ) ) ∗ Δ S ( x , y ) 当exp(-\Delta S(x,y))*\Delta S(x,y) 当exp(−ΔS(x,y))∗ΔS(x,y)
相乘,损失计算中的指数衰减函数放大了较小差异的影响,将模型的重点放在细化微小但本质的结构差异上。同时,它减轻了对较大差异的处罚,以避免对不太关键的差异进行不当处罚。该机制确保了平衡的模型训练,优先考虑早期阶段的主要差异以获得整体性能,并随着特征图差异的减少,在后期阶段转向更精细的调整,促进细微的结构对齐,以提高目标检测精度。
可以这样理解:
当差异过大,
e
−
Δ
S
(
x
,
y
)
→
0
当差异过大,e^{-\Delta S(x,y)} \to 0
当差异过大,e−ΔS(x,y)→0
所以模型不会关注差异较大的,避免对不关键的差异进行不当处罚
Extended Area Gradient Consistency
Extended Area Gradient Consistency term,
Ω
(
A
,
B
,
x
,
y
,
r
L
)
\Omega(A,B,x,y,r_{\mathcal{L}})
Ω(A,B,x,y,rL)
仔细检查指定区域内梯度过度的均匀性,从而评估更广泛的空间模式。它评估由半径rL定义的扩展领域内梯度变化的一致性。该半径针对Faster RCNN特征金字塔中的每一层进行自适应调整,从而实现多尺度分析:
Ω
(
A
,
B
,
x
,
y
,
r
(
L
)
)
=
1
(
2
r
L
+
1
)
2
r
L
=
r
0
2
l
e
v
e
l
,
r
0
是最大特征图的初始半斤
\Omega(A,B,x,y,r\mathcal(L)) = \frac{1}{(2r_{\mathcal{L}}+1)^2} \\ r_{\mathcal{L}} = \frac{r_0}{2^{level}} ,r_0 是最大特征图的初始半斤
Ω(A,B,x,y,r(L))=(2rL+1)21rL=2levelr0,r0是最大特征图的初始半斤
这种扩展的区域梯度一致性确保了模型不仅能捕捉到逐像素的差异,还能欣赏到更广泛的空间模式和对齐。这种多尺度方法对于鲁棒的对象检测至关重要,因为它允许模型识别和适应不同特征图尺度上对象大小和形状的变化。
∑
i
=
−
r
L
r
L
∑
j
=
−
r
L
r
L
∣
(
G
(
A
,
x
,
y
)
−
G
(
A
,
x
+
i
,
y
+
j
)
)
−
(
G
(
B
,
x
,
y
)
−
G
(
B
,
x
+
i
,
y
+
j
)
)
∣
.
\sum_{i=-r_{\mathcal{L}}}^{r_{\mathcal{L}}} \sum_{j=-r_{\mathcal{L}}}^{r_{\mathcal{L}}} \left| (G(A, x, y) - G(A, x+i, y+j)) - (G(B, x, y) - G(B, x+i, y+j)) \right|.
i=−rL∑rLj=−rL∑rL∣(G(A,x,y)−G(A,x+i,y+j))−(G(B,x,y)−G(B,x+i,y+j))∣.