论文阅读《Domain Generalized Stereo Matching via Hierarchical Visual Transformation》

论文地址：https://openaccess.thecvf.com/content/CVPR2023/html/Chang_Domain_Generalized_Stereo_Matching_via_Hierarchical_Visual_Transformation_CVPR_2023_paper.html

概述

立体匹配模型是近年来的研究热点。但是，现有的方法过分依赖特定数据集上的简单特征，导致在新的数据集上泛化能力不强。现有的立体匹配方法在训练过程中容易学习合成数据集中的表面特征（捷径特征 shortcut features）。这些特征主要有两种伪影（artifacts）：一是局部颜色统计特征的一致性，二是对局部色度特征的过度依赖。这些特征不能有效地适应不同域之间的迁移。之前的研究主要关注于（1）利用目标域的有标签数据对模型进行微调。（2）同时使用有标签的合成数据集和无标签的真实数据集来训练域自适应立体匹配模型。这些方法在目标数据集的样本可获得时可以取得较好的效果，但在分布外泛化时性能不佳。为了解决这些问题，文中提出了分层视觉变换（Hierarchical Visual Transformation, HVT）网络，其核心思想是通过改变合成数据集训练数据的分布，使得模型不依赖于源域样本的伪影特征（颜色统计、色度特征）来建立匹配关系，而是引导模型学习域不变的特征（语义特征、结构特征）来估计视差图。
为了解决立体匹配的域泛化问题，本文提出了一种分层的视觉变换网络（Hierarchical Visual Transformation，HVT），它能从合成数据集中学习一种不受捷径特征干扰的特征表示，从而减少域偏移对模型性能的影响。该网络主要包括两个部分：（1）在全局、局部和像素三个层次上，对训练样本进行视觉变换，使其适应新的数据域。（2）通过最大化源域和目标域之间的视觉特征差异，以及最小化跨域特征之间的一致性，来得到域不变的特征。这样可以防止模型利用合成数据集中的伪影信息作为捷径特征，从而有效地学习到鲁棒的特征表示。我们将HVT模块嵌入到主流的立体匹配模型中，在多个数据集上的实验结果表明，HVT可以提高模型从合成数据集到真实数据集之间的域泛化能力。

模型架构

在这里插入图片描述
给定合成训练数据集 $\mathcal{D}_{s}$ ，训练集中的图像对为 $\{\mathbf{X}_i^l,\mathbf{X}_i^r\}_{i=1}^{|\mathcal{D}_s|}$ , 且其对应的视差图为 $\{\mathbf{Y}_i^{gt}\}_{i=1}^{|\mathcal{D}_s|}$ 。模型的目标为训练一个跨域立体匹配模型来预测未知域 $\mathcal{D}_{r}$ 的图像对:
$\hat{\mathbf{Y}}=F_\Theta(\mathbf{X}^l,\mathbf{X}^r)=s\big(g\big(f(\mathbf{X}^l),f(\mathbf{X}^r)\big)\big),\tag{1}$
其中 $\Theta$ 为模型的人全部参数， $f(\cdot)$ 表示特征提取模块， $g(\cdot)$ 表示代价体构建、聚合， $s(\cdot)$ 表示soft-argmin操作，经典的立体匹配模型通过平滑 $L 1$ 损失 $L_{\text{sm-}\ell_1}\left(F_\Theta(\mathbf{X}^l,\mathbf{X}^r),\mathbf{Y}^{gt}\right)$ 来优化模型。

Hierarchical Visual Transformation 分层视觉转换（核心为图像增强）

分层视觉转换模块旨在学习到域不变的匹配特征，如语义特征与结构特征，为此，在不同层次学习一系列视觉转换 $\mathcal{T}=\{T_1,\cdots,T_M\}$ 来将输入图像映射到域不变的特征空间 $\left(T(\mathbf{X}^l),T(\mathbf{X}^r)\right)$ ，视觉转换应该具有以下的要求：

$T(\cdot)$ 应使得转换前后的图像具有较大的视觉差异，以扩充训练域的多样性。
$T(\cdot)$ 不应改变原始图像对应的视差图。当输入左右图像时候，仍然应优化 $L_{\text{sm-}\ell_1}(F_\Theta(T(\mathbf{X}^l),T(\mathbf{X}^r)),\mathbf{Y}^{gt})$ 目标。
$f(T(\mathbf{X}))$ 与 $f(\mathbf{X})$ 应该具有一致性，以获得域不变的特征。

为此，作者在全局、局部、像素三个层级设计了视觉不变转换。

全局转换

全局视觉转换 $T_{G}(\cdot)$ 旨在以一个全局的视角改变立体图像的视觉特征分布，包括亮度、对比度、饱和度和色调 ${T_G^B,T_G^C,T_G^S,T_G^H\}$ . 其中， $\{T_{G}^{B},T_{G}^{C},T_{G}^{\bar{S}}\}$ 可以表示为：
$T_G^I(\mathbf{X})=\alpha_G^I\mathbf{X}+(1-\alpha_G^I)o^I(\mathbf{X}),\tag{2}$
其中 $I\in\{B,G,S\}$ ， $\alpha_{G}^I$ 为随机在 $[\tau_{\min}^I,\tau_{\max}^I]$ 选择的对比度参数：
$\left.\left\{\begin{array}{c}\tau_\mathrm{min}^I=1-\left(\mu\sigma(\varrho_l^I)+\beta\right)\\\tau_\mathrm{max}^I=1+\left(\mu\sigma(\varrho_h^I)+\beta\right)\end{array}\right.\right.,\tag{3}$
其中 $\sigma(\cdot)$ 代表 Sigmoid函数。 $\varrho_l^I\in\mathbb{R}^1， \varrho_h^I\in\mathbb{R}^1$ 为两个可学习的参数。 $\mu,\beta$ 为两个正的超参数。公式2中的 $o^{I}(\cdot)$ 的定义为（1）对于亮度转换： $o^B(\mathbf{X})=\mathbf{X}\cdot\mathbf{O}$ ，其中 $\mathbf{O}$ 为全0的矩阵。（2）对于对比度变换： $o^C(\mathbf{X})=\operatorname{Avg}(\operatorname{Gray}(\mathbf{X}))$ ，其中 $\text{ Gray}(\cdot)$ 表示将图像转换为灰度图像， $\operatorname{Avg}(\cdot)$ 表示整张图像的灰度平均值。（3）对于饱和度转换, $o^S(\mathbf{X})=\mathrm{Gray}(\mathbf{X})$ 。

对于色调转换，有：
$T_G^H(\mathbf{X})=\mathrm{Rgb}([\mathbf{h}+\alpha_G^H,\mathbf{s},\mathbf{v}]),\tag{4}$
其中 $\left[\mathbf{h},\mathbf{s},\mathbf{v}\right]=\mathrm{Hsv}(\mathbf{X})$ 表示将图像转换到HSV空间的表示。 $\operatorname{Rgb}(\cdot)$ 表示从HSV空间转换到RGB空间。 $\alpha_{G}^{H}\in\mathbb{R}^{1}$ 表示从 $[\tau_{\mathrm{min}}^{\bar{H}},\tau_{\mathrm{max}}^{H}]$ 随机采样的参数，且 $\tau_{\mathrm{min}}^{H}=-\mu\sigma(\varrho_{l}^{H})-\beta , \tau_{\mathrm{max}}^{H}=\mu\sigma(\varrho_{h}^{H})+\beta$ 。此外， ${T_G^B,T_G^C,T_G^S,T_G^H\}$ 的顺序是随机的。

局部级变换

局部视觉转换 $T_{L}(\cdot)$ 旨在在局部范围改变训练图像的分布。将图像分为 $N^{\prime}\times N^{\prime}$ 个不重叠的块 $\{\mathbf{x}_1^p,\cdots,\mathbf{x}_{N^{\prime}\times N^{\prime}}^p\}$ ，将每个块视为独立的图像，使用随机参数的局部转换 $T_{L}^{p}(\cdot)$ 分别进行转换后拼接回原图大小：
$T_L(\mathbf{X})=\mathsf{Merge}\left([T_L^p(\mathbf{x}_1^p),\cdots,T_L^p(\mathbf{x}_{N^{\prime}\times N^{\prime}}^p)]\right),\tag{5}$
其中局部变换模块可以利用现有的风格迁移网络来实现，或者基于傅里叶的方法，为了与全局变换模块相配合，局部变换模块采用了与全局模块一样的变换函数。

像素级变换

像素级的视觉变换旨在像素层级进行随机变换：
$T_P(\mathbf{X})=\mathbf{X}+\begin{pmatrix}\mu\sigma(\mathbf{W})+\beta\end{pmatrix}\mathbf{P}\tag{6}$
其中 $\mathbf{P}\in\mathbb{R}^{H\times W\times3}$ 为随机生成均值为0，方差为1的的高斯矩阵。 $\mathbf{W}\in\mathbb{R}^{H\times W\times3}$ 为可学习的矩阵。

损失函数

跨域视觉差异最大化：该方法的目的是使数据在变换后的视觉特征分布与变换前的分布有明显的差异，同时保持变换前后的匹配特征表示的一致性，从而学习到不受域影响的特征。这样，立体匹配网络就可以忽略数据中的伪影，更有效地利用学习到的鲁棒特征表示来估计视差：
$\max L_{\mathrm{disc}}(\mathbf{X})=\frac13\sum_{J}d(T_J(\mathbf{X}),\mathbf{X})\tag{7}$
其中 $J\in\{G,L,P\}$ , $d(\cdot)$ 是域差异度量，作者引入一个神经网络模块 $\phi(\cdot)$ 来提取域差异特征，则式7可以表示为：
$\min L_{\sin}(\mathbf{X})=\frac13\sum_J\mathrm{Cos}\left(\phi(T_J(\mathbf{X})),\phi(\mathbf{X})\right),\tag{8}$
为了进一步提升域差异，使用交叉熵损失来优化模型：
$\min L_{\mathfrak{ce}}(\mathbf{X})=\mathrm{CE}\left(\left\{\phi(T_J(\mathbf{X})),\phi(\mathbf{X})\right\},\mathcal{Y}_d\right),\tag{9}$
其中 $\mathcal{Y}_d$ 表示四个变换域的域标签。

跨域特征一致性最大化：为了增强模型的泛化能力，模型需要获取域不变的匹配特征，这要求变换 $T(\cdot)$ 不改变原图的语义与结构特征。因此，最小化以下的损失：

$\min L_{\mathrm{dist}}(\mathbf{X})=\frac13\sum_J\left\|f\left(T_J(\mathbf{X})\right)-f\left(\mathbf{X}\right)\right\|_2,\tag{10}$

总的损失函数：
$\begin{aligned}\min\mathcal{L}=&L_{\mathrm{sm-}\ell_1}(\hat{\mathbf{Y}},\mathbf{Y}^{gt})+\frac12\left(\lambda_1L_{\mathrm{dist}}(\mathbf{X})+\lambda_2L_{\mathrm{sim}}(\mathbf{X})+\lambda_3L_{\mathrm{ce}}(\mathbf{X})\right),\end{aligned}\tag{11}$