一、Deep High-Resolution Representation Learning for Human Pose Estimation (HRNet)
论文:https://arxiv.org/pdf/1902.09212.pdf
代码:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
二、Deep high-resolution representation learning for visual recognition (HRNetV2)
论文:https://arxiv.org/pdf/1908.07919
代码:https://github.com/HRNet
三、Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation(HRNetV2+OCR)【重要】
论文:https://arxiv.org/pdf/1909.11065.pdf
四、 Hierarchical multi-scale attention for semantic segmentation(HRNetV2+OCR MA)
论文:https://arxiv.org/pdf/2005.10821v1.pdf
二、Deep high-resolution representation learning for visual recognition (HRNetV2)
论文:https://arxiv.org/pdf/1908.07919
代码:https://github.com/HRNet
介绍:
从HRNet中学习到的高分辨率表示不仅在语义上很强,而且在空间上也很精确。这来自于两个方面。
(i)我们的方法是将高到低分辨率的卷积流并行连接,而不是串联连接。因此,我们的方法能够保持高分辨率,而不是从低分辨率中恢复高分辨率,因此,学习到的表示可能在空间上更精确。
(ii)大多数现有的融合方案聚合了通过上采样低分辨率表示获得的高分辨率低级和高级表示。相反,我们在低分辨率表示的帮助下,重复多分辨率融合来提高高分辨率表示,反之亦然。因此,所有的高到低分辨率表示都在语义上是强的。
相关工作
学习低分辨率的表征:全卷积得到粗分割图+中低水平中分辨率表示=精细分割,
恢复高分辨率的表示形式:upsample、skipping connection【SegNet ;DeconvNet ; U-Net ; Hourglass】
保持高分辨率的表示形式:interlinked CNNs; GridNet;multi-scale DenseNet
多尺度融合: (1)我们的融合输出四种分辨率的表示,而不是一个;(2)我们的融合模块重复了多次,这是受到深度融合的启发
网络结构
特点:
并行地连接从高到低的卷积流。它在整个过程中保持高分辨率的表示,并通过反复融合从多分辨率流中获得的表示,生成具有较强位置灵敏度的可靠的高分辨率表示
(1)我们将HRNetV1扩展到两个版本: HRNetV2和HRNetV2p,它们探索了所有的四分辨率表示。
(2)我们建立了多分辨率融合和规则卷积之间的联系,这为探索HRNetV2和HRNetV2p中所有四分辨率表示的必要性提供了证据。
(3)我们展示了HRNetV2和HRNetV2p相对于HRNetV1的优越性,并介绍了HRNetV2和HRNetV2p在广泛的视觉问题中的应用,包括语义分割和目标检测
三、Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation(HRNetV2+OCR)【重要】
论文:https://arxiv.org/pdf/1909.11065.pdf
介绍
早期的研究主要是关于语境的空间尺度,即空间范围。有代表性:如ASPP、PPM,利用了多尺度的上下文。
最近,一些作品,如DANet、CFNet 、OCNet 。考虑了一个位置与其上下文位置之间的关系,并为类似的代表聚合了具有更高权重的上下文位置的表示
GT-OCR通过利用 ground-truth 来估计理想的对象-上下文表示。OCR报告了我们提出的对象-上下文表示的性能。
baseline、OCR、GT-OCR三种方法以输出 stride 8 ResNet-101为骨干的分割结果
如图1所示,经验研究验证了,当给出 ground-truth 对象区域时,这种表示增强方案显著提高了分割质量。
相关工作
多尺度上下文:
- PSPNet [80]对金字塔池表示进行常规卷积,以捕获多尺度上下文。
- DeepLab系列采用了具有不同稀释速率的平行扩张卷积(每个稀释速率捕获了不同尺度的上下文)。
- 最近的工作[24,68,84,72]提出了各种扩展,例如,DenseASPP [68]密度扩展速率,以覆盖更大的尺度范围。
- 其他一些研究[7,42,19]构建了encoder-decoder结构,利用多分辨率特征作为多尺度上下文
关系上下文:
- DANet 、CFNet、OCNet 通过聚合上下文像素的表示来增强每个像素的表示,其中上下文由所有像素组成。
我们的方法是一种关系上下文方法,并与双重注意和ACFNet有关。区别在于区域的形成和像素-区域关系的计算。我们的方法学习的区域与监督的地面-真实分割。相比之下,以往除ACFNet之外的区域都是在没有监督的情况下形成的。另一方面,像素和区域之间的关系是通过同时考虑像素和区域表示来计算的,而以往研究中的像素和区域之间的关系则仅仅是通过像素表示来计算的。