论文笔记《Rethinking Atrous Convolution for Semantic Image Segmentation》

发表于 2017-10-21 更新于 2023-03-30 分类于 Note 笔记， Semantic Segmentation

![1508501321087](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508501321087.png)

Abstract

本文我们回顾了atrous 卷积，一个调整filter感知域并控制特征图分辨率的强大工具。为了处理多尺度目标分割，我们的模型使用不同空率（atrous rates）的atrous卷积进行级联或平行，以此来获得不同尺度的语义信息。并且，我们提出Atrous Spatial Pyramid Pooling (ASPP) 孔空间池化模型，探索多尺度上卷机特征具有图像级的全局特征编码并提升性能。本文提出的 DeepLabv3 比之前的版本提升，并且没有DenseCRF后处理，在VOC 2012图像分割benchmark上，实现与其他先进方法类似的性能。

1. Introduction

DCNN用于语义分割任务面临两个挑战：

池化和卷积步长会减小特征分辨率，妨碍需要丰富空间信息的任务，例如分割
目标的尺度多样性

解决方法：

使用 atrous 卷积（也称为膨胀（dilated）卷积）来改变ImageNet预训练模型的功能，在网络的最后几层取消将采样操作，通过在filter的中间增加孔等同于提高卷积核尺寸。这样在不增加网络参数的情况下提升了特征图的分辨率。
图2显示了几种处理多尺度的方法：
- 图像金字塔
- 编码-解码，先提取特征，然后恢复空间分辨率
- 使用atrous级联获得高分辨率和大感知域特征
- 空间金字塔池化[^10][^80] 在特征图上使用不同比率的池化和filter操作得到不同的感受域

本文，我们使用atrous卷积增加感受域获得不同尺度的语义信息。我们提出的模型包含多种尺寸的atrous，并且发现batch normolization层对于训练很重要。我们发现使用3$\times$3的atrous卷积，如果空隙过大也不行，主要因为图像边界效应。ASPP中简单的退化为1$\times$1卷积来获得图像级的特征。后面我们会分享训练的经验机械，包括简单有效的bootstrapping方法来处理稀少和精细的标注目标。最后，我们的方法在PASCAL VOC 2012上实现了85.7%的精度，并不适用DenseCRF后处理。

![1508487635972](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508487635972.png)

(a) 图像金字塔

(b) 编码-解码器

(d) 空间金字塔池化

膨胀卷积 最近基于膨胀卷积的模型在语义分割领域很流行。[^73]研究了孔率（atrous rates）对获得大范围（long-rang）信息的影响。[^72]采用hyper孔率应用域ResNet最后两个Block。[^16]尝试学习可变形卷积。膨胀卷积也应用于目标检测[^56][^15][^31]

3. Methods

本节回顾了如何应用膨胀卷积提取高分辨率特征用于语义分割。后面讨论了，将膨胀卷积用于级联和平行模型中。

3.1 膨胀卷积用于Dense Feature 提取

DCNN由于池化和卷积步长导致特征分辨率降低。因此有些方法尝试用反卷积来恢复特征分辨率。但是，我们提倡使用膨胀卷积。膨胀卷积的公式如下：

![1508500253840](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508500253840.png)

$x$ 输入特征
$i$ 特征位置
$r$ 孔率（atrous rates）
$k$ filter尺寸
$w$ 权重

膨胀卷积能够调整filter的感知域，如图1所示。因此，其能够让我们显式的控制全卷机网络中的特征响应尺寸。这里我们用output_stride 来表示输出的空间分辨率比例。假设一个DCNN的会缩小32倍，取消最后一个池化层或卷积层的步长设为1，然后后面的孔率设为2。这样在不增加任何参数的情况下提高特征分辨率。具体细节看[^10]

3.2 Going Deeper with Atrous Convolution

![1508502437271](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508502437271.png)

级联模型在ResNet的block4开始，使用atrous。本来使用stride和pooling是为了得到大范围的信息，最终缩小到低分辨率的特征图上。然而，我们发现，这样的stride丢失的信息会损害语义分割。因此采样atrous来保持分辨率。

3.2.1 多网格

受到之前一些研究对不同层级采用不同网格尺寸的启发，我们对block4到block7采用不同的孔率。$Multi\_Grid=(r_1,r_2,r_3)$ ，我们采用$rates=2\cdot(1,2,4)=(2,4,8)$。（这里不太懂是级联的用不同孔率，还是在一层上就用不同的空率）

3.3 Atrous Spatial Pyramid Pooling（ASPP）

![1508504434479](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508504434479.png)

借鉴了SPP Net的平行空间分辨率的方法。这样能形成不同的感受域，更好的获得多尺度信息。但是，当孔率增加是，有效的filter权重数量也在变少（filter的权重用于特征区域，而不是padding）。当对一个65$\times$65的特征图应用不同孔率时，各个有效权重膨胀卷积操作的比例。当孔率增加，我们看到有效权重的数量减少，极端情况下，只有中心的fitler权重是有效权重。之后还有图像级池化。

![1508505311787](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508505311787.png)

4. Experimental Evaluation

网络模型使用ImageNet预训练的ResNet。在TensorFlow框架下实现。如果希望输出output _ stride=8，那就从block3开始用rate=2，block4的rate=4。

我们在PASCAL VOC 2012 语义分割benchmark上评估模型。评估指标为像素交并集。

4.1 训练方法

学习率 我们采用“poly”学习率，对初始学习率乘以$(1-\frac{iter}{max\_iter})^{power}$ ，$power=0.9$。

Crop Size 尺寸为512

Batch normolization 对ResNet增加模块全部包含batch normolization。后面这段是具体的训练细节。

Upsampling logits 对最后的结果进行上采样，来保证对原图进行反向传播，不损失原始的标注细节。

Data augmentation 对原图进行随机缩放（0.5~2.0），然后随机左右翻转。

4.2 使用膨胀卷积的深度网络

我们先实验了级联膨胀卷积的模型

ResNet-50： 表1，我们看见output _ stride影响，output _ stride的增加伴随着信号的损失，当采用膨胀卷积后，效果从20.29%提升到75.18%，说明膨胀卷积对级联block进行语义分割的重要性。

![1508509468319](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508509468319.png)

Res-50 vs. Res-101 两个网络模型，增加级联的block，其性能持续改善，但是提升逐渐减少。

![1508510227795](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508510227795.png)

Multigrid 表3显示了不同孔率搭配的结果。

![1508510702238](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508510702238.png)

Inference Strategy on val set 我们还尝试使用output _ stride=8的结果。然后对输入图像进行多尺度处理，左右翻转，也能进一步提升，最后的结果是对每个结果probability求平均。

![1508549190998](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508549190998.png)

4.3 ASPP

ASPP 表5我们实验了ASPP和应用于block4的Multigrid配合。应该是一个block中有多个卷积层，使用不同的rates，还有图像级的Image Pooling

![1508512107326](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508512107326.png)

Inference strategy on val set 同上。发现ASPP比级联的稍好。

与DeepLabv2比较 在没有DenseCRF和MS-COCO预训练的情况下已经比v2好。主要是改进因为fine-tuning batch normalization，以及更好的编码多尺度上下文。

Block5 + ASPP 我们尝试在组合级联和平行模型，在Block5上的效果却不好。

量化结果 在PASCAL VOC 2012测试集上的结果mIOU=85.7
![1508564060949](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508564060949.png)

Bootstrapping 我们不是像其他人挖掘困难负样本，而是复制包含困难类别的图像。这样简单的Bootstrapping策略也能得到较好的结果。

![1508513867319](http://zavix-image.oss-cn-shenzhen.aliyuncs.com/note/Rethink Atrous/1508513867319.png)

@article{Chen2017Rethinking,
author = {Chen, Liang Chieh and Papandreou, George and Schroff, Florian and Adam, Hartwig},
title = {{Rethinking Atrous Convolution for Semantic Image Segmentation}},
journal={arXiv preprint arXiv:1706.05587}
year = {2017}
}

Reference

[^10]: L.-C. Chen, G. Papandreou, I.Kokkinos, K. Murphy, and A. L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. arXiv:1606.00915, 2016.
[^15]: J. Dai, Y. Li, K. He, and J. Sun. R-fcn: Object detection via region-based fully convolutional networks. arXiv:1605.06409, 2016.
[^16]: J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y.Wei. Deformable convolutional networks. arXiv:1703.06211, 2017.
[^31]: J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z.Wojna, Y. Song, S. Guadarrama, and K. Murphy. Speed/accuracy trade-offs for modern convolutional object detectors. In CVPR, 2017.
[^56]: G. Papandreou, I. Kokkinos, and P.-A. Savalle. Modeling local and global deformations in deep learning: Epitomic convolution, multiple instance learning, and sliding window detection. In CVPR, 2015.
[^72]: P.Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, and G. Cottrell. Understanding convolution for semantic segmen- tation. arXiv:1702.08502, 2017.
[^73]: Z. Wu, C. Shen, and A. van den Hengel. Bridging category-level and instance-level semantic image segmen- tation. arXiv:1605.06885, 2016.
[^80]: H. Zhao, J. Shi, X. Qi, X.Wang, and J. Jia. Pyramid scene parsing network. arXiv:1612.01105, 2016.