正文
不显眼的类别
(Inconspicuous Classes)
场景中包括任意尺寸的物体,小尺寸的物体难以被识别但是有时候对于场景理解很重要。
Note:
这些大多数错误都部分或者完全和上下文关系以及全局信息有关系,而 PSPNet 就是为了整合不同区域的 context 来获取全局的 context 信息。
网络结构
其中的一些
tricks
:
-
图片输入的 CNN 是 ResNet,使用了 dilated convolution
-
Pyramid Pooling Module 中的 conv 是1×1的卷积层,为了减小维度和维持全局特征的权重
-
Pyramid Pooling Module 中的 pooling 的数量以及尺寸都是可以调节的
-
上采样使用的双线性插值
-
poly learning rate policy
-
数据扩增用了:random mirror, random resize(0.5-2), random rotation(-10 到 10 度), random Gaussian blur
-
选取合适的 batchsize
结构还是很清晰明确的,没太多可说的。
此外,文中还提到了为了训练使用了一个辅助的 loss,并不在我们讨论内容之内,仅展示一下示意图:
PSPNet 在 PASCAL VOC 2012 上测试的结果如下:
FeatMap-Net
这是林国省老师两篇论文中提到的网络结构的前面一部分,我把它抽取出来在此讨论特征整合,这部分网络结构利用
多尺度 CNN
和
sliding pyramid pooling
来获取 patch-background 的上下文信息。
网络结构
其中:
Sliding Pyramid Pooling
其中使用的是滑动的 pooling,即 stride 为 1,所以不降低 feature map 的尺寸。不同尺寸的窗口有利于获得不同大小的背景信息,而且增加了 field-of-view,这样 feature vector 能编码更大范围的信息(feature vector 会在之后的结构中使用,下文会介绍到)。
多级整合