专栏名称: 环球科学科研圈
“科学美国人”中文版《环球科学》运营,第一时间推送顶级学术期刊摘要、前沿研究成果、精彩讲座与会议报告,服务一线科研人员。
目录
相关文章推荐
实验万事屋  ·  为啥我博士生师姐看SCI文献,读着读着就有灵 ... ·  19 小时前  
研之成理  ·  浙江大学,Nature Catalysis! ·  2 天前  
51好读  ›  专栏  ›  环球科学科研圈

PaperWeekly 第28期 | 图像语义分割之特征整合和结构预测

环球科学科研圈  · 公众号  · 科研  · 2017-03-12 19:40

正文

请到「今天看啥」查看全文


  • 不显眼的类别 (Inconspicuous Classes)
    场景中包括任意尺寸的物体,小尺寸的物体难以被识别但是有时候对于场景理解很重要。


  • Note: 这些大多数错误都部分或者完全和上下文关系以及全局信息有关系,而 PSPNet 就是为了整合不同区域的 context 来获取全局的 context 信息。


    网络结构



    其中的一些 tricks :


    • 图片输入的 CNN 是 ResNet,使用了 dilated convolution

    • Pyramid Pooling Module 中的 conv 是1×1的卷积层,为了减小维度和维持全局特征的权重

    • Pyramid Pooling Module 中的 pooling 的数量以及尺寸都是可以调节的

    • 上采样使用的双线性插值

    • poly learning rate policy

    • 数据扩增用了:random mirror, random resize(0.5-2), random rotation(-10 到 10 度), random Gaussian blur

    • 选取合适的 batchsize


    结构还是很清晰明确的,没太多可说的。


    此外,文中还提到了为了训练使用了一个辅助的 loss,并不在我们讨论内容之内,仅展示一下示意图:



    PSPNet 在 PASCAL VOC 2012 上测试的结果如下:



    FeatMap-Net


    这是林国省老师两篇论文中提到的网络结构的前面一部分,我把它抽取出来在此讨论特征整合,这部分网络结构利用 多尺度 CNN sliding pyramid pooling 来获取 patch-background 的上下文信息。


    网络结构



    其中:

    • 图片进来先进行 0.4, 0.8, 1.2 的放缩

    • 前 1-5 conv block 是共享参数的

    • 向上采样还是我们熟悉的双线性插值


    Sliding Pyramid Pooling



    其中使用的是滑动的 pooling,即 stride 为 1,所以不降低 feature map 的尺寸。不同尺寸的窗口有利于获得不同大小的背景信息,而且增加了 field-of-view,这样 feature vector 能编码更大范围的信息(feature vector 会在之后的结构中使用,下文会介绍到)。


    多级整合







    请到「今天看啥」查看全文