PSPNet | 語義分割及場景分析
點擊上方“程序員大白”,選擇“星標”公眾號
重磅干貨,第一時間送達
語義分割的目標僅僅是獲知已知對象的每個像素的類別標簽。
場景解析是基于語義分割的,它的目標是獲知圖像內(nèi)所有像素的類別標簽。

場景解析
通過使用金字塔池化模塊(Pyramid Pooling Module),在整合基于不同區(qū)域的上下文后,PSPNet在效果上超過了FCN、DeepLab和DilatedNet等時下最佳的方法。PSPNet最終:
獲得2016年ImageNet場景解析挑戰(zhàn)的冠軍
在PASCAL VOC 2012和Cityscapes數(shù)據(jù)集上取得當時的最佳效果
工作已發(fā)表于2017年CVPR,被引量超過600次。(SH Tsang @ Medium )
本文提綱
1. 對全局信息的需要
2.金字塔池化模塊
3. 一些細節(jié)
4. 模型簡化研究
5. 與時下最佳方法的比較
1. 對全局信息的需要

(c) 原有的未經(jīng)上下文整合的FCN,(d) 經(jīng)上下文整合的PSPNet
關(guān)系錯誤匹配:FCN基于外觀將黃色框內(nèi)的船預(yù)測為“汽車”。但根據(jù)常識,汽車很少會出現(xiàn)在河面上。
類別混淆:FCN將框內(nèi)的對象一部分預(yù)測為“摩天樓”,一部分預(yù)測為“建筑物”。這些結(jié)果應(yīng)當被排除,這樣對象整體就會被分在“摩天樓”或“建筑物”其中一類中,而不會分屬于兩類。
細小對象的類別:枕頭與床單的外觀相似。忽略全局場景類別可能對導致解析“枕頭”一類失敗。
因此,我們需要圖像的一些全局特征。
2.金字塔池化模塊

特征提取后的金字塔池模塊(顏色在本圖中很重要!)
紅色:這是在每個特征map上執(zhí)行全局平均池的最粗略層次,用于生成單個bin輸出。
橙色:這是第二層,將特征map劃分為2×2個子區(qū)域,然后對每個子區(qū)域進行平均池化。
藍色:這是第三層,將特征 map劃分為3×3個子區(qū)域,然后對每個子區(qū)域進行平均池化。
綠色:這是將特征map劃分為6×6個子區(qū)域的最細層次,然后對每個子區(qū)域執(zhí)行池化。
(c).2. 1×1 卷積用于降維
(c).3. 雙線性插值用于上采樣
(c).4. 連接上下文聚合特征
所有不同級別的上采樣特征map都與原始特征map(黑色)連接在一起。這些特征映射融合為全局先驗。這就是金字塔池模塊(c)的終止。
(d)

驗證集用于模型簡化測試。

ResNet50-Baseline: 基于ResNet50的擴張FCN。
‘B1’和‘B1236’: bin大小分別為{1×1}和{1×1,2×2,3×3,6×6}的池化特征map。
‘MAX’和‘AVE’: 最大池操作和平均池操作
‘DR’: 降維.




5. 與最先進方法的比較
5.1. ADE2K - ImageNet場景解析挑戰(zhàn)賽2016

5.2. PASCAL VOC 2012


5.3. Cityscapes



推薦閱讀
關(guān)于程序員大白
程序員大白是一群哈工大,東北大學,西湖大學和上海交通大學的碩士博士運營維護的號,大家樂于分享高質(zhì)量文章,喜歡總結(jié)知識,歡迎關(guān)注[程序員大白],大家一起學習進步!

