↑ 點擊藍字?關注極市平臺

來源丨AI算法修煉營

編輯丨極市平臺

極市導讀

本文綜合介紹了基于深度卷積神經網絡的小樣本分割相關工作，并整理了方法分類、數據集、評測指標、實驗結果等內容。>>加入極市CV技術交流群，走在計算機視覺的最前沿

介紹

深度卷積神經網絡在圖像分類、目標檢測、語義分割等許多視覺理解任務上都取得了重大突破。一個關鍵的原因是大規(guī)模數據集的可用性，比如 ImageNet，這些數據集支持對深度模型的培訓。然而，數據標記是昂貴的，特別是對于密集的預測任務，如語義分割和實例分割。

此外，在對模型進行訓練之后，很難將模型應用于新類的預測。與機器學習算法不同的是，人類只看到幾個例子就能很容易地從圖像中分割出一個新概念。

人類和機器學習算法之間的差距激發(fā)了對小樣本學習的研究，其目的是學習一個模型，可以很好地推廣到具有稀缺標記的訓練數據的新類別。

小樣本分割的終極目的是利用支持集中的 K 個訓練圖像對來“學習”一個模型，使得該模型能對訓練圖像中出現的類別的新樣本實現分割。

相關工作

2.1 元學習

元學習解決的是學習如何學習的問題。元學習的思想是學習「學習（訓練）」過程。主要有基于記憶 Memory 的方法、基于預測梯度的方法、利用 Attention 注意力機制的方法、借鑒 LSTM 的方法、面向 RL 的 Meta Learning 方法、利用 WaveNet 的方法、預測 Loss 的方法等等等。

2.2 小樣本學習

小樣本學習是元學習在監(jiān)督學習領域的應用，Few-shot Learning

模型大致可分為三類：Mode Based，Metric Based 和 Optimization Based。

其中 Model Based 方法旨在通過模型結構的設計快速在少量樣本上更新參數，直接建立輸入 x 和預測值 P 的映射函數；Metric Based 方法通過度量 batch 集中的樣本和 support 集中樣本的距離，借助最近鄰的思想完成分類。

Optimization Based 方法認為普通的梯度下降方法難以在 few-shot 場景下擬合，因此通過調整優(yōu)化方法來完成小樣本分類的任務。

2.3 語義分割

語義分割就是按照“語義”給圖像上目標類別中的每一點打一個標簽，使得不同種類的東西在圖像上被區(qū)分開來。可以理解成像素級別的分類任務。

輸入:（H*W*3）正常的圖片；輸出:（H*W*class）可以看為圖片上每個點的 one-hot 表示，每一個 channel 對應一個 class，對每一個 pixel 位置，都有 class 數目個 channel，每個 channel 的值對應那個像素屬于該 class 的預測概率。

FCN?是語義分割的開山之作，主要特色有兩點：全連接層換成卷積層，不同尺度的信息融合 FCN-8S,16s,32s。

U-net?用于解決小樣本的簡單問題分割，比如醫(yī)療影片的分割。它遵循的基本原理與 FCN 一樣：

1. Encoder-Decoder 結構：前半部分為多層卷積池化，不斷擴大感受野，用于提取特征。后半部分上采樣回復圖片尺寸。

2. 更豐富的信息融合：如灰色剪頭，更多的前后層之間的信息融合。這里是把前面層的輸出和后面層 concat （串聯）到一起，區(qū)別于 FCN 的逐元素加和。

不同 Feature map 串聯到一起后，后面接卷積層，可以讓卷積核在 channel 上自己做出選擇。注意的是，在串聯之前，需要把前層的 feature map crop 到和后層一樣的大小。

SegNet?和 U-net 在結構上其實大同小異，都是編碼-解碼結果。區(qū)別在于，SegNet 沒有直接融合不同尺度的層的信息，為了解決為止信息丟失的問題，SegNet 使用了帶有坐標（index）的池化。

在 Max pooling 時，選擇最大像素的同時，記錄下該像素在 Feature map 的位置（左圖）。在反池化的時候，根據記錄的坐標，把最大值復原到原來對應的位置，其他的位置補零（右圖）。后面的卷積可以把 0 的元素給填上。這樣一來，就解決了由于多次池化造成的位置信息的丟失。

Deeplab V1?不同于之前的思路，他的特色有兩點：

1.由于 Pooling-Upsample 會丟失位置信息而且多層上下采樣開銷較大，把控制感受野大小的方法化成：帶孔卷積（Atrous conv）。

2. 加入 CRF（條件隨機場），利用像素之間的關連信息：相鄰的像素，或者顏色相近的像素有更大的可能屬于同一個 class。

PSPnet：前面的不同 level 的信息融合都是融合淺層和后層的 Feature Map，因為后層的感受野大，語義特征強，淺層的感受野小，局部特征明顯且位置信息豐富。

PSPnet 則使用了空間金字塔池化，得到一組感受野大小不同的 feature map，將這些感受野不同的 map concat 到一起，完成多層次的語義特征融合。

Deeplab V2?在 v1 的基礎上做出了改進，引入了 ASPP（Atrous Spatial Pyramid Pooling）的結構，如上圖所示。我們注意到，Deeplab v1使用帶孔卷積擴大感受野之后，沒有融合不同層之間的信息。

ASPP 層就是為了融合不同級別的語義信息：選擇不同擴張率的帶孔卷積去處理 Feature Map，由于感受野不同，得到的信息的 Level 也就不同，ASPP 層把這些不同層級的 feature map concat 到一起，進行信息融合。

Deeplab v3?在原有基礎上的改動是：1. 改進了 ASPP 模塊。2.引入 Resnet Block。3. 丟棄 CRF。

新的 ASPP 模塊：1. 加入了 Batch Norm。2. 加入特征的全局平均池化（在擴張率很大的情況下，有效權重會變小）。全局平均池化的加入是對全局特征的強調、加強。

在舊的 ASPP 模塊中：我們以為在擴張率足夠大的時候，感受野足夠大，所以獲得的特征傾向于全局特征。但實際上，擴張率過大的情況下，Atrous conv 出現了“權值退化”的問題，感受野過大，都已近擴展到了圖像外面，大多數的權重都和圖像外圍的 zero padding 進行了點乘，這樣并沒有獲取圖像中的信息。有效的權值個數很少，往往就是 1。于是我們加了全局平均池化，強行利用全局信息。

Deeplab v3+可以看成是把 Deeplab v3 作為編碼器（上半部分）。后面再進行解碼，并且在解碼的過程中在此運用了不同層級特征的融合。此外，在 encoder 部分加入了 Xception 的結構減少了參數量，提高運行速遞。

方法總結分類

3.1 OSLSM

motivition 就是學習一個 one-shot 的分割模型，首次提出雙分支的網絡用于 few-shot segmentation，條件分支用 VGG 提取特征，生成權重（w，b），分割分支用 FCN-32s 結構對 query image 進行特征提取，將其與條件分支所得參數進行點乘再通過 σ 函數得到分割結果。

得到一個分割圖，上采樣到圖像大小，利用某個閾值產生分割的二值圖。

輸出的時候，為了是參數量與分割分支的特征圖的通道數相對應，采用 weight hashing 的策略，將輸出的 1000 維向量映射為 4097 維（w:4096, b:1），這種映射機制是建模成固定權重參數的全連接層來實現的。

3.2 co-FCN

文章的主要比較驚奇的一點是僅對原始圖像做一些稀疏的標注（目標位置上點幾個關鍵點，背景位置上點幾個關鍵點）就卻能夠實現對目標的像素級的分割。

網絡結構和 BMVC 那篇 paper 設置類似，也是采用雙分支結構，將標注信息與原始圖像 concate 后輸入 conditioning branch 得到輸入圖像的 embedding。

利用 segmentation branch 對 qurey image 進行特征提取，并將結果與 conditioning branch 得到的 embedding 進行 concate，再進行像素級分割。

3.3 AMP-2

motivation：如何得到一個更好的原型。

方法：在 task 流中，不斷地更新每個類別地原型。

3.4 SG-One

訓練任務的流程：

網絡包含一個主干網絡 Stem（代表的是 VGG-16 的前 3 個 Block）和兩個分支：

Guidance Branch 和 Segmentation Branch，需要注意的是兩個分支共用了三個卷積塊，個人的理解是，如果兩個分支完全獨立，那么 Guidance Branch 產生的指導就會一成不變；

這就失去了意義，作者在論文最后的消融實驗中做了相關的分析與實驗；

與 Segmentation Branch 產生交互后就可以在優(yōu)化分割損失的同時對引導的特征圖進行優(yōu)化，使之匹配相應的真實 mask。網絡在訓練的時候加載了在 ILSVRC 數據集上預訓練的權重。

測試任務的流程：

主要的創(chuàng)新點：

a. 提出使用 masked average pooling 來提取 support set 的中目標的表征向量；

b. 采用余弦相似度來度量 query set 的表征向量與 support set 的表征向量之間距離，用于指導 query set 的分割；

為什么 masked average pooling 會有用？

解釋如下：全卷積網絡（FCN）能夠保留輸入圖像的中每個像素相對位置；所以通過將二值 mask 與提取到的特征圖相乘就可以完全保留目標的特征信息，排除掉背景等無關類別的特征。

3.5 PANet

創(chuàng)新點：

利用了 prototypes 上的度量學習，無參數。

提出 prototypes 對齊正則化，充分利用 support 的知識。

對于帶有弱注釋的少樣本直接使用。

用同一個 backbone 來提取 support 和 query 的深度特征，然后使用 masked average pooling 從 support 的特征將不同的前景物體和背景嵌入不同的 prototypes 中，每個 prototype 表示對應的類別，這樣 query 圖像的每個的像素通過參考離它的嵌入表達最近的特定類的 prototype 來標記，得到 query 的預測 mask 后。

訓練的時候，得到mask后，再將剛才提取的 query feature 和 mask 作為新的“support set”，將之前的 support set 作為新的“query set”，再用“support set”對“query set”做一波預測，然后再算一個 loss

prototype 緊湊且魯棒的對每個語義類別進行表達；mask 標記那塊就是無參度量學習，通過和嵌入空間的逐像素匹配來執(zhí)行分割

執(zhí)行一個 prototype 對齊正則化，用 query 和他的 mask 建立新的 support，然后用這個來預測原始的 support set 的分割，實驗證明能鼓勵 query 的 prototype 對齊他們的 support 的 prototype，只有訓練的時候這么做（反向再推一次，看看是否真的相似）

3.6 CANet

主要貢獻：

開發(fā)了一種新穎的雙分支密集比較模塊，該模塊有效地利用來自CNN的多級特征表示來進行密集的特征比較。

提出迭代優(yōu)化模塊，以迭代方式改進預測結果。迭代細化的能力可以推廣到具有少量鏡頭學習的看不見的類，以生成細粒度圖。

采用注意機制有效地融合來自 k-shot 設置中的多個支持示例的信息，其優(yōu)于單次結果的不可學習的融合方法。

證明給定的支持集具有弱注釋，即邊界框，我們的模型仍然可以獲得與昂貴的像素級注釋支持集的結果相當的性能，這進一步減少了新類別對于少數鏡頭分割的標記工作量。

3.7 PGNet

在 CANet 基礎上加了一個圖注意力機制

3.8 FWB

兩個主要創(chuàng)新點：

Feature Weighting

支持集前后景差異標準化向量：

最大化特征差異：

最終得到的關聯向量：

標準化處理后的余弦相似性：

Feature Boosting?

數據集介紹

PASCAL-5i

MS COCO-20i

FSS-100

評測指標介紹

Mean-IoU:

IoU 就是每一個類別的交集與并集之比，而 mIoU 則是所有類別的平均 IoU。

FB-IoU:

前景和背景一起的準確率

結果陳列

推薦閱讀

ECCV2020圖像分割開源論文合集
基于深度學習的自然圖像和醫(yī)學圖像分割：網絡結構設計
FCN、Unet、Unet++：醫(yī)學圖像分割那點事兒

ACCV 2020國際細粒度網絡圖像識別競賽即將開賽！

添加極市小助手微信（ID : cvmart2），備注：姓名-學校/公司-研究方向-城市（如：小極-北大-目標檢測-深圳），即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術交流群：每月大咖直播分享、真實項目需求對接、求職內推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

△長按添加極市小助手

△長按關注極市平臺，獲取最新CV干貨

覺得有用麻煩給個在看啦~??

基于深度卷積神經網絡的小樣本分割算法綜述

介紹

相關工作

方法總結分類

數據集介紹

評測指標介紹

結果陳列