1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        基于深度卷積神經網絡的小樣本分割算法綜述

        共 5739字,需瀏覽 12分鐘

         ·

        2021-06-08 23:58

        點擊上方小白學視覺”,選擇加"星標"或“置頂

        重磅干貨,第一時間送達

        本文轉自:視學算法
        介紹

        深度卷積神經網絡在圖像分類、目標檢測、語義分割等許多視覺理解任務上都取得了重大突破。一個關鍵的原因是大規(guī)模數(shù)據集的可用性,比如 ImageNet,這些數(shù)據集支持對深度模型的培訓。然而,數(shù)據標記是昂貴的,特別是對于密集的預測任務,如語義分割和實例分割。

        此外,在對模型進行訓練之后,很難將模型應用于新類的預測。與機器學習算法不同的是,人類只看到幾個例子就能很容易地從圖像中分割出一個新概念。

        人類和機器學習算法之間的差距激發(fā)了對小樣本學習的研究,其目的是學習一個模型,可以很好地推廣到具有稀缺標記的訓練數(shù)據的新類別。

        小樣本分割的終極目的是利用支持集中的 K 個訓練圖像對來“學習”一個模型,使得該模型能對訓練圖像中出現(xiàn)的類別的新樣本實現(xiàn)分割。

        相關工作

        2.1 元學習

        元學習解決的是學習如何學習的問題。元學習的思想是學習「學習(訓練)」過程。主要有基于記憶 Memory 的方法、基于預測梯度的方法、利用 Attention 注意力機制的方法、借鑒 LSTM 的方法、面向 RL 的 Meta Learning 方法、利用 WaveNet 的方法、預測 Loss 的方法等等等。

        2.2 小樣本學習

        小樣本學習是元學習在監(jiān)督學習領域的應用,F(xiàn)ew-shot Learning

        模型大致可分為三類:Mode Based,Metric Based 和 Optimization Based。

        其中 Model Based 方法旨在通過模型結構的設計快速在少量樣本上更新參數(shù),直接建立輸入 x 和預測值 P 的映射函數(shù);Metric Based 方法通過度量 batch 集中的樣本和 support 集中樣本的距離,借助最近鄰的思想完成分類。

        Optimization Based 方法認為普通的梯度下降方法難以在 few-shot 場景下擬合,因此通過調整優(yōu)化方法來完成小樣本分類的任務。


        2.3 語義分割

        語義分割就是按照“語義”給圖像上目標類別中的每一點打一個標簽,使得不同種類的東西在圖像上被區(qū)分開來??梢岳斫獬上袼丶墑e的分類任務。

        輸入:(H*W*3)正常的圖片;輸出:(H*W*class)可以看為圖片上每個點的 one-hot 表示,每一個 channel 對應一個 class,對每一個 pixel 位置,都有 class 數(shù)目個 channel,每個 channel 的值對應那個像素屬于該 class 的預測概率。

        FCN 是語義分割的開山之作,主要特色有兩點:全連接層換成卷積層,不同尺度的信息融合 FCN-8S,16s,32s。

        U-net 用于解決小樣本的簡單問題分割,比如醫(yī)療影片的分割。它遵循的基本原理與 FCN 一樣:

        1. Encoder-Decoder 結構:前半部分為多層卷積池化,不斷擴大感受野,用于提取特征。后半部分上采樣回復圖片尺寸。

        2. 更豐富的信息融合:如灰色剪頭,更多的前后層之間的信息融合。這里是把前面層的輸出和后面層 concat (串聯(lián))到一起,區(qū)別于 FCN 的逐元素加和。

        不同 Feature map 串聯(lián)到一起后,后面接卷積層,可以讓卷積核在 channel 上自己做出選擇。注意的是,在串聯(lián)之前,需要把前層的 feature map crop 到和后層一樣的大小。

        SegNet 和 U-net 在結構上其實大同小異,都是編碼-解碼結果。區(qū)別在于,SegNet 沒有直接融合不同尺度的層的信息,為了解決為止信息丟失的問題,SegNet 使用了帶有坐標(index)的池化。

        在 Max pooling 時,選擇最大像素的同時,記錄下該像素在 Feature map 的位置(左圖)。在反池化的時候,根據記錄的坐標,把最大值復原到原來對應的位置,其他的位置補零(右圖)。后面的卷積可以把 0 的元素給填上。這樣一來,就解決了由于多次池化造成的位置信息的丟失。

        Deeplab V1 不同于之前的思路,他的特色有兩點:

        1.由于 Pooling-Upsample 會丟失位置信息而且多層上下采樣開銷較大,把控制感受野大小的方法化成:帶孔卷積(Atrous conv)。

        2. 加入 CRF(條件隨機場),利用像素之間的關連信息:相鄰的像素,或者顏色相近的像素有更大的可能屬于同一個 class。

        PSPnet:前面的不同 level 的信息融合都是融合淺層和后層的 Feature Map,因為后層的感受野大,語義特征強,淺層的感受野小,局部特征明顯且位置信息豐富。

        PSPnet 則使用了空間金字塔池化,得到一組感受野大小不同的 feature map,將這些感受野不同的 map concat 到一起,完成多層次的語義特征融合。

        Deeplab V2 在 v1 的基礎上做出了改進,引入了 ASPP(Atrous Spatial Pyramid Pooling)的結構,如上圖所示。我們注意到,Deeplab v1使用帶孔卷積擴大感受野之后,沒有融合不同層之間的信息。

        ASPP 層就是為了融合不同級別的語義信息:選擇不同擴張率的帶孔卷積去處理 Feature Map,由于感受野不同,得到的信息的 Level 也就不同,ASPP 層把這些不同層級的 feature map concat 到一起,進行信息融合。

        Deeplab v3 在原有基礎上的改動是:1. 改進了 ASPP 模塊。2.引入 Resnet Block。3. 丟棄 CRF。

        新的 ASPP 模塊:1. 加入了 Batch Norm。2. 加入特征的全局平均池化(在擴張率很大的情況下,有效權重會變?。H制骄鼗募尤胧菍θ痔卣鞯膹娬{、加強。

        在舊的 ASPP 模塊中:我們以為在擴張率足夠大的時候,感受野足夠大,所以獲得的特征傾向于全局特征。但實際上,擴張率過大的情況下,Atrous conv 出現(xiàn)了“權值退化”的問題,感受野過大,都已近擴展到了圖像外面,大多數(shù)的權重都和圖像外圍的 zero padding 進行了點乘,這樣并沒有獲取圖像中的信息。有效的權值個數(shù)很少,往往就是 1。于是我們加了全局平均池化,強行利用全局信息。

        Deeplab v3+可以看成是把 Deeplab v3 作為編碼器(上半部分)。后面再進行解碼,并且在解碼的過程中在此運用了不同層級特征的融合。此外,在 encoder 部分加入了 Xception 的結構減少了參數(shù)量,提高運行速遞。
        方法總結分類

        3.1 OSLSM

        motivition 就是學習一個 one-shot 的分割模型,首次提出雙分支的網絡用于 few-shot segmentation,條件分支用 VGG 提取特征,生成權重(w,b),分割分支用 FCN-32s 結構對 query image 進行特征提取,將其與條件分支所得參數(shù)進行點乘再通過 σ 函數(shù)得到分割結果。

        得到一個分割圖,上采樣到圖像大小,利用某個閾值產生分割的二值圖。

        輸出的時候,為了是參數(shù)量與分割分支的特征圖的通道數(shù)相對應,采用 weight hashing 的策略,將輸出的 1000 維向量映射為 4097 維(w:4096, b:1),這種映射機制是建模成固定權重參數(shù)的全連接層來實現(xiàn)的。


        3.2 co-FCN

        文章的主要比較驚奇的一點是僅對原始圖像做一些稀疏的標注(目標位置上點幾個關鍵點,背景位置上點幾個關鍵點)就卻能夠實現(xiàn)對目標的像素級的分割。

        網絡結構和 BMVC 那篇 paper 設置類似,也是采用雙分支結構,將標注信息與原始圖像 concate 后輸入 conditioning branch 得到輸入圖像的 embedding。

        利用 segmentation branch 對 qurey image 進行特征提取,并將結果與 conditioning branch 得到的 embedding 進行 concate,再進行像素級分割。


        3.3 AMP-2

        motivation:如何得到一個更好的原型。

        方法:在 task 流中,不斷地更新每個類別地原型。


        3.4 SG-One

        訓練任務的流程:


        網絡包含一個主干網絡 Stem(代表的是 VGG-16 的前 3 個 Block)和兩個分支:

        Guidance Branch 和 Segmentation Branch,需要注意的是兩個分支共用了三個卷積塊 ,個人的理解是,如果兩個分支完全獨立,那么 Guidance Branch 產生的指導就會一成不變;

        這就失去了意義,作者在論文最后的消融實驗中做了相關的分析與實驗;

        與 Segmentation Branch 產生交互后就可以在優(yōu)化分割損失的同時對引導的特征圖進行優(yōu)化,使之匹配相應的真實 mask。網絡在訓練的時候加載了在 ILSVRC 數(shù)據集上預訓練的權重。

        測試任務的流程:


        主要的創(chuàng)新點:

        a. 提出使用 masked average pooling 來提取 support set 的中目標的表征向量;

        b. 采用余弦相似度來度量 query set 的表征向量與 support set 的表征向量之間距離,用于指導 query set 的分割;

        為什么 masked average pooling 會有用?

        解釋如下:全卷積網絡(FCN)能夠保留輸入圖像的中每個像素相對位置;所以通過將二值 mask 與提取到的特征圖相乘就可以完全保留目標的特征信息,排除掉背景等無關類別的特征。

        3.5 PANet

        創(chuàng)新點:

        利用了 prototypes 上的度量學習,無參數(shù)。

        提出 prototypes 對齊正則化,充分利用 support 的知識。

        對于帶有弱注釋的少樣本直接使用。


        用同一個 backbone 來提取 support 和 query 的深度特征,然后使用 masked average pooling 從 support 的特征將不同的前景物體和背景嵌入不同的 prototypes 中,每個 prototype 表示對應的類別,這樣 query 圖像的每個的像素通過參考離它的嵌入表達最近的特定類的 prototype 來標記,得到 query 的預測 mask 后。

        訓練的時候,得到mask后,再將剛才提取的 query feature 和 mask 作為新的“support set”,將之前的 support set 作為新的“query set”,再用“support set”對“query set”做一波預測,然后再算一個 loss

        prototype 緊湊且魯棒的對每個語義類別進行表達;mask 標記那塊就是無參度量學習,通過和嵌入空間的逐像素匹配來執(zhí)行分割


        執(zhí)行一個 prototype 對齊正則化,用 query 和他的 mask 建立新的 support,然后用這個來預測原始的 support set 的分割,實驗證明能鼓勵 query 的 prototype 對齊他們的 support 的 prototype,只有訓練的時候這么做(反向再推一次,看看是否真的相似)

        3.6 CANet

        主要貢獻:

        開發(fā)了一種新穎的雙分支密集比較模塊,該模塊有效地利用來自CNN的多級特征表示來進行密集的特征比較。

        提出迭代優(yōu)化模塊,以迭代方式改進預測結果。迭代細化的能力可以推廣到具有少量鏡頭學習的看不見的類,以生成細粒度圖。

        采用注意機制有效地融合來自 k-shot 設置中的多個支持示例的信息,其優(yōu)于單次結果的不可學習的融合方法。

        證明給定的支持集具有弱注釋,即邊界框,我們的模型仍然可以獲得與昂貴的像素級注釋支持集的結果相當?shù)男阅?,這進一步減少了新類別對于少數(shù)鏡頭分割的標記工作量。


        3.7 PGNet

        在 CANet 基礎上加了一個圖注意力機制


        3.8 FWB


        兩個主要創(chuàng)新點:


        Feature Weighting

        支持集前后景差異標準化向量:


        最大化特征差異:


        最終得到的關聯(lián)向量:


        標準化處理后的余弦相似性:




        Feature Boosting 





        數(shù)據集介紹

        PASCAL-5i


        MS COCO-20i


        FSS-100

        評測指標介紹

        Mean-IoU:


        IoU 就是每一個類別的交集與并集之比,而 mIoU 則是所有類別的平均 IoU。




        FB-IoU:
        前景和背景一起的準確率



        結果陳列





        下載1:OpenCV-Contrib擴展模塊中文版教程
        在「小白學視覺」公眾號后臺回復:擴展模塊中文教程,即可下載全網第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。

        下載2:Python視覺實戰(zhàn)項目52講
        小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

        下載3:OpenCV實戰(zhàn)項目20講
        小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

        交流群


        歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~


        瀏覽 42
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            在线看黄网站 | 偷自拍第一页 | 国产精品久久久久久AV中晋 | 日爽夜爽| 亚洲黄色免费 | 国产精品毛片AV在线看 | 国产精品久久久免费无码 | 91精品久久久久久久99蜜桃 | 人人人人人色 | 欧美成人乱码视频 |