1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        圖像分割 | 基于深度卷積神經(jīng)網(wǎng)絡(luò)的小樣本分割算法綜述

        共 5227字,需瀏覽 11分鐘

         ·

        2022-02-26 06:01

        點(diǎn)擊下方卡片,關(guān)注“新機(jī)器視覺”公眾號(hào)

        視覺/圖像重磅干貨,第一時(shí)間送達(dá)

        本文綜合介紹了基于深度卷積神經(jīng)網(wǎng)絡(luò)的小樣本分割相關(guān)工作,并整理了方法分類、數(shù)據(jù)集、評(píng)測(cè)指標(biāo)、實(shí)驗(yàn)結(jié)果等內(nèi)容。


        01

        介紹


        深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割等許多視覺理解任務(wù)上都取得了重大突破。一個(gè)關(guān)鍵的原因是大規(guī)模數(shù)據(jù)集的可用性,比如 ImageNet,這些數(shù)據(jù)集支持對(duì)深度模型的培訓(xùn)。然而,數(shù)據(jù)標(biāo)記是昂貴的,特別是對(duì)于密集的預(yù)測(cè)任務(wù),如語(yǔ)義分割和實(shí)例分割。

        此外,在對(duì)模型進(jìn)行訓(xùn)練之后,很難將模型應(yīng)用于新類的預(yù)測(cè)。與機(jī)器學(xué)習(xí)算法不同的是,人類只看到幾個(gè)例子就能很容易地從圖像中分割出一個(gè)新概念。

        人類和機(jī)器學(xué)習(xí)算法之間的差距激發(fā)了對(duì)小樣本學(xué)習(xí)的研究,其目的是學(xué)習(xí)一個(gè)模型,可以很好地推廣到具有稀缺標(biāo)記的訓(xùn)練數(shù)據(jù)的新類別。

        小樣本分割的終極目的是利用支持集中的 K 個(gè)訓(xùn)練圖像對(duì)來(lái)“學(xué)習(xí)”一個(gè)模型,使得該模型能對(duì)訓(xùn)練圖像中出現(xiàn)的類別的新樣本實(shí)現(xiàn)分割。

        02

        相關(guān)工作


        2.1 元學(xué)習(xí)

        元學(xué)習(xí)解決的是學(xué)習(xí)如何學(xué)習(xí)的問(wèn)題。元學(xué)習(xí)的思想是學(xué)習(xí)「學(xué)習(xí)(訓(xùn)練)」過(guò)程。主要有基于記憶 Memory 的方法、基于預(yù)測(cè)梯度的方法、利用 Attention 注意力機(jī)制的方法、借鑒 LSTM 的方法、面向 RL 的 Meta Learning 方法、利用 WaveNet 的方法、預(yù)測(cè) Loss 的方法等等等。

        2.2 小樣本學(xué)習(xí)

        小樣本學(xué)習(xí)是元學(xué)習(xí)在監(jiān)督學(xué)習(xí)領(lǐng)域的應(yīng)用,F(xiàn)ew-shot Learning

        模型大致可分為三類:Mode Based,Metric Based 和 Optimization Based。

        其中 Model Based 方法旨在通過(guò)模型結(jié)構(gòu)的設(shè)計(jì)快速在少量樣本上更新參數(shù),直接建立輸入 x 和預(yù)測(cè)值 P 的映射函數(shù);Metric Based 方法通過(guò)度量 batch 集中的樣本和 support 集中樣本的距離,借助最近鄰的思想完成分類。

        Optimization Based 方法認(rèn)為普通的梯度下降方法難以在 few-shot 場(chǎng)景下擬合,因此通過(guò)調(diào)整優(yōu)化方法來(lái)完成小樣本分類的任務(wù)。


        2.3 語(yǔ)義分割

        語(yǔ)義分割就是按照“語(yǔ)義”給圖像上目標(biāo)類別中的每一點(diǎn)打一個(gè)標(biāo)簽,使得不同種類的東西在圖像上被區(qū)分開來(lái)??梢岳斫獬上袼丶?jí)別的分類任務(wù)。

        輸入:(H*W*3)正常的圖片;輸出:(H*W*class)可以看為圖片上每個(gè)點(diǎn)的 one-hot 表示,每一個(gè) channel 對(duì)應(yīng)一個(gè) class,對(duì)每一個(gè) pixel 位置,都有 class 數(shù)目個(gè) channel,每個(gè) channel 的值對(duì)應(yīng)那個(gè)像素屬于該 class 的預(yù)測(cè)概率。

        FCN 是語(yǔ)義分割的開山之作,主要特色有兩點(diǎn):全連接層換成卷積層,不同尺度的信息融合 FCN-8S,16s,32s。

        U-net 用于解決小樣本的簡(jiǎn)單問(wèn)題分割,比如醫(yī)療影片的分割。它遵循的基本原理與 FCN 一樣:

        1. Encoder-Decoder 結(jié)構(gòu):前半部分為多層卷積池化,不斷擴(kuò)大感受野,用于提取特征。后半部分上采樣回復(fù)圖片尺寸。

        2. 更豐富的信息融合:如灰色剪頭,更多的前后層之間的信息融合。這里是把前面層的輸出和后面層 concat (串聯(lián))到一起,區(qū)別于 FCN 的逐元素加和。

        不同 Feature map 串聯(lián)到一起后,后面接卷積層,可以讓卷積核在 channel 上自己做出選擇。注意的是,在串聯(lián)之前,需要把前層的 feature map crop 到和后層一樣的大小。

        SegNet 和 U-net 在結(jié)構(gòu)上其實(shí)大同小異,都是編碼-解碼結(jié)果。區(qū)別在于,SegNet 沒有直接融合不同尺度的層的信息,為了解決信息丟失的問(wèn)題,SegNet 使用了帶有坐標(biāo)(index)的池化。

        在 Max pooling 時(shí),選擇最大像素的同時(shí),記錄下該像素在 Feature map 的位置(左圖)。在反池化的時(shí)候,根據(jù)記錄的坐標(biāo),把最大值復(fù)原到原來(lái)對(duì)應(yīng)的位置,其他的位置補(bǔ)零(右圖)。后面的卷積可以把 0 的元素給填上。這樣一來(lái),就解決了由于多次池化造成的位置信息的丟失。

        Deeplab V1 不同于之前的思路,他的特色有兩點(diǎn):

        1.由于 Pooling-Upsample 會(huì)丟失位置信息而且多層上下采樣開銷較大,把控制感受野大小的方法化成:帶孔卷積(Atrous conv)。

        2. 加入 CRF(條件隨機(jī)場(chǎng)),利用像素之間的關(guān)聯(lián)信息:相鄰的像素,或者顏色相近的像素有更大的可能屬于同一個(gè) class。

        PSPnet:前面的不同 level 的信息融合都是融合淺層和后層的 Feature Map,因?yàn)楹髮拥母惺芤按螅Z(yǔ)義特征強(qiáng),淺層的感受野小,局部特征明顯且位置信息豐富。

        PSPnet 則使用了空間金字塔池化,得到一組感受野大小不同的 feature map,將這些感受野不同的 map concat 到一起,完成多層次的語(yǔ)義特征融合。

        Deeplab V2 在 v1 的基礎(chǔ)上做出了改進(jìn),引入了 ASPP(Atrous Spatial Pyramid Pooling)的結(jié)構(gòu),如上圖所示。我們注意到,Deeplab v1使用帶孔卷積擴(kuò)大感受野之后,沒有融合不同層之間的信息。

        ASPP 層就是為了融合不同級(jí)別的語(yǔ)義信息:選擇不同擴(kuò)張率的帶孔卷積去處理 Feature Map,由于感受野不同,得到的信息的 Level 也就不同,ASPP 層把這些不同層級(jí)的 feature map concat 到一起,進(jìn)行信息融合。

        Deeplab v3 在原有基礎(chǔ)上的改動(dòng)是:1. 改進(jìn)了 ASPP 模塊。2.引入 Resnet Block。3. 丟棄 CRF。

        新的 ASPP 模塊:1. 加入了 Batch Norm。2. 加入特征的全局平均池化(在擴(kuò)張率很大的情況下,有效權(quán)重會(huì)變?。H制骄鼗募尤胧菍?duì)全局特征的強(qiáng)調(diào)、加強(qiáng)。

        在舊的 ASPP 模塊中:我們以為在擴(kuò)張率足夠大的時(shí)候,感受野足夠大,所以獲得的特征傾向于全局特征。但實(shí)際上,擴(kuò)張率過(guò)大的情況下,Atrous conv 出現(xiàn)了“權(quán)值退化”的問(wèn)題,感受野過(guò)大,都已經(jīng)擴(kuò)展到了圖像外面,大多數(shù)的權(quán)重都和圖像外圍的 zero padding 進(jìn)行了點(diǎn)乘,這樣并沒有獲取圖像中的信息。有效的權(quán)值個(gè)數(shù)很少,往往就是 1。于是我們加了全局平均池化,強(qiáng)行利用全局信息。

        Deeplab v3+可以看成是把 Deeplab v3 作為編碼器(上半部分)。后面再進(jìn)行解碼,并且在解碼的過(guò)程中在此運(yùn)用了不同層級(jí)特征的融合。此外,在 encoder 部分加入了 Xception 的結(jié)構(gòu)減少了參數(shù)量,提高運(yùn)行速率。

        03

        方法總結(jié)分類


        3.1 OSLSM

        motivition 就是學(xué)習(xí)一個(gè) one-shot 的分割模型,首次提出雙分支的網(wǎng)絡(luò)用于 few-shot segmentation,條件分支用 VGG 提取特征,生成權(quán)重(w,b),分割分支用 FCN-32s 結(jié)構(gòu)對(duì) query image 進(jìn)行特征提取,將其與條件分支所得參數(shù)進(jìn)行點(diǎn)乘再通過(guò) σ 函數(shù)得到分割結(jié)果。

        得到一個(gè)分割圖,上采樣到圖像大小,利用某個(gè)閾值產(chǎn)生分割的二值圖。

        輸出的時(shí)候,是為了參數(shù)量與分割分支的特征圖的通道數(shù)相對(duì)應(yīng),采用 weight hashing 的策略,將輸出的 1000 維向量映射為 4097 維(w:4096, b:1),這種映射機(jī)制是建模成固定權(quán)重參數(shù)的全連接層來(lái)實(shí)現(xiàn)的。


        3.2 co-FCN

        文章的主要比較驚奇的一點(diǎn)是僅對(duì)原始圖像做一些稀疏的標(biāo)注(目標(biāo)位置上點(diǎn)幾個(gè)關(guān)鍵點(diǎn),背景位置上點(diǎn)幾個(gè)關(guān)鍵點(diǎn))就能夠?qū)崿F(xiàn)對(duì)目標(biāo)的像素級(jí)的分割。

        網(wǎng)絡(luò)結(jié)構(gòu)和 BMVC 那篇 paper 設(shè)置類似,也是采用雙分支結(jié)構(gòu),將標(biāo)注信息與原始圖像 concate 后輸入 conditioning branch 得到輸入圖像的 embedding。

        利用 segmentation branch 對(duì) qurey image 進(jìn)行特征提取,并將結(jié)果與 conditioning branch 得到的 embedding 進(jìn)行 concate,再進(jìn)行像素級(jí)分割。


        3.3 AMP-2

        motivation:如何得到一個(gè)更好的原型。

        方法:在 task 流中,不斷地更新每個(gè)類別的原型。


        3.4 SG-One

        訓(xùn)練任務(wù)的流程:


        網(wǎng)絡(luò)包含一個(gè)主干網(wǎng)絡(luò) Stem(代表的是 VGG-16 的前 3 個(gè) Block)和兩個(gè)分支:

        Guidance Branch 和 Segmentation Branch,需要注意的是兩個(gè)分支共用了三個(gè)卷積塊 ,個(gè)人的理解是,如果兩個(gè)分支完全獨(dú)立,那么 Guidance Branch 產(chǎn)生的指導(dǎo)就會(huì)一成不變;

        這就失去了意義,作者在論文最后的消融實(shí)驗(yàn)中做了相關(guān)的分析與實(shí)驗(yàn);

        與 Segmentation Branch 產(chǎn)生交互后就可以在優(yōu)化分割損失的同時(shí)對(duì)引導(dǎo)的特征圖進(jìn)行優(yōu)化,使之匹配相應(yīng)的真實(shí) mask。網(wǎng)絡(luò)在訓(xùn)練的時(shí)候加載了在 ILSVRC 數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重。

        測(cè)試任務(wù)的流程:


        主要的創(chuàng)新點(diǎn):

        a. 提出使用 masked average pooling 來(lái)提取 support set 的中目標(biāo)的表征向量;

        b. 采用余弦相似度來(lái)度量 query set 的表征向量與 support set 的表征向量之間距離,用于指導(dǎo) query set 的分割;

        為什么 masked average pooling 會(huì)有用?

        解釋如下:全卷積網(wǎng)絡(luò)(FCN)能夠保留輸入圖像的中每個(gè)像素相對(duì)位置;所以通過(guò)將二值 mask 與提取到的特征圖相乘就可以完全保留目標(biāo)的特征信息,排除掉背景等無(wú)關(guān)類別的特征。

        3.5 PANet

        創(chuàng)新點(diǎn):

        利用了 prototypes 上的度量學(xué)習(xí),無(wú)參數(shù)。

        提出 prototypes 對(duì)齊正則化,充分利用 support 的知識(shí)。

        對(duì)于帶有弱注釋的少樣本直接使用。


        用同一個(gè) backbone 來(lái)提取 support 和 query 的深度特征,然后使用 masked average pooling 從 support 的特征將不同的前景物體和背景嵌入不同的 prototypes 中,每個(gè) prototype 表示對(duì)應(yīng)的類別,這樣 query 圖像的每個(gè)的像素通過(guò)參考離它的嵌入表達(dá)最近的特定類的 prototype 來(lái)標(biāo)記,得到 query 的預(yù)測(cè) mask 后。

        訓(xùn)練的時(shí)候,得到mask后,再將剛才提取的 query feature 和 mask 作為新的“support set”,將之前的 support set 作為新的“query set”,再用“support set”對(duì)“query set”做一波預(yù)測(cè),然后再算一個(gè) loss

        prototype 緊湊且魯棒的對(duì)每個(gè)語(yǔ)義類別進(jìn)行表達(dá);mask 標(biāo)記那塊就是無(wú)參度量學(xué)習(xí),通過(guò)和嵌入空間的逐像素匹配來(lái)執(zhí)行分割


        執(zhí)行一個(gè) prototype 對(duì)齊正則化,用 query 和他的 mask 建立新的 support,然后用這個(gè)來(lái)預(yù)測(cè)原始的 support set 的分割,實(shí)驗(yàn)證明能鼓勵(lì) query 的 prototype 對(duì)齊他們的 support 的 prototype,只有訓(xùn)練的時(shí)候這么做(反向再推一次,看看是否真的相似)

        3.6 CANet

        主要貢獻(xiàn):

        開發(fā)了一種新穎的雙分支密集比較模塊,該模塊有效地利用來(lái)自CNN的多級(jí)特征表示來(lái)進(jìn)行密集的特征比較。

        提出迭代優(yōu)化模塊,以迭代方式改進(jìn)預(yù)測(cè)結(jié)果。迭代細(xì)化的能力可以推廣到具有少量鏡頭學(xué)習(xí)的看不見的類,以生成細(xì)粒度圖。

        采用注意機(jī)制有效地融合來(lái)自 k-shot 設(shè)置中的多個(gè)支持示例的信息,其優(yōu)于單次結(jié)果的不可學(xué)習(xí)的融合方法。

        證明給定的支持集具有弱注釋,即邊界框,我們的模型仍然可以獲得與昂貴的像素級(jí)注釋支持集的結(jié)果相當(dāng)?shù)男阅埽@進(jìn)一步減少了新類別對(duì)于少數(shù)鏡頭分割的標(biāo)記工作量。


        3.7 PGNet

        在 CANet 基礎(chǔ)上加了一個(gè)圖注意力機(jī)制


        3.8 FWB


        兩個(gè)主要?jiǎng)?chuàng)新點(diǎn):

        Feature Weighting

        支持集前后景差異標(biāo)準(zhǔn)化向量:


        最大化特征差異:


        最終得到的關(guān)聯(lián)向量:


        標(biāo)準(zhǔn)化處理后的余弦相似性:



        Feature Boosting?





        數(shù)據(jù)集介紹


        PASCAL-5i


        MS COCO-20i


        FSS-100

        評(píng)測(cè)指標(biāo)介紹


        Mean-IoU:


        IoU 就是每一個(gè)類別的交集與并集之比,而 mIoU 則是所有類別的平均 IoU。




        FB-IoU:

        前景和背景一起的準(zhǔn)確率


        結(jié)果陳列




        本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。

        —THE END—
        瀏覽 136
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            操逼手机视频 | 久草天堂| 影音先锋成人片 | 日本三级电影天堂网 | 99热官网 | 肏逼视频免费看 | 日本少妇bbw撒尿视频 | 国产精品久久久一区二区三区网站 | AAA片 | 少妇的奶子 |