你了解如何用GAN做語義分割嗎
? ?作者:晟沚 ? ? ? ??
? ? ? ??
本文主要推薦一篇使用GAN來做語義分割的論文。?
論文名稱: SemanticSegmentationusingAdversarialNetworks 、
論文鏈接:?https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1611.08408.pdf?
????目前,對抗學習的方法生成圖像已經(jīng)有比較好的效果,在這篇論文中,作者提出了一種使用對抗訓練方法來訓練語義分割模型。同時訓練卷積語義分割網(wǎng)絡(luò)以及對抗網(wǎng)絡(luò),具體做法是在GAN的Generator中使用語義分割的網(wǎng)絡(luò),Generator輸入原圖,輸出預測的分割圖,Discriminator再對抗學習,區(qū)分GroundTruth和Generator生成的預測分割圖。而使用GAN有什么意義呢?論文作者提出采用這樣的方法可以檢測和糾正分割預測圖與GroundTruth的higher-order不一致性。
01
對抗學習
????作者使用兩個loss來監(jiān)督。第一個是多個類別的交叉熵損失,這個loss主要是監(jiān)督每個像素都能預測出正確的類別。第二個loss基于輔助對抗卷積網(wǎng)絡(luò),由于對抗卷積網(wǎng)絡(luò)的視野要么是整個圖像,要么是圖像的很大一部分,因此higher-order label統(tǒng)計中的不匹配會受到對抗性損失的懲罰,這個是按照像素進行分類無法實現(xiàn)的(例如,用某類標記的像素區(qū)域的形狀,或某類區(qū)域中的像素分數(shù)是否超過閾值)功能。?
????作者使用s(x)表示在給定大小為HxWx3的輸入RGB圖像x的情況下,分割模型生成的C個大小為HxWxC的類的類概率圖。使用a(x,y)來表示輸入是x時,對抗模型預測y是GroundTruth的概率,而不是由分割模型s( ·)預測的輸出。給定N個訓練圖像xn的數(shù)據(jù)集和相應(yīng)的標簽yn,將損失定義為如下圖:?
?
????訓練對抗模型主要是優(yōu)化第二個損失,即下圖的二進制分類損失:?
?
????訓練分割模型主要是減少多個類別的交叉熵損失,同時降低對抗模型的性能,使得分割模型生成的預測圖對于Discriminator來說,很難將其與GroundTruth區(qū)分,相關(guān)的損失函數(shù)如下所示:?

02
網(wǎng)絡(luò)結(jié)構(gòu)
????作者對于Stanford Background dataset和Pascal VOC 2012 dataset這兩個數(shù)據(jù)集分別采用了不同的分割網(wǎng)絡(luò)。其中對抗網(wǎng)絡(luò)的思想如下圖,首先分割網(wǎng)絡(luò)將RGB圖像作為輸入,并生成每個像素的類別預測,然后對抗網(wǎng)絡(luò)將GroundTruth作為輸入并生成類標簽(1 =GroundTruth,或0 =合成)。?
03
實驗結(jié)果
????在下圖,作者給出了使用和不使用對抗訓練的情況下使用此網(wǎng)絡(luò)生成的分割結(jié)果。對抗訓練可以更好地加強類別標簽之間的空間一致性。它可以改善和強化大面積類別的概率,例如概率圖描繪了天空和草叢,但也銳化了階級界限,并在小范圍內(nèi)刪除了錯誤預測的類別標簽。?
?
????在兩個數(shù)據(jù)集上的結(jié)果如下兩表:?
?
?
END
機器學習算法工程師
? ??? ? ? ? ? ? ? ? ? ? ? ??????????????????一個用心的公眾號
?

