點(diǎn)擊上方“AI算法與圖像處理”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)
來源：學(xué)術(shù)頭條

【導(dǎo)讀】在ECCV 2020 上，商湯自動(dòng)駕駛團(tuán)隊(duì)提出了一種新型基于解耦優(yōu)化思路的語義分割模型?，F(xiàn)有的語義分割方法要么通過對全局上下文信息建模來提高目標(biāo)對象的內(nèi)部一致性，要么通過多尺度特征融合來對目標(biāo)對象的邊界細(xì)節(jié)進(jìn)行優(yōu)化。我們提出了一種新的語義分割方法，本文認(rèn)為性能強(qiáng)的語義分割方法需要明確地建模目標(biāo)對象的主體（body）和邊緣（edge），這對應(yīng)于圖像的高頻和低頻信息。為此，本文首先通過warp圖像特征來學(xué)習(xí) flow field 使目標(biāo)對象主體部分更加一致。在解耦監(jiān)督下，通過對不同部分（主體或邊緣）像素進(jìn)行顯式采樣，進(jìn)一步優(yōu)化產(chǎn)生的主體特征和殘余邊緣特征。我們的實(shí)驗(yàn)表明，所提出的具有各種基準(zhǔn)或主干網(wǎng)絡(luò)的框架可有更好的目標(biāo)對象內(nèi)部一致性和邊緣部分。我們提出的方法在包括 Cityscapes、CamVid、KITTI 和 BDD 在內(nèi)的四個(gè)主要道路場景語義分割數(shù)據(jù)集上實(shí)現(xiàn)了 SOTA 的結(jié)果，同時(shí)保持了較高的推理效率。我們的方法僅使用精細(xì)標(biāo)注的數(shù)據(jù)就可以在 Cityscapes 數(shù)據(jù)集上達(dá)到 83.7 mIoU。

挑戰(zhàn)和動(dòng)機(jī)

圖1全局上下文信息建模

圖2?較底層信息融合

目前現(xiàn)有的語義分割模型主要面臨的挑戰(zhàn)主要分為兩個(gè)部分：第一是建模物體內(nèi)部語義信息的一致性，第二個(gè)是如何盡可能保留細(xì)節(jié)信息，提升邊緣分割的效果。針對第一個(gè)問題，目前主流的方法都是去建模更好的上下文信息。比如圖 1 中的 PSPnet，Deeplab 系列，還有近期比較火的基于 non-local 模型的一些網(wǎng)絡(luò) CCnet 和 EMAnet，以及近期使用 Graph Convolution Network 建模上下文的 DGMNet。針對第二個(gè)問題，現(xiàn)有的一些解決方案是把較低層特征經(jīng)過融合的方式來提升小物體和邊緣的分割效果。比如 Gated-SCNN 和 GFFnet。

?圖3 動(dòng)機(jī)示意圖

那么我們在思考是否有一種統(tǒng)一的方法來同時(shí)做到這兩件事情。在傳統(tǒng)的圖像處理方式中，一張自然圖片可以被分解成高低頻率項(xiàng)，其中低頻項(xiàng)中包括粗糙的模糊化的信息，而高頻項(xiàng)中包含更多細(xì)節(jié)信息，比如邊緣。我們進(jìn)一步對分割的監(jiān)督 mask 進(jìn)行如此操作，可以觀察到相同的現(xiàn)象，邊緣信息可以通過對把原始的主體部分減去得到，并且更加明顯。在理想情況下，我們的分割特征應(yīng)該接近輸出的監(jiān)督 mask。因此，我們提出了一些通過解耦語義分割特征的方法來提升語義分割的效果。我們的方法大體分為三步，第一步是生成主體特征部分，這里我們提出了學(xué)習(xí)流場來插值生成主體部分的模型，第二步是得到邊緣的特征，這里我們采用減法操作得到銳化的邊緣特征，第三步，我們針對上述的兩個(gè)特征進(jìn)行優(yōu)化，前者使用邊緣松弛優(yōu)化，后者使用邊緣的監(jiān)督，再把優(yōu)化后的特征進(jìn)行相加得到最終的特征表示。

方法介紹

這里我們給出詳細(xì)的方法介紹。圖 2 展示了整個(gè)網(wǎng)絡(luò)架構(gòu)，我們的最好的模型是基于最新模型 Deeplabv3 +。在這里，僅將帶空洞卷積的 ResNet 用作主干網(wǎng)絡(luò)。這里我們所提出的模塊被插入到 ASPP 模塊之后。解耦損失函數(shù)分別附加在解耦模塊的末尾。

圖4方法示意圖

1，解耦的語義分割框架
?
給定一個(gè)特征圖 H×W×C，其中 C 表示通道尺寸，H×W 表示空間分辨率，所提出的模塊輸出具有相同大小的細(xì)化特征圖。特征圖可以分解為 body 主體部分和 edge 邊緣部分。在本文中，假設(shè)它們滿足加法規(guī)則，這意味著特征圖 F：F = F_body + F_edge。本文模型目標(biāo)是設(shè)計(jì)具有特定監(jiān)督權(quán)的組件，分別處理每個(gè)部分。因此，首先通過執(zhí)行 body 部分，然后通過顯式減法獲得邊緣部分。主體生成模塊旨在聚集對象內(nèi)部的上下文信息并為每個(gè)對象形成清晰的主體對象。邊緣保留模塊用來保留更多的邊緣信息，學(xué)習(xí)到更好的邊緣特征。這兩個(gè)模塊采用不同的損失函數(shù)進(jìn)行監(jiān)督訓(xùn)練。
?
2，主體生成模塊
?
主體生成模塊負(fù)責(zé)為同一對象內(nèi)的像素生成更一致的特征表示。因?yàn)槲矬w內(nèi)部的像素彼此相似，而沿邊界的像素則顯示出差異，因此可以顯式地學(xué)習(xí)主體和邊緣特征表示，為此，我們采用學(xué)習(xí)流場的方式（flow field），并使用 flow field 對原始特征圖進(jìn)行 warp 以獲得顯式的主體特征表示。該模塊包含兩個(gè)部分：flow field 生成和特征差值。
?
2.1，F(xiàn)low field?generation 流場生成
?
為了生成主要指向?qū)ο髢?nèi)部的流場，突出對象中心部分的特征作為顯性引導(dǎo)是一種合理的方法。一般來說，低分辨率的特征圖（或粗表示）往往包含低頻項(xiàng)。低空間頻率項(xiàng)捕捉了圖像的總和，低分辨率特征圖代表了最突出的部分，在這里我們將其視為偽中心位置或種子點(diǎn)的集合。如圖 4(a)所示，我們采用了編碼器-解碼器的設(shè)計(jì)，編碼器將特征圖下采樣為低分辨率表示，并有較低的空間頻率部分，這里我們采用三次連續(xù)的 3×3 深度卷積來實(shí)現(xiàn)。對于 flow field 的生成，與 FlowNet-S 中做法一樣。我們首先將低頻特征圖上采樣插值到與原始特征圖相同的大小，然后將它們連在一起，并應(yīng)用 3×3 卷積層來預(yù)測流場。由于我們得模型都是基于帶孔型的主干網(wǎng)絡(luò)，因此這里 3×3 的卷積核足夠大，在大多數(shù)情況下可以獲取到像素之間的長距離依賴關(guān)系。

2.2，F(xiàn)eature warping 特征差值
?
我們使用可微分的雙線性采樣機(jī)制進(jìn)行插值生成主體部分的每個(gè)點(diǎn)，其過程如下面公式所示：

其中，從 flow 特征圖 δ 計(jì)算出的 wp 代表了扭曲空間網(wǎng)格上的雙線性核權(quán)重。N 代表所涉及的相鄰像素。經(jīng)過特征差值后，我們得到了主體部分的特征表示。
?
3，Edge preservation module邊緣保留模塊

邊緣保留模塊旨在處理高頻項(xiàng)。它還包括兩個(gè)步驟：1）從原始特征圖F中減去主體特征圖；2）添加更精細(xì)的細(xì)節(jié)信息的低級特征作為補(bǔ)充。首先，從原始輸入特征圖F中減去主體特征，添加了額外的低級特征輸入，以補(bǔ)充缺少的細(xì)節(jié)信息，以增強(qiáng)主體特征中的高頻項(xiàng)。最后，將兩者連接起來，并采用 1×1 卷積層進(jìn)行融合。該模塊可以用下面等式表示，其中 γ 是卷積層并且表示級聯(lián)運(yùn)算。
?
4，Decoupled body and edge supervision解耦的損失函數(shù)

針對主體部分，我們采用邊緣松弛的損失函數(shù)，即我們忽略掉邊緣部分的像素，只優(yōu)化主體部分（公式 3 的第一項(xiàng)）。針對邊緣部分，我們首先用邊緣保留模塊的特征去預(yù)測邊緣的二值 mask，其次通過這個(gè)預(yù)測的 mask 我們采用困難樣本挖掘的策略在最后特征預(yù)測的結(jié)果上進(jìn)行進(jìn)行 loss 的計(jì)算（公式 4-5）。最后我們用優(yōu)化后的主體和邊緣特征相加后的特征進(jìn)行最后的特征表示。
?

實(shí)驗(yàn)部分

我們首先進(jìn)行了對于我們提出的模型各個(gè)組件 ablation study。Tab1（a）證明我們在 FCN 不同 backbone 的 baseline 上的有效性。Tab1（b）顯示出了我們提出的 Decoupled Supervision 的有效性。Tab1（c）證明了我們提出的使用流場進(jìn)行插值的策略的有效性以及降采樣的有效性。Tab1（d）我們對比了現(xiàn)有的一些其他方法，證明了我們方法取得了更好的結(jié)果，比如采用 DCN(deformable convolution)來生成主體特征的策略。

Tab3和Tab5顯示了我們方法在多個(gè)道路場景的數(shù)據(jù)集上取得很好的效果（Cityscapes，CamVid，BDD，KITTI）。

Fig3 中展示了我們分割結(jié)果的在邊緣的評測指標(biāo)中也比之前最好的 G-SCNN 的結(jié)果要好。Fig5 展示了我們學(xué)習(xí)到解耦的特征表示，F(xiàn)ig6 給出了學(xué)習(xí)到的流場的可視化圖像，其中可以看到對于 FCN 的結(jié)構(gòu)，流場是指向物體的內(nèi)部，對于目前的 state-of-the-art 的 deeplabv3+ 模型，流場是均勻地分布在邊緣點(diǎn)上，原因是大部分內(nèi)部區(qū)域 deeplabv3+ 已經(jīng)很一致了。

結(jié)論

在這項(xiàng)研究中，我們提出一個(gè)新穎的語義分割框架。我們通過把語義分割的特征進(jìn)行解耦操作，進(jìn)而讓每個(gè)部分單獨(dú)由不同的監(jiān)督信號進(jìn)行監(jiān)督，因此我們實(shí)現(xiàn)同時(shí)提升分割物體的內(nèi)部一致性和邊緣部分。并且我們的模塊十分輕量級，可以做到即插即用，可以用于優(yōu)化任何基于 FCN 的語義分割模型。我們的方法在 4 個(gè)主流的道路場景的語義分割數(shù)據(jù)集上面取得領(lǐng)先的效果。

下載1

在「AI算法與圖像處理」公眾號后臺回復(fù)：yolov4，即可下載?YOLOv4 trick相關(guān)論文

下載2

在「AI算法與圖像處理」公眾號后臺回復(fù)：OpenCV實(shí)戰(zhàn)項(xiàng)目20講，即可下載20個(gè)有趣的OpenCV實(shí)戰(zhàn)項(xiàng)目

個(gè)人微信（如果沒有備注不拉群！）
請注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱

ECCV2020 商湯提出語義分割模型新范式

重磅干貨，第一時(shí)間送達(dá)來源：學(xué)術(shù)頭條

重磅干貨，第一時(shí)間送達(dá)
來源：學(xué)術(shù)頭條