↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺

作者丨明澤Danny

來源丨3D視覺工坊

編輯丨極市平臺

極市導(dǎo)讀

語義圖像分割是計(jì)算機(jī)視覺中發(fā)展最快的領(lǐng)域之一，有著廣泛的應(yīng)用。本文以24篇相關(guān)論文作為切入點(diǎn)，總結(jié)匯總了多種實(shí)時(shí)性語義分割的算法，非常值得分享收藏。>>加入極市CV技術(shù)交流群，走在計(jì)算機(jī)視覺的最前沿

語義分割論文

語義圖像分割是計(jì)算機(jī)視覺中發(fā)展最快的領(lǐng)域之一，有著廣泛的應(yīng)用。在許多領(lǐng)域，如機(jī)器人和自動(dòng)駕駛汽車，語義圖像分割是至關(guān)重要的，因?yàn)樗峁┝吮匾纳舷挛模圆扇⌒袆?dòng)，基于對場景的理解在像素級。

對于圖像的理解有一下幾個(gè)層次：

分類，即將圖像中最具代表性的物體歸為某一個(gè)類；
帶有定位的分類，對分類任務(wù)的一個(gè)擴(kuò)展，使用邊界框?qū)ο罂蚱饋碓诜诸悾?/section>
目標(biāo)檢測，對多個(gè)不同類型的對象進(jìn)行分類和定位；
語義分割，是對圖像中的每個(gè)像素進(jìn)行分類和定位；
實(shí)例分割，是語義分割的擴(kuò)展，在實(shí)例分割中，相同類型的不同對象被視為不同的對象；
全景分割，結(jié)合語義分割和實(shí)例分割，所有像素被分配一個(gè)類標(biāo)簽，所有對象實(shí)例都被獨(dú)立分割

【1】自主駕駛車輛實(shí)時(shí)語義分割的比較研究

《A Comparative Study of Real-time Semantic Segmentation for Autonomous Driving》

鏈接：

https://openaccess.thecvf.com/content_cvpr_2018_workshops/papers/w12/Siam_A_Comparative_Study_CVPR_2018_paper.pdf

該文構(gòu)建了一個(gè)實(shí)時(shí)語義分割框架，通過不同的編碼解碼框架，提供了幾個(gè)例子編碼器，包括VGG16, Resnet18, MobileNet，和ShuffleNet和解碼器，包括SkipNet, UNet和膨脹前端。該框架是可擴(kuò)展的，可以添加新的編碼器和解碼器。

語義分割方法的分類：

【2】高效的語義分割CNN設(shè)計(jì)技術(shù)分析

《Analysis of efficient CNN design techniques for semantic segmentation》

鏈接：

https://openaccess.thecvf.com/content_cvpr_2018_workshops/papers/w12/Briot_Analysis_of_Efficient_CVPR_2018_paper.pdf

與上一個(gè)一樣都是編碼解碼結(jié)構(gòu)：

簡單的編碼器：

Handling scale of objects

a）Cross channel filters

b）Cross layer connections

c）Wider bank of filters

d）Split branching and summation joining

量化：

使用tensorflow或Nvidia TensorRT將神經(jīng)網(wǎng)絡(luò)的float32類型計(jì)算量化為int8類型的計(jì)算，實(shí)現(xiàn)加速，直接用int8類型計(jì)算對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練

高效結(jié)構(gòu)設(shè)計(jì)原則

1.通過約束結(jié)構(gòu)超參數(shù)平衡模型大小和準(zhǔn)確率：增加網(wǎng)絡(luò)深度，減少每一個(gè)卷積層輸入的通道數(shù)，減小輸入圖片的分辨率

2.減少冗余的卷積核：卷積核分解（一個(gè)7x7卷積層分解為3個(gè)3x3卷積層， kxk卷積層分解為1xk卷積層和kx1卷積層）

3.通過激活函數(shù)校準(zhǔn)卷積核（CReLU）

使用對稱性校準(zhǔn)卷積核（G-CNN）

卷積設(shè)計(jì)

1x1卷積降維，減少卷積的輸入通道數(shù)
Group convolution
Depth-wise Separable convolution

實(shí)驗(yàn)結(jié)果：

【3】基于空間稀疏性的實(shí)時(shí)語義圖像分割

《Real-time Semantic Image Segmentation via Spatial Sparsity》

鏈接：https://arxiv.org/pdf/1712.00213.pdf

對于一個(gè)典型的兩輸入的全卷積網(wǎng)絡(luò)引入了空間稀疏性，展示了在提高Inference速度的同時(shí)并沒有隨時(shí)太多精度；

展示了使用空間稀疏性，使用in-column和cross-column的鏈接、移除殘差單元，能夠25倍的縮小計(jì)算開銷，丟掉一點(diǎn)精度。

三種典型方法：

下面是該問提出的框架：

實(shí)驗(yàn)結(jié)果：

【4】ENet:一種用于實(shí)時(shí)語義分割的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)

《ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation》

鏈接：https://arxiv.org/abs/1606.02147

ENet是為移動(dòng)端開發(fā)而設(shè)計(jì)的分割框架，其主要結(jié)構(gòu)為如下圖中的bottleneck模塊

其模型架構(gòu)如下：

1.為了減少內(nèi)核調(diào)用和內(nèi)存操作，沒有在任何投影中使用bias，因?yàn)閏uDNN會使用單獨(dú)的內(nèi)核進(jìn)行卷積和bias相加。這種方式對準(zhǔn)確性沒有任何影響。

2.在每個(gè)卷積層和隨后的非線性層之間，使用BN

3.在解碼器中，用max unpooling代替max pooling，用無bias的spatial convolution代替padding

4.在最后一個(gè)上采樣模塊中沒有使用池化索引，因?yàn)閕nitial初始塊是在輸入圖的3個(gè)通道上進(jìn)行的操作，而最終的輸出具有C個(gè)特征圖(分割對象類別的數(shù)量)。

【5】ICNet用于高分辨率圖像的實(shí)時(shí)語義分割

《ICNet for Real-Time Semantic Segmentation on High-Resolution Images》

鏈接:https://arxiv.org/abs/1704.08545

ICNet使用了級聯(lián)的圖像輸入(即低、中、高分辨率圖像)，采用了級聯(lián)的特征融合單元，訓(xùn)練時(shí)使用了級聯(lián)的標(biāo)簽監(jiān)督。

ICNet包括三個(gè)分支：

1.低分辨率分支來獲取語義信息，將原圖1/4大小的圖像輸入到PSPNet中，降采樣率為8，產(chǎn)生了原圖1/32的特征圖。

2.中分辨率和高分辨率的分支進(jìn)行粗糙預(yù)測的恢復(fù)和細(xì)化，圖2中部和底部分支，獲得高質(zhì)量的分割。

3.高分辨率分支采用輕加權(quán)的CNNs(綠色虛線框，底部分支和中部分支)；不同分支輸出的特征圖采用級聯(lián)特征融合單元進(jìn)行融合，訓(xùn)練時(shí)接受梯級標(biāo)簽監(jiān)督。

級聯(lián)特征融合：

【6】加速自動(dòng)駕駛的語義分割

《Speeding up Semantic Segmentation for Autonomous Driving》

鏈接：https://openreview.net/pdf?id=S1uHiFyyg

該架構(gòu)包括ELU激活功能、一個(gè)類似擠壓式的編碼器、隨后的并行擴(kuò)展卷積以及一個(gè)具有類似于sharpmask的細(xì)分模塊的解碼器

譯文：該編碼器是一個(gè)改進(jìn)的SqueezeNet 架構(gòu)，它被設(shè)計(jì)為一個(gè)低延遲的網(wǎng)絡(luò)，用于圖像識別，同時(shí)保持AlexNet的準(zhǔn)確性。

實(shí)驗(yàn)結(jié)果：

【7】高效卷積網(wǎng)絡(luò)用于實(shí)時(shí)語義分割

實(shí)時(shí)語義分割的《Efficient ConvNet for Real-time Semantic Segmentation》

鏈接：

http://www.robesafe.uah.es/personal/eduardo.romera/pdfs/Romera17iv.pdf

Efficient ConvNet模型整體結(jié)構(gòu)遵循編碼-解碼結(jié)構(gòu)，

詳細(xì)構(gòu)造如下表：

整個(gè)模型包含23層，其中1-16層為Encoder，17-23層為Decoder。

編碼部分包含1、2、8層的下采樣過程，以及余下層的Non-bt-1D提取特征。其中Non-bt-1D、Downsample構(gòu)造如下：

實(shí)驗(yàn)結(jié)果：

【8】ERFNet:用于實(shí)時(shí)語義分割的高效殘差分解卷積網(wǎng)絡(luò)

《ERFNet: Efficient Residual Factorized ConvNet for Real-time Semantic Segmentation》

鏈接：

http://www.robesafe.es/personal/eduardo.romera/pdfs/Romera17tits.pdf

REFNet沿用了編碼-解碼結(jié)構(gòu)，其詳細(xì)結(jié)構(gòu)如表所示。

整個(gè)網(wǎng)絡(luò)包含23層，其中1-16層為Encoder, 17-23層為Decoder。

Downsampler block受另一個(gè)實(shí)時(shí)語義分割網(wǎng)絡(luò)Enet的設(shè)計(jì)，其實(shí)本文不少靈感也來自于Enet：

例如在初始圖像輸入1024X512X3，左邊經(jīng)過3X3卷積，步長strides = 2，得到16 channels，

右邊經(jīng)過MaxPooling 得到3 channels，經(jīng)過concat操作后得到16channels，最終圖像變?yōu)?512X256X16，然后使用Relu函數(shù)激活傳入下一層。

優(yōu)點(diǎn)在于從輸入圖像一開始就進(jìn)行了減少輸入圖像尺寸的操作，本身視覺信息就存在大量冗余，這樣節(jié)省了大量的計(jì)算。

【9】EDANet：用于實(shí)時(shí)語義分割的高效的非對稱卷積密集模塊

《Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation》

鏈接：https://github.com/shaoyuanlo/EDANet

模型框架如下：

主要分為這么幾個(gè)模塊，Downsampling Block和EDA Block和最后的Projection Layer。其中的EDA Block又包括多個(gè)EDA module。其中EDA module的結(jié)構(gòu)如下所示：

其中有兩組asymmetric conv，前一組是正常的conv，后一組是dilated conv，這種asymmetic conv可以減少33%的計(jì)算量，并且只會帶來少量的性能下降。

對于網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)，使用了ENet的initial block作為downsampling block，并且分成了兩種模式，其表示如下：

這樣的downsampling block可以讓網(wǎng)絡(luò)具有更大的感知野，用于收集上下文信息，在最后，相對于全解析度的輸入圖片，特征尺寸變?yōu)榱?/8，而其他的網(wǎng)絡(luò)比如SegNet特征尺寸則變?yōu)榱?/32。

【10】ESPNet：擴(kuò)展卷積的高效空間金字塔語義分割

《ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation》

鏈接：https://arxiv.org/pdf/1803.06815.pdf

原理：ESP Module基于卷積分解原理，將標(biāo)準(zhǔn)卷積分解為兩個(gè)步驟：

1）point-wise convolutions 逐點(diǎn)卷積

2）spatial pyramid of dilated convolutions 空間金字塔型膨脹卷積

ESP運(yùn)算高效，并且可以用在CNNs的不同空間級別上（主要是相對ASP而言）

理論上，ESP模塊比Inception 和 ResNext的模塊更高效。另外的試驗(yàn)結(jié)果表明，在相同硬件和計(jì)算條件下，ESP模塊也優(yōu)于現(xiàn)有表現(xiàn)最佳的MobileNet 和 ShuffleNet

ESP模塊：

因?yàn)槭褂昧舜蟾惺芤暗呐蛎浘矸e，導(dǎo)致了gridding artifacts現(xiàn)象，如下圖所示。本文提出了使用HFF方法來解決該問題，具體做法就是從最小的膨脹卷積核輸出的那張feature map開始，逐級疊加。這樣的做法并沒有引入任何新的參數(shù)，同時(shí)計(jì)算量上也沒有增加太多，但卻有效地改善了網(wǎng)格效應(yīng)。

【11】ESPNetv2：一個(gè)輕量級、高效、通用的卷積神經(jīng)網(wǎng)絡(luò)

《ESPNetv2: A Light-weight, Power Efficient, and General Purpose Convolutional Neural Network》

鏈接：https://arxiv.org/pdf/1811.11431.pdf

與第一版本相比，其特點(diǎn)如下：

1)將原來ESPNet的point-wise convolutions替換為group point-wise convolutions；

2)將原來ESPNet的dilated convolutions替換為depth-wise dilated convolution；

3)HFF加在depth-wise dilated separable convolutions和point-wise (or 1 × 1)卷積之間，去除gridding artifacts；

4)使用group point-wise convolution 替換K個(gè)point-wise convolutions；

5)加入平均池化（average pooling ）,將輸入圖片信息加入EESP中；

6)使用級聯(lián)（concatenation）取代對應(yīng)元素加法操作（element-wise addition operation ）；

其總體框架如圖所示：

【12】輕量級語義分段的集中綜合卷積

《Concentrated-Comprehensive Convolutions for lightweight semantic segmentation》

鏈接：https://arxiv.org/pdf/1812.04920v1.pdf

第一階段對來自鄰近像素的壓縮信息使用兩個(gè)深度上的不對稱卷積。第二階段利用與第一階段特征圖在深度上可分離的擴(kuò)張卷積來增加感受野。通過用提議的CCC模塊替換傳統(tǒng)ESP模塊，在不降低Cityscapes數(shù)據(jù)集精度的情況下，與速度最快的模型之一ESPnet相比，減少一半的參數(shù)數(shù)量和35%的失敗數(shù)量。

帶孔卷積中的定位信息缺失

集中綜合卷積(CCC)塊的結(jié)構(gòu)如下：

CCC模塊由信息集中階段和綜合卷積階段組成。信息集中階段使用簡單的卷積核聚合局部特征信息。綜合卷積階段是通過放大看到較大的感受野，然后是混合信道信息的點(diǎn)卷積。將深度卷積應(yīng)用于擴(kuò)張的卷積，以進(jìn)一步減小參數(shù)的大小。

ESP模型結(jié)構(gòu)如下：

【13】用于實(shí)時(shí)語義分割的雙向分割網(wǎng)絡(luò)

《BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation》

鏈接：https://arxiv.org/pdf/1808.00897.pdf

本文的出發(fā)點(diǎn)是因?yàn)橐酝墓ぷ髦械?.感受野太小 2.空間信息的損失

關(guān)于空間信息

空間信息(Spatial information)主要指的是圖像的局部細(xì)節(jié)信息，尤其是對于邊緣豐富的圖像。由于卷積網(wǎng)絡(luò)規(guī)模大，一般要求輸入圖像尺寸較小，需要對原始圖像進(jìn)行Crop或者Resize，這個(gè)過程會損失細(xì)節(jié)的空間信息。通過設(shè)置只包含3個(gè)網(wǎng)絡(luò)的Spacial Path，可保留豐富的空間信息，進(jìn)而將低緯度的空間細(xì)節(jié)信息與高緯度的信息整合。

網(wǎng)絡(luò)框架：

右邊為特征融合模塊（FFM）：

Spatial Path 捕獲的空間信息編碼了絕大多數(shù)的豐富細(xì)節(jié)信息，Context Path 的輸出特征主要編碼語境信息。兩路網(wǎng)絡(luò)的特征并不相同，因此不能簡單地加權(quán)兩種特征，要用一個(gè)獨(dú)特的特征融合模塊以融合這些特征。

實(shí)驗(yàn)結(jié)果：

【14】用于實(shí)時(shí)語義分割的輕量級精細(xì)網(wǎng)

《Light-Weight RefineNet for Real-Time Semantic Segmentation》

鏈接：https://arxiv.org/pdf/1810.03272v1.pdf

論文提出了RefineNet 的輕量化版本Light-Weight RefineNet ，針對實(shí)時(shí)分割任務(wù)，將速度從20FPS提升到了55FPS（GPU，512*512輸入，Mean IOU 81.1%，PASCAL VOC測試集）。

網(wǎng)絡(luò)結(jié)構(gòu)：

RefineNet 的總體網(wǎng)絡(luò)結(jié)構(gòu)，分為下采樣的encoder部分和上采樣的decoder部分。網(wǎng)絡(luò)主要包含4個(gè)模塊，RCU，CRP，F(xiàn)USION，CLF。為了輕量化該網(wǎng)絡(luò)，分別使用RCU-LW，CRP-LW。

FUSION-LW替換了原始網(wǎng)絡(luò)的RCU，CRP，F(xiàn)USION。通過后續(xù)的實(shí)驗(yàn)作者又發(fā)現(xiàn)RCU對于網(wǎng)絡(luò)的精度提升效果微弱，因此將RCU模塊也去掉了。

為什么去掉RCU模塊，網(wǎng)絡(luò)精度影響很??？

因?yàn)椋?/span>

(1)雖然RCU模塊中的3*3卷積使得網(wǎng)絡(luò)具有更大的感受野，但是通過shortcut結(jié)構(gòu)，底層特征和高層特征也可以共享。

(2)CRP模塊也可以獲得上下文的信息。

可以從下圖看出，RCU模塊對精度提升微弱，而CRP模塊對精度提升明顯。

模型參數(shù)比較：

基于ResNet101的基礎(chǔ)結(jié)構(gòu)的RefineNet，第一個(gè)為傳統(tǒng)的RefineNet，第二個(gè)為帶RCU的RefineNet，第三個(gè)為不帶RCU的RefineNet?？梢奟efineNet-101-LW相比RefineNet-101將參數(shù)量和運(yùn)算量都大大降低。

【15】ShelfNet用于實(shí)時(shí)語義分割

《ShelfNet for Real-time Semantic Segmentation》

鏈接：https://arxiv.org/pdf/1811.11254v1.pdf

該文章提出了一種全新的架構(gòu)——ShelfNet，利用多個(gè)編碼-解碼結(jié)構(gòu)對來改善網(wǎng)絡(luò)中的信息流動(dòng)。
同一個(gè)殘差塊的兩個(gè)卷積層貢獻(xiàn)權(quán)重，在不影響精度的條件下，減少參數(shù)量；
在多個(gè)Benckmark上得到驗(yàn)證

模型結(jié)構(gòu)：

ShelfNet可以看作是FCNs的集合。一些信息流路徑的例子用不同的顏色標(biāo)記。每個(gè)路徑相當(dāng)于一個(gè)FCN(除了在ResNet主干中有池化層)。與FCN集合的等價(jià)性使ShelfNet能夠用一個(gè)小的神經(jīng)網(wǎng)絡(luò)來執(zhí)行精確的分割。

【16】LadderNet：用于醫(yī)學(xué)圖像分割的基于U-NET的多路徑網(wǎng)絡(luò)

《LadderNet: MULTI-PATH NETWORKS BASED ON U-NET FOR MEDICAL IMAGE SEGMENTATION》

鏈接：https://arxiv.org/pdf/1810.07810.pdf

模型結(jié)構(gòu)：

1、3是編碼器分支，2、4是解碼器分支，A-E是不同級的特征。整個(gè)模型沒有使用池化層，用的是一個(gè)步長為2的卷積層代替，通道數(shù)在編碼器部分逐級翻倍。

可以看出這是兩個(gè)U-Net相連，有兩個(gè)U形（12, 34），而這兩個(gè)U形之間的A-D級采用跳接連接起來。U-Net網(wǎng)絡(luò)是，跳接用的是融合，也就是通道數(shù)相加，但是這里用的直接求和的模式（要求通道數(shù)必須一樣）。

但增加更多的encoder-decoder分支會導(dǎo)致參數(shù)增加，訓(xùn)練變得困難，所以作者又采用了Shared-weights residual block（參數(shù)共享殘差塊），如下圖所示。

【17】ShuffleSeg實(shí)時(shí)語義分割網(wǎng)絡(luò)

《SHUFFLESEG: REAL-TIME SEMANTIC SEGMENTATION NETWORK》

鏈接：https://arxiv.org/pdf/1803.03816.pdf

嗯。。。這篇文章沒深刻說的，哈哈。

該架構(gòu)將分成兩個(gè)主要模塊進(jìn)行解釋：負(fù)責(zé)提取特征的編碼模塊，負(fù)責(zé)在網(wǎng)絡(luò)中進(jìn)行上采樣以計(jì)算最終類別的概率圖的解碼模塊。

1）基于ShuffleNet (Shufflenet: An extremely efficient convolutional neural network for mobile devices) 提出的分割網(wǎng)絡(luò)

2）編碼器使用ShuffleNet 單元，解碼器綜合了 UNet、FCN8s 和 Dilation Frontend 的結(jié)構(gòu)；速度快，沒有什么創(chuàng)新。。。。

【18】RTSeg：實(shí)時(shí)語義分割比較研究

《RTSeg: REAL-TIME SEMANTIC SEGMENTATION COMPARATIVE STUDY》

鏈接：https://arxiv.org/pdf/1803.02758.pdf

提供特征提取和解碼方法，稱為元架構(gòu)；

給出了計(jì)算精度和計(jì)算效率之間的權(quán)衡；

Shufflenet比segment減少了143x gflops；

模型結(jié)構(gòu)：

使用空洞卷積代替下采樣的feature map，空洞卷積確保網(wǎng)絡(luò)維持足夠的感受野而不需要通過pooling和stride conv來破壞像素結(jié)構(gòu)；

Meta-Architectures

1）SkipNet meta-architecture；

2）U-Net meta-architecture；

3）Dilation Frontend meta-architecture；

【19】ContextNet:實(shí)時(shí)為語義分割探索上下文和細(xì)節(jié)

《ContextNet: Exploring Context and Detail for Semantic Segmentation in Real-time》

鏈接：https://arxiv.org/pdf/1805.04554.pdf

模型結(jié)構(gòu)：

ContextNet利用更深層的網(wǎng)絡(luò)，增加的層數(shù)有助于學(xué)習(xí)更復(fù)雜和抽象的特征，從而提高準(zhǔn)確性，但也增加了運(yùn)行時(shí)間。聚合來自多個(gè)分辨率的上下文信息是有益的，結(jié)合了多個(gè)級別的信息以提高性能。

Depth-wise Convolution to Improve Run-time：

深度可分離卷積將標(biāo)準(zhǔn)卷積(Conv2d)分解為深度上的卷積(DWConv)，也稱為空間或通道上的卷積，然后是1×1的點(diǎn)卷積層。因此，跨通道和空間相關(guān)性的計(jì)算是獨(dú)立的，這大大減少了參數(shù)的數(shù)量，導(dǎo)致更少的浮點(diǎn)運(yùn)算和快速的執(zhí)行時(shí)間。

ContextNet利用了DWConv，輸入下采樣的子網(wǎng)使用了DWConv的瓶頸殘差塊。

Capturing Global and Local Context：

ContextNet有兩個(gè)分支，一個(gè)是全分辨率(h×w)，另一個(gè)是低分辨率(如h/4 w/4)，輸入圖像高度h，寬度w。每個(gè)分支都有不同的職責(zé)；后者捕捉圖像的全局上下文，前者為更高分辨率的分割提供細(xì)節(jié)信息。

為了快速提取特征，語義豐富的特征只從最低可能的分辨率提取；
局部上下文的特征通過一個(gè)非常淺的分支從全分辨率輸入中分離出來，然后與低分辨率的結(jié)果相結(jié)合。

【20】CGNet：一個(gè)輕量級的上下文引導(dǎo)的語義分割網(wǎng)絡(luò)

《CGNet: A Light-weight Context Guided Network for Semantic Segmentation》

鏈接：https://arxiv.org/pdf/1811.08201.pdf

該文分析了語義分割的內(nèi)在特性，提出了學(xué)習(xí)局部特征和周圍上下文的聯(lián)合特征，并進(jìn)一步改進(jìn)全局上下文的聯(lián)合特征的CG塊。有效的利用 local feature, surrounding context and global context。其中的CG塊，在各個(gè)階段有效地捕獲上下文信息。CGNet的主干是專門為提高分割精度而定制的，以減少參數(shù)的數(shù)量和節(jié)省內(nèi)存占用。在相同數(shù)量的參數(shù)下，提出的CGNet顯著優(yōu)于現(xiàn)有的分割網(wǎng)絡(luò)(如ENet和ESPNet)。

模型結(jié)構(gòu)：

在CG block引入殘差學(xué)習(xí)，兩種方式：local residual learning (LRL) 和global residual learning (GRL)，如下圖所示：

由CG block定義CGNet：較少的卷積層和較少的通道數(shù)，從而減少參數(shù)量。

個(gè)人觀點(diǎn)：

1）CGNet進(jìn)一步拓展了non-local的概念，從local,surrounding和global三個(gè)層次獲取空間特征間的關(guān)聯(lián)。

2）在CGNet的stage2和stage3都使用GC block，區(qū)別于non-local中只有resnet部分stage和部分blcok之間引入non-local機(jī)制。

【21】用于自動(dòng)駕駛的實(shí)時(shí)語義分割解碼器的設(shè)計(jì)

《Design of Real-time Semantic Segmentation Decoder for Automated Driving》

鏈接：https://arxiv.org/pdf/1901.06580.pdf

本文是采用編碼解碼結(jié)構(gòu)，編碼器是獨(dú)立的10層VGG。

使用stride 2卷積后的max-pooling來減少空間問題，這樣就減少了超參數(shù)的數(shù)量和運(yùn)行時(shí)。顯然，這是為了分割精度的權(quán)衡，但對于檢測、分類等其他任務(wù)則不是這樣?？紤]到該編碼器是功能獨(dú)立的，需要在解碼器方面通過廣泛學(xué)習(xí)語義特征來克服空間信息探索的差距。

非瓶頸層的設(shè)計(jì)如下圖所示。它同時(shí)包含1D和3D卷積核。一維核主要一次從一個(gè)方向提取信息，三維核主要從較大的接受區(qū)域收集特征。之后通過不同大小的多個(gè)kernel來尋找密集的信息，例如3×3, 5×5和1×1。接下來，融合使用不同內(nèi)核提取的特征。該方法有助于總結(jié)從不同接受區(qū)域收集到的語義特征。合成的特征再一次與輸入特征融合到同一個(gè)非瓶頸層。在所提出的非瓶頸層中，多個(gè)跳轉(zhuǎn)連接到特征融合塊，這有助于處理高梯度流，因?yàn)樵诜聪騻鞑r(shí)，傳入的梯度分布在所有路徑中。

我們知道解碼器做得更寬，運(yùn)行時(shí)間會大幅提高。因此，定期減少特征圖的數(shù)量是負(fù)擔(dān)不起的，也超出了模型的預(yù)算。

【22】DSNet:用于實(shí)時(shí)駕駛場景的語義分割

《DSNet: DSNet for Real-Time Driving Scene Semantic Segmentation》

鏈接：https://arxiv.org/pdf/1812.07049v1.pdf

DSNet是一種高效且強(qiáng)大的單元和非對稱的編解碼器架構(gòu)。采用混合擴(kuò)張卷積方案來克服網(wǎng)格化問題。

DSNet詳細(xì)結(jié)構(gòu)如下表：

參考ShuffleNet V2總結(jié)了輕量框架指導(dǎo)準(zhǔn)則如下：

準(zhǔn)則1:等信道寬度最小化內(nèi)存訪問成本（MAC）

準(zhǔn)則2:過多的組卷積增加MAC

準(zhǔn)則3:網(wǎng)絡(luò)碎片化降低并行度

準(zhǔn)則4:Element-wise操作不可忽略

DSNet單元模塊：

采用ENet的初始單元，使用最大池和步長2的卷積對輸入進(jìn)行下采樣。深度可分卷積替換為擴(kuò)張型卷積，以擴(kuò)大接收域，這對語義分割至關(guān)重要。

【23】Fast-SCNN：快速語義分割網(wǎng)絡(luò)

《Fast-SCNN: Fast Semantic Segmentation Network》

鏈接：https://arxiv.org/pdf/1902.04502.pdf

我們知道在語義分割中較大的接受野對于學(xué)習(xí)目標(biāo)類之間的復(fù)雜關(guān)聯(lián)(即全局上下文)很重要，圖像中的空間細(xì)節(jié)對于保持目標(biāo)邊界是必要的，需要特定的設(shè)計(jì)來平衡速度和準(zhǔn)確性(而不是重新定位分類DCNNs)。

模型框架：

two-branch 網(wǎng)絡(luò)，它在低分辨率位置使用一個(gè)較深的 branch 來捕捉環(huán)境信息，在高分辨率位置使用一個(gè)較淺的 branch 來學(xué)習(xí)細(xì)節(jié)信息。然后，將這二者融合起來，形成最終的語義分割結(jié)果。

本文的主要貢獻(xiàn)：

1）提出了一個(gè)實(shí)時(shí)語義分割算法 Fast-SCNN，在高清圖像上準(zhǔn)確率為68%，速度為123.5幀每秒；

2）調(diào)整了 skip connection，提出了一個(gè)淺層的 learning to downsample 模塊，可以快速而高效地通過 multi-branch 來提取低層次特征；

3）設(shè)計(jì)了low capacity Fast-SCNN，對于small capacity網(wǎng)絡(luò)而言，多訓(xùn)練幾個(gè) epoch的效果和在ImageNet上進(jìn)行預(yù)訓(xùn)練是一樣的。

之前的PSPNet 中的金字塔池化模塊和DeepLab中的 atrous 空間金字塔池化（ASPP）用于 encode 和利用全局信息。與目標(biāo)檢測類似，速度是語義分割系統(tǒng)設(shè)計(jì)中的一個(gè)重要因素?；贔CN，SegNet 引入了一個(gè)聯(lián)合 encoder-decoder 模型，是最早的高效率分割模型之一。延續(xù)SegNet，ENet 也設(shè)計(jì)了 encoder-decoder ，層數(shù)較少，降低計(jì)算成本。然后，two-branch 和 multi-branch 系統(tǒng)出現(xiàn)了。ICNet, ContextNet, BiSeNet, GUN 通過一個(gè)較深的 branch 在低分辨率輸入上學(xué)習(xí)全局信息，通過一個(gè)較淺的 branch 在高分辨率圖像上學(xué)習(xí)細(xì)節(jié)信息。但是，SOTA 的語義分割仍具挑戰(zhàn)，通常需要高性能GPU。受 two-branch 啟發(fā)，F(xiàn)ast-SCNN 加入了一個(gè)共享的淺層網(wǎng)絡(luò)來編碼細(xì)節(jié)信息，在低分辨率輸入上高效地學(xué)習(xí)全局信息。

詳細(xì)網(wǎng)絡(luò)如下表：

【24】ShuffleNet V2：語義分割的一個(gè)有效解決方案:具有可分卷積

《An efficient solution for semantic segmentation: ShuffleNet V2 with atrous separ：able convolutions》

鏈接：https://arxiv.org/pdf/1902.07476v1.pdf

本文設(shè)計(jì)的4個(gè)出發(fā)點(diǎn)：

當(dāng)通道寬度不相等時(shí)，內(nèi)存訪問成本(MAC)就會增加，因此通道寬度應(yīng)該保持相等。
在提升MAC時(shí)，應(yīng)該避免過度使用組卷積。
為了保持較高的并行度，應(yīng)該避免網(wǎng)絡(luò)碎片化。
諸如ReLU、Add、AddBias等元素明智操作是不可忽略的，應(yīng)該減少。

本文貢獻(xiàn)：

在語義分割任務(wù)上使用ShuffleNetV2、DPC編碼器以及一個(gè)全新的解碼模塊實(shí)現(xiàn)了SOT的計(jì)算效率，在Cityscapes測試數(shù)據(jù)集上達(dá)到了70.33%的mIoU；

所提出的模型和實(shí)現(xiàn)完全兼容TensorFlow Lite，能夠在Android和iOS移動(dòng)手機(jī)平臺實(shí)時(shí)運(yùn)行；

TensorFlow的網(wǎng)絡(luò)實(shí)現(xiàn)以及訓(xùn)練模型都是開源的。

模型結(jié)構(gòu)：

如上圖所示，使用了ShufflenetV2框架來提取特征，然后接入DeepLabV3編碼器，最后使用雙線性縮放作為新的解碼器來生成分割掩模。網(wǎng)絡(luò)的設(shè)計(jì)與修改都是在ImageNet數(shù)據(jù)集上驗(yàn)證后作出的選擇。

特征提取之后使用DPC編碼器。文章提供了兩種不同架構(gòu)的DPC，一個(gè)是DPC基礎(chǔ)模塊，另一個(gè)是基于MobileNetV2的DPC模塊，細(xì)節(jié)如下圖所示：

編碼器輸出之后會經(jīng)過1×1卷積層降維，然后緊接著Dropout層、雙線性縮放和最后的分類ArgMax。其中解碼部分采用的簡單的雙線性縮放操作將特征圖縮放到原圖尺寸。

模型詳細(xì)結(jié)構(gòu)如下表所示：

推薦閱讀

從注意力機(jī)制出發(fā)，上海交大提出實(shí)時(shí)語義分割新網(wǎng)絡(luò)LRNNet
干貨分享|一文看懂實(shí)時(shí)語義分割
南郵提出實(shí)時(shí)語義分割的輕量級網(wǎng)絡(luò)：LEDNET，可達(dá) 71 FPS！70.6% class mIoU！即將開源

添加極市小助手微信（ID : cvmart2），備注：姓名-學(xué)校/公司-研究方向-城市（如：小極-北大-目標(biāo)檢測-深圳），即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群：每月大咖直播分享、真實(shí)項(xiàng)目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

△長按添加極市小助手

△長按關(guān)注極市平臺，獲取最新CV干貨

覺得有用麻煩給個(gè)在看啦~??

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

實(shí)時(shí)性語義分割算法大盤點(diǎn)

語義分割論文

【1】自主駕駛車輛實(shí)時(shí)語義分割的比較研究

【2】高效的語義分割CNN設(shè)計(jì)技術(shù)分析

【3】基于空間稀疏性的實(shí)時(shí)語義圖像分割

【4】ENet:一種用于實(shí)時(shí)語義分割的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)

【5】ICNet用于高分辨率圖像的實(shí)時(shí)語義分割

【6】加速自動(dòng)駕駛的語義分割

【7】高效卷積網(wǎng)絡(luò)用于實(shí)時(shí)語義分割

【8】ERFNet:用于實(shí)時(shí)語義分割的高效殘差分解卷積網(wǎng)絡(luò)

【9】EDANet：用于實(shí)時(shí)語義分割的高效的非對稱卷積密集模塊

【10】ESPNet：擴(kuò)展卷積的高效空間金字塔語義分割

【11】ESPNetv2：一個(gè)輕量級、高效、通用的卷積神經(jīng)網(wǎng)絡(luò)

【12】輕量級語義分段的集中綜合卷積

【13】用于實(shí)時(shí)語義分割的雙向分割網(wǎng)絡(luò)

【14】用于實(shí)時(shí)語義分割的輕量級精細(xì)網(wǎng)

【15】ShelfNet用于實(shí)時(shí)語義分割

【16】LadderNet：用于醫(yī)學(xué)圖像分割的基于U-NET的多路徑網(wǎng)絡(luò)

【17】ShuffleSeg實(shí)時(shí)語義分割網(wǎng)絡(luò)

【18】RTSeg：實(shí)時(shí)語義分割比較研究

【19】ContextNet:實(shí)時(shí)為語義分割探索上下文和細(xì)節(jié)

【20】CGNet：一個(gè)輕量級的上下文引導(dǎo)的語義分割網(wǎng)絡(luò)

【21】用于自動(dòng)駕駛的實(shí)時(shí)語義分割解碼器的設(shè)計(jì)

【22】DSNet:用于實(shí)時(shí)駕駛場景的語義分割

【23】Fast-SCNN：快速語義分割網(wǎng)絡(luò)

【24】ShuffleNet V2：語義分割的一個(gè)有效解決方案:具有可分卷積

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

實(shí)時(shí)性語義分割算法大盤點(diǎn)

語義分割論文

【1】自主駕駛車輛實(shí)時(shí)語義分割的比較研究

【2】高效的語義分割CNN設(shè)計(jì)技術(shù)分析

【3】基于空間稀疏性的實(shí)時(shí)語義圖像分割

【4】ENet:一種用于實(shí)時(shí)語義分割的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)

【5】ICNet用于高分辨率圖像的實(shí)時(shí)語義分割

【6】加速自動(dòng)駕駛的語義分割

【7】高效卷積網(wǎng)絡(luò)用于實(shí)時(shí)語義分割

【8】ERFNet:用于實(shí)時(shí)語義分割的高效殘差分解卷積網(wǎng)絡(luò)

【9】EDANet：用于實(shí)時(shí)語義分割的高效的非對稱卷積密集模塊

【10】ESPNet：擴(kuò)展卷積的高效空間金字塔語義分割

【11】ESPNetv2：一個(gè)輕量級、高效、通用的卷積神經(jīng)網(wǎng)絡(luò)

【12】輕量級語義分段的集中綜合卷積

【13】用于實(shí)時(shí)語義分割的雙向分割網(wǎng)絡(luò)

【14】用于實(shí)時(shí)語義分割的輕量級精細(xì)網(wǎng)

【15】ShelfNet用于實(shí)時(shí)語義分割

【16】LadderNet：用于醫(yī)學(xué)圖像分割的基于U-NET的多路徑網(wǎng)絡(luò)

【17】ShuffleSeg實(shí)時(shí)語義分割網(wǎng)絡(luò)

【18】RTSeg：實(shí)時(shí)語義分割比較研究

【19】ContextNet:實(shí)時(shí)為語義分割探索上下文和細(xì)節(jié)

【20】CGNet：一個(gè)輕量級的上下文引導(dǎo)的語義分割網(wǎng)絡(luò)

【21】用于自動(dòng)駕駛的實(shí)時(shí)語義分割解碼器的設(shè)計(jì)

【22】DSNet:用于實(shí)時(shí)駕駛場景的語義分割

【23】Fast-SCNN：快速語義分割網(wǎng)絡(luò)

【24】ShuffleNet V2：語義分割的一個(gè)有效解決方案:具有可分卷積

【11】ESPNetv2：一個(gè)輕量級、高效、通用的卷積神經(jīng)網(wǎng)絡(luò)