【深度學(xué)習(xí)】高效輕量級(jí)語(yǔ)義分割綜述
原文:On Efficient Real-Time Semantic Segmentation: A Survey
鏈接:https://arxiv.org/abs/2206.08605
1摘要
語(yǔ)義分割是自動(dòng)駕駛中視覺(jué)理解的重要組成部分。然而當(dāng)前SOTA的模型都非常復(fù)雜和繁瑣,因此不適合部署在計(jì)算資源受限且耗時(shí)要求較低的車(chē)載芯片平臺(tái)上。本文深入研究了更緊湊、更高效的模型以解決上述問(wèn)題,這些模型能夠部署在低內(nèi)存嵌入式系統(tǒng)上,同時(shí)滿足實(shí)時(shí)推理的需求。本文討論了該領(lǐng)域一些優(yōu)秀的工作,根據(jù)它們的主要貢獻(xiàn)進(jìn)行歸類(lèi),最后本文評(píng)估了在相同軟硬件條件下模型的推理速度,這些條件代表了一個(gè)典型的高性能GPU和低內(nèi)存嵌入式GPU的實(shí)際部署場(chǎng)景。本文的實(shí)驗(yàn)結(jié)果表明,許多工作能夠在資源受限的硬件上實(shí)現(xiàn)性能和耗時(shí)的平衡。
2數(shù)據(jù)集
常見(jiàn)的分割數(shù)據(jù)集有CamVid[1], KITTI[2], Cityscapes[3], Berkeley DeepDrive[4], Audi Autonomous Driving[5], PASCAL VOC2012[6], NYU Depth V2[7]等。

3高效深度 CNN 的技術(shù)
降采樣和上采樣
降采樣:通過(guò)對(duì)輸入圖像進(jìn)行降采樣以顯著減少計(jì)算量、增加推理速度,同時(shí)犧牲了輸出的精度。一般而言,大型復(fù)雜模型均需要使用降采樣來(lái)提升感受野,常用的下采樣操作是 max/average pooling。
上采樣:分割任務(wù)與其他視覺(jué)任務(wù)不同,通常希望保持輸入輸出的維度,因此必須使用上采樣恢復(fù)分辨率,常見(jiàn)的上采樣方法又雙線性插值、逆卷積等。
高效卷積
高效卷積的核心思想是通過(guò)堆疊卷積層在擴(kuò)大模型感受野的同時(shí),減少模型參數(shù)量和計(jì)算量。常見(jiàn)的高效卷積有Depthwise-Separable Convolution[8],Grouped Convolution[9],Asymmetric Convolution[10], Bottleneck[11], Dilated Convolution[12]。

殘差連接
殘差連接通[11]常用于分割網(wǎng)絡(luò)中以改善反向傳播期間的梯度流和重用前一層特征。
主干網(wǎng)絡(luò)
許多語(yǔ)義分割模型采用若干廣泛使用的主干網(wǎng)絡(luò)作為特征提取器,常見(jiàn)的主干有ResNet[11],Squeezenet[13],Shufflenet[14],Mobilenet[15],MobileNetV2[16],EfficientNet[17]。

4杰出工作
編碼器-解碼器
語(yǔ)義分割的核心結(jié)構(gòu)便是編碼器-解碼器。經(jīng)典的模型有SegNet、U-net、Efficient Neural Network (ENet)、SQNet等等。

多分支
基于編碼器-解碼器的方法的一個(gè)主要挑戰(zhàn)是保留在網(wǎng)絡(luò)早期提取的高分辨率細(xì)節(jié),因此一些多分支工作將原始輸入圖像以?xún)蓚€(gè)或更多尺度送入網(wǎng)絡(luò)。經(jīng)典模型如Image Cascade Network (ICNet)、ContextNet、Guided Upsampling Network (GUN)等。

元學(xué)習(xí)
實(shí)時(shí)語(yǔ)義分割領(lǐng)域中大多數(shù)元學(xué)習(xí)模型都屬于NAS的范疇,是一種自動(dòng)化設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的過(guò)程的方法。NAS 通常只涉及可提供最佳結(jié)果的架構(gòu),但是在實(shí)時(shí)要求下,架構(gòu)大小、復(fù)雜性和推理時(shí)間構(gòu)成了優(yōu)化功能中應(yīng)考慮的其他因素。經(jīng)典的算法有SqueezeNAS、FasterSeg、Graph-Guided Architecture Search (GAS) 等。

注意力
注意力機(jī)制已經(jīng)被證明是一種適用于視覺(jué)任務(wù)的關(guān)鍵技術(shù),但一般而言計(jì)算繁瑣且低效。盡管仍不適合實(shí)時(shí)推理,但一些工作如Deep Feature Aggregation (DFANet)、Lightweight Encoder-Decoder (LEDNet)等降低了注意力的復(fù)雜性。

訓(xùn)練優(yōu)化
最后一類(lèi)是采用現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)并改變訓(xùn)練過(guò)程以提升模型性能的方法,常見(jiàn)的如知識(shí)蒸餾Structured Knowledge Distillation、Knowledge Adaptation等

5評(píng)估
本文在Nvidia RTX 3090 GPU和嵌入式平臺(tái)Nvidia Jetson Xavier AGX Developer Kit兩種平臺(tái)下驗(yàn)證了不同算法的耗時(shí)和性能。

對(duì)比如下表所示:

6結(jié)論
本文討論了為解決資源受限硬件上的低耗時(shí)語(yǔ)義分割算法,并根據(jù)它們對(duì)該領(lǐng)域的主要貢獻(xiàn)進(jìn)行討論和分類(lèi)。最后本文進(jìn)行了自己的實(shí)驗(yàn),在相同的軟硬件條件下分析算法的速度和性能,為模型選型提供參考,對(duì)未來(lái)工作的優(yōu)化提供思考方向。
7參考文獻(xiàn)
[1] G. J. Brostow, J. Fauqueur and R. Cipolla, "Semantic object classes in video: A high-definition ground truth database," Pattern Recognit. Lett., vol. 30, p. 88–97, 2009.
[2] A. Geiger, P. Lenz, C. Stiller and R. Urtasun, "Vision meets robotics: The KITTI dataset," Int. J. Robotics Res., vol. 32, p. 1231–1237, 2013.
[3] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth and B. Schiele, "The Cityscapes Dataset for Semantic Urban Scene Understanding," in 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, June 27-30, 2016, 2016.
[4] F. Yu, W. Xian, Y. Chen, F. Liu, M. Liao, V. Madhavan and T. Darrell, "BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling," CoRR, vol. abs/1805.04687, 2018.
[5] J. Geyer, Y. Kassahun, M. Mahmudi, X. Ricou, R. Durgesh, A. S. Chung, L. Hauswald, V. H. Pham, M. Mühlegg, S. Dorn, T. Fernandez, M. J?nicke, S. Mirashi, C. Savani, M. Sturm, O. Vorobiov, M. Oelker, S. Garreis and P. Schuberth, "A2D2: Audi Autonomous Driving Dataset," CoRR, vol. abs/2004.06320, 2020.
[6] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn and A. Zisserman, The PASCAL Visual Object Classes Challenge 2012 (VOC2012) Results.
[7] N. Silberman, P. Kohli and R. Fergus, "Indoor Segmentation and Support Inference from RGBD Images," in European Conference on Computer Vision, 2012.
[8] L. Sifre and S. Mallat, Rigid-Motion Scattering for Texture Classification, 2014.
[9] A. Krizhevsky, I. Sutskever and G. E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," in Advances in Neural Information Processing Systems, 2012.
[10] M. Jaderberg, A. Vedaldi and A. Zisserman, Speeding up Convolutional Neural Networks with Low Rank Expansions, 2014.
[11] K. He, X. Zhang, S. Ren and J. Sun, "Deep Residual Learning for Image Recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
[12] G. Papandreou, I. Kokkinos and P.-A. Savalle, "Modeling Local and Global Deformations in Deep Learning: Epitomic Convolution, Multiple Instance Learning, and Sliding Window Detection," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.
[13] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally and K. Keutzer, SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size, 2016.
[14] X. Zhang, X. Zhou, M. Lin and J. Sun, "ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[15] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto and H. Adam, MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, 2017.
[16] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov and L.-C. Chen, "MobileNetV2: Inverted Residuals and Linear Bottlenecks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
往期精彩回顧
適合初學(xué)者入門(mén)人工智能的路線及資料下載 (圖文+視頻)機(jī)器學(xué)習(xí)入門(mén)系列下載 機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印 《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請(qǐng)掃碼
