1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        【深度學(xué)習(xí)】高效輕量級(jí)語(yǔ)義分割綜述

        共 5245字,需瀏覽 11分鐘

         ·

        2022-08-04 12:10

        原文:On Efficient Real-Time Semantic Segmentation: A Survey

        鏈接:https://arxiv.org/abs/2206.08605

        1摘要

        語(yǔ)義分割是自動(dòng)駕駛中視覺(jué)理解的重要組成部分。然而當(dāng)前SOTA的模型都非常復(fù)雜和繁瑣,因此不適合部署在計(jì)算資源受限且耗時(shí)要求較低的車(chē)載芯片平臺(tái)上。本文深入研究了更緊湊、更高效的模型以解決上述問(wèn)題,這些模型能夠部署在低內(nèi)存嵌入式系統(tǒng)上,同時(shí)滿足實(shí)時(shí)推理的需求。本文討論了該領(lǐng)域一些優(yōu)秀的工作,根據(jù)它們的主要貢獻(xiàn)進(jìn)行歸類(lèi),最后本文評(píng)估了在相同軟硬件條件下模型的推理速度,這些條件代表了一個(gè)典型的高性能GPU和低內(nèi)存嵌入式GPU的實(shí)際部署場(chǎng)景。本文的實(shí)驗(yàn)結(jié)果表明,許多工作能夠在資源受限的硬件上實(shí)現(xiàn)性能和耗時(shí)的平衡。

        2數(shù)據(jù)集

        常見(jiàn)的分割數(shù)據(jù)集有CamVid[1], KITTI[2], Cityscapes[3], Berkeley DeepDrive[4], Audi Autonomous Driving[5], PASCAL VOC2012[6], NYU Depth V2[7]等。


        3高效深度 CNN 的技術(shù)

        降采樣和上采樣

        降采樣:通過(guò)對(duì)輸入圖像進(jìn)行降采樣以顯著減少計(jì)算量、增加推理速度,同時(shí)犧牲了輸出的精度。一般而言,大型復(fù)雜模型均需要使用降采樣來(lái)提升感受野,常用的下采樣操作是 max/average pooling。

        上采樣:分割任務(wù)與其他視覺(jué)任務(wù)不同,通常希望保持輸入輸出的維度,因此必須使用上采樣恢復(fù)分辨率,常見(jiàn)的上采樣方法又雙線性插值、逆卷積等。

        高效卷積

        高效卷積的核心思想是通過(guò)堆疊卷積層在擴(kuò)大模型感受野的同時(shí),減少模型參數(shù)量和計(jì)算量。常見(jiàn)的高效卷積有Depthwise-Separable Convolution[8],Grouped Convolution[9],Asymmetric Convolution[10], Bottleneck[11], Dilated Convolution[12]。


        殘差連接

        殘差連接通[11]常用于分割網(wǎng)絡(luò)中以改善反向傳播期間的梯度流和重用前一層特征。

        主干網(wǎng)絡(luò)

        許多語(yǔ)義分割模型采用若干廣泛使用的主干網(wǎng)絡(luò)作為特征提取器,常見(jiàn)的主干有ResNet[11],Squeezenet[13],Shufflenet[14],Mobilenet[15],MobileNetV2[16],EfficientNet[17]。


        4杰出工作

        編碼器-解碼器

        語(yǔ)義分割的核心結(jié)構(gòu)便是編碼器-解碼器。經(jīng)典的模型有SegNet、U-net、Efficient Neural Network (ENet)、SQNet等等。


        多分支

        基于編碼器-解碼器的方法的一個(gè)主要挑戰(zhàn)是保留在網(wǎng)絡(luò)早期提取的高分辨率細(xì)節(jié),因此一些多分支工作將原始輸入圖像以?xún)蓚€(gè)或更多尺度送入網(wǎng)絡(luò)。經(jīng)典模型如Image Cascade Network (ICNet)、ContextNet、Guided Upsampling Network (GUN)等。


        元學(xué)習(xí)

        實(shí)時(shí)語(yǔ)義分割領(lǐng)域中大多數(shù)元學(xué)習(xí)模型都屬于NAS的范疇,是一種自動(dòng)化設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的過(guò)程的方法。NAS 通常只涉及可提供最佳結(jié)果的架構(gòu),但是在實(shí)時(shí)要求下,架構(gòu)大小、復(fù)雜性和推理時(shí)間構(gòu)成了優(yōu)化功能中應(yīng)考慮的其他因素。經(jīng)典的算法有SqueezeNAS、FasterSeg、Graph-Guided Architecture Search (GAS) 等。


        注意力

        注意力機(jī)制已經(jīng)被證明是一種適用于視覺(jué)任務(wù)的關(guān)鍵技術(shù),但一般而言計(jì)算繁瑣且低效。盡管仍不適合實(shí)時(shí)推理,但一些工作如Deep Feature Aggregation (DFANet)、Lightweight Encoder-Decoder (LEDNet)等降低了注意力的復(fù)雜性。


        訓(xùn)練優(yōu)化

        最后一類(lèi)是采用現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)并改變訓(xùn)練過(guò)程以提升模型性能的方法,常見(jiàn)的如知識(shí)蒸餾Structured Knowledge  Distillation、Knowledge Adaptation等


        5
        評(píng)估

        本文在Nvidia RTX 3090 GPU和嵌入式平臺(tái)Nvidia Jetson Xavier AGX Developer Kit兩種平臺(tái)下驗(yàn)證了不同算法的耗時(shí)和性能。


        對(duì)比如下表所示:


        6結(jié)論

        本文討論了為解決資源受限硬件上的低耗時(shí)語(yǔ)義分割算法,并根據(jù)它們對(duì)該領(lǐng)域的主要貢獻(xiàn)進(jìn)行討論和分類(lèi)。最后本文進(jìn)行了自己的實(shí)驗(yàn),在相同的軟硬件條件下分析算法的速度和性能,為模型選型提供參考,對(duì)未來(lái)工作的優(yōu)化提供思考方向。

        7參考文獻(xiàn)

        [1] G. J. Brostow, J. Fauqueur and R. Cipolla, "Semantic object classes in video: A high-definition ground truth database," Pattern Recognit. Lett., vol. 30, p. 88–97, 2009.

        [2] A. Geiger, P. Lenz, C. Stiller and R. Urtasun, "Vision meets robotics: The KITTI dataset," Int. J. Robotics Res., vol. 32, p. 1231–1237, 2013.

        [3] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth and B. Schiele, "The Cityscapes Dataset for Semantic Urban Scene Understanding," in 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, June 27-30, 2016, 2016.

        [4] F. Yu, W. Xian, Y. Chen, F. Liu, M. Liao, V. Madhavan and T. Darrell, "BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling," CoRR, vol. abs/1805.04687, 2018.

        [5] J. Geyer, Y. Kassahun, M. Mahmudi, X. Ricou, R. Durgesh, A. S. Chung, L. Hauswald, V. H. Pham, M. Mühlegg, S. Dorn, T. Fernandez, M. J?nicke, S. Mirashi, C. Savani, M. Sturm, O. Vorobiov, M. Oelker, S. Garreis and P. Schuberth, "A2D2: Audi Autonomous Driving Dataset," CoRR, vol. abs/2004.06320, 2020.

        [6] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn and A. Zisserman, The PASCAL Visual Object Classes Challenge 2012 (VOC2012) Results.

        [7] N. Silberman, P. Kohli and R. Fergus, "Indoor Segmentation and Support Inference from RGBD Images," in European Conference on Computer Vision, 2012.

        [8] L. Sifre and S. Mallat, Rigid-Motion Scattering for Texture Classification, 2014.

        [9] A. Krizhevsky, I. Sutskever and G. E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," in Advances in Neural Information Processing Systems, 2012.

        [10] M. Jaderberg, A. Vedaldi and A. Zisserman, Speeding up Convolutional Neural Networks with Low Rank Expansions, 2014.

        [11] K. He, X. Zhang, S. Ren and J. Sun, "Deep Residual Learning for Image Recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

        [12] G. Papandreou, I. Kokkinos and P.-A. Savalle, "Modeling Local and Global Deformations in Deep Learning: Epitomic Convolution, Multiple Instance Learning, and Sliding Window Detection," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

        [13] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally and K. Keutzer, SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size, 2016.

        [14] X. Zhang, X. Zhou, M. Lin and J. Sun, "ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

        [15] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto and H. Adam, MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, 2017.

        [16] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov and L.-C. Chen, "MobileNetV2: Inverted Residuals and Linear Bottlenecks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

        [17] M. Tan and Q. Le, "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks," in Proceedings of the 36th International Conference on Machine Learning, 2019.
        往期精彩回顧




        瀏覽 120
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            色婷婷久久综合中文久久蜜桃Av | 操操操操操操操操逼 | 成人无码手机在线观看 | 美女高潮视频网站 | 天天干天天色天天 | 日肏黄色一级片 | 操逼穴| 天天曰天天干天天射Av | 中文一级毛片免费播放视频 | 久久伊人操 |