1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        CVPR2021|特征金字塔的新方式Y(jié)OLOF

        共 1880字,需瀏覽 4分鐘

         ·

        2021-03-27 14:53

        論文:You Only Look One-level Feature


        下載地址:

        https://arxiv.org/abs/2103.09460


        代碼

        https://github.com/megvii-model/YOLOF




        Introduction


        針對(duì)多尺度特征融合提出多層輸入和單層輸入的方式,針對(duì)分而治之提出在單層檢測(cè)和多層檢測(cè)的方式,兩者結(jié)合就是如下圖所示的MiMoSiMo,MiSo,SiSo。


         

        根據(jù)圖ab可得出多尺度融合的特征所帶來(lái)的精度提升很少。對(duì)比圖ac,分而治之的方式可帶來(lái)12mAP的提升。

        這可以得出兩個(gè)結(jié)論:

        (1) 這表明C5層基本融合了全部語(yǔ)義信息,沒(méi)必要進(jìn)行多尺度融合。

        (2) 分而治之帶來(lái)的益處遠(yuǎn)多于多尺度特征融合。


        然而相比于單層檢測(cè),使用分而治之意味著需要更多的內(nèi)存,降低推理速度,且對(duì)于one-stages的檢測(cè)器來(lái)說(shuō)結(jié)構(gòu)更復(fù)雜。

         

        基于第一個(gè)實(shí)驗(yàn)的結(jié)論,作者進(jìn)行了第二個(gè)實(shí)驗(yàn)--比較MiMoSiSo這兩種Encoder-Decoder方式。


        實(shí)驗(yàn)結(jié)果如下圖所示,MiMo的精度比SiSo更高,但推理速度慢了很多,且MiMoSiSo的內(nèi)存之比為134G vs 6G。

         

        經(jīng)過(guò)分析,SiSo精度低的原因是有兩個(gè):


        (1) C5的特征感受野的匹配的尺度范圍有限。

        (2) 在單層通過(guò)稀疏anchor方式產(chǎn)生的positive anchor數(shù)量極其不平衡。


        基于以上兩個(gè)實(shí)驗(yàn),作者提出不再使用多尺度融合,而是要擴(kuò)大C5所能匹配的尺度范圍,這樣能在提高精度的同時(shí),充分利用SiSo的速度和低內(nèi)存的優(yōu)點(diǎn)。所使用的方式就是對(duì)這兩個(gè)問(wèn)題進(jìn)行改進(jìn)。



        Methods


        提出Dilated Encoder來(lái)解決C5的尺度匹配范圍的問(wèn)題,提出Uniform Matching來(lái)解決單層positive anchors數(shù)量不平衡的問(wèn)題。

        Dilated Encoder


        為方便讀者理解,先補(bǔ)充一點(diǎn)說(shuō)明,特征金字塔的一種方式就是FPN這種使用降采樣來(lái)構(gòu)建,另一種方式就是通過(guò)多支路使用不同空洞率的空洞卷積 (dilation convolution)來(lái)構(gòu)建。

        關(guān)于特征金字塔這種技術(shù),在很多論文中提出了一些新的特征融合方式,在下一篇中將對(duì)特征金字塔進(jìn)行技術(shù)總結(jié),感興趣的讀者請(qǐng)關(guān)注公眾號(hào)《CV技術(shù)指南》的技術(shù)總結(jié)部分。

        在這里就是使用了第二種方式來(lái)構(gòu)建特征金字塔,但有所不同的是,這里并不是使用多支路,而是將其串聯(lián),一條支路中使用四種空洞率的空洞卷積,看圖更容易理解。

         


        Dilated Encoder由一個(gè)Projector和四個(gè)Residual Blocks組成,其中Residual Blocks3x3卷積的空洞率是不一樣的。


        Uniform Matching


        MiMoSiSo產(chǎn)生的anchor的數(shù)量比為100K vs 5K,由于使用Max-IOU這種匹配方式,大的GT boxes會(huì)比小的GT boxes產(chǎn)生更多的positive anchor,這使得網(wǎng)絡(luò)在訓(xùn)練過(guò)程中將更多的注意放在了大的 GT boxes,而忽視了小的。

        因此Uniform Matching的方式是使用最近鄰方式來(lái)匹配。具體方式是選擇GT boxes最近的K個(gè)boxes, 這樣的方式不管GT boxes大小可以匹配相同數(shù)量的Boxes



        conclusion

        1.以608x608的輸入,YOLOF 2080Ti上以60fps的速度實(shí)現(xiàn)了44.3 mAP的精度。


        2.與YOLO_v4相比,在提高了0.8mAP的基礎(chǔ)上快了13%。


        3.達(dá)到RetinaNet的精度,并比它快2.5倍。


        4.僅用了一層特征就達(dá)到了DETR的精度,訓(xùn)練速度快了7倍。


        ?------------------------------------------------


        歡迎微信搜索并關(guān)注「目標(biāo)檢測(cè)與深度學(xué)習(xí)」,不被垃圾信息干擾,只分享有價(jià)值知識(shí)!


        10000+人已加入目標(biāo)檢測(cè)與深度學(xué)習(xí)


               

               




        敬正在努力的我們! 


        瀏覽 48
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            成人高清无码在线观看 | 女人扒开尿口让男人捅爽 | 九九九久久久久久久 | 日本做床爱全程免费视频 | 黄色一级国产 | 美女操网站| 好多水好爽小荡货白洁 | 激情六月丁香 | 国产又大又粗又硬的视频 | 红桃视频一区二区三区免费 |