1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        (附論文) CVPR 2021輕量化目標(biāo)檢測(cè)模型MobileDets

        共 4230字,需瀏覽 9分鐘

         ·

        2021-07-01 12:58

        點(diǎn)擊左上方藍(lán)字關(guān)注我們



        全網(wǎng)搜集目標(biāo)檢測(cè)相關(guān),人工篩選最優(yōu)價(jià)值內(nèi)容

        編者薦語(yǔ)
        正則卷積是一個(gè)強(qiáng)有力的組件,作者通過(guò)在搜索空間中合并Regular CNN并直接優(yōu)化目標(biāo)檢測(cè)的網(wǎng)絡(luò)架構(gòu),獲得了一系列目標(biāo)檢測(cè)模型,MobileDets,并在移動(dòng)加速器中實(shí)現(xiàn)了最先進(jìn)的結(jié)果。


        論文:https://arxiv.org/pdf/2004.14525v1.pdf

        1簡(jiǎn)介

        構(gòu)建在深度卷積上的Inverted bottleneck layers已經(jīng)成為移動(dòng)設(shè)備上最先進(jìn)目標(biāo)檢測(cè)模型的主要構(gòu)建模塊。在這項(xiàng)工作中,作者通過(guò)回顧常規(guī)卷積的實(shí)用性,研究了這種設(shè)計(jì)模式在廣泛的移動(dòng)加速器上的最優(yōu)性。

        作者研究發(fā)現(xiàn),正則卷積是一個(gè)強(qiáng)有力的組件,以提高延遲-準(zhǔn)確性權(quán)衡目標(biāo)檢測(cè)的加速器,只要他們被放置在網(wǎng)絡(luò)通過(guò)神經(jīng)結(jié)構(gòu)搜索。通過(guò)在搜索空間中合并Regular CNN并直接優(yōu)化目標(biāo)檢測(cè)的網(wǎng)絡(luò)架構(gòu),作者獲得了一系列目標(biāo)檢測(cè)模型,MobileDets,并在移動(dòng)加速器中實(shí)現(xiàn)了最先進(jìn)的結(jié)果。

        在COCO檢測(cè)任務(wù)上,在移動(dòng)CPU上MobileDets比MobileNetV3+SSDLite提升了1.7 mAP。MobileDets比MobileNetV2+SSDLite提升了1.9mAP,

        在不增加延遲的情況下,在谷歌EdgeTPU上提升了3.7 mAP,在Qualcomm Hexagon DSP上提升了3.4 mAP,在Nvidia Jetson GPU上提升了2.7 mAP。此外,MobileDets即使不使用金字塔也可以在移動(dòng)cpu上媲美最先進(jìn)的MnasFPN,并在EdgeTPUs和dsp上實(shí)現(xiàn)更好的mAP分?jǐn)?shù)以及高達(dá)2倍的加速。

        本文主要貢獻(xiàn)

        • 不像許多現(xiàn)有的專(zhuān)門(mén)針對(duì)移動(dòng)應(yīng)用的IBN層的工作,本文提出了一種基于正則卷積構(gòu)建塊的增強(qiáng)搜索空間系列。證明了NAS方法可以從這種擴(kuò)大的搜索空間中獲得很大的收益,從而在各種移動(dòng)設(shè)備上實(shí)現(xiàn)更好的延遲-準(zhǔn)確性權(quán)衡。

        • 提供了MobileDets,一組在多個(gè)硬件平臺(tái)(包括手機(jī))上具有最先進(jìn)的Mobile目標(biāo)檢測(cè)模型。

        2前人工作

        2.1 Mobile Object Detection

        物體檢測(cè)是一個(gè)經(jīng)典的計(jì)算機(jī)視覺(jué)任務(wù),其目標(biāo)是學(xué)習(xí)識(shí)別圖像中感興趣的物體?,F(xiàn)有的目標(biāo)檢測(cè)器可分為2類(lèi):

        • Two-Stage檢測(cè)器
        • One-Stage檢測(cè)器

        對(duì)于Two-Stage檢測(cè)器,包括Faster RCNN, R-FCN和ThunderNet,在檢測(cè)器做出任何后續(xù)預(yù)測(cè)之前,必須首先生成區(qū)域建議。由于這種多階段的特性,Two-Stage檢測(cè)器在推理時(shí)間方面并不高效。

        另一方面,One-Stage檢測(cè)器,如SSD、SSDLite、YOLO、SqueezeDet和Pelee,只需要通過(guò)一次網(wǎng)絡(luò)就可以預(yù)測(cè)所有的邊界框,使其成為邊緣設(shè)備高效推斷的理想候選。因此,在這項(xiàng)工作中將重點(diǎn)放在One-Stage檢測(cè)器上。

        SSDLite是SSD的一個(gè)有效變體,它已經(jīng)成為最流行的輕量級(jí)檢測(cè)器之一。它非常適合移動(dòng)設(shè)備上的應(yīng)用。高效的backbone,如MobileNetV2、MobileNetV3,與SSDLite配對(duì),以實(shí)現(xiàn)最先進(jìn)的移動(dòng)檢測(cè)結(jié)果。這兩個(gè)模型將被用作baseline,以證明所提出的搜索空間在不同移動(dòng)加速器上的有效性。

        2.2 Mobile Neural Architecture Search (NAS)

        NetAdapt和AMC是第一批嘗試?yán)醚舆t感知搜索來(lái)微調(diào)預(yù)訓(xùn)練模型的通道數(shù)量的公司。MnasNet和MobileNetV3擴(kuò)展了這一想法,以便在NAS框架中找到資源效率高的架構(gòu)。通過(guò)技術(shù)的組合,MobileNetV3在移動(dòng)CPU上提供了最先進(jìn)的架構(gòu)。作為一個(gè)互補(bǔ)的方向,最近有許多致力于提高NAS的搜索效率的工作。

        2.3 NAS for Mobile Object Detection

        大部分NAS文獻(xiàn)主要集中于分類(lèi),只將學(xué)習(xí)到的特征提取器作為目標(biāo)檢測(cè)的backbone,而沒(méi)有進(jìn)一步的搜索。最近,多篇論文表明,通過(guò)直接搜索目標(biāo)檢測(cè)模型可以獲得更好的延遲-精度權(quán)衡。

        MnasFPN是移動(dòng)檢測(cè)模型的一個(gè)強(qiáng)大的檢測(cè)NAS Baseline,它使用對(duì)移動(dòng)友好的搜索空間搜索特征金字塔,極大地利用了深度可分離卷積。但是一九八存在幾個(gè)因素限制了它在移動(dòng)加速器上的推廣:

        1. 到目前為止,深度卷積和特征金字塔在這些平臺(tái)上都沒(méi)有得到很好的優(yōu)化,

        2. MnasFPN不搜索backbone,這是延遲的瓶頸。

        相比之下,本文的工作依賴(lài)于SSD Heads,并提出了基于全卷積Backbone的搜索空間,更易于接受移動(dòng)加速。

        3重新回顧全卷積移動(dòng)搜索空間

        Are IBNs all we need ?

        Inverted Bottleneck(IBN)的布局如圖2所示。IBN的設(shè)計(jì)目的是減少參數(shù)和FLOPS的數(shù)量,并利用depthwise和pointwise(1x1)卷積在移動(dòng)cpu上實(shí)現(xiàn)高效率。

        然而,并非所有的FLOPS都是一樣的,特別是對(duì)于EdgeTPU和dsp這樣的現(xiàn)代移動(dòng)加速器來(lái)說(shuō)。例如,一個(gè)常規(guī)的卷積在EdgeTPUs上的運(yùn)行速度可能比它的深度變化快3倍,即使它有7倍的FLOPS。

        觀察結(jié)果表明,目前廣泛使用的IBN-only搜索空間對(duì)于現(xiàn)代移動(dòng)加速器來(lái)說(shuō)可能是次優(yōu)的。這促使本文通過(guò)重新訪問(wèn)規(guī)則(完全)卷積來(lái)提出新的構(gòu)建塊,以豐富移動(dòng)加速器的IBN-only搜索空間。具體來(lái)說(shuō),提出了2個(gè)靈活的層分別進(jìn)行通道擴(kuò)展和壓縮,具體如下。

        3.1 融合IBN層(擴(kuò)展)

        深度可分離卷積是IBN的關(guān)鍵(圖2)。深度可分離卷積背后的想法是將深度卷積(用于空間維度)和點(diǎn)卷積(用于通道維度)的組合代替復(fù)雜的全卷積。

        然而,復(fù)雜的概念在很大程度上是基于FLOPS或參數(shù)的數(shù)量來(lái)定義的,這與現(xiàn)代移動(dòng)加速器的推理效率不一定相關(guān)。為了整合卷積,作者提出對(duì)IBN層進(jìn)行修改,將其前卷積和隨后的深度卷積融合為單個(gè)正則卷積(圖3)。融合IBN的初始卷積使Kernel的數(shù)量增加了一個(gè)因子;這一層的擴(kuò)展比例由NAS算法決定。

        3.2 Tucker卷積層(壓縮)

        在ResNet中引入瓶頸層,降低了在高維特征圖上進(jìn)行大卷積的消耗。壓縮比s<1的瓶頸層有:

        • 輸入通道為輸出通道為的1×1卷積;
        • 輸入通道為輸出通道為的K×K卷積;
        • 輸入通道為輸出通道為的1×1卷積;

        作者概括了這些瓶頸(圖4)通過(guò)允許初始1×1卷積比K×K卷積有不同數(shù)量的輸出卷積核,并讓NAS算法決定最終的最佳配置。

        作者將這些新的構(gòu)建塊稱(chēng)為Tucker卷積層,因?yàn)樗鼈兣cTucker分解有關(guān)。

        4架構(gòu)搜索方法

        本文提出的搜索空間是互補(bǔ)的任何神經(jīng)結(jié)構(gòu)搜索算法。

        在實(shí)驗(yàn)中使用了TuNAS,因?yàn)樗目缮炜s性和相對(duì)于隨機(jī)baseline的可靠改進(jìn)。TuNAS構(gòu)建了一個(gè)one-shot模型,該模型包含給定搜索空間中的所有架構(gòu)選擇,以及一個(gè)控制器,其目標(biāo)是選擇優(yōu)化平臺(tái)感知的獎(jiǎng)勵(lì)功能的架構(gòu)。

        在搜索過(guò)程中,one-shot模型和控制器一起訓(xùn)練。在每一步中,控制器從跨越選擇的多項(xiàng)分布中抽樣一個(gè)隨機(jī)體系結(jié)構(gòu),然后更新與抽樣體系結(jié)構(gòu)相關(guān)的one-shot模型權(quán)值的部分,最后計(jì)算抽樣體系結(jié)構(gòu)的獎(jiǎng)勵(lì),用于更新控制器。更新內(nèi)容是通過(guò)對(duì)以下獎(jiǎng)勵(lì)功能應(yīng)用強(qiáng)化算法來(lái)實(shí)現(xiàn)的:

        Cost Models

        作者訓(xùn)練了一個(gè)Cost Model,——一個(gè)線性回歸模型,它的特征是,對(duì)于每一層,輸入/輸出通道規(guī)模和層類(lèi)型之間的交叉乘積的指標(biāo)。該模型跨平臺(tái)高保真度。線性代價(jià)模型與之前提出的基于查找表的方法有關(guān),但只要求在搜索空間內(nèi)對(duì)隨機(jī)選取的模型的延遲進(jìn)行基準(zhǔn)測(cè)試,而不要求度量卷積等單個(gè)網(wǎng)絡(luò)操作的cost。

        因?yàn)镽(M)是在每次更新步驟時(shí)計(jì)算的,所以效率是關(guān)鍵。在搜索過(guò)程中,本文基于一個(gè)小型的小批處理估計(jì)了mAP(M)的效率,并使用回歸模型作為設(shè)備上延遲c(M)的替代。為了收集成本模型的訓(xùn)練數(shù)據(jù),本文從搜索空間隨機(jī)抽取數(shù)千個(gè)網(wǎng)絡(luò)架構(gòu),并在設(shè)備上對(duì)每個(gè)架構(gòu)進(jìn)行基準(zhǔn)測(cè)試。這在每個(gè)硬件和搜索之前只執(zhí)行一次,消除了服務(wù)器類(lèi)ML硬件和移動(dòng)設(shè)備之間直接通信的需要。對(duì)于最終的評(píng)估,所找到的體系結(jié)構(gòu)將基于實(shí)際硬件測(cè)試而不是成本模型進(jìn)行基準(zhǔn)測(cè)試。

        5實(shí)驗(yàn)

        5.1 不同硬件的實(shí)驗(yàn)

        CPU

        圖5顯示了pixel-1 cpu的NAS結(jié)果。正如預(yù)期的那樣,MobileNetV3+SSDLite是一個(gè)強(qiáng)大的baseline,因?yàn)樗腷ackbone的效率已經(jīng)在相同的硬件平臺(tái)上對(duì)ImageNet上的分類(lèi)任務(wù)進(jìn)行了大量?jī)?yōu)化。作者還注意到,在這種特殊情況下,常規(guī)卷積并沒(méi)有提供明顯的優(yōu)勢(shì),因?yàn)镮BN-only在FLOPS/CPU延遲下已經(jīng)很強(qiáng)大了。然而,w.r.t.進(jìn)行特定領(lǐng)域的體系結(jié)構(gòu)搜索,目標(biāo)檢測(cè)任務(wù)在COCO上提供了不小的收益(150-200ms范圍內(nèi)的+1mAP)。

        EdgeTPU

        圖6顯示了以Pixel-4 EdgeTPUs為目標(biāo)時(shí)的NAS結(jié)果。使用這3種搜索空間中的任何一種進(jìn)行硬件感知的體系結(jié)構(gòu)搜索,都能顯著提高整體質(zhì)量。這很大程度上是由于baseline架構(gòu)(MobileNetV2)1對(duì)CPU延遲進(jìn)行了大量?jī)?yōu)化,這與FLOPS/MAdds密切相關(guān),但與EdgeTPU延遲沒(méi)有很好地校準(zhǔn)。值得注意的是,雖然IBN-only仍然提供了最好的準(zhǔn)確性-madds權(quán)衡(中間圖),但在搜索空間中使用常規(guī)卷積(IBN+Fused或IBN+Fused+Tucker)在準(zhǔn)確性-延遲權(quán)衡方面提供了明顯的進(jìn)一步優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果證明了完全卷積在EdgeTPUs上的有效性。

        DSP

        圖7顯示了Pixel-4 DSP的搜索結(jié)果。與EdgeTPUs類(lèi)似,很明顯,在搜索空間中包含規(guī)則卷積可以在相當(dāng)?shù)耐茢嘌舆t下顯著改善mAP。

        5.2 SOTA對(duì)比結(jié)果

        6參考

        [1].MobileDets: Searching for Object Detection Architectures for Mobile Accelerators


        END



        雙一流大學(xué)研究生團(tuán)隊(duì)創(chuàng)建,專(zhuān)注于目標(biāo)檢測(cè)與深度學(xué)習(xí),希望可以將分享變成一種習(xí)慣!

        整理不易,點(diǎn)贊三連↓

        瀏覽 117
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            翔田千里在线播放AV101 操小逼无码 | 她在丈夫面前被耍了伦理 | 涩涩视频下载 | 国产aⅴ激情无码久久久无码 | 日逼视频播放 | 性生交生活大片1 | 91麻豆国产自产在线观看 | 最近中文字幕中文翻译歌词 | 艹少妇小说 | 无码做爱视频 |