CBNet和DetectoRS:COCO數(shù)據(jù)集霸榜模型極市平臺(tái)關(guān)注共 2876字,需瀏覽 6分鐘 ·2020-08-07 20:09 點(diǎn)擊藍(lán)字?關(guān)注我們作者丨張佳程@知乎來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/146447810CBNet和DetectoRS —— COCO數(shù)據(jù)集霸榜模型(至2020年6月6日)。它兩先后刷新了COCO 數(shù)據(jù)集上的單模型目標(biāo)檢測(cè)精度的最高記錄:?jiǎn)纬叨葴y(cè)試CBNet——50.7AP和DetectoRS——53.3AP,多尺度測(cè)試CBNet——53.3AP和DetectoRS——54.7AP。下面扼要介紹一下這兩個(gè)模型的關(guān)鍵點(diǎn)。《CBNet: A Novel Composite Backbone Network Architecture for Object Detection》(AAAI 2020)論文鏈接:https://arxiv.org/abs/1909.03625《DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution》(3 Jun 2020 arXiv)論文鏈接:https://arxiv.org/abs/2006.02334CBNetCBNet的其結(jié)構(gòu)圖如下。CBNet通過(guò)復(fù)合連接來(lái)組合多個(gè)相同的主干網(wǎng)絡(luò),復(fù)合連接作用于相鄰的主干網(wǎng)絡(luò)的平行階段(如ResNet中的stage i)。從圖中可已看到,前一個(gè)主干網(wǎng)輸出的特征會(huì)作為后續(xù)主干網(wǎng)輸入特征的一部分。在并行的N個(gè)主干網(wǎng)絡(luò)中,前N-1個(gè)稱(chēng)為Assistant Backbones,第N個(gè)稱(chēng)為L(zhǎng)ead Backbone,Lead Backbone的輸出用于后續(xù)子任務(wù),如回歸、分類(lèi),或者說(shuō)檢測(cè)模型的FPN、detection head等。下面這張圖反映了CBNet和unrolled RCNN的區(qū)別??梢钥吹絻烧邔?duì)于并行級(jí)之間的連接是不同的,另外其次,在RCNN中不同時(shí)間步長(zhǎng)的平行階段共享參數(shù),而在CBNet中骨干網(wǎng)的平行階段不共享參數(shù)。CBNet及其幾種變種如下圖所示。主要差異體現(xiàn)在:復(fù)合連接所作用的前一階段主干網(wǎng)的輸出特征層級(jí) 與 復(fù)合連接輸出的特征在當(dāng)前階段主干網(wǎng)輸入的特征層級(jí) 之間的關(guān)系。下圖中的(a)(b)(c)(d)分別稱(chēng)為Adjacent Higher-Level Composition (AHLC)、Same Level Composition (SLC)、Adjacent Lower-Level Composition(ALLC)和Dense Higher-Level Composition (DHLC),其含義結(jié)合圖示一目了然。注意復(fù)合連接在不同變種中都是相同的:上采樣 -> 1*1 Conv -> BN。關(guān)于目標(biāo)檢測(cè)和實(shí)例分割的實(shí)驗(yàn)結(jié)果如下表。其中DB表示組合2個(gè)相同的主干網(wǎng)絡(luò),TB表示組合3個(gè)相同的主干網(wǎng)絡(luò)。CBNet及其變種的對(duì)比實(shí)驗(yàn)結(jié)果如下表所示。使用Cascade Mask R-CNN作為baseline,組合2個(gè)和3個(gè)相同的backbone——ResNeXt152,結(jié)合多尺度測(cè)試,CBNet刷新了coco的檢測(cè)記錄。最后是關(guān)于并行的主干網(wǎng)絡(luò)數(shù)目N與檢測(cè)精度之間關(guān)系的消融實(shí)驗(yàn)結(jié)果,如下圖。合情合理,N越大精度越高,但N>3之后精度趨于飽和。可以想見(jiàn),N越大,參數(shù)量越大、計(jì)算復(fù)雜度越高、推理速度越慢。DetectoRSDetectoRS的思想來(lái)自looking and thinking twice ,作者將這一思想應(yīng)用于主干網(wǎng)的改進(jìn)上。宏觀(guān)上,提出遞歸特征金字塔網(wǎng)絡(luò)(Recursive Feature Pyramid ,RFP),添加反饋連接將FPN的特征圖輸入到主干網(wǎng)中。微觀(guān)上,提出可切換空洞卷積(Switchable Atrous Convolution, SAC),用它替換主干網(wǎng)上所有的3*3標(biāo)準(zhǔn)卷積,使得模型可自適應(yīng)選擇感受野。DetectoRS的結(jié)構(gòu)圖如上圖所示。上圖中幾個(gè)點(diǎn):(1)展開(kāi)的迭代次數(shù)(the number of unrolled iterations)設(shè)置為2,這是默認(rèn)做法;(2)使用ASPP模塊來(lái)轉(zhuǎn)換RFP大的特征,注意作者使用的ASPP與原始的略有不同,具體細(xì)節(jié)參加論文;(3)利用Fusion Module來(lái)更新輸出特征,其結(jié)構(gòu)如下圖,最新的特征圖作為輸入,利用一個(gè)1*1卷積層+ Sigmoid激活函數(shù)來(lái)計(jì)算attention map,attention map對(duì)最新的特征圖進(jìn)行重標(biāo)定,1-attention map對(duì)上一層到來(lái)的特征圖進(jìn)行重標(biāo)定,而后加和作為最終輸出。下面來(lái)著重看一下作者提出的可切換空洞卷積(SAC),其內(nèi)部結(jié)構(gòu)如下圖所示。中間主體部分即為SAC,它是一個(gè)兩分支結(jié)構(gòu),分別使用擴(kuò)張率為1和3的擴(kuò)張卷積,此外,利用5*5自適應(yīng)平均池化+1*1卷積層建模切換函數(shù)S。S對(duì)擴(kuò)張率為1的分支輸出的特征圖進(jìn)行重標(biāo)定,1-S對(duì)擴(kuò)張率為3的分支輸出的特征圖進(jìn)行重標(biāo)定,而后加和作為最終輸出。圖中的鎖定機(jī)制的含義是:加載預(yù)處理模型時(shí)兩分支加載的權(quán)重是相同的,這樣一來(lái)便可以利用現(xiàn)成的、在ImageNet上預(yù)訓(xùn)練好的模型。此外作者在SAC的前后分別添加了一個(gè)全局上下文模塊GCM (global context module),它作為一種注意力機(jī)制來(lái)幫助SAC捕獲更大范圍內(nèi)的語(yǔ)義信息。與SENet存在兩點(diǎn)主要的區(qū)別:一是內(nèi)部只包含一個(gè)卷積層,且沒(méi)有非線(xiàn)性層;二是將輸出將被加回到主流,而不是將輸入乘以由Sigmoid計(jì)算得到的校準(zhǔn)值。作者稱(chēng)GCM對(duì)檢測(cè)性能有積極的影響,它可以使得轉(zhuǎn)換函數(shù)S更加穩(wěn)定。首先是消融實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果,如下表所示。作者以HTC作為baseline,添加RFP和SAC,實(shí)驗(yàn)效果如下表所示。使用ResNeXt-101-32x4d作為backbone,結(jié)合測(cè)試數(shù)據(jù)增強(qiáng),DetectoRS刷新了coco的檢測(cè)記錄。DetectoRS在全景分割、實(shí)例分割上實(shí)驗(yàn)的結(jié)果如下表,表現(xiàn)同樣非常優(yōu)異。推薦閱讀ResNeSt 登頂COCO數(shù)據(jù)集后 ECCV2020 被拒,作者張航:只為推動(dòng)領(lǐng)域發(fā)展表面缺陷檢測(cè)數(shù)據(jù)集匯總及其相關(guān)項(xiàng)目推薦CVPR 2020|COCO 51.2mAP,商湯提出解偶檢測(cè)分支新方法TSD添加極市小助手微信(ID : cv-mart),備注:研究方向-姓名-學(xué)校/公司-城市(如:目標(biāo)檢測(cè)-小極-北大-深圳),即可申請(qǐng)加入極市技術(shù)交流群,更有每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、行業(yè)技術(shù)交流,一起來(lái)讓思想之光照的更遠(yuǎn)吧~△長(zhǎng)按添加極市小助手△長(zhǎng)按關(guān)注極市平臺(tái),獲取最新CV干貨覺(jué)得有用麻煩給個(gè)在看啦~?? 瀏覽 80點(diǎn)贊 評(píng)論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào) 評(píng)論圖片表情視頻評(píng)價(jià)全部評(píng)論推薦 NLP模型BERT和經(jīng)典數(shù)據(jù)集!Datawhale0播霸榜播霸榜0【NLP】NLP模型BERT和經(jīng)典數(shù)據(jù)集!機(jī)器學(xué)習(xí)初學(xué)者0如何正確使用COCO數(shù)據(jù)集小白學(xué)視覺(jué)0火災(zāi)火焰檢測(cè)數(shù)據(jù)集和yolov4檢測(cè)模型機(jī)器學(xué)習(xí)AI算法工程0Smoke DetectorsSmoke Detectors0Detectors (Mixed)Detectors (Mixed)0Metal DetectorsMetal Detectors0一文總結(jié)微軟研究院Transformer霸榜模型三部曲!阿澤的學(xué)習(xí)筆記0YOLOv7模型訓(xùn)練 | 附數(shù)據(jù)集AI算法與圖像處理0點(diǎn)贊 評(píng)論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào)