1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Co-DETR突破目標(biāo)檢測(cè)大模型上限

        共 3417字,需瀏覽 7分鐘

         ·

        2023-08-25 02:26

        商湯基模型團(tuán)隊(duì)提出了一種適用于DETR檢測(cè)器的訓(xùn)練框架Co-DETR,可以在不改變推理結(jié)構(gòu)和速度的情況下大幅提升模型性能。這是第一個(gè)在COCO上達(dá)到66.0AP的檢測(cè)器,僅使用304M參數(shù)的ViT-L。Co-DETR在目標(biāo)檢測(cè)的多個(gè)重要benchmark上取得了全線第一的成績(jī)。此外,本研究在長(zhǎng)尾分布的LVIS數(shù)據(jù)集上也取得了大幅領(lǐng)先,在val和minival驗(yàn)證集上分別比之前的SOTA方法高+2.7AP和+6.1AP。


        論文名稱:DETRs with Collaborative Hybrid Assignments Training


        0214338997cfe6692a013a901a0af06c.webp


        5f2df3b7edb515040697b33dcfa10cd8.webp

        排名查看鏈接:https://paperswithcode.com/paper/detrs-with-collaborative-hybrid-assignments


        91b8a8b363a6b1071780d466ce924699.webp

         概述 



        稀疏的監(jiān)督信號(hào)會(huì)對(duì)檢測(cè)器的學(xué)習(xí)能力造成什么影響?DETR檢測(cè)器的收斂慢問(wèn)題是稀疏的監(jiān)督使得學(xué)習(xí)不充分導(dǎo)致的嗎?


        當(dāng)前的DETR檢測(cè)器中,為了實(shí)現(xiàn)端到端的檢測(cè),使用的標(biāo)簽分配策略是二分匹配,使得一個(gè)ground-truth只能分配到一個(gè)正樣本。


        在這種情況下,只有非常少部分的稀疏的query作為正樣本,接收到回歸的監(jiān)督。這種稀疏的監(jiān)督信號(hào)具體會(huì)對(duì)檢測(cè)器學(xué)習(xí)能力的哪些方面造成影響目前是未知的。此外,也沒(méi)有相關(guān)的量化指標(biāo)可以來(lái)衡量這種影響究竟有多大。


        為了進(jìn)一步探究這些問(wèn)題,我們首先可視化了Deformable-DETR+R50 encoder輸出的特征圖。


        由圖可以看出,Deformable-DETR特征的可視化一團(tuán)糟,基本無(wú)法看出其與原圖中物體的任何聯(lián)系。此外,在特征圖的邊緣還會(huì)出現(xiàn)一些奇怪的高激活pattern。


        53eb20ec1c917f19d4f33d5555d3cb8f.webp


        然而,與上文的二分匹配相反,在傳統(tǒng)的檢測(cè)器(如Faster-RCNN、ATSS)中,一個(gè)ground-truth會(huì)根據(jù)位置關(guān)系分配到多個(gè)anchor(為了方便闡述,本文將anchor、proposal、point等先驗(yàn)統(tǒng)稱為anchor)作為正樣本。


        考慮到anchor在特征圖上密集排列,一個(gè)點(diǎn)可能對(duì)應(yīng)多個(gè)不同大小和長(zhǎng)寬比的anchor,以及不同大小的物體會(huì)匹配到不同尺度的anchor。那么這種一對(duì)多的分配方式就能夠提供dense且尺度敏感的監(jiān)督信息,由此我們猜想,這種標(biāo)簽分配方式能夠?yàn)樘卣鲌D上的更多區(qū)域提供位置監(jiān)督,就能讓檢測(cè)器的特征學(xué)習(xí)得更好。


        為了比較這兩種不同的標(biāo)簽分配方法在特征圖上的差異,我們直接把Deformable-DETR的decoder換成了ATSS head,使用相同的可視化方法進(jìn)行了比較。


        如圖所示,ATSS的特征圖可視化中高激活區(qū)域很好地覆蓋了圖片中的前景部分,而背景部分則基本沒(méi)有激活。結(jié)合這些可視化結(jié)果,我們認(rèn)為正是這兩種分配方式的差異使得DETR模型中的encoder特征表達(dá)能力減弱了。


        除了可視化,我們也構(gòu)造了一個(gè)衡量特征圖和attention discriminability的指標(biāo),目的是為了把可視化的結(jié)果進(jìn)行量化,其具體計(jì)算方式如下。簡(jiǎn)單地說(shuō),就是計(jì)算出每個(gè)尺度特征的L2 norm,進(jìn)行歸一化后再在尺度上進(jìn)行平均。


        f35ee2d9f80700c29de7f9afff50690c.webp


        在得到discriminability score后,我們計(jì)算出其對(duì)于前景和背景的響應(yīng)程度,使用IoF-IoB曲線進(jìn)行了定量分析,IoF和IoB的計(jì)算方式類(lèi)似,如下公式。


        88936ea773e448adfcc0411bf8f97657.webp


        簡(jiǎn)單地說(shuō),就是把目標(biāo)框內(nèi)部的像素點(diǎn)都視為前景,框外的為背景,然后就可以得到前景和背景相應(yīng)的掩碼。根據(jù)這個(gè)掩碼和discriminability score就可以進(jìn)行IoF和IoB的計(jì)算。


        cd8de0f371b57be07ffe6aed9d3d38eb.webp


        通過(guò)IoF-IoB曲線,我們發(fā)現(xiàn)一對(duì)一的匹配會(huì)分別損害encoder特征和decoder中attention的學(xué)習(xí)。那么在這種情況下能不能讓DETR模型既享受到一對(duì)一匹配帶來(lái)的端到端推理能力,又能夠像一對(duì)多匹配那樣feature和attention學(xué)得更好?本文將根據(jù)可視化和指標(biāo)分析的結(jié)果,從兩方面對(duì)這些問(wèn)題進(jìn)行探索。


        e79157f1c7838b3781043111f604e6a1.webp


        為了能夠讓DETR檢測(cè)器利用到一對(duì)多匹配的優(yōu)勢(shì),我們基于DETR的訓(xùn)練框架引入了兩點(diǎn)改進(jìn),分別對(duì)應(yīng)到上文提到的encoder feature learning和decoder attention learning。新加入的模塊在訓(xùn)練后不再使用。


        (1)在上文的分析中,我們發(fā)現(xiàn)在encoder后插入一個(gè)傳統(tǒng)的ATSS檢測(cè)頭就能讓encoder的特征更加顯著。


        受到這個(gè)的啟發(fā),為了增強(qiáng)encoder的學(xué)習(xí)能力,我們首先利用multi-scale adapter,將encoder輸出的特征轉(zhuǎn)化為多尺度的特征。


        對(duì)于使用單尺度特征的DETR,這個(gè)adapter的結(jié)構(gòu)就類(lèi)似于simple feature pyramid。而對(duì)于多尺度特征的DETR,這個(gè)結(jié)構(gòu)就是恒等映射。之后我們將多尺度的特征送入到多個(gè)不同的輔助檢測(cè)頭,這些檢測(cè)頭都使用一對(duì)多的標(biāo)簽分配。


        由于傳統(tǒng)檢測(cè)器的檢測(cè)頭結(jié)構(gòu)輕量,因此帶來(lái)的額外訓(xùn)練開(kāi)銷(xiāo)較少。


        (2)為了增強(qiáng)decoder的attention學(xué)習(xí),我們提出了定制化的正樣本query生成。


        在上文的分析中,我們發(fā)現(xiàn)傳統(tǒng)檢測(cè)器中的anchor是密集排列的,且能夠提供dense且尺度敏感的監(jiān)督信息。


        那么我們能不能把傳統(tǒng)檢測(cè)器中的anchor作為query來(lái)為attention的學(xué)習(xí)提供足夠的監(jiān)督呢?當(dāng)然是可以的,在上一步中,輔助的檢測(cè)頭已經(jīng)分配好了各自的正樣本anchor及其匹配的ground-truth。


        我們選擇直接繼承輔助檢測(cè)頭的標(biāo)簽分配結(jié)果,將這些正樣本anchor轉(zhuǎn)化為正樣本query送到decoder中,在loss計(jì)算時(shí)無(wú)需二分匹配,直接使用之前的分配結(jié)果。


        與其他引入輔助query的方法相比,這些工作會(huì)不可避免地引入大量的負(fù)樣本query,而我們只在decoder引入了正樣本,因此帶來(lái)的額外訓(xùn)練代價(jià)也較小。


        91b8a8b363a6b1071780d466ce924699.webp

         結(jié)果 


        05cfe79f7441937a0f32c4ead2386e68.webp

        我們首先在多個(gè)單尺度和多尺度DETR模型上進(jìn)行了實(shí)驗(yàn),Co-DETR均能帶來(lái)較大提升,尤其是SOTA模型DINO-5scale能從49.4漲到51.2,差不多是2個(gè)點(diǎn)的增幅。此外我們也在更大的backbone上實(shí)驗(yàn),例如Swin-L,結(jié)果顯示也能夠帶來(lái)1.7個(gè)點(diǎn)的提升。

        9a0ae90c312c4c882c499f2f3fa22d63.webp

        當(dāng)我們將Co-DETR應(yīng)用到DINO上時(shí),我們使用了R50和Swin-L作為骨干網(wǎng)絡(luò)。在相同模型規(guī)模的對(duì)比下,我們都能夠取得最佳的性能表現(xiàn)。


        我們還在大模型上對(duì)所提出的Co-DETR有效性和scale up能力進(jìn)行了驗(yàn)證。進(jìn)行這個(gè)驗(yàn)證的原因是,在大模型的巨大參數(shù)加持下,許多方法之間的差異都會(huì)被直接抹平。我們使用304M參數(shù)的ViT-L作為骨干網(wǎng)絡(luò),先在Objects365數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,再在下游進(jìn)行微調(diào)。在COCO數(shù)據(jù)集進(jìn)行微調(diào)后,Co-DETR在大模型的加持下進(jìn)一步突破目標(biāo)檢測(cè)性能上限,成為第一個(gè)到達(dá)66.0AP的檢測(cè)器。


        此外,我們也在長(zhǎng)尾分布的數(shù)據(jù)集LVIS上進(jìn)行了微調(diào),訓(xùn)練過(guò)程中只使用檢測(cè)框進(jìn)行監(jiān)督。Co-DETR分別在LVIS val和minival上取得了67.9AP和71.9AP的成績(jī),分別比之前的SOTA方法高+2.7AP和+6.1AP,取得了非常明顯的性能領(lǐng)先。

        df8a8e9e15f52381ee2cbf48d6b5455f.webp

        本研究也在消融實(shí)驗(yàn)方面對(duì)提出的方法進(jìn)行了研究,例如選擇輔助頭的標(biāo)準(zhǔn)、多個(gè)不同標(biāo)簽分配策略的輔助頭帶來(lái)的沖突等等。


        我們觀察到,當(dāng)使用的不同輔助頭的數(shù)量變多時(shí),模型的性能會(huì)先上升再下降。本研究對(duì)此進(jìn)行了定量分析,指出了是輔助頭之間的沖突造成的,并且提出了衡量沖突程度的指標(biāo)。根據(jù)這個(gè)指標(biāo),我們計(jì)算了多種類(lèi)型的輔助頭造成的沖突有多大以及最優(yōu)的選取策略。


        瀏覽 367
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            在线无码视频播放 | 日韩精品无码一级毛片免费视频 | 女人脱精光直播app免费观看 | 操极品 | 亚洲 国产 另类 无码 日韩 | 人妻AV一区二区三区 | 豆花tv国产一区二区 | 巨乳操逼 | 亚洲性爱第一页 | 国产又爽又黄的视频 |