1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        ICCV 2021:煉丹師的福音,訓(xùn)練更快收斂的絕佳方案

        共 2417字,需瀏覽 5分鐘

         ·

        2021-09-02 13:40

        作者:Edison_G

        目標(biāo)檢測是現(xiàn)在最熱門的研究課題,現(xiàn)在的框架越來越多,但是技術(shù)的新穎性到了瓶頸,目前開始流行Transformer機(jī)制,而且在目標(biāo)檢測領(lǐng)域也能獲得較大的提升,也是目前研究的一個(gè)熱點(diǎn)。

        那?Transformer靠什么得以闖入CV界秒殺CNN?

        開源代碼:https://github.com/gaopengcuhk/SMCA-DETR

        CNNs常被用在圖像特征提取上,在 NLP領(lǐng)域中,網(wǎng)絡(luò)也會(huì)利用CNNs的一維濾波器從文本中提取有效信息,此時(shí)的文本就對應(yīng)地以一維時(shí)間序列的形式進(jìn)行表示了。

        所以圖像處理中使用2D CNN , NLP中就使用1D CNN,CNN的感受野(就是CNN能夠看到的局部信息大?。┦怯删矸e核/濾波器的尺寸,以及濾波器的通道數(shù)所決定的。

        增加卷積核的尺寸或者濾波器的通道數(shù)會(huì)增加模型的大小,也會(huì)讓模型的復(fù)雜度大幅增加。這也許會(huì)導(dǎo)致梯度消失的問題,從而引發(fā)讓整個(gè)網(wǎng)絡(luò)無法訓(xùn)練收斂的嚴(yán)重后果。

        為解決這個(gè)問題,殘差連接(Residual connections)和空洞卷積(Dilated Convolutions)應(yīng)運(yùn)而生。它們能夠在一定程度上增強(qiáng)梯度的傳播深度,從而在一定程度上擴(kuò)大模型的感受野(后面的層就能看到更多的局部信息)。

        但是卷積神經(jīng)網(wǎng)絡(luò)畢竟只是關(guān)注局部信息的網(wǎng)絡(luò)結(jié)構(gòu),它的這種計(jì)算機(jī)制導(dǎo)致了它在文本信息處理上難以捕捉和存儲(chǔ)長距離的依賴信息。人們一方面想擴(kuò)大卷積核、增加通道數(shù)來捕捉長期依賴,一方面還害怕由于擴(kuò)大模型所導(dǎo)致的維度災(zāi)難。

        DEtection TRansformer的結(jié)構(gòu)圖

        Transformer為視覺領(lǐng)域帶來了革新性的變化,它讓視覺領(lǐng)域中目標(biāo)檢測、視頻分類、圖像分類和圖像生成等多個(gè)領(lǐng)域有了長足的進(jìn)步。

        這些應(yīng)用了 Transformer 技術(shù)的模型有的識(shí)別能達(dá)到甚至超越該領(lǐng)域 SOTA 解決方案的效果。更讓人興奮的是,這些技術(shù)有的甚至干脆拋棄了 CNN,直接單單使用自注意力機(jī)制來構(gòu)建網(wǎng)絡(luò)。

        新框架



        就如上節(jié)提及到的Detection Transformer(DETR)模型,成功地將Transformer應(yīng)用于目標(biāo)檢測,并實(shí)現(xiàn)了與兩階段對象檢測框架(如 Faster-RCNN)相當(dāng)?shù)男阅堋?/span>

        然而DETR也有很大的缺陷,就是收斂緩慢。從頭開始的訓(xùn)練數(shù)據(jù)需要500個(gè)epoch才能達(dá)到高精度。為了加快其收斂速度,研究者提出了一種簡單而有效的改進(jìn)DETR框架的方案,即Spatially Modulated Co-Attention(SMCA)機(jī)制。


        SMCA的核心思想是在DETR中通過將co-attention反饋限制在初始估計(jì)的邊界框位置附近,從而進(jìn)行位置感知。新提出的SMCA在保持DETR中其他操作不變的情況下,通過替換解碼器中原有的co-attention機(jī)制,提高了DETR的收斂速度。

        此外,通過將multi-headscale-selection attention設(shè)計(jì)集成到SMCA中,完整分級(jí)SMCA可以實(shí)現(xiàn)比基于擴(kuò)展卷積主干的DETR更好的性能(108個(gè)epoch時(shí)45.6 mAP,500個(gè)epoch時(shí)43.3 mAP)。

        Spatially Modulated Co-Attention


        Spatially Modulated Co-attention(SMCA),它是一個(gè)即插即用模塊,用于取代DETR中現(xiàn)有的co-attention機(jī)制,并通過簡單的修改實(shí)現(xiàn)更快的收斂和更高的性能。

        提出的SMCA動(dòng)態(tài)預(yù)測每個(gè)對象查詢對應(yīng)的框的初始中心和比例,生成二維空間高斯權(quán)重圖。權(quán)重映射與對象查詢和圖像特征的co-attention特征映射地對應(yīng)相乘,以更有效地從視覺特征映射中聚合查詢相關(guān)信息。

        通過這種方式,空間權(quán)重圖有效地調(diào)節(jié)每個(gè)對象查詢的共同關(guān)注的搜索范圍,使其適當(dāng)?shù)貒@最初估計(jì)的對象中心和比例。利用高斯分布的訓(xùn)練可以顯著提高SMCR的空間預(yù)測速度。

        Dynamic spatial weight maps:

        每個(gè)對象查詢首先動(dòng)態(tài)預(yù)測其負(fù)責(zé)對象的中心和比例,然后用于生成類似二維空間高斯權(quán)重圖。類高斯分布的中心在 [0, 1]×[0, 1] 的歸一化坐標(biāo)中參數(shù)化。對象查詢Oq的類高斯分布的歸一化中心 ch、cw 和尺度比例sh、sw 的初始預(yù)測公式為:


        自然圖像中的對象顯示出不同的比例和高/寬比。

        Spatially-modulated co-attention:

        給定動(dòng)態(tài)生成的空間先驗(yàn)G,用空間先驗(yàn)G調(diào)制對象查詢Oq和自注意編碼特征E之間的共同注意圖Ci:


        SMCA with multi-head modulation:

        研究者還研究了針對不同的共同注意頭以不同的方式調(diào)節(jié)共同注意特征:


        SMCA with multi-scale visual features:

        特征金字塔在目標(biāo)檢測框架中很流行,并且通常會(huì)導(dǎo)致對單尺度特征編碼的顯著改進(jìn)。


        實(shí)驗(yàn)


        在COCO 2017驗(yàn)證集上測試結(jié)果:


        集成了多尺度特征和多頭空間調(diào)制,可以進(jìn)一步顯著改進(jìn)和超越DETR,只需更少的訓(xùn)練迭代。

        SMCA在50個(gè)epoch可實(shí)現(xiàn)43.7 mAP,在108個(gè)epoch可實(shí)現(xiàn)45.6 mAP,而DETR-DC5在500個(gè)epoch可實(shí)現(xiàn)43.3 mAP。

        在V100 GPU上需要600 小時(shí)來訓(xùn)練50個(gè)epoch的完整SMCA。

        Comparison with DETR-like object detectors on COCO 2017 validation set.



        參考文獻(xiàn):

        https://zhuanlan.zhihu.com/p/344709166

        瀏覽 32
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            欧美一级操逼片在线观看 | 色五月婷婷老师 | 四虎影院永久在线 | 欧美成人图片小说 | 国产午夜精品av一区二区麻豆 | 免费人做人爱无码区 | 1插菊花综合网 | 男女操逼网址 | 91久久精品国产91久久性色tv | 9丨豆花丨国产极品 |