1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        SETR:基于視覺 Transformer 的語義分割模型

        共 2213字,需瀏覽 5分鐘

         ·

        2021-07-04 20:47

        Visual Transformer

        Author:louwill

        Machine Learning Lab

            

        自從Transformer在視覺領(lǐng)域大火之后,一系列下游視覺任務(wù)應(yīng)用研究也隨之多了起來?;谝曈XTransformer的語義分割正是ViT應(yīng)用最多的一個經(jīng)典視覺任務(wù)之一。


        在視覺Transformer介入語義分割之前,基于深度學(xué)習(xí)的語義分割是被以UNet為代表的CNN模型主導(dǎo)的。基于編解碼結(jié)構(gòu)的FCN/UNet模型成為語義分割領(lǐng)域最主流的模型范式。本文介紹基于ViT的語義分割的第一個代表模型——SEgementation TRansformer (SETR),提出以純Transformer結(jié)構(gòu)的編碼器來代替CNN編碼器,改變現(xiàn)有的語義分割模型架構(gòu)。


        提出SETR的這篇論文為Rethinking Semantic Segmentation from a Sequence-to-Sequence  Perspective with Transformers,發(fā)表于2021年3月份,是由復(fù)旦和騰訊優(yōu)圖聯(lián)合提出的一個基于ViT的新型架構(gòu)的語義分割模型。


        SETR的基本結(jié)構(gòu)

        SETR的整體模型結(jié)構(gòu)如圖1所示。


        圖1 SETR結(jié)構(gòu)


        SETR的核心架構(gòu)仍然是Encoder-Decoder的結(jié)構(gòu),只不過相比于傳統(tǒng)的以CNN為主導(dǎo)的編碼器結(jié)構(gòu),SETR用Transformer來進行替代。圖1中(a)圖是SETR的整體架構(gòu),可以看到編碼器是由純Transformer層構(gòu)成。


        SETR編碼器流程跟作為backbone的ViT模型較為一致。先對輸入圖像做分塊處理,然后對每個圖像分塊做塊嵌入并加上位置編碼,這個過程就將圖像轉(zhuǎn)換為向量序列。之后就是Transformer block,里面包括24個Transformer層,每個Transformer層都是由MSA+MLP+Layer Norm+殘差連接組成。


        SETR的一個特色在于解碼器的設(shè)計。將2D的編碼器輸出向量轉(zhuǎn)換為3D特征圖之后,論文中給SETR設(shè)計了三種解碼器上采樣方法。第一種就是最原始的上采樣,論文中叫Naive upsampling,通過簡單的1x1卷積加上雙線性插值來實現(xiàn)圖像像素恢復(fù)。這種上采樣方法簡稱為SETR-Naive。


        重點是第二種和第三種解碼器設(shè)計。第二種解碼器設(shè)計叫漸進式上采樣 (Progressive UPsampling),作者認為一步到位式的上采樣可能會產(chǎn)生大量的噪聲,采樣漸進式的上采樣則可以最大程度上緩解這種問題。漸進式的上采樣在于,每一次上采樣只恢復(fù)上一步圖像的2倍,這樣經(jīng)過4次操作就可以回復(fù)原始圖像。這種解碼設(shè)計簡稱為SETR-PUP,如圖1中的(b)圖所示。第三種解碼設(shè)計為多層次特征加總 (Multi-Level feature Aggregation, MLA),這種設(shè)計跟特征金字塔網(wǎng)絡(luò)類似,如圖1中(c)圖所示。


        表1是基于不同預(yù)訓(xùn)練和backbone的SETR變體模型的參數(shù)量和效果展示。

        表1 SETR模型細節(jié)


        SETR訓(xùn)練與實驗

        SETR在主流的語義分割數(shù)據(jù)集上都做了大量實驗,包括Cityscapes、ADE20K和PASCAL Context等數(shù)據(jù)集。SETR在多個數(shù)據(jù)集上都取得了SOTA的結(jié)果,如表2和表3所示。

        表2 SETR在ADE20K上的表現(xiàn)



        表3 SETR在PASCAL Context上的表現(xiàn)



        圖2是SETR在ADE20K數(shù)據(jù)集上的分割效果,左側(cè)列為FCN分割效果,右側(cè)列為SETR的分割效果??梢钥吹?,SETR分割效果要明顯優(yōu)于FCN。



        總結(jié)

        總體而言,SETR的幾個重要貢獻如下:

        • 為基于FCN/UNet等CNN分割模型的語義分割提供了不同的思路,即基于序列的圖像分割視角。Transformer作為這種序列模型的一個實現(xiàn)實例,SETR充分的探索了ViT的分割能力。

        • 設(shè)計了三種不同的解碼器上采樣方法,深入探索了不同的上采樣設(shè)計的像素恢復(fù)效果。

        • 實驗證明了基于Transformer的語義分割能夠?qū)W習(xí)到超過FCN等CNN結(jié)構(gòu)的語義表征。


        但SETR也有諸多不足。跟ViT一樣,SETR要取得好的結(jié)果,對預(yù)訓(xùn)練和數(shù)據(jù)集大小都有較大的依賴性。


        參考資料:

        Zheng S, Lu J, Zhao H, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 6881-6890.


        往期精彩:

         ViT:視覺Transformer backbone網(wǎng)絡(luò)ViT論文與代碼詳解

        【原創(chuàng)首發(fā)】機器學(xué)習(xí)公式推導(dǎo)與代碼實現(xiàn)30講.pdf

        【原創(chuàng)首發(fā)】深度學(xué)習(xí)語義分割理論與實戰(zhàn)指南.pdf

        求個在看

        瀏覽 172
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            亚洲精品yy | 99精品视频网站 | 涩涩网站免费 | 国产特一级黄片 | 国产99久久久精品无码 | 尤物视频在线免费观看 | 黄色性爱免费视频 | 久热在线资源福利站 | 女销售被强迫h文 | 小次郎av最新地址入口 |