1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Swin-UNet:基于純 Transformer 結(jié)構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)

        共 2036字,需瀏覽 5分鐘

         ·

        2021-07-27 15:05

        Visual Transformer

        Author:louwill

        Machine Learning Lab

            

        自從Transformer被引入計(jì)算機(jī)視覺以來,催生了大量相關(guān)研究與應(yīng)用。在圖像分割方向,涌現(xiàn)了像SETR和TransUNet等基于Transformer的語(yǔ)義分割網(wǎng)絡(luò)模型。

        在TransUNet中,雖然引入了Transformer用于UNet編碼器,但其特點(diǎn)還是CNN與Transformer的混合編碼,解碼上也是基于CNN的上采樣。直觀上看,這種混合編碼的結(jié)構(gòu)并沒有完全發(fā)揮出Transformer的優(yōu)勢(shì),并且作為backbone的ViT結(jié)構(gòu)也需要進(jìn)一步改進(jìn)。

        而此前由MSRA提出的Swin Transformer正好作為視覺Transformer領(lǐng)域新的backbone。相較于TransUNet,去掉CNN編碼,用 Swin Transformer來代替原先的ViT,將UNet全部結(jié)構(gòu)都換成Swin Transformer。因而,基于Swin Transformer的Swin-UNet就應(yīng)運(yùn)而生。

        提出Swin-UNet的論文為Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation,由慕尼黑工業(yè)大學(xué)、復(fù)旦和華為于2021年5月提出。


        Swin-UNet結(jié)構(gòu)
        Swin-UNet模型整體結(jié)構(gòu)如圖1所示。

        如圖1所示,Swin-UNet由Encoder、Bottleneck、Decoder和跳躍連接組成。先看編碼器部分,輸入圖像先進(jìn)行patch partition,每個(gè)patch大小為4x4,輸入維度為H/4 x W/4 x 48,經(jīng)過linear embedding和兩個(gè)Swin Transformer block后特征圖尺寸為H/4 x W/4 x C,然后通過patch merging進(jìn)行下采樣,再經(jīng)過兩個(gè)Swin Transformer block后特征圖尺寸變?yōu)镠/8 x W/8 x 2C,最后再進(jìn)行一次同樣的下采樣操作即可完成編碼器的操作??梢钥吹?,Swin-UNet編碼器每次按照2倍來縮小patch的數(shù)量,然后按照3倍來擴(kuò)大特征維度的數(shù)量。

        Bottleneck則是用了兩個(gè)連續(xù)的Swin Transformer block,這里為防止網(wǎng)絡(luò)太深不能收斂,所以只用了兩個(gè)block,在Bottleneck中,特征尺寸保持H/32 x W/32 x 8C不變。

        然后是解碼器部分。Swin-UNet解碼器主要由patch expanding來實(shí)現(xiàn)上采樣,作為一個(gè)完全對(duì)稱的網(wǎng)絡(luò)結(jié)構(gòu),解碼器也是每次擴(kuò)大2倍進(jìn)行上采樣,核心模塊由Swin Transformer block和patch expanding組成。

        最后是跳躍連接。跳躍連接可以算是UNet的特色,Swin-UNet也自然不例外。


        一個(gè)Swin Transformer block由一個(gè)W-MSA和一個(gè)SW-MSA組成,如圖2所示。


        Swin-UNet實(shí)驗(yàn)
        跟TransUNet一樣,Swin-UNet分別在Synapse多器官分割數(shù)據(jù)集和ACDC (自動(dòng)化心臟診斷挑戰(zhàn)賽)上實(shí)驗(yàn)了效果。在Synapse多器官分割上的效果如下表所示。


        可以看到,相較于TransUNet等其他網(wǎng)絡(luò),Swin-UNet綜合分割效果是最好的??梢暬姆指钚Ч鐖D3所示。


        除此之外,作者也做了一些消融研究 ,探討了不同的上采樣策略、跳躍連接的數(shù)量、輸入圖像尺寸、模型大小等多個(gè)方面探討了Swin-UNet的穩(wěn)健性。


        Swin-UNet官方代碼已開源:
        https://github.com/HuCaoFighting/Swin-Unet

        總結(jié)
        總體來看,Swin-UNet還是得益于Swin Transformer這樣一個(gè)強(qiáng)大的視覺Transformer backbone。作為第一個(gè)純Transformer結(jié)構(gòu)的語(yǔ)義分割模型,Swin-UNet值得大家一試。


        往期精彩:

         Swin Transformer:基于Shifted Windows的層次化視覺Transformer設(shè)計(jì)

         TransUNet:基于 Transformer 和 CNN 的混合編碼網(wǎng)絡(luò)

         SETR:基于視覺 Transformer 的語(yǔ)義分割模型

         ViT:視覺Transformer backbone網(wǎng)絡(luò)ViT論文與代碼詳解

        【原創(chuàng)首發(fā)】機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)30講.pdf

        【原創(chuàng)首發(fā)】深度學(xué)習(xí)語(yǔ)義分割理論與實(shí)戰(zhàn)指南.pdf

        求個(gè)在看

        瀏覽 251
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            四虎永久在线精品免费观看网站 | 自拍偷拍激情视频 | 四虎4hu新入口av | 少妇videos另类 | 免费观看成人毛片A片直播千姿 | 97人伦影院A片在线观看97 | 夜夜骚网站| 中文字幕精品一区二区三区在线 | 国产一级全黄 | 成人影音先锋在线资源 |