(附論文&代碼)?ICCV2021 | 首個CNN+Transformer的backbone 模型!
點擊左上方藍字關注我們


卷積運算善于提取局部特征,卻不具備提取全局表征的能力。
為了感受圖像全局信息,CNN必須依靠堆疊卷積層,采用池化操作來擴大感受野。
Visual Transformer的提出則打破了CNN在視覺表征方面的壟斷。
得益于自注意力機制,Visual Transformer (ViT、Deit)具備了全局、動態(tài)感受野的能力,在圖像識別任務上取得了更好的結果。
但是受限于的計算復雜度,Transformer需要減小輸入分辨率、增大下采樣步長,這造成切分patch階段損失圖像細節(jié)信息。
因此,中國科學院大學聯(lián)合鵬城實驗室和華為提出了Conformer基網模型,將Transformer與CNN進行了融合。
Conformer模型可以在不顯著增加計算量的前提下顯著提升了基網表征能力。目前,論文已被ICCV 2021接收。

論文地址:https://arxiv.org/abs/2105.03889
項目地址:https://github.com/pengzhiliang/Conformer
此外,Conformer中含有并行的CNN分支和Transformer分支,通過特征耦合模塊融合局部與全局特征,目的在于不損失圖像細節(jié)的同時捕捉圖像全局信息。

特征圖可視化
對一張背景相對復雜的圖片的特征進行可視化,以此來說明Conformer捕捉局部和全局信息的能力:
淺層Transformer(DeiT)特征圖(c列)相比于ResNet(a列)丟失很多細節(jié)信息,而Conformer的Transformer分支特征圖(d列)更好保留了局部特征;
從深層的特征圖來看,DeiT特征圖(g列)相比于ResNet(e列)會保留全局的特征信息,但是噪聲會更大一點;
得益于Transformer分支提供的全局特征,Conformer的CNN分支特征圖(f列)會保留更加完整的特征(相比于e列);
Transformer分支特征圖(h列)相比于DeiT(g列)則是保留了更多細節(jié)信息,且抑制了噪聲。
網絡結構

bottleneck中3x3卷積的channel比較少,使得FCU的fc層參數(shù)不會很大;
3x3卷積具有很強的位置先驗信息,保證去掉位置編碼后的性能。
實驗結果



分析總結
作者介紹
參考資料:
https://arxiv.org/abs/2105.03889
END
點贊三連,支持一下吧↓
