ECCV2020 | 即插即用,漲點明顯!FPT:特征金字塔Transformer
點擊上方“AI算法與圖像處理”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
來源:AI算法修煉營

這篇文章收錄于ECCV2020,將Transformer機制應(yīng)用于對特征金字塔FPN的改進上,整體思路新穎,和之前的將Transformer應(yīng)用于目標檢測、語義分割、超分辨率等任務(wù)的思想相類似,是一個能夠繼續(xù)挖掘的方向。
論文地址:https://arxiv.org/abs/2007.09451
代碼地址:https://github.com/ZHANGDONG-NJUST/FPT
跨空間和尺度的特征交互是現(xiàn)代視覺識別系統(tǒng)的基礎(chǔ),因為它們引入了有益的視覺環(huán)境。通??臻g上下文信息被動地隱藏在卷積神經(jīng)網(wǎng)絡(luò)不斷增加的感受野中,或者被non-local卷積主動地編碼。但是,non-local空間交互作用并不是跨尺度的,因此它們無法捕獲在不同尺度中的對象(或部分)的非局部上下文信息。為此,本文提出了一種在空間和尺度上完全活躍的特征交互,稱為特征金字塔Transformer(FPT)。它通過使用三個專門設(shè)計的Transformer,以自上而下和自下而上的交互方式,將任何一個特征金字塔變換成另一個同樣大小但具有更豐富上下文的特征金字塔。FPT作為一個通用的視覺框架,具有合理的計算開銷。最后,本文在實例級(即目標檢測和實例分割)和像素級分割任務(wù)中進行了廣泛的實驗,使用不同的主干和頭部網(wǎng)絡(luò),并觀察到比所有baseline和最先進的方法一致的改進。
簡介
現(xiàn)代視覺識別系統(tǒng)與上下文息息相關(guān)。由于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的層次結(jié)構(gòu),如圖1(a)所示,通過pooling池化、stride或空洞卷積等操作,將上下文編碼在逐漸變大的感受野(綠色虛線矩形)中。因此,對最后一個特征圖的預(yù)測基本上是基于豐富的上下文信息。
Scale also matters。尺度scale也很重要,傳統(tǒng)的解決方案是對同一圖像進行堆積多尺度的圖像金字塔,其中較高/較低的層次采用較低/較高分辨率的圖像進行輸入。因此,不同尺度的物體在其相應(yīng)的層次中被識別。然而,圖像金字塔增加了CNN前向傳遞的耗時,因為每個圖像都需要一個CNN來識別。幸運的是,CNN提供了一種特征金字塔FPN,即通過低/高層次的特征圖代表高/低分辨率的視覺內(nèi)容,而不需要額外的計算開銷。如圖1(b)所示,可以通過使用不同級別的特征圖來識別不同尺度的物體,即小物體(電腦)在較低層級中識別,大物體(椅子和桌子)在較高層級中識別。

Sometimes the recognition——尤其是像語義分割這樣的像素級標簽,需要結(jié)合多個尺度的上下文。例如圖1(c)中,要對顯示的幀區(qū)域的像素賦予標簽,也許從較低的層次上看,實例本身的局部上下文就足夠了;但對于類外的像素,需要同時利用局部上下文和較高層次的全局上下文。
為此,本文提出了一種稱為特征金字塔轉(zhuǎn)換器Transformer(FPT)的新穎特征金字塔網(wǎng)絡(luò),用于視覺識別任務(wù),例如實例級(即目標檢測和實例分割)和像素級分割任務(wù)。簡而言之,如圖2所示,F(xiàn)PT的輸入是一個特征金字塔,而輸出是一個變換的金字塔,其中每個level都是一個更豐富的特征圖,它編碼了跨空間和尺度的非局部non-local交互作用。然后,可以將特征金字塔附加到任何特定任務(wù)的頭部網(wǎng)絡(luò)。顧名思義,F(xiàn)PT中特征之間的交互采用了 transformer-style。它具有整潔的查詢query,鍵key和值value操作,在選擇遠程信息進行交互時非常有效,從而可以調(diào)整我們的目標:以適當?shù)囊?guī)模進行非局部non-local交互。另外,像其他任何transformer模型一樣,使用TPU可以減輕計算開銷。
大量的實驗表明,F(xiàn)PT可以極大地改善傳統(tǒng)的檢測/分割網(wǎng)絡(luò):1)在MS-COCO test-dev數(shù)據(jù)集上,用于框檢測的百分比增益為8.5%,用于遮罩實例的mask AP值增益為6.0%;2)對于語義分割,分別在Cityscapes和PASCAL VOC 2012 測試集上的增益分別為1.6%和1.2%mIoU;在ADE20K 和LIP 驗證集上的增益分別為1.7%和2.0%mIoU。
本文方法

圖2. 本文提出的FPT網(wǎng)絡(luò)的總體結(jié)構(gòu)。不同的紋理圖案表示不同的特征轉(zhuǎn)換器,不同的顏色表示具有不同比例的特征圖?!?Conv”表示輸出尺寸為256的3×3卷積。在不失一般性的前提下,頂層/底層特征圖沒有rendering/grounding 轉(zhuǎn)換器。
如圖2的FPT分解圖所示,主要是是三種transformer的設(shè)計:1)自變換器Self-Transformer(ST)。它是基于經(jīng)典的同級特征圖內(nèi)的非局部non-local交互,輸出與輸入具有相同的尺度。2)Grounding Transformer(GT)。它是以自上而下的方式,輸出與下層特征圖具有相同的比例。直觀地說,將上層特征圖的 "概念 "與下層特征圖的 "像素 "接地。特別是,由于沒有必要使用全局信息來分割對象,而局部區(qū)域內(nèi)的上下文在經(jīng)驗上更有參考價值,因此,還設(shè)計了一個locality-constrained的GT,以保證語義分割的效率和準確性。3)Rendering Transformer(RT)。它是以自下而上的方式,輸出與上層特征圖具有相同的比例。直觀地說,將上層 "概念 "與下層 "像素 "的視覺屬性進行渲染。這是一種局部交互,因為用另一個遠處的 "像素 "來渲染一個 "對象 "是沒有意義的。每個層次的轉(zhuǎn)換特征圖(紅色、藍色和綠色)被重新排列到相應(yīng)的地圖大小,然后與原始map連接,然后再輸入到卷積層,將它們調(diào)整到原始 "厚度"。
1、Non-Local Interaction Revisited
傳統(tǒng)的Non-Local Interaction

2、Self-Transformer
自變換器(Self-Transformer,ST)的目的是在同一張?zhí)卣鲌D上捕獲共同發(fā)生的對象特征。如圖3(a)所示,ST是一種修改后的非局部non-local交互,輸出的特征圖與其輸入特征圖的尺度相同。與其他方法區(qū)別在于,作者部署了Mixture of Softmaxes(MoS)作為歸一化函數(shù),事實證明它比標準的Softmax在圖像上更有效。具體來說,首先將查詢q和鍵k劃分為N個部分。然后,使用Fsim計算每對圖像的相似度分數(shù)。基于MoS的歸一化函數(shù)Fmos表達式如下:

自變換器可以表達為:

3、Grounding Transformer
Grounding Transformer(GT)可以歸類為自上而下的非局部non-local交互,它將上層特征圖Xct中的 "概念 "與下層特征圖Xf中的 "像素 "進行對接。輸出特征圖與Xf具有相同的尺度。一般來說,不同尺度的圖像特征提取的語義或語境信息不同,或者兩者兼而有之。此外,根據(jù)經(jīng)驗,當兩個特征圖的語義信息不同時,euclidean距離的負值比點積更能有效地計算相似度。所以我們更傾向于使用euclidean距離Fedu作為相似度函數(shù),其表達方式為:

于是,Grounding Transformer可以表述為:

在特征金字塔中,高/低層次特征圖包含大量全局/局部圖像信息。然而,對于通過跨尺度特征交互的語義分割,沒有必要使用全局信息來分割圖像中的兩個對象。從經(jīng)驗上講,查詢位置周圍的局部區(qū)域內(nèi)的上下文會提供更多信息。這就是為什么常規(guī)的跨尺度交互(例如求和和級聯(lián))在現(xiàn)有的分割方法中有效的原因。如圖3(b)所示,它們本質(zhì)上是隱式的局部non-local樣式,但是本文的默認GT是全局交互的。

Locality-constrained Grounding Transformer。因此,作者引入了局域性GT轉(zhuǎn)換進行語義分割,這是一個明確的局域特征交互作用。如圖3(c)所示,每個q(即低層特征圖上的紅色網(wǎng)格)在中心區(qū)域的局部正方形區(qū)域內(nèi)與k和v的一部分(即高層特征圖上的藍色網(wǎng)格)相互作用。坐標與q相同,邊長為正方形。特別是,對于k和v超出索引的位置,改用0值。
4、Rendering Transformer
Rendering Transformer(RT)以自下而上的方式工作,旨在通過將視覺屬性合并到低層級“像素”中來渲染高層級“概念”。如圖3(d)所示,RT是一種局部交互,其中該局部是基于渲染具有來自另一個遙遠對象的特征或?qū)傩缘摹皩ο蟆笔菦]有意義的這一事實。
在本文的實現(xiàn)中,RT不是按像素進行的,而是按整個特征圖進行的。具體來說,高層特征圖定義為Q,低層特征圖定義為K和V,為了突出渲染目標,Q和K之間的交互是以通道導(dǎo)向的關(guān)注方式進行的,K首先通過全局平均池化(GAP)計算出Q的權(quán)重w。然后,加權(quán)后的Q(即Qatt)通過3×3卷積進行優(yōu)化,V通過3×3卷積與步長來縮小特征規(guī)模(圖3(d)中的灰色方塊)。最后,將優(yōu)化后的Qatt和下采樣的V(即Vdow)相加,再經(jīng)過一次3×3卷積進行細化處理。

消融實驗:


對比實驗


可視化對比




更多細節(jié)可參考論文原文。

個人微信(如果沒有備注不拉群!)
請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱

