輕量化分割 | P2AT提出金字塔池化Axial Transformer方法,讓基于ViT的語(yǔ)義分割飛快
點(diǎn)擊下方卡片,關(guān)注「集智書(shū)童」公眾號(hào)
最近,基于Transformer的模型在各種視覺(jué)任務(wù)中取得了令人鼓舞的成果,這是因?yàn)樗鼈兡軌蚪iL(zhǎng)距離的依賴關(guān)系。然而,Transformers的計(jì)算成本很高,這限制了它們?cè)谧詣?dòng)駕駛等實(shí)時(shí)任務(wù)中的應(yīng)用。此外,對(duì)于準(zhǔn)確的密集預(yù)測(cè),特別是駕駛場(chǎng)景理解任務(wù),高效的局部和全局特征選擇和融合至關(guān)重要。
在本文中,作者提出了一種名為金字塔池化Axial Transformer(P2AT)的實(shí)時(shí)語(yǔ)義分割架構(gòu)。所提出的P2AT從CNN編碼器中獲取粗糙特征,以生成具有尺度感知性的上下文特征,然后將其與多級(jí)特征聚合方案相結(jié)合,以生成增強(qiáng)的上下文特征。
具體來(lái)說(shuō),作者引入了金字塔池化Axial Transformer來(lái)捕獲復(fù)雜的空間和通道依賴關(guān)系,從而提高了語(yǔ)義分割的性能。然后,作者設(shè)計(jì)了一個(gè)雙向融合模塊(BiF)來(lái)融合不同級(jí)別的語(yǔ)義信息。與此同時(shí),引入了全局上下文增強(qiáng)模塊來(lái)彌補(bǔ)不同語(yǔ)義級(jí)別連接的不足。最后,作者提出了一個(gè)解碼器塊,以幫助維護(hù)更大的感知域。
作者在三個(gè)具有挑戰(zhàn)性的場(chǎng)景理解數(shù)據(jù)集上評(píng)估了P2AT變種。特別是,作者的P2AT變種在Camvid數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的結(jié)果,P2AT-S、P2AT-M和P2AT-L分別達(dá)到了80.5%、81.0%和81.1%。
此外,作者在Cityscapes和Pascal VOC 2012上的實(shí)驗(yàn)顯示了所提出架構(gòu)的高效性,結(jié)果表明P2AT-M在Cityscapes上達(dá)到了78.7%。
1. 簡(jiǎn)介
感知是任何智能駕駛系統(tǒng)的重要任務(wù),它收集了移動(dòng)車(chē)輛周?chē)h(huán)境的必要信息。作為自動(dòng)駕駛不可分割的一部分,視覺(jué)感知正在被主要的主流汽車(chē)制造商、企業(yè)、大學(xué)和科研機(jī)構(gòu)進(jìn)行探索和研究。人工智能在汽車(chē)工業(yè)的大規(guī)模應(yīng)用加速了該領(lǐng)域的發(fā)展。高精度和高速的架構(gòu)對(duì)于先進(jìn)駕駛輔助系統(tǒng)和自動(dòng)駕駛汽車(chē)未來(lái)的發(fā)展至關(guān)重要。
基于深度學(xué)習(xí)的視覺(jué)感知算法的研究是工業(yè)技術(shù)應(yīng)用的重要組成部分,因?yàn)樯疃葘W(xué)習(xí)方法在許多研究方向,如交通標(biāo)志識(shí)別、車(chē)道檢測(cè)、目標(biāo)檢測(cè)、駕駛自由空間識(shí)別和語(yǔ)義分割等方向,構(gòu)建強(qiáng)大的智能駕駛算法具有獨(dú)特的能力??焖贉?zhǔn)確的語(yǔ)義分割和目標(biāo)檢測(cè)是安全智能駕駛的先決條件。
隨著圖像內(nèi)容復(fù)雜性的增加,語(yǔ)義分割任務(wù)由于復(fù)雜的結(jié)構(gòu)和顏色、紋理和尺度的變化而變得越來(lái)越具有挑戰(zhàn)性。近年來(lái),深度學(xué)習(xí)對(duì)各種語(yǔ)義分割方法的發(fā)展產(chǎn)生了顯著影響,成為主導(dǎo)框架。許多用于語(yǔ)義分割的最先進(jìn)方法使用全卷積網(wǎng)絡(luò)(FCNs)作為基本組件。
值得注意的是,PSPNet 和Deeplab引入了用于捕獲多尺度上下文信息的專門(mén)模塊,即金字塔池化模塊(PPM)和孔徑空間金字塔模塊(ASPP)。盡管取得了這些進(jìn)展,但挑戰(zhàn)仍然存在,特別是在處理復(fù)雜的圖像內(nèi)容時(shí),因?yàn)楝F(xiàn)有方法傾向于生成不精確的掩碼。
近年來(lái),Vision Transformer(ViT)在圖像分類(lèi)方面的顯著性能已經(jīng)激發(fā)了將其應(yīng)用于語(yǔ)義分割任務(wù)的努力。與以前的語(yǔ)義分割卷積神經(jīng)網(wǎng)絡(luò)(CNNs)相比,這些努力取得了顯著的改進(jìn)。然而,對(duì)于語(yǔ)義分割的純Transformer模型的實(shí)施在處理大輸入圖像時(shí)具有相當(dāng)大的計(jì)算成本。
為解決這個(gè)問(wèn)題,Hierarchical Vision Transformers引入了一種更具計(jì)算效率的替代方法。SegFormer提出了編碼器和解碼器的改進(jìn)設(shè)計(jì),從而實(shí)現(xiàn)了高效的語(yǔ)義分割ViT。然而,SegFormer依賴于增加編碼器模型容量來(lái)提高性能,這可能限制了整體效率。
與前面提到的引入了純Transformer進(jìn)行密集像素預(yù)測(cè)的方法不同,作者提出了一種混合架構(gòu),用于更好、更高效地進(jìn)行自動(dòng)駕駛的語(yǔ)義分割。具體來(lái)說(shuō),由于上下文信息對(duì)于語(yǔ)義分割至關(guān)重要,作者在CNN中使用金字塔池化Axial Transformer來(lái)有效地捕獲全局上下文信息。
為了充分利用Transformer和CNN的優(yōu)點(diǎn),作者提出了一個(gè)雙向融合模塊,用于集成來(lái)自網(wǎng)絡(luò)編碼器的特征和全局上下文信息,然后使用全局上下文增強(qiáng)器對(duì)其進(jìn)行改進(jìn)。作為混合ConvNet-Transformer框架,作者的P2AT可以以更快的推斷速度準(zhǔn)確地分割自動(dòng)駕駛場(chǎng)景中的對(duì)象。
作者的主要貢獻(xiàn)總結(jié)如下:
-
為實(shí)時(shí)語(yǔ)義分割引入了一種新穎的金字塔池化Axial Transformer框架(P2AT)。為了在精度和速度之間實(shí)現(xiàn)權(quán)衡,設(shè)計(jì)了4個(gè)模塊,包括尺度感知上下文聚合模塊、多級(jí)特征融合模塊、解碼器和特征改進(jìn)模塊,從而實(shí)現(xiàn)了以下貢獻(xiàn)。
-
將金字塔池化引入到Axial Transformer中,以提取上下文特征,從而更容易在小數(shù)據(jù)集中訓(xùn)練。
-
引入了多級(jí)融合模塊,用于融合編碼的詳細(xì)表示和深層語(yǔ)義特征。具體來(lái)說(shuō),設(shè)計(jì)了基于語(yǔ)義特征上采樣器(SFU)和局部特征改進(jìn)(LFR)的雙向融合(BiF)模塊,以獲得高效的特征融合。
-
引入了全局上下文增強(qiáng)(GCE)模塊,以彌補(bǔ)連接不同語(yǔ)義級(jí)別的不足。
-
提出了一種基于增強(qiáng)ConvNext的高效解碼器和特征改進(jìn)模塊,以去除噪音,增強(qiáng)最終預(yù)測(cè)。
-
在三個(gè)具有挑戰(zhàn)性的場(chǎng)景理解數(shù)據(jù)集上評(píng)估 P2AT:Camvid、Cityscapes 和 PASCAL VOC 2012。結(jié)果表明 P2AT 取得了最先進(jìn)的結(jié)果。
2. 方法
2.1. P2AT 的整體架構(gòu)
圖2展示了提出的 P2AT 的結(jié)構(gòu)圖。首先,作者概述了用于實(shí)時(shí)語(yǔ)義圖像分割的 P2AT 的結(jié)構(gòu)。然后,作者詳細(xì)分析了構(gòu)建模型的若干關(guān)鍵要素的重要性,包括:
-
基于預(yù)訓(xùn)練 ResNet 的編碼器
-
金字塔池化Axial 注意力,這是該方法的主要構(gòu)建模塊
-
用于高效融合不同階段特征的雙向融合模塊
-
解碼器塊
給定輸入圖像 ,其中 C 表示通道數(shù),W 和 H 表示空間分辨率,作者首先使用 ResNet 生成高級(jí)特征,然后集成了提出的Transformer層,以補(bǔ)充CNN在建模上下文特征時(shí)的不足。然后,將這些特征饋送到解碼器中,解碼器的作用是保持全局上下文信息。
然后,這些高語(yǔ)義特征通過(guò)雙向融合模塊與低級(jí)特征進(jìn)行融合;BiF 在組合不同語(yǔ)義特征時(shí)非常高效。最后,作者使用全局上下文增強(qiáng)模塊增強(qiáng)輸出特征,并在最終預(yù)測(cè)之前進(jìn)行了細(xì)化。
2.2. 全局和局部特征的重要性
典型的編碼器-解碼器框架通常利用淺層來(lái)編碼攜帶目標(biāo)對(duì)象詳細(xì)信息的高分辨率特征圖,利用深層來(lái)編碼更高級(jí)別的語(yǔ)義信息。然而,如雙線性插值和反卷積等簡(jiǎn)單的上采樣策略無(wú)法收集全局上下文信息并在降采樣過(guò)程中恢復(fù)丟失的信息。在作者的工作的這一部分,作者旨在通過(guò)設(shè)計(jì)一種網(wǎng)絡(luò)來(lái)提高語(yǔ)義分割性能,該網(wǎng)絡(luò)能夠克服編碼器-解碼器架構(gòu)的一些問(wèn)題。為此,作者開(kāi)發(fā)了幾個(gè)模塊和塊,并將它們組合在一起構(gòu)建P2AT。
2.3. 雙向融合模塊
為了高效地合并來(lái)自低級(jí)編碼器和解碼模塊高語(yǔ)義特征的編碼特征表示,作者提出了一個(gè)新的雙向融合模塊(圖3),該模塊整合了通道注意,用于通過(guò)局部特征細(xì)化塊轉(zhuǎn)換低級(jí)特征,語(yǔ)義特征注入和多階段多級(jí)融合機(jī)制。在方程3中, 是多級(jí)融合函數(shù)。
其中 D 是語(yǔ)義描述符,L 表示詳細(xì)的對(duì)象特征, 是階段特征。
語(yǔ)義特征上采樣器(SFU)塊:
SFU 用于收集語(yǔ)義特征,如圖3.(a)所示。 表示解碼器的層 和 的輸出。特征金字塔網(wǎng)絡(luò)是一種將語(yǔ)義特征傳播到較低層的豐富細(xì)節(jié)特征的簡(jiǎn)單架構(gòu)。通過(guò)將語(yǔ)義特征與多尺度特征融合,目標(biāo)檢測(cè)和語(yǔ)義分割的性能顯著提高。
然而,在各個(gè)階段降低通道數(shù)的過(guò)程中會(huì)導(dǎo)致重要信息的丟失。本文引入了語(yǔ)義特征上采樣器,一種簡(jiǎn)單而高效的上采樣方法,它使用注意機(jī)制有選擇地將全局特征注入到BiF模塊中。作者將語(yǔ)義特征上采樣器記為 ,如下所示:
其中使用不同的1×1卷積層(?? 和 ??)來(lái)映射輸入 D,⊙ 表示Hadamard乘積。
局部特征細(xì)化塊
所提出的架構(gòu)2采用了雙向融合設(shè)計(jì),以促進(jìn)信息在培訓(xùn)過(guò)程中從不同階段的流動(dòng)。為了保持一致的語(yǔ)義特征融合,作者引入了通道注意(圖3.b),以收集全局信息。
與此同時(shí),還集成了一個(gè)空間濾波器,以抑制不相關(guān)的信息并增強(qiáng)局部細(xì)節(jié),因?yàn)榈图?jí)編碼器特征可能會(huì)有噪聲。局部特征細(xì)化塊的方程式如下:
其中 ?? 是具有1×1卷積核的卷積層,
其中(??,∝)代表具有1×1卷積核的卷積,G 表示全局平均池化。
全局上下文增強(qiáng)器(GCE)引入以彌補(bǔ)連接不同語(yǔ)義級(jí)別的不足。給定輸入特征 ,全局上下文增強(qiáng)器模塊首先應(yīng)用全局平均池化來(lái)收集全局語(yǔ)義信息,并使用門(mén)控機(jī)制選擇信息豐富的高語(yǔ)義描述符,有助于去除由編碼器的較淺階段引入的噪音。
2.4. 特征解碼與細(xì)化
解碼器塊(參見(jiàn)圖4.(b))由深度卷積組成,kernel-size分別為3、5和7,用于5、4和3階段,然后進(jìn)行批量歸一化。然后,作者采用兩個(gè)逐點(diǎn)卷積層來(lái)豐富局部表示,并幫助維護(hù)對(duì)象上下文。
與ConvNeXt不同,后者使用層標(biāo)準(zhǔn)化和高斯誤差單元激活,作者使用Hardswish激活進(jìn)行非線性特征映射。最后,添加了一個(gè)跳過(guò)連接以促進(jìn)網(wǎng)絡(luò)層次結(jié)構(gòu)中的信息流動(dòng)。此解碼器可以表示如下:
其中 是形狀為 ?? × ?? × ?? 的輸入特征圖, 表示逐點(diǎn)卷積層,后跟Hardswish, 是深度卷積,內(nèi)核大小為 ?? × ??, 表示解碼器塊的輸出特征圖。
細(xì)化塊(圖5.b)引入以過(guò)濾解碼器產(chǎn)生的嘈雜特征,以實(shí)現(xiàn)更準(zhǔn)確的逐像素分類(lèi)和定位。
2.5. 尺度感知語(yǔ)義聚合塊
尺度感知語(yǔ)義聚合器由 L 個(gè)堆疊的金字塔池化 Axial 注意力塊組成。每個(gè)Transformer包括金字塔池化 Axial 注意力模塊和前饋網(wǎng)絡(luò)(FFN)。第 個(gè)金字塔池化 Axial 注意力塊的輸出可以表示如下:
其中 、 分別表示輸入、Axial 注意力的輸出和Transformer塊的輸出。P2A2 是金字塔池化 Axial 注意力的縮寫(xiě)。
金字塔池化Axial 注意力
在這里,作者介紹了提出的金字塔池化Axial 注意力。主要結(jié)構(gòu)如圖7所示。首先,將輸入特征饋送到金字塔池化子模塊,通過(guò)使用不同內(nèi)核大小執(zhí)行池化操作來(lái)捕獲全局上下文信息,見(jiàn)方程12。
接下來(lái),將 Axial 注意力模塊應(yīng)用于池化特征,以捕獲垂直和水平 Axial 上的空間依賴關(guān)系。該模塊利用位置嵌入來(lái)編碼空間信息,并生成注意力圖,突出顯示圖像中相關(guān)區(qū)域。然后將注意力圖與殘差塊相結(jié)合,以增強(qiáng)空間細(xì)節(jié),使模型能夠生成信息豐富的上下文信息,從而實(shí)現(xiàn)架構(gòu)在非常小的數(shù)據(jù)集上獲得高精度。
其中 、 、 是生成的金字塔特征。接下來(lái),作者對(duì)金字塔特征圖進(jìn)行求和,并在其上執(zhí)行卷積操作。
Axial 注意力已被引入以減少注意力網(wǎng)絡(luò)的計(jì)算成本。自那以后,它已被集成到許多語(yǔ)義分割框架中。
3. 實(shí)驗(yàn)
4. 參考
[1].P2AT: Pyramid Pooling Axial Transformer for Real-time Semantic Segmentation.
點(diǎn)擊上方卡片,關(guān)注「集智書(shū)童」公眾號(hào)
