用于語(yǔ)言引導(dǎo)視頻分割的局部-全局語(yǔ)境感知Transformer
0. 引言
隨著Transformer的大火,NLP任務(wù)和CV任務(wù)的壁壘逐漸被打通。視頻分割一直是一項(xiàng)極具挑戰(zhàn)的任務(wù),因?yàn)樗鼘?duì)理解整個(gè)視頻內(nèi)容和各種語(yǔ)言概念提出了很高的要求,現(xiàn)有的基于FCN的LVS解決方案很難充分利用全局視頻語(yǔ)境以及全局視頻語(yǔ)境和語(yǔ)言描述之間的聯(lián)系,但Transformer無(wú)疑為其提供了新的解決方法。本文將帶大家精讀2022 CVPR論文"用于語(yǔ)言引導(dǎo)的視頻分割的局部-全局語(yǔ)境感知Transformer",該文章提出的視頻分割模型在多個(gè)數(shù)據(jù)集上取得了SOTA效果,并且已經(jīng)開源。
1. 論文信息
標(biāo)題:Local-Global Context Aware Transformer for Language-Guided Video Segmentation
作者:Chen Liang, Wenguan Wang, Tianfei Zhou, Jiaxu Miao, Yawei Luo, and Yi Yang
來(lái)源:2022 Computer Vision and Pattern Recognition (CVPR)
原文鏈接:https://arxiv.org/abs/2203.09773
代碼鏈接:https://github.com/leonnnop/Locater
2. 摘要
我們探索語(yǔ)言引導(dǎo)的視頻分割(LVS)的任務(wù)。以前的算法大多采用3D CNNs來(lái)學(xué)習(xí)視頻表示,難以捕捉長(zhǎng)時(shí)間的語(yǔ)境,并且容易遭受視覺(jué)-語(yǔ)言錯(cuò)位。有鑒于此,我們提出了LOCATER (local-global context aware Transformer),它用有限的內(nèi)存擴(kuò)充了Transformer的體系結(jié)構(gòu),從而以高效的方式用語(yǔ)言表達(dá)式查詢整個(gè)視頻。
該存儲(chǔ)器設(shè)計(jì)為包含兩個(gè)組件:一個(gè)用于永久保存全局視頻內(nèi)容,另一個(gè)用于動(dòng)態(tài)收集局部時(shí)間語(yǔ)境和分段歷史。
基于記憶的局部-全局語(yǔ)境和每一幀的特定內(nèi)容,LOCATER整體地和靈活地將該表達(dá)理解為每一幀的自適應(yīng)查詢向量。該向量用于查詢相應(yīng)的幀以生成掩碼。該內(nèi)存還允許LOCATER以線性時(shí)間復(fù)雜度和恒定大小的內(nèi)存處理視頻,而變壓器式的自我關(guān)注計(jì)算與序列長(zhǎng)度成二次方比例。
徹底檢查L(zhǎng)VS的視覺(jué)接地能力模型,我們貢獻(xiàn)了一個(gè)新的LVS數(shù)據(jù)集,A2D-S+,它建立在A2D-S數(shù)據(jù)集之上,但在相似對(duì)象中消除歧義中提出了更多的挑戰(zhàn)。在三個(gè)LVS數(shù)據(jù)集和我們的A2D-S+上的實(shí)驗(yàn)表明,LOCATER取得了SOTA效果。此外,我們基于LOCATER的解決方案在第三屆大規(guī)模視頻對(duì)象分割挑戰(zhàn)賽的視頻對(duì)象分割競(jìng)賽中獲得了第一名。
3. 算法分析
如圖1所示是作者提出的LOCATER視頻分割模型,LOCATER首先利用自注意力機(jī)制,通過(guò)幀內(nèi)視覺(jué)語(yǔ)境和語(yǔ)言來(lái)增強(qiáng)每幀表征。為了進(jìn)一步將時(shí)間線索納入每幀表征,LOCATER構(gòu)建了一個(gè)外部有限記憶,它編碼多時(shí)間尺度的語(yǔ)境,并基于注意力操作進(jìn)行內(nèi)容檢索。這使得LOCATER成為一個(gè)基于完全注意力的模型,同時(shí)大大減少了空間和計(jì)算的復(fù)雜性。

圖1 LOCATER視頻分割實(shí)例
特別的是,LOCATER存儲(chǔ)器有兩個(gè)組成部分:
(1) 持久地記憶全局時(shí)間語(yǔ)境,即從視頻的整個(gè)跨度上采樣的幀中總結(jié)的高度緊湊的描述符;
(2) 從過(guò)去的分割幀中在線收集局部時(shí)間語(yǔ)境和分割歷史。全局存儲(chǔ)器在整個(gè)分割過(guò)程中保持不變,而局部存儲(chǔ)器隨著分割過(guò)程而動(dòng)態(tài)更新。
因此,LOCATER獲得了對(duì)視頻內(nèi)容的整體理解,并捕捉到時(shí)間的連貫性,從而導(dǎo)致情境化的視覺(jué)表征學(xué)習(xí)。根據(jù)存儲(chǔ)的語(yǔ)境和一個(gè)框架的特定內(nèi)容,LOCATER通過(guò)自適應(yīng)地關(guān)注信息詞來(lái)生動(dòng)地解釋表達(dá),并形成特別適合該框架的表達(dá)性查詢向量。該特定查詢向量然后被用于查詢相應(yīng)的語(yǔ)境化視覺(jué)特征以進(jìn)行掩碼解碼。利用這樣的存儲(chǔ)器設(shè)計(jì),LOCATER能夠全面地模擬時(shí)間依賴性和交叉依賴性
作者的主要貢獻(xiàn)有以下三點(diǎn):
(1) 作者提出了試點(diǎn)工作,基于Transformer建立LOCATER模型,實(shí)現(xiàn)LVS任務(wù)的記憶增強(qiáng)。并且其中的有限記憶、漸進(jìn)跨模態(tài)融合、情境化查詢嵌入、深度監(jiān)督幾個(gè)模塊極大地促進(jìn)了網(wǎng)絡(luò)學(xué)習(xí),并最終實(shí)現(xiàn)了SOTA效果。
(2) 有限存儲(chǔ)器使得網(wǎng)絡(luò)能夠長(zhǎng)期存儲(chǔ)和提取跨模態(tài)語(yǔ)境,同時(shí)擺脫了Transformer中傳統(tǒng)注意力機(jī)制的二次復(fù)雜度所帶來(lái)的難以負(fù)擔(dān)的空間和計(jì)算成本。
(3) 通過(guò)引入更難合成的數(shù)據(jù)集,減少了當(dāng)前最流行的LVS基準(zhǔn)(A2D-S)中過(guò)多的瑣碎案例。
3.1 局部-全局語(yǔ)境感知Transformer架構(gòu)
由于二次時(shí)間和空間復(fù)雜度,傳統(tǒng)的Transformer網(wǎng)絡(luò)很難直接應(yīng)用于LVS任務(wù)中。因此作者設(shè)計(jì)了專門聚焦于LVS和多模態(tài)的LOCATER架構(gòu),其具有線性復(fù)雜度。
對(duì)于給定的視頻輸入和語(yǔ)言表達(dá),LOCATER主要有三個(gè)組成部分:
(1) 視覺(jué)-語(yǔ)言編碼器:逐漸融合語(yǔ)言embedding到視覺(jué)embedding中,并對(duì)每一幀生成一個(gè)語(yǔ)言增強(qiáng)的視覺(jué)特征;
(2) 局部-全局記憶:從視覺(jué)embedding中收集不同的臨時(shí)語(yǔ)境,對(duì)視覺(jué)特征給予語(yǔ)境化表示,并將語(yǔ)言embedding轉(zhuǎn)化成用于Q向量的表達(dá)方式。
(3) 參考解碼:將語(yǔ)境化特征及Q向量用于分割預(yù)測(cè)。
3.2 A2D-S+數(shù)據(jù)集
A2D-S是目前LVS任務(wù)中最為重要的數(shù)據(jù)集之一,但作者發(fā)現(xiàn)A2D-S測(cè)試集中只包含一個(gè)演員,因此跨模態(tài)任務(wù)往往退化為新對(duì)象分割的單模態(tài)問(wèn)題。此外,許多A2D-S視頻只包含很少的對(duì)象,但具有獨(dú)特的語(yǔ)義。為了更好地檢驗(yàn)LVS模型的視覺(jué)基礎(chǔ)能力,作者構(gòu)建了一個(gè)更穩(wěn)健的數(shù)據(jù)集------A2D-S+。它由三個(gè)子集組成,即A2DS+M、A2D-S+~S~和A2D-S+T,它們都建立在A2D-S的基礎(chǔ)上,但充分優(yōu)化了A2D-S的局限性。具體而言,A2D-S+中的每個(gè)視頻都被選擇/創(chuàng)建為包含同一對(duì)象或動(dòng)作類別的多個(gè)實(shí)例。因此,A2D-S+對(duì)LVS模型的分割能力提出了更高的要求。如圖2所示是A2D-S+數(shù)據(jù)集的示例,表1所示是A2D-S+數(shù)據(jù)集中的統(tǒng)計(jì)信息。

圖2 A2D-S+數(shù)據(jù)集示例
表1 A2D-S+數(shù)據(jù)集統(tǒng)計(jì)信息

4. 實(shí)驗(yàn)
作者在實(shí)驗(yàn)部分首先在三個(gè)標(biāo)準(zhǔn)LVS數(shù)據(jù)集上測(cè)試LOCATER性能,進(jìn)行定量實(shí)驗(yàn),包括A2D-S、J-HMDB-S以及R-YTVOS。然后在作者提出的A2D-S+數(shù)據(jù)集上進(jìn)行試驗(yàn)。最后,介紹LOCATER在第三屆大規(guī)模視頻對(duì)象分割挑戰(zhàn)賽上的表現(xiàn)和消融實(shí)驗(yàn)。
4.1 A2D-S、J-HMDB-S以及R-YTVOS數(shù)據(jù)集實(shí)驗(yàn)
如表2、表3和表4所示為在A2D-S、J-HMDB-S和R-YTVOS數(shù)據(jù)集上的定量結(jié)果。
表2 A2D-S數(shù)據(jù)集定量結(jié)果

表3 J-HMDB-S數(shù)據(jù)集定量結(jié)果
表4 R-YTVOS數(shù)據(jù)集定量結(jié)果

表2中對(duì)比了幾個(gè)主要的基于FCN的視頻分割模型,結(jié)果顯示LOCATER模型比現(xiàn)有的LVS方法快得多,主要原因是其記憶增強(qiáng)的全注意力架構(gòu)設(shè)計(jì)。表3顯示,LOCATER模型超越了大多數(shù)指標(biāo)上的其他競(jìng)爭(zhēng)對(duì)手。值得注意的是,LOCATER模型平均IoU為66.3%,總IoU為67.3%,mAP為45.6%,而SOTA方法的相應(yīng)分?jǐn)?shù)分別為62.7%、65.2%和33.5%。
如圖3所示為A2D-S測(cè)試集和R-YTVOS驗(yàn)證集上的對(duì)比結(jié)果,LOCATER模型產(chǎn)生了比ACGA和CSTM更精確的分割結(jié)果。它在處理遮擋和復(fù)雜的文本描述時(shí)表現(xiàn)出很強(qiáng)的魯棒性,尤其是當(dāng)面對(duì)由場(chǎng)景動(dòng)態(tài)引起的模糊。

圖3 A2D-S測(cè)試集和R-YTVOS驗(yàn)證集上的對(duì)比結(jié)果
4.2 A2D-S+數(shù)據(jù)集實(shí)驗(yàn)及挑戰(zhàn)賽結(jié)果
表5所示是作者在自己的A2D-S+數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,雖然其中對(duì)比的兩大方法在A2D-S和J-HMDB-S數(shù)據(jù)集上取得了較好性能,但這兩個(gè)方法很難處理作者提出的A2D-S+數(shù)據(jù)任務(wù)。相比之下,LOCATER模型產(chǎn)生了更好的整體性能,特別是在mIoU上實(shí)現(xiàn)了平均3.2%的性能提升,驗(yàn)證了其在以下方面的強(qiáng)大能力和精細(xì)的視覺(jué)語(yǔ)言理解。
表5 A2D-S+數(shù)據(jù)集定量結(jié)果

表6所示是作者在YTB-VOS~21~的RVOS跟蹤中,LOCATER模型和其他表現(xiàn)最好的團(tuán)隊(duì)的最終結(jié)果對(duì)比。其他競(jìng)爭(zhēng)者主要采用圖像級(jí)的參考對(duì)象分割策略,簡(jiǎn)單地用固定的跟蹤模塊生成視頻級(jí)的預(yù)測(cè)。這些方法不僅忽視了語(yǔ)言表達(dá)中不可缺少的長(zhǎng)期線索,而且忽視了視頻序列內(nèi)在的低層次信息。相比之下,LOCATER模型很好地解決了這些問(wèn)題。最終,結(jié)果明顯優(yōu)于排名第二的解決方案,且差距較大,分別為11.3 %,11.0 %和11.7 %。
表6 視頻分割挑戰(zhàn)賽中的分割結(jié)果對(duì)比

4.3 消融實(shí)驗(yàn)
如表7所示,作者為了驗(yàn)證LOCATER模型性能,提出了一系列消融實(shí)驗(yàn)。其中分別包括視覺(jué)編碼器、跨模態(tài)編碼器、解碼器模型、局部-全局記憶、語(yǔ)境Query-Embedding、內(nèi)存效率以及幀采樣間隔。
表7 一系列消融實(shí)驗(yàn)

5. 結(jié)論
本文帶大家精讀了2022 CVPR的論文"用于語(yǔ)言引導(dǎo)視頻分割的局部-全局語(yǔ)境感知Transformer",這項(xiàng)工作提出了一個(gè)基于記憶增強(qiáng)和完全注意模型LOCATER,主要用于LVS任務(wù)。LOCATER模型能夠有效地對(duì)齊跨模態(tài)表示,并通過(guò)外部存儲(chǔ)器有效地模擬長(zhǎng)期時(shí)間語(yǔ)境以及短期分割歷史。通過(guò)視覺(jué)語(yǔ)境引導(dǎo)的注意力,LOCATER模型產(chǎn)生了特定于幀的查詢向量,用于生成掩碼,在多項(xiàng)LVS任務(wù)中取得了SOTA效果。此外,作者提出了新的A2D-S+數(shù)據(jù)集,這個(gè)數(shù)據(jù)集緩解了當(dāng)前最流行的A2D-S數(shù)據(jù)集中對(duì)象的嚴(yán)重缺失問(wèn)題。

