點擊上方“AI算法與圖像處理”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
原文:End-to-End Video Instance Segmentation with Transformers
視頻實例分割(VIS)是一項需要同時對視頻中感興趣的對象實例進行分類、分割和跟蹤的任務。最近研究人員提出了一個新的基于Transformers的視頻實例分割框架VisTR,它將VIS任務看作一個直接的端到端并行序列解碼/預測問題。給定一個由多個圖像幀組成的視頻片段作為輸入,VisTR直接輸出視頻中每個實例的掩碼序列。其核心是一種新的、有效的instance sequence匹配與分割策略,它在序列級對實例進行整體監(jiān)控和分割。VisTR從相似性學習的角度對實例進行分割和跟蹤,大大簡化了整個流程,與現(xiàn)有方法有很大的不同。VisTR在現(xiàn)有的VIS模型中速度最高,在YouTubeVIS數(shù)據(jù)集上使用單一模型的方法中效果最好。這是第一次,研究人員展示了一個更簡單,更快的視頻實例分割框架建立在Transformer,實現(xiàn)了競爭的準確性。研究人員希望VisTR能推動未來更多的視頻理解任務的研究。?研究人員提出了一個新的基于Transformers的視頻實例分割框架,稱為VisTR,它將VIS任務視為一個直接的端到端并行序列解碼/預測問題。該框架與現(xiàn)有方法大不相同,大大簡化了整個流程。?VisTR從相似性學習的新角度解決了VIS。實例分割就是學習像素級的相似度,實例跟蹤就是學習實例之間的相似度。因此,在相同的實例分割框架下,可以無縫、自然地實現(xiàn)實例跟蹤。?VisTR成功的關鍵是為研究人員的框架定制了一種新的instance sequence匹配和分割策略。這個精心設計的2策略使研究人員能夠在整個序列級別上對實例進行監(jiān)控和分段。?VisTR在YouTube VIS數(shù)據(jù)集上取得了很好的效果,在mask mAP中以27.7 FPS的速度(如果排除數(shù)據(jù)加載,則為57.7 FPS)獲得了35.3%的效果,這是使用單一模型的方法中最好、最快的。研究人員將視頻實例分割問題建模為一個直接的序列預測問題。給定由多個圖像幀組成的視頻片段作為輸入,VisTR按順序輸出視頻中每個實例的掩碼序列。為了實現(xiàn)這一目標,研究人員引入了instance sequence匹配和分割策略,在序列級對實例進行整體監(jiān)控和分割。整個VisTR架構如上圖所示。它由四個主要部分組成:一個用于提取多幀壓縮特征表示的CNN backbone、一個用于建立像素級相似性建模的編碼-解碼的transformer、一個用于監(jiān)控模型的instance sequence matching模塊和一個instance sequence segmentation模塊。1)Backbone:Backbone提取輸入視頻片段的原始像素級特征序列,提取每一幀的特征并將所有的特征圖聯(lián)系在一起。2)Transformer encoder:采用編碼器對圖像中所有像素級特征的相似性進行建模,建模視頻內每一個像素之間的相似性。首先使用11的卷積對輸入的特征圖張量進行降維。然后對特征圖從空間和時間上展平到一維。3)Temporal and spatial positional encoding:Transformer的結構是排列不變的,而分割任務需要精確的位置信息。為了補償這一點,研究人員用固定的位置編碼信息來補充特征,這些信息包含三維(時間、水平和垂直)位置信息,然后再關聯(lián)在一起。4)Transformer decoder:Transformer解碼器的目標是解碼能夠代表每幀實例的像素特征。受DETR的啟發(fā),研究人員還引入了固定數(shù)量的輸入嵌入來從像素特征中查詢實例特征,稱為instance queries。這些instance queries是通過模型學習得到的。編碼器的輸入為預設的instance queries和編碼器的輸出。這樣,預測的結果按照原始視頻幀序列的順序輸出,輸出為nT個instance向量,即學習到的instance queries。Instance Sequence Matching:VisTR在一次通過解碼器的過程中推斷出N個預測的固定大小序列。該框架的主要挑戰(zhàn)之一是保持同一實例在不同圖像(即instance sequence)中預測的相對位置。為了找到相應的ground truth并對instance sequence進行整體監(jiān)控,引入了instance sequence匹配策略。解碼器輸出的固定個數(shù)的預測序列是無序的,每一幀包含n個instance sequence。本論文和DETR相同,利用匈牙利算法進行匹配。ViTR采用了和DETR類似的方法,雖然是實例分割,但需要用到目標檢測中的bounding box方便組合優(yōu)化計算。通過FFN,即全連接計算出歸一化的bounding box中心,寬和高。通過softmax計算出該bounding box的標簽。最后得到n×T個bounding box。利用上述得到label概率分布和bounding box匹配instance sequence和gournd truth。最后計算匈牙利算法的loss,同時考慮label的概率分布以及bounding box的位置。Loss基本遵循DETR的設計,使用L1 loss和IOU loss。下式為訓練用的loss。由label,bounding box,instance sequence三者的loss組成。Instance Sequence Segmentation:Instance sequence分割模塊的目標是預測每個實例的掩碼序列。為了實現(xiàn)這一點,該模型首先對每個實例進行mask features的積累,然后對積累的特征進行掩模序列分割。通過計算對象預測O和Transformer編碼特征E之間的相似度映射得到mask features。為了簡化計算,研究人員只對每個對象預測使用其對應幀的特征進行計算。對于每一幀,對象預測O和相應的編碼特征映射E被饋送到模塊中以獲得初始attention maps。然后attention maps將與對應幀的初始backbone的特征B和變換后的編碼特征E融合,遵循與DETR類似的實踐。融合的最后一層是可變形卷積層。通過這種方式,獲得不同幀的每個實例的mask features。在本節(jié)中,研究人員在YouTubeVIS[30]數(shù)據(jù)集上進行實驗,該數(shù)據(jù)集包含2238個訓練、302個驗證和343個測試視頻剪輯。數(shù)據(jù)集的每個視頻都用每像素分割掩碼、類別和實例標簽進行注釋。對象類別號為40。當測試集評估結束時,研究人員在驗證集中評估研究人員的方法。評價指標為平均精度(AP)和平均召回率(AR),以mask sequences的視頻交集為閾值。在下表中,研究人員將VisTR與一些最新的視頻實例分割方法進行了比較。從精度和速度兩方面進行了比較。前三行中的方法最初用于跟蹤或VOS。研究人員引用了其他研究中針對VIS的重新實現(xiàn)所報告的結果。其他方法包括MaskTrack RCNN、MaskProp和STEmSeg最初是按時間順序為VIS任務提出的。下圖顯示了YouTube VIS驗證數(shù)據(jù)集上VisTR的可視化,每一行包含從同一視頻中采樣的圖像。VisTR可以很好地跟蹤和分割具有挑戰(zhàn)性的實例,例如:(a)實例重疊,(b)實例之間相對位置的變化,(c)由相近的同類實例引起的混淆和(d)不同姿勢的實例。本文提出了一種基于Transformers的視頻實例分割框架,將VIS任務看作一個直接的端到端并行序列解碼/預測問題。VisTR從相似性學習的新角度解決了VIS問題。因此,在相同的實例分割框架下,可以無縫、自然地實現(xiàn)實例跟蹤。該框架與現(xiàn)有方法大不相同,也比現(xiàn)有方法簡單,大大簡化了整個流程。通過大量的實驗來研究和驗證VisTR的核心因素。在YouTube-VIS數(shù)據(jù)集上,VisTR在使用單一模型的方法中取得了最好的結果和最高的速度。據(jù)研究人員所知,研究人員的工作是第一個將Transformer應用于視頻實例分割。研究人員希望類似的方法可以應用到更多的視頻理解任務中請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權威的編程規(guī)范!
在「AI算法與圖像處理」公眾號后臺回復:CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點亮
,告訴大家你也在看