色色网站免费,嗯啊大鸡吧,国产日产亚洲精品,日日谢天天摸,操操操操逼逼,亚洲黄色一级电影,免费无码精品国产76在线,亚洲天堂一二三

點擊上方“AI算法與圖像處理”，選擇加"星標"或“置頂”

重磅干貨，第一時間送達

原文：End-to-End Video Instance Segmentation with Transformers

翻譯：夏初

摘要：

視頻實例分割（VIS）是一項需要同時對視頻中感興趣的對象實例進行分類、分割和跟蹤的任務。最近研究人員提出了一個新的基于Transformers的視頻實例分割框架VisTR，它將VIS任務看作一個直接的端到端并行序列解碼/預測問題。給定一個由多個圖像幀組成的視頻片段作為輸入，VisTR直接輸出視頻中每個實例的掩碼序列。其核心是一種新的、有效的instance sequence匹配與分割策略，它在序列級對實例進行整體監(jiān)控和分割。VisTR從相似性學習的角度對實例進行分割和跟蹤，大大簡化了整個流程，與現(xiàn)有方法有很大的不同。

VisTR在現(xiàn)有的VIS模型中速度最高，在YouTubeVIS數(shù)據(jù)集上使用單一模型的方法中效果最好。這是第一次，研究人員展示了一個更簡單，更快的視頻實例分割框架建立在Transformer，實現(xiàn)了競爭的準確性。研究人員希望VisTR能推動未來更多的視頻理解任務的研究。

研究貢獻：

?研究人員提出了一個新的基于Transformers的視頻實例分割框架，稱為VisTR，它將VIS任務視為一個直接的端到端并行序列解碼/預測問題。該框架與現(xiàn)有方法大不相同，大大簡化了整個流程。

?VisTR從相似性學習的新角度解決了VIS。實例分割就是學習像素級的相似度，實例跟蹤就是學習實例之間的相似度。因此，在相同的實例分割框架下，可以無縫、自然地實現(xiàn)實例跟蹤。

?VisTR成功的關鍵是為研究人員的框架定制了一種新的instance sequence匹配和分割策略。這個精心設計的2策略使研究人員能夠在整個序列級別上對實例進行監(jiān)控和分段。

?VisTR在YouTube VIS數(shù)據(jù)集上取得了很好的效果，在mask mAP中以27.7 FPS的速度（如果排除數(shù)據(jù)加載，則為57.7 FPS）獲得了35.3%的效果，這是使用單一模型的方法中最好、最快的。

研究思路：

研究人員將視頻實例分割問題建模為一個直接的序列預測問題。給定由多個圖像幀組成的視頻片段作為輸入，VisTR按順序輸出視頻中每個實例的掩碼序列。為了實現(xiàn)這一目標，研究人員引入了instance sequence匹配和分割策略，在序列級對實例進行整體監(jiān)控和分割。

VisTR架構：

整個VisTR架構如上圖所示。它由四個主要部分組成：一個用于提取多幀壓縮特征表示的CNN backbone、一個用于建立像素級相似性建模的編碼-解碼的transformer、一個用于監(jiān)控模型的instance sequence matching模塊和一個instance sequence segmentation模塊。

1）Backbone：Backbone提取輸入視頻片段的原始像素級特征序列，提取每一幀的特征并將所有的特征圖聯(lián)系在一起。

2）Transformer encoder：采用編碼器對圖像中所有像素級特征的相似性進行建模，建模視頻內每一個像素之間的相似性。首先使用11的卷積對輸入的特征圖張量進行降維。然后對特征圖從空間和時間上展平到一維。

3）Temporal and spatial positional encoding：Transformer的結構是排列不變的，而分割任務需要精確的位置信息。為了補償這一點，研究人員用固定的位置編碼信息來補充特征，這些信息包含三維（時間、水平和垂直）位置信息，然后再關聯(lián)在一起。

4）Transformer decoder：Transformer解碼器的目標是解碼能夠代表每幀實例的像素特征。受DETR的啟發(fā)，研究人員還引入了固定數(shù)量的輸入嵌入來從像素特征中查詢實例特征，稱為instance queries。這些instance queries是通過模型學習得到的。編碼器的輸入為預設的instance queries和編碼器的輸出。這樣，預測的結果按照原始視頻幀序列的順序輸出，輸出為nT個instance向量，即學習到的instance queries。

Instance Sequence Matching：

VisTR在一次通過解碼器的過程中推斷出N個預測的固定大小序列。該框架的主要挑戰(zhàn)之一是保持同一實例在不同圖像（即instance sequence）中預測的相對位置。為了找到相應的ground truth并對instance sequence進行整體監(jiān)控，引入了instance sequence匹配策略。

解碼器輸出的固定個數(shù)的預測序列是無序的，每一幀包含n個instance sequence。本論文和DETR相同，利用匈牙利算法進行匹配。ViTR采用了和DETR類似的方法，雖然是實例分割，但需要用到目標檢測中的bounding box方便組合優(yōu)化計算。通過FFN，即全連接計算出歸一化的bounding box中心，寬和高。通過softmax計算出該bounding box的標簽。最后得到n×T個bounding box。利用上述得到label概率分布和bounding box匹配instance sequence和gournd truth。

最后計算匈牙利算法的loss，同時考慮label的概率分布以及bounding box的位置。Loss基本遵循DETR的設計，使用L1 loss和IOU loss。下式為訓練用的loss。由label，bounding box，instance sequence三者的loss組成。

Instance Sequence Segmentation：

Instance sequence分割模塊的目標是預測每個實例的掩碼序列。為了實現(xiàn)這一點，該模型首先對每個實例進行mask features的積累，然后對積累的特征進行掩模序列分割。

通過計算對象預測O和Transformer編碼特征E之間的相似度映射得到mask features。為了簡化計算，研究人員只對每個對象預測使用其對應幀的特征進行計算。對于每一幀，對象預測O和相應的編碼特征映射E被饋送到模塊中以獲得初始attention maps。然后attention maps將與對應幀的初始backbone的特征B和變換后的編碼特征E融合，遵循與DETR類似的實踐。融合的最后一層是可變形卷積層。通過這種方式，獲得不同幀的每個實例的mask features。

實驗：

在本節(jié)中，研究人員在YouTubeVIS[30]數(shù)據(jù)集上進行實驗，該數(shù)據(jù)集包含2238個訓練、302個驗證和343個測試視頻剪輯。數(shù)據(jù)集的每個視頻都用每像素分割掩碼、類別和實例標簽進行注釋。對象類別號為40。當測試集評估結束時，研究人員在驗證集中評估研究人員的方法。評價指標為平均精度（AP）和平均召回率（AR），以mask sequences的視頻交集為閾值。

在下表中，研究人員將VisTR與一些最新的視頻實例分割方法進行了比較。從精度和速度兩方面進行了比較。前三行中的方法最初用于跟蹤或VOS。研究人員引用了其他研究中針對VIS的重新實現(xiàn)所報告的結果。其他方法包括MaskTrack RCNN、MaskProp和STEmSeg最初是按時間順序為VIS任務提出的。

下圖顯示了YouTube VIS驗證數(shù)據(jù)集上VisTR的可視化，每一行包含從同一視頻中采樣的圖像。VisTR可以很好地跟蹤和分割具有挑戰(zhàn)性的實例，例如：（a）實例重疊，（b）實例之間相對位置的變化，（c）由相近的同類實例引起的混淆和（d）不同姿勢的實例。

總結：

本文提出了一種基于Transformers的視頻實例分割框架，將VIS任務看作一個直接的端到端并行序列解碼/預測問題。VisTR從相似性學習的新角度解決了VIS問題。因此，在相同的實例分割框架下，可以無縫、自然地實現(xiàn)實例跟蹤。該框架與現(xiàn)有方法大不相同，也比現(xiàn)有方法簡單，大大簡化了整個流程。通過大量的實驗來研究和驗證VisTR的核心因素。在YouTube-VIS數(shù)據(jù)集上，VisTR在使用單一模型的方法中取得了最好的結果和最高的速度。據(jù)研究人員所知，研究人員的工作是第一個將Transformer應用于視頻實例分割。研究人員希望類似的方法可以應用到更多的視頻理解任務中

推薦一波我好朋友的公眾號：

個人微信（如果沒有備注不拉群！）
請注明：地區(qū)+學校/企業(yè)+研究方向+昵稱

下載1：何愷明頂會分享

在「AI算法與圖像處理」公眾號后臺回復：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經(jīng)典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公眾號后臺回復：c++，即可下載。歷經(jīng)十年考驗，最權威的編程規(guī)范！

下載3 CVPR2021

在「AI算法與圖像處理」公眾號后臺回復：CVPR，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮，告訴大家你也在看

CVPR2021 | 基于transformer的視頻實例分割網(wǎng)絡VisTR