ACM第一名:基于軌跡感知多模態(tài)特征的視頻關系檢測
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達

視頻關系檢測問題是指對視頻中不同對象之間的關系進行檢測,如空間關系、動作關系等。在本文中,作者提出了基于軌跡感知的多模態(tài)特征的視頻關系檢測來解決這一問題??紤]到視頻視覺關系檢測的復雜性,作者將該任務分解為三個子任務:目標檢測、軌跡建議和關系預測。作者采用最先進的目標檢測方法來保證目標軌跡檢測的準確性和多模態(tài)特征表示來幫助預測目標之間的關系。作者的方法以11.74%的mAP在ACM多媒體2020的視頻關系理解大挑戰(zhàn)的視頻關系檢測任務中獲得第一名,大大超過了其他方法。
本文提出了一種視頻關系檢測方法。作者按照[11]的方案,建立了一個目標軌跡檢測模塊和一個關系預測模塊的系統(tǒng)。對于目標軌跡檢測器,作者首先使用最先進的檢測器級聯(lián)RCNN[1],以ResNeSt101[17]為骨干,對每個視頻幀進行目標檢測。然后作者使用seq-NMS[3]改進的動態(tài)規(guī)劃算法來關聯(lián)所有幀的目標檢測結果,并為每個目標生成軌跡。對于關系預測器,作者結合運動特征、視覺特征、語言特征和位置掩模特征對每對軌跡進行預測。多模態(tài)特征的使用有助于提高關系預測的準確性。作者的方法框架如圖1所示,作者的方法在ACM Multimedia 2020的視頻關系理解大挑戰(zhàn)[12]視頻關系檢測任務中取得了第一名。

作者的方法框架

十字框架鏈接方式

預測網(wǎng)絡的關系

作者在維多測試集上的詳細評估分數(shù)(%)

與最新的VidOR驗證集方法的比較(%)
在本文中,作者提出了軌跡感知的多模態(tài)特征用于視頻關系檢測。最后,作者獲得了11.74%的mAP,在ACM多媒體2020視頻關系理解大挑戰(zhàn)的視頻關系檢測任務中排名第一。
論文鏈接:https://arxiv.org/pdf/2101.08165.pdf
每日堅持論文分享不易,如果喜歡我們的內(nèi)容,希望可以推薦或者轉發(fā)給周圍的同學。
- END?-
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

