1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        全面綜述:基于3D骨架的深度學(xué)習(xí)行為識別方法

        共 10192字,需瀏覽 21分鐘

         ·

        2020-08-24 22:23

        ↑ 點擊藍字?關(guān)注極市平臺

        作者丨凡心所向素履所往@知乎
        來源丨知乎專欄:我的計算機視覺,https://zhuanlan.zhihu.com/p/107983551

        極市導(dǎo)讀

        ?

        本文對首篇基于3D骨架數(shù)據(jù)的深度學(xué)習(xí)行為識別方法的綜述論文進行了論文翻譯和要點總結(jié),對基于RNN、CNN和GCN的主流行為識別技術(shù)進行了全面的介紹,同時介紹了最大的3D骨架數(shù)據(jù)集及相關(guān)算法。>>>極市七夕粉絲福利活動:煉丹師們,七夕這道算法題,你會解嗎?

        本文是對論文《A Survey on 3D Skeleton-Based Action Recognition Using Learning Method》學(xué)習(xí)時所做的記錄和總結(jié)。

        論文鏈接:https://arxiv.org/pdf/2002.05907.pdf

        發(fā)布時間:2020.2.14

        作者團隊:北大&騰訊研究院

        分類:計算機視覺-行為識別-基于3D骨架的行為識別-綜述

        本文目錄:

        一、論文翻譯

        二、論文總結(jié)

        一、論文翻譯


        Abstract

        由于關(guān)鍵點(骨架)檢測的潛在優(yōu)勢,基于3D骨架的行為識別已經(jīng)成為計算機視覺中的活躍主題,因此多年來學(xué)者們提出了許多優(yōu)秀的方法,這些方法有的使用傳統(tǒng)手工特征,有的使用學(xué)習(xí)到的特征。

        然而,之前的行為識別綜述大多數(shù)集中于調(diào)研以視頻或者RGB數(shù)據(jù)為輸入的方法,關(guān)于骨架數(shù)據(jù)為輸入的方法調(diào)研的很少,一般都是直接說一下骨架數(shù)據(jù)的表示或某些經(jīng)典技術(shù)在特定數(shù)據(jù)集上的表現(xiàn);此外,盡管深度學(xué)習(xí)方法已經(jīng)在這個領(lǐng)域應(yīng)用多年,但是仍然沒有相關(guān)的研究來從深度學(xué)習(xí)結(jié)構(gòu)的角度對其進行介紹或總結(jié)。

        為了打破這些限制,本綜述首先強調(diào)了行為識別的必要性和3D骨架數(shù)據(jù)的重要性;然后以數(shù)據(jù)驅(qū)動的方式對基于RNN、CNN和GCN的主流行為識別技術(shù)進行了全面的介紹;最后,我們簡要介紹了一下最大的3D骨架數(shù)據(jù)集NTU-RGB+D及其最新版本NTU-RGB+D 120,并展示了這兩個數(shù)據(jù)集中包含的幾種現(xiàn)有的頂級算法。

        據(jù)我們所知,本文是首次全面討論基于3D骨架數(shù)據(jù)的深度學(xué)習(xí)行為識別方法的綜述。

        1、Introduction

        行為識別(Action Recognition)是計算機視覺中極其重要也非?;钴S的研究方向,它已經(jīng)被研究了數(shù)十年。因為人們可以用動作(行為)來處理事情、表達感情,因此行為識別有非常廣泛但又未被充分解決的應(yīng)用領(lǐng)域,例如智能監(jiān)控系統(tǒng)、人機交互、虛擬現(xiàn)實、機器人[1-5]等。以往的方法中都使用RGB圖像序列[6-8],深度圖像序列[9,10],視頻或者這些模態(tài)的特定融合(例如RGB+光流)[11-15],也取得了超出預(yù)期的結(jié)果。然而,和骨架數(shù)據(jù)(人體關(guān)節(jié)和骨頭的一種拓撲表示)相比,前述模態(tài)會產(chǎn)生更多的計算消耗,且在面對復(fù)雜背景以及人體尺度變化、視角變化和運動速度變化[16]時魯棒性不足。此外,像Microsoft Kinect這樣的傳感器[17]和一些先進的人體姿態(tài)估計算法[18-20]都可以讓我們更輕松地獲得準確的3D骨架(關(guān)鍵點)數(shù)據(jù)[21]。圖1展示了人體骨架數(shù)據(jù)的可視化效果。

        圖1. NTU RGB+D數(shù)據(jù)集[22]的一個示例.(a)數(shù)據(jù)集中的25個身體關(guān)節(jié)(b)人體RGB和RGB+關(guān)節(jié)展示

        除了與其他模態(tài)數(shù)據(jù)相比具有的優(yōu)勢,骨架序列還有如下三個主要的特點:

        i)空間信息Spatial information,相鄰關(guān)節(jié)之間存在很強的相關(guān)性,因此幀內(nèi)(intra-frame)可以獲取豐富的人體結(jié)構(gòu)信息。

        ii)時域信息Temporal information,幀間inter-frame可以利用時域相關(guān)信息。

        iii)時空域貢獻關(guān)系Co-occurrence relationship,當(dāng)考慮關(guān)節(jié)和骨骼的時候。

        因此,許多研究人員使用骨架數(shù)據(jù)來做人體行為識別或檢測,且一定會有越來越多的研究會使用骨架數(shù)據(jù)。

        基于骨架序列的行為上和別主要是一個時序問題temporal problem,因此傳統(tǒng)的基于骨架的方法通常都是從特定的骨架序列中提取運動模式,這引出了許多手工特征的研究,這些手工特征經(jīng)常會利用不同關(guān)節(jié)間的相對3D旋轉(zhuǎn)和平移。然而,文獻[27]認為這些手工特征只在一些特定數(shù)據(jù)集上表現(xiàn)良好,這進一步說明了從一個數(shù)據(jù)集上提取的手工特征可能無法遷移到其他數(shù)據(jù)集上,這使得行為識別算法難以推廣或應(yīng)用到更廣泛的應(yīng)用領(lǐng)域。

        隨著深度學(xué)習(xí)方法在其他在其他計算機視覺任務(wù)上的發(fā)展和先進表現(xiàn),使用骨架數(shù)據(jù)的RNN[29],CNN[30]和GCN[31]也開始出現(xiàn)。圖2展示了基于3D骨架的深度學(xué)習(xí)行為識別方法的通用pipeline(從原始的RGB序列或者視頻到最后的行為類別)。

        圖2. 基于骨架的深度學(xué)習(xí)行為識別方法的通用pipeline.首先,直接從深度傳感器或者姿態(tài)估計算法獲取骨架數(shù)據(jù);然后將骨架數(shù)據(jù)輸入到RNN,CNN,GCN等神經(jīng)網(wǎng)絡(luò);最后得到行為類別。

        在基于RNN的方法中,骨架序列是關(guān)節(jié)坐標的自然時間序列,這可以被視為序列向量,而RNN本身就適合于處理時間序列數(shù)據(jù)。此外,為了進一步改善學(xué)習(xí)到的關(guān)節(jié)序列的時序上下文信息,一些別的RNN(LSTM,GRU)方法也被用到骨架行為識別中。

        當(dāng)使用CNN來處理這一基于骨架的任務(wù)的時候,可以將其視為基于RNN方法的補充,因為CNN結(jié)構(gòu)能更好地捕獲輸入數(shù)據(jù)的空間cues,而基于RNN的方法正缺乏空間信息的構(gòu)建。

        最后,相對新的方法圖卷積神經(jīng)網(wǎng)絡(luò)GCN也有用于骨架數(shù)據(jù)處理中,因為骨架數(shù)據(jù)本身就是一個自然的拓撲圖數(shù)據(jù)結(jié)構(gòu)(關(guān)節(jié)點和骨頭可以被視為圖的節(jié)點和邊),而不是圖像或序列那樣的格式。

        上述三種基于深度學(xué)習(xí)的方法都獲得了空前的表現(xiàn),但是大多數(shù)review文獻只是專注于傳統(tǒng)方法或者是基于RGB-(D)數(shù)據(jù)的深度學(xué)習(xí)方法(作者的意思就是說別的綜述在總結(jié)深度學(xué)習(xí)行為識別方法的時候都是專注于以RGB或者RGBD數(shù)據(jù)為輸入的那些方法,而本文是專注于將骨架數(shù)據(jù)作為輸入的那些深度學(xué)習(xí)行為識別方法)。

        Ronald Poppe[32]首先解決了該領(lǐng)域的基本挑戰(zhàn),然后詳細介紹了關(guān)于直接分類和時間狀態(tài)空間模型的基本行為分類方法;Daniel和Remi[33]展示了行為表示在空間和時間域上的整體概況;這兩篇文章為輸入數(shù)據(jù)的預(yù)處理提供了一些啟發(fā),但是既沒有考慮骨架序列數(shù)據(jù)也沒有考慮深度學(xué)習(xí)策略。

        最近,[34,35]總結(jié)了基于深度學(xué)習(xí)的視頻分類和看圖說話任務(wù),并在文中介紹了CNN和RNN的基本結(jié)構(gòu),其中[35]對常見的用于行為識別的深度結(jié)構(gòu)和定量分析進行了分析。據(jù)我們所知,[36]是最近的第一篇深入研究3D骨架行為識別的文獻,它總結(jié)了行為表示和分類方法,同時提供了一些常用的數(shù)據(jù)集,例如UCF,MHAD,MSR daily activity 3D[37-39]等,但是它沒有涵蓋到最新興起的基于GCN的方法。

        最后,文獻[27]基于Kinect數(shù)據(jù)集寫了個行為識別算法綜述,該綜述對那些使用了該數(shù)據(jù)集的算法進行了全面的比較,數(shù)據(jù)的類型包括RGB,Depth,RGB-D和skeleton sequences。

        然而,上述所有工作都忽略了CNN-Based、RNN-Based、GCN-Based方法之間的區(qū)別和動機,尤其是將3D骨架序列考慮在內(nèi)的時候。

        為了解決這些問題,我們基于骨架數(shù)據(jù),使用三種基本的深度學(xué)習(xí)結(jié)構(gòu)(RNN,CNN,GCN),對行為識別進行了全面總結(jié),并進一步地闡釋了這些模型的動機和未來研究方向。

        總的來說,我們的研究包含4個主要貢獻:

        i)以詳細且簡明的方式全面介紹了3D骨架序列數(shù)據(jù)的優(yōu)越性和三種深度學(xué)習(xí)模型的特點,并舉例說明了使用3D骨架數(shù)據(jù)的基于深度學(xué)習(xí)方法的行為識別pipeline。

        ii)對每種深度模型,從數(shù)據(jù)驅(qū)動的角度介紹了基于骨架數(shù)據(jù)的最新算法,例如時空建模、骨架數(shù)據(jù)表示、共現(xiàn)特征學(xué)習(xí)等方面,這些部分也是現(xiàn)存的待解決的經(jīng)典問題。

        iii)首先討論最新的具有挑戰(zhàn)的數(shù)據(jù)集NTU-RGB+D 120及其附帶的幾種top-rank方法,然后討論未來的研究方向。

        iv)我們是首個 “在基于3D骨架數(shù)據(jù)的行為識別研究中考慮了各種深度模型(RNN CNN GCN)”的綜述。

        2、3D Skeleton-Based Action Recognition with Deep Learning

        現(xiàn)有的surveys已經(jīng)從基于RGB或基于骨架的角度對現(xiàn)有的行為識別技術(shù)進行了定量和定性比較,但是沒有從神經(jīng)網(wǎng)絡(luò)的角度來比較。為此,我們分別對基于RNN的,基于CNN的,基于GCN方法進行詳盡的討論和比較。對于每個部分,將基于某些缺陷(例如這三種模型之一的缺陷或者經(jīng)典的時空建模問題的缺陷)來引入一些最新的相關(guān)工作作為案例。

        (1)RNN based Methods

        RNN[40]通過將上一時刻的輸出作為當(dāng)前時刻的輸入來形成其結(jié)構(gòu)內(nèi)部的遞歸連接,這被證明是一種處理序列數(shù)據(jù)的有效方法。為了彌補標準RNN的不足(例如梯度消失問題和長時建模問題),LSTM和GRU分別在RNN內(nèi)部引入了門和線性記憶單元,改進了模型性能。

        第一方面,時空建模算是行為識別任務(wù)的首要原則,由于RNN結(jié)構(gòu)缺乏空間建模能力,相關(guān)的方法通常也無法取得競爭性的結(jié)果[41-43]。最近,Hong和Liang[44]提出了一個新穎的雙流RNN結(jié)構(gòu)來為骨架數(shù)據(jù)建模時域和空域特征,其中骨架軸的交換作為數(shù)據(jù)預(yù)處理來更好地學(xué)習(xí)空間域特征,該工作的框架如下圖3所示。

        圖3. RNN-based Methods中提出的解決空間建模問題的示例[44].(a)在RNN的基礎(chǔ)上增加了一個新的stream來增強空間信息.(b)一種數(shù)據(jù)驅(qū)動的技術(shù)(對原始骨架序列數(shù)據(jù)進行轉(zhuǎn)換)來解決空間建模能力問題

        和[44]不同的是,Jun和Amir[45]對骨架序列的遍歷方法進行了研究,以此來獲取時空域的隱藏關(guān)系。一般的方法將將關(guān)節(jié)排列成簡單的鏈,這忽略了相鄰關(guān)節(jié)的運動依賴關(guān)系,而[45]提出了基于樹結(jié)構(gòu)的關(guān)節(jié)遍歷方法,該方法在人體關(guān)節(jié)的聯(lián)系不夠牢固時也不會添加虛假連接。然后使用帶有信任門trust gate的LSTM來區(qū)分輸入,即如果樹狀輸入單元是可靠的,則將使用輸入的潛在空間信息來更新記憶單元。

        受CNN適合建??臻g信息這一特性的啟發(fā),Chunyu和Baochang[46]使用注意力RNN和CNN模型來改善復(fù)雜的時空建模。首先在殘差學(xué)習(xí)模塊中使用時域注意力子模型,來重新校準骨架序列中的時域注意力,然后后接時空卷積子模型(將上一子模型輸出的校準后的關(guān)節(jié)序列視為圖像)。

        此外,[47]使用一個注意力循環(huán)關(guān)系LSTM網(wǎng)絡(luò)來學(xué)習(xí)骨架序列中的時空特征,其中循環(huán)關(guān)系網(wǎng)絡(luò)recurrent relation network學(xué)習(xí)空間特征、多層LSTM學(xué)習(xí)時域特征。

        第二方面,網(wǎng)絡(luò)結(jié)構(gòu)也算是RNN的固有缺點。盡管RNN的性質(zhì)決定了其適合處理序列數(shù)據(jù), 但眾所周知的是梯度爆炸和消失問題不可避免。LSTM和GRU可以在一定程度上緩解這一問題,但tanh和sigmoid激活函數(shù)可能還是會導(dǎo)致層間的梯度衰減。為了解決這一缺陷,一些新型的RNN結(jié)構(gòu)被提出[48-50],Shuai和Wanqing[50]提出了一個獨立的循環(huán)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以解決梯度爆炸和消失問題,這使得構(gòu)建一個更長更深的RNN網(wǎng)絡(luò)來學(xué)習(xí)魯棒性更好的高級語義特征成為可能。這一改進的RNN不僅可以用于骨架行為識別,也可用用于其他領(lǐng)域例如語言模型。在這種結(jié)構(gòu)中,一層內(nèi)的神經(jīng)元彼此獨立,因此可以用于處理更長的序列。

        最后一個方面,即第三個方面,數(shù)據(jù)驅(qū)動方面。考慮到并不是所有的關(guān)節(jié)對行為分析有用,[51]在LSTM網(wǎng)絡(luò)中添加了全局意識關(guān)注global contex-aware attention來選擇性地關(guān)注骨架序列中信息豐富的關(guān)節(jié)。圖4(a)展示了該方法的可視化效果,從中我們可以發(fā)現(xiàn)信息量更大的關(guān)節(jié)用紅色圓圈表示,表示這些關(guān)節(jié)對該特定的行為更重要。

        圖4. 基于數(shù)據(jù)驅(qū)動的方法.(a)對于給定的骨架動作,不同關(guān)節(jié)的重要性不同[51];(b)特征表示過程,從左至右分別是原始輸入的骨架幀、轉(zhuǎn)換后的輸入幀和提取到的顯著運動特征[52]

        另外,由于數(shù)據(jù)集或深度傳感器所提供的骨架并不是完美的,這可能會影響行為識別任務(wù)的結(jié)果,所以[52]將骨架轉(zhuǎn)換為另一種坐標系統(tǒng)來提升尺度變化、旋轉(zhuǎn)、平移的魯棒性,然后從轉(zhuǎn)換后的數(shù)據(jù)中提取顯著運動特征,而不是直接將原始骨架數(shù)據(jù)輸入到LSTM中,圖4(b)展示了這一特征表示過程。

        除了上述這些,還有很多有價值的使用RNN的方法著眼于大視角變化、單個骨架中各關(guān)節(jié)的關(guān)系等問題。然而,我們必須承認在特定的建模方面RNN-based的方法確實比CNN based方法弱,接下來討論另一個有趣的問題:CNN-based方法如果進行時域信息建模以及如何找到時空信息的相對平衡點。

        (2)CNN based Methods

        卷積神經(jīng)網(wǎng)絡(luò)也被用于基于骨架的行為識別。和RNN不同的是,CNN憑借其自然、出色的高級信息提取能力可以有效且輕松地學(xué)習(xí)高級語義cues。不過CNN通常專注于image-based任務(wù),而基于骨架序列的行為識別任務(wù)毫無疑問是一個強時間依賴的問題。所以在基于CNN的架構(gòu)中,如何平衡且更充分地利用空間信息和時域信息就非常有挑戰(zhàn)了。

        為了滿足CNN輸入的需要,3D骨架序列數(shù)據(jù)通常要從向量序列轉(zhuǎn)換為偽圖像,然而,要同時具有時空信息的相關(guān)表示pertinent representation并不容易,因此許多研究者將骨架關(guān)節(jié)編碼為多個2D偽圖像,然后將其輸入到CNN中來學(xué)習(xí)有用的特征[53,54]。

        Wang[55]提出了關(guān)聯(lián)軌跡圖(Joint Trajectory Maps, JTM),它通過顏色編碼將關(guān)節(jié)軌跡的空間配置和動態(tài)信息spatial configuration and dynamics of joint trajectories表示為三個紋理圖像。然而,這種方法有點復(fù)雜,且在映射過程中丟失了重要信息。為了克服這一缺陷,Bo和Mingyi[56]使用平移不變的圖像映射策略,先根據(jù)人體物體結(jié)構(gòu)把每幀圖像的人體骨架關(guān)節(jié)分為五個主要部分,然后把這些部分映射為2D形式。這種方法是的骨架圖像同時包含了時域信息和空間信息。然而,雖然性能得到改善,但是將人體骨架關(guān)節(jié)作為孤立的點是不合理的,因為在真是世界中整個身體的各個部分都會存在緊密的聯(lián)系。例如當(dāng)我們揮手的時候,不僅僅要考慮和手直接相關(guān)的關(guān)節(jié),還要考慮其他部分的情況,例如肩膀和腿也需要被考慮。

        Yanshan和Rongjie[57]從幾何代數(shù)中提出了形狀運動表示法shape-motion representaion,解決了關(guān)節(jié)和骨骼的重要性,充分利用了骨架序列所提供的信息,如圖5(a)所示。

        類似的,[2]也使用了增強的骨架可視化來表示骨架數(shù)據(jù),Carlos和Jessica[58]基于運動信息提出新的表示方法(命名為SkeleMotion),該方法通過顯式計算關(guān)節(jié)運動的幅度和方向值來編碼時間動態(tài)信息,如圖5(b)所示。

        此外,和SkeleMotion類似,[59]使用SkeleMotion的框架但是基于樹結(jié)構(gòu)和參考關(guān)節(jié)來表示骨架圖像。

        圖5. 骨架圖像表示方法展示.(a)Northwestern-UCLA數(shù)據(jù)集[60]上“單手俯臥撐”動作的shape-motion表示[57];(b)SkeleMotion表示的工作流程[58].

        這些CNN-based方法通常把時域動態(tài)和關(guān)節(jié)簡單地編碼為行和列,來將骨架序列表示為圖像,因此卷積的時候僅考慮了卷積核內(nèi)的相鄰關(guān)節(jié)來學(xué)習(xí)共現(xiàn)特征,也就是說,對每個關(guān)節(jié)來說,一些潛在相關(guān)的關(guān)節(jié)會被忽略,因此CNN不能學(xué)習(xí)到相應(yīng)的有用的特征。Chao和Qiaoyong[61]使用一個端到端的框架通過分層方法來學(xué)習(xí)共現(xiàn)特征,在該框架中逐步匯總不同層級的上下文信息。首先對點級point-level信息進行獨立編碼,然后在時域和空域?qū)⑺鼈兘M合成語義表示。

        在CNN-Based的技術(shù)中,除了3D骨架序列表示之外也有一些別的問題,例如模型的大小和速度[3],CNN的架構(gòu)(雙流或者單流[62]),遮擋,視角變化等等[2,3]。所以使用CNN來解決基于骨架的行為識別任務(wù)仍是一個開放的問題,需要研究人員進行深入研究。

        (3)GCN based Methods

        人類3D骨架數(shù)據(jù)是自然的拓撲圖,而不是一系列向量(RNN-based方法中的思路)或是偽圖像(CNN-based方法中的思路),因此GCN(能夠有效表示圖形結(jié)構(gòu)數(shù)據(jù))最近被頻繁地用到骨架行為識別任務(wù)中。目前現(xiàn)存的兩種與圖相關(guān)的神經(jīng)網(wǎng)絡(luò)有圖循環(huán)神經(jīng)網(wǎng)絡(luò)GNN和圖卷積神經(jīng)網(wǎng)絡(luò)GCN,本綜述主要關(guān)注GCN,同時我們也會展示一些相關(guān)的先進結(jié)果。而且僅從骨架的角度來看的話,把骨架序列簡單地編碼為序列向量或2D網(wǎng)格并不能完全表達相關(guān)關(guān)節(jié)的依賴關(guān)系。圖卷積神經(jīng)網(wǎng)絡(luò)Graph convolutional neural networks作為CNN的一種泛化形式,可以應(yīng)用于骨架圖在內(nèi)的任意結(jié)構(gòu)。在基于GCN的骨架行為識別技術(shù)中,最重要的問題是如何把原始數(shù)據(jù)組織稱特定的圖結(jié)構(gòu)(還是和骨架數(shù)據(jù)的表達相關(guān))。

        Sijie和Yuanjun[31]首次提出了一種基于骨架動作識別的新模型--時空圖卷積網(wǎng)絡(luò)ST-GCN,該網(wǎng)絡(luò)首先將人的關(guān)節(jié)作為時空圖的頂點vertexs,將人體連通性和時間作為圖的邊edges;然后使用標準Softmax分類器來講ST-GCN上獲取的高級特征圖劃分為對應(yīng)的類別。這項工作讓更多人關(guān)注到使用GCN進行骨架行為識別的優(yōu)越性,因此最近出現(xiàn)了許多相關(guān)工作。

        最常見的研究集中于對骨架數(shù)據(jù)的有效使用[68,78],Maose和Siheng[68]提出的運動結(jié)構(gòu)圖卷積網(wǎng)絡(luò)(Action Structural Graph Convolutional Network, AS-GCN)不僅能夠識別人的動作,還可以使用多任務(wù)學(xué)習(xí)策略來輸出目標下一個可能的姿態(tài)pose。這項工作中構(gòu)造的圖結(jié)構(gòu)可以通過兩個子模塊Actional Links和Structual Links來捕獲關(guān)節(jié)間更豐富的依賴性。圖6展示了AS-GCN的特征學(xué)習(xí)過程和其廣義骨架圖結(jié)構(gòu),該模型中使用的多任務(wù)學(xué)習(xí)策略可能是一個很不錯的方向,因為行為識別任務(wù)可能會從其他補充任務(wù)中得到提升。

        圖6.廣義骨架圖的特征學(xué)習(xí)

        根據(jù)上述介紹和討論,最受關(guān)注的地方仍然是數(shù)據(jù)驅(qū)動的,我們要做的就是獲取3D骨架序列數(shù)據(jù)背后的潛在信息,而GCN-based行為識別主要圍繞著“如何獲取”這一問題展開,這仍然是一個開放的具有挑戰(zhàn)的問題。尤其骨架數(shù)據(jù)本身就是時空耦合的,此外將骨架數(shù)據(jù)轉(zhuǎn)換為圖時,關(guān)節(jié)和骨骼之間的連接也是時空耦合的。


        3、Latest Datasets and Performance

        骨架序列數(shù)據(jù)集主要有MSRAAction3D[79],3D Action Pairs[80],MSR Daily Activity3D[39]等,這些數(shù)據(jù)都在許多綜述中有過分析[27,35,36],所以我們這里主要分析如下兩個數(shù)據(jù)集NTU-RGB+D[22]和NTU-RGB+D 120[81]。

        NTU-RGB+D數(shù)據(jù)集在2016年提出,包含56880個視頻samples,這些樣本都是從一個大規(guī)模骨架行為識別數(shù)據(jù)集Microsoft Kinect v2上收集的,NTU-RGB+D像圖1(a)那樣提供了每個人、每個動作的25個關(guān)節(jié)的3D空間坐標。在該數(shù)據(jù)集上,建議使用兩種協(xié)議對提出的方法進行評估:跨子類Cross-Subject和跨視角Cross-View。其中Cross-Subject包含40320個訓(xùn)練樣本和16560個驗證樣本,劃分規(guī)則是根據(jù)40個subjects進行的;其中Cross-View將camera2和3作為訓(xùn)練集(37920個樣本),將camera1作為驗證集(18960個樣本)。

        近來,提出了NTU-RGB+D的擴展版本NTU-RGB+D 120,包含120個動作類別和114480個骨架序列,視角點是155個。我們將在表I中展示最近相關(guān)的骨架行為識別性能,其中CS表示Cross-Subject,CV在NTU-RGB+D表示Cross-View,在NTU-RGB+D 120表示Cross-Setting。

        表1. 最新Top10骨架行為識別算法在NTU-RGB+D和NTU-RGB+D 120數(shù)據(jù)集上的性能

        從表中可以看到現(xiàn)存的算法已經(jīng)在NTU-RGB+D數(shù)據(jù)集上取得了極好的性能,在NTU-RGB+D 120數(shù)據(jù)集上仍然還有很大進步空間。

        4、Conclusions and Discussion

        本文分別基于三種主要的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)介紹了3D骨架序列數(shù)據(jù)上的行為識別問題,在介紹中我們強調(diào)了行為識別的含義、骨架數(shù)據(jù)的優(yōu)越性和不同深度框架的特性。

        與之前的綜述數(shù)不同,我們的研究以數(shù)據(jù)驅(qū)動的方式深入了解了基于深度學(xué)習(xí)的行為識別方法,涵蓋了基于CNN、RNN、GCN的最新行為識別算法。其中RNN-Based和CNN-Based方法通過骨架數(shù)據(jù)表示和詳細的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計來解決時空特征問題,在GCN-based方法中,最重要的事情是如何充分利用關(guān)節(jié)和骨骼的信息和聯(lián)系。據(jù)此,我們得出結(jié)論:在三種不同的學(xué)習(xí)結(jié)構(gòu)中最常見的仍然是從3D骨架中獲取有效信息,而拓撲圖是人類骨架關(guān)節(jié)最自然的表示,這一點從各算法在NTU-RGB+D上的性能表現(xiàn)也可以看出來。然而, 這并不意味著CNN-based和RNN-based方法就不適合骨架行為識別任務(wù),相反的,當(dāng)在這些模型上應(yīng)用一些策略(例如多任務(wù)學(xué)習(xí))時,CV和CS性能都會得到提升。然而,在NTU-RGB+D上的精度已經(jīng)很高了,很難去進一步提升,所以注意力應(yīng)該放到更難的數(shù)據(jù)集上,例如NTU-RGB+D 120。

        至于未來方向,長期行為識別、更有效的3D骨架序列表示、實時識別等都是待解決的問題,此外無監(jiān)督和弱監(jiān)督策略以及zero-show學(xué)習(xí)也可能會得到發(fā)展。

        Peferences

        二.論文總結(jié)

        綜述文章,也沒什么好總結(jié)的,就用自己的話簡單總結(jié)一下這篇文章到底在review什么。

        1.首先這篇綜述的主題是 3D Skeleton + Deeplearning + ActionRecognition

        (1)深度學(xué)習(xí)不用說了,一般來說肯定比手工方法優(yōu)越

        (2)至于3D Skeleton, 作者就開篇先論證了一下3D Skeleton 數(shù)據(jù)的優(yōu)越性(相比RGB RGB-D)

        (3)作者給了個這個主題的基本pipeline

        作者的意思就是說:我寫這個主題算是新穎的、有意義的。

        2.以數(shù)據(jù)驅(qū)動的方式對RNN-Based、CNN-Based、GCN-Based骨架行為識別方法進行了總結(jié)

        (1)所謂數(shù)據(jù)驅(qū)動方式:討論的核心都是這三種結(jié)構(gòu)都是如何從3D骨架序列數(shù)據(jù)中構(gòu)建、獲取時空信息的。

        (2)在總結(jié)這三類方法時都是以網(wǎng)絡(luò)結(jié)構(gòu)本身的缺陷為著手點,引出各種相關(guān)方法的。最后就想說,RNN-Based和CNN-Based方法各有優(yōu)缺點,但明顯GCN更能自然地描述3D骨架數(shù)據(jù)。

        3.列舉了一下以前綜述中討論過的3D骨架行為識別數(shù)據(jù)集,然后著重描述了一下NTU-RGB+D和其擴展版NTU-RGB+D 120兩個數(shù)據(jù)集,給出最近top10算法在這兩個數(shù)據(jù)集上的表現(xiàn)。

        本篇綜述的翻譯和總結(jié)至此結(jié)束,歡迎討論~


        推薦閱讀



        添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-姿態(tài)估計-城市(如:小極-北大-姿態(tài)估計-深圳),即可申請加入極市姿態(tài)估計等技術(shù)交流群:月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

        △長按添加極市小助手

        △長按關(guān)注極市平臺,獲取最新CV干貨

        覺得有用麻煩給個在看啦~??
        瀏覽 129
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            婬色男女乱婬视频一级95 | 欧美色色网站 | asian壮年妇女pics | 亂倫近親相姦一区二区 | 日韩一区二区免费视频 | 激情综合五月天 | 涩涩爱97 | 九九色九九 | 欧美老妇性色XXⅩXXA片 | 欧美互操 |