全面綜述:基于3D骨架的深度學(xué)習(xí)行為識別方法

極市導(dǎo)讀
?本文對首篇基于3D骨架數(shù)據(jù)的深度學(xué)習(xí)行為識別方法的綜述論文進行了論文翻譯和要點總結(jié),對基于RNN、CNN和GCN的主流行為識別技術(shù)進行了全面的介紹,同時介紹了最大的3D骨架數(shù)據(jù)集及相關(guān)算法。>>>極市七夕粉絲福利活動:煉丹師們,七夕這道算法題,你會解嗎?
本文是對論文《A Survey on 3D Skeleton-Based Action Recognition Using Learning Method》學(xué)習(xí)時所做的記錄和總結(jié)。
論文鏈接:https://arxiv.org/pdf/2002.05907.pdf
發(fā)布時間:2020.2.14
作者團隊:北大&騰訊研究院
分類:計算機視覺-行為識別-基于3D骨架的行為識別-綜述
本文目錄:
一、論文翻譯
二、論文總結(jié)
一、論文翻譯
Abstract
由于關(guān)鍵點(骨架)檢測的潛在優(yōu)勢,基于3D骨架的行為識別已經(jīng)成為計算機視覺中的活躍主題,因此多年來學(xué)者們提出了許多優(yōu)秀的方法,這些方法有的使用傳統(tǒng)手工特征,有的使用學(xué)習(xí)到的特征。
然而,之前的行為識別綜述大多數(shù)集中于調(diào)研以視頻或者RGB數(shù)據(jù)為輸入的方法,關(guān)于骨架數(shù)據(jù)為輸入的方法調(diào)研的很少,一般都是直接說一下骨架數(shù)據(jù)的表示或某些經(jīng)典技術(shù)在特定數(shù)據(jù)集上的表現(xiàn);此外,盡管深度學(xué)習(xí)方法已經(jīng)在這個領(lǐng)域應(yīng)用多年,但是仍然沒有相關(guān)的研究來從深度學(xué)習(xí)結(jié)構(gòu)的角度對其進行介紹或總結(jié)。
為了打破這些限制,本綜述首先強調(diào)了行為識別的必要性和3D骨架數(shù)據(jù)的重要性;然后以數(shù)據(jù)驅(qū)動的方式對基于RNN、CNN和GCN的主流行為識別技術(shù)進行了全面的介紹;最后,我們簡要介紹了一下最大的3D骨架數(shù)據(jù)集NTU-RGB+D及其最新版本NTU-RGB+D 120,并展示了這兩個數(shù)據(jù)集中包含的幾種現(xiàn)有的頂級算法。
據(jù)我們所知,本文是首次全面討論基于3D骨架數(shù)據(jù)的深度學(xué)習(xí)行為識別方法的綜述。
1、Introduction
行為識別(Action Recognition)是計算機視覺中極其重要也非?;钴S的研究方向,它已經(jīng)被研究了數(shù)十年。因為人們可以用動作(行為)來處理事情、表達感情,因此行為識別有非常廣泛但又未被充分解決的應(yīng)用領(lǐng)域,例如智能監(jiān)控系統(tǒng)、人機交互、虛擬現(xiàn)實、機器人[1-5]等。以往的方法中都使用RGB圖像序列[6-8],深度圖像序列[9,10],視頻或者這些模態(tài)的特定融合(例如RGB+光流)[11-15],也取得了超出預(yù)期的結(jié)果。然而,和骨架數(shù)據(jù)(人體關(guān)節(jié)和骨頭的一種拓撲表示)相比,前述模態(tài)會產(chǎn)生更多的計算消耗,且在面對復(fù)雜背景以及人體尺度變化、視角變化和運動速度變化[16]時魯棒性不足。此外,像Microsoft Kinect這樣的傳感器[17]和一些先進的人體姿態(tài)估計算法[18-20]都可以讓我們更輕松地獲得準確的3D骨架(關(guān)鍵點)數(shù)據(jù)[21]。圖1展示了人體骨架數(shù)據(jù)的可視化效果。

圖1. NTU RGB+D數(shù)據(jù)集[22]的一個示例.(a)數(shù)據(jù)集中的25個身體關(guān)節(jié)(b)人體RGB和RGB+關(guān)節(jié)展示
除了與其他模態(tài)數(shù)據(jù)相比具有的優(yōu)勢,骨架序列還有如下三個主要的特點:
i)空間信息Spatial information,相鄰關(guān)節(jié)之間存在很強的相關(guān)性,因此幀內(nèi)(intra-frame)可以獲取豐富的人體結(jié)構(gòu)信息。
ii)時域信息Temporal information,幀間inter-frame可以利用時域相關(guān)信息。
iii)時空域貢獻關(guān)系Co-occurrence relationship,當(dāng)考慮關(guān)節(jié)和骨骼的時候。
因此,許多研究人員使用骨架數(shù)據(jù)來做人體行為識別或檢測,且一定會有越來越多的研究會使用骨架數(shù)據(jù)。
基于骨架序列的行為上和別主要是一個時序問題temporal problem,因此傳統(tǒng)的基于骨架的方法通常都是從特定的骨架序列中提取運動模式,這引出了許多手工特征的研究,這些手工特征經(jīng)常會利用不同關(guān)節(jié)間的相對3D旋轉(zhuǎn)和平移。然而,文獻[27]認為這些手工特征只在一些特定數(shù)據(jù)集上表現(xiàn)良好,這進一步說明了從一個數(shù)據(jù)集上提取的手工特征可能無法遷移到其他數(shù)據(jù)集上,這使得行為識別算法難以推廣或應(yīng)用到更廣泛的應(yīng)用領(lǐng)域。
隨著深度學(xué)習(xí)方法在其他在其他計算機視覺任務(wù)上的發(fā)展和先進表現(xiàn),使用骨架數(shù)據(jù)的RNN[29],CNN[30]和GCN[31]也開始出現(xiàn)。圖2展示了基于3D骨架的深度學(xué)習(xí)行為識別方法的通用pipeline(從原始的RGB序列或者視頻到最后的行為類別)。

圖2. 基于骨架的深度學(xué)習(xí)行為識別方法的通用pipeline.首先,直接從深度傳感器或者姿態(tài)估計算法獲取骨架數(shù)據(jù);然后將骨架數(shù)據(jù)輸入到RNN,CNN,GCN等神經(jīng)網(wǎng)絡(luò);最后得到行為類別。
在基于RNN的方法中,骨架序列是關(guān)節(jié)坐標的自然時間序列,這可以被視為序列向量,而RNN本身就適合于處理時間序列數(shù)據(jù)。此外,為了進一步改善學(xué)習(xí)到的關(guān)節(jié)序列的時序上下文信息,一些別的RNN(LSTM,GRU)方法也被用到骨架行為識別中。
當(dāng)使用CNN來處理這一基于骨架的任務(wù)的時候,可以將其視為基于RNN方法的補充,因為CNN結(jié)構(gòu)能更好地捕獲輸入數(shù)據(jù)的空間cues,而基于RNN的方法正缺乏空間信息的構(gòu)建。
最后,相對新的方法圖卷積神經(jīng)網(wǎng)絡(luò)GCN也有用于骨架數(shù)據(jù)處理中,因為骨架數(shù)據(jù)本身就是一個自然的拓撲圖數(shù)據(jù)結(jié)構(gòu)(關(guān)節(jié)點和骨頭可以被視為圖的節(jié)點和邊),而不是圖像或序列那樣的格式。
上述三種基于深度學(xué)習(xí)的方法都獲得了空前的表現(xiàn),但是大多數(shù)review文獻只是專注于傳統(tǒng)方法或者是基于RGB-(D)數(shù)據(jù)的深度學(xué)習(xí)方法(作者的意思就是說別的綜述在總結(jié)深度學(xué)習(xí)行為識別方法的時候都是專注于以RGB或者RGBD數(shù)據(jù)為輸入的那些方法,而本文是專注于將骨架數(shù)據(jù)作為輸入的那些深度學(xué)習(xí)行為識別方法)。
Ronald Poppe[32]首先解決了該領(lǐng)域的基本挑戰(zhàn),然后詳細介紹了關(guān)于直接分類和時間狀態(tài)空間模型的基本行為分類方法;Daniel和Remi[33]展示了行為表示在空間和時間域上的整體概況;這兩篇文章為輸入數(shù)據(jù)的預(yù)處理提供了一些啟發(fā),但是既沒有考慮骨架序列數(shù)據(jù)也沒有考慮深度學(xué)習(xí)策略。
最近,[34,35]總結(jié)了基于深度學(xué)習(xí)的視頻分類和看圖說話任務(wù),并在文中介紹了CNN和RNN的基本結(jié)構(gòu),其中[35]對常見的用于行為識別的深度結(jié)構(gòu)和定量分析進行了分析。據(jù)我們所知,[36]是最近的第一篇深入研究3D骨架行為識別的文獻,它總結(jié)了行為表示和分類方法,同時提供了一些常用的數(shù)據(jù)集,例如UCF,MHAD,MSR daily activity 3D[37-39]等,但是它沒有涵蓋到最新興起的基于GCN的方法。
最后,文獻[27]基于Kinect數(shù)據(jù)集寫了個行為識別算法綜述,該綜述對那些使用了該數(shù)據(jù)集的算法進行了全面的比較,數(shù)據(jù)的類型包括RGB,Depth,RGB-D和skeleton sequences。
然而,上述所有工作都忽略了CNN-Based、RNN-Based、GCN-Based方法之間的區(qū)別和動機,尤其是將3D骨架序列考慮在內(nèi)的時候。
為了解決這些問題,我們基于骨架數(shù)據(jù),使用三種基本的深度學(xué)習(xí)結(jié)構(gòu)(RNN,CNN,GCN),對行為識別進行了全面總結(jié),并進一步地闡釋了這些模型的動機和未來研究方向。
總的來說,我們的研究包含4個主要貢獻:
i)以詳細且簡明的方式全面介紹了3D骨架序列數(shù)據(jù)的優(yōu)越性和三種深度學(xué)習(xí)模型的特點,并舉例說明了使用3D骨架數(shù)據(jù)的基于深度學(xué)習(xí)方法的行為識別pipeline。
ii)對每種深度模型,從數(shù)據(jù)驅(qū)動的角度介紹了基于骨架數(shù)據(jù)的最新算法,例如時空建模、骨架數(shù)據(jù)表示、共現(xiàn)特征學(xué)習(xí)等方面,這些部分也是現(xiàn)存的待解決的經(jīng)典問題。
iii)首先討論最新的具有挑戰(zhàn)的數(shù)據(jù)集NTU-RGB+D 120及其附帶的幾種top-rank方法,然后討論未來的研究方向。
iv)我們是首個 “在基于3D骨架數(shù)據(jù)的行為識別研究中考慮了各種深度模型(RNN CNN GCN)”的綜述。
2、3D Skeleton-Based Action Recognition with Deep Learning
現(xiàn)有的surveys已經(jīng)從基于RGB或基于骨架的角度對現(xiàn)有的行為識別技術(shù)進行了定量和定性比較,但是沒有從神經(jīng)網(wǎng)絡(luò)的角度來比較。為此,我們分別對基于RNN的,基于CNN的,基于GCN方法進行詳盡的討論和比較。對于每個部分,將基于某些缺陷(例如這三種模型之一的缺陷或者經(jīng)典的時空建模問題的缺陷)來引入一些最新的相關(guān)工作作為案例。
(1)RNN based Methods
RNN[40]通過將上一時刻的輸出作為當(dāng)前時刻的輸入來形成其結(jié)構(gòu)內(nèi)部的遞歸連接,這被證明是一種處理序列數(shù)據(jù)的有效方法。為了彌補標準RNN的不足(例如梯度消失問題和長時建模問題),LSTM和GRU分別在RNN內(nèi)部引入了門和線性記憶單元,改進了模型性能。
第一方面,時空建模算是行為識別任務(wù)的首要原則,由于RNN結(jié)構(gòu)缺乏空間建模能力,相關(guān)的方法通常也無法取得競爭性的結(jié)果[41-43]。最近,Hong和Liang[44]提出了一個新穎的雙流RNN結(jié)構(gòu)來為骨架數(shù)據(jù)建模時域和空域特征,其中骨架軸的交換作為數(shù)據(jù)預(yù)處理來更好地學(xué)習(xí)空間域特征,該工作的框架如下圖3所示。

圖3. RNN-based Methods中提出的解決空間建模問題的示例[44].(a)在RNN的基礎(chǔ)上增加了一個新的stream來增強空間信息.(b)一種數(shù)據(jù)驅(qū)動的技術(shù)(對原始骨架序列數(shù)據(jù)進行轉(zhuǎn)換)來解決空間建模能力問題
和[44]不同的是,Jun和Amir[45]對骨架序列的遍歷方法進行了研究,以此來獲取時空域的隱藏關(guān)系。一般的方法將將關(guān)節(jié)排列成簡單的鏈,這忽略了相鄰關(guān)節(jié)的運動依賴關(guān)系,而[45]提出了基于樹結(jié)構(gòu)的關(guān)節(jié)遍歷方法,該方法在人體關(guān)節(jié)的聯(lián)系不夠牢固時也不會添加虛假連接。然后使用帶有信任門trust gate的LSTM來區(qū)分輸入,即如果樹狀輸入單元是可靠的,則將使用輸入的潛在空間信息來更新記憶單元。
受CNN適合建??臻g信息這一特性的啟發(fā),Chunyu和Baochang[46]使用注意力RNN和CNN模型來改善復(fù)雜的時空建模。首先在殘差學(xué)習(xí)模塊中使用時域注意力子模型,來重新校準骨架序列中的時域注意力,然后后接時空卷積子模型(將上一子模型輸出的校準后的關(guān)節(jié)序列視為圖像)。
此外,[47]使用一個注意力循環(huán)關(guān)系LSTM網(wǎng)絡(luò)來學(xué)習(xí)骨架序列中的時空特征,其中循環(huán)關(guān)系網(wǎng)絡(luò)recurrent relation network學(xué)習(xí)空間特征、多層LSTM學(xué)習(xí)時域特征。
第二方面,網(wǎng)絡(luò)結(jié)構(gòu)也算是RNN的固有缺點。盡管RNN的性質(zhì)決定了其適合處理序列數(shù)據(jù), 但眾所周知的是梯度爆炸和消失問題不可避免。LSTM和GRU可以在一定程度上緩解這一問題,但tanh和sigmoid激活函數(shù)可能還是會導(dǎo)致層間的梯度衰減。為了解決這一缺陷,一些新型的RNN結(jié)構(gòu)被提出[48-50],Shuai和Wanqing[50]提出了一個獨立的循環(huán)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以解決梯度爆炸和消失問題,這使得構(gòu)建一個更長更深的RNN網(wǎng)絡(luò)來學(xué)習(xí)魯棒性更好的高級語義特征成為可能。這一改進的RNN不僅可以用于骨架行為識別,也可用用于其他領(lǐng)域例如語言模型。在這種結(jié)構(gòu)中,一層內(nèi)的神經(jīng)元彼此獨立,因此可以用于處理更長的序列。
最后一個方面,即第三個方面,數(shù)據(jù)驅(qū)動方面。考慮到并不是所有的關(guān)節(jié)對行為分析有用,[51]在LSTM網(wǎng)絡(luò)中添加了全局意識關(guān)注global contex-aware attention來選擇性地關(guān)注骨架序列中信息豐富的關(guān)節(jié)。圖4(a)展示了該方法的可視化效果,從中我們可以發(fā)現(xiàn)信息量更大的關(guān)節(jié)用紅色圓圈表示,表示這些關(guān)節(jié)對該特定的行為更重要。

圖4. 基于數(shù)據(jù)驅(qū)動的方法.(a)對于給定的骨架動作,不同關(guān)節(jié)的重要性不同[51];(b)特征表示過程,從左至右分別是原始輸入的骨架幀、轉(zhuǎn)換后的輸入幀和提取到的顯著運動特征[52]
另外,由于數(shù)據(jù)集或深度傳感器所提供的骨架并不是完美的,這可能會影響行為識別任務(wù)的結(jié)果,所以[52]將骨架轉(zhuǎn)換為另一種坐標系統(tǒng)來提升尺度變化、旋轉(zhuǎn)、平移的魯棒性,然后從轉(zhuǎn)換后的數(shù)據(jù)中提取顯著運動特征,而不是直接將原始骨架數(shù)據(jù)輸入到LSTM中,圖4(b)展示了這一特征表示過程。
除了上述這些,還有很多有價值的使用RNN的方法著眼于大視角變化、單個骨架中各關(guān)節(jié)的關(guān)系等問題。然而,我們必須承認在特定的建模方面RNN-based的方法確實比CNN based方法弱,接下來討論另一個有趣的問題:CNN-based方法如果進行時域信息建模以及如何找到時空信息的相對平衡點。
(2)CNN based Methods
卷積神經(jīng)網(wǎng)絡(luò)也被用于基于骨架的行為識別。和RNN不同的是,CNN憑借其自然、出色的高級信息提取能力可以有效且輕松地學(xué)習(xí)高級語義cues。不過CNN通常專注于image-based任務(wù),而基于骨架序列的行為識別任務(wù)毫無疑問是一個強時間依賴的問題。所以在基于CNN的架構(gòu)中,如何平衡且更充分地利用空間信息和時域信息就非常有挑戰(zhàn)了。
為了滿足CNN輸入的需要,3D骨架序列數(shù)據(jù)通常要從向量序列轉(zhuǎn)換為偽圖像,然而,要同時具有時空信息的相關(guān)表示pertinent representation并不容易,因此許多研究者將骨架關(guān)節(jié)編碼為多個2D偽圖像,然后將其輸入到CNN中來學(xué)習(xí)有用的特征[53,54]。
Wang[55]提出了關(guān)聯(lián)軌跡圖(Joint Trajectory Maps, JTM),它通過顏色編碼將關(guān)節(jié)軌跡的空間配置和動態(tài)信息spatial configuration and dynamics of joint trajectories表示為三個紋理圖像。然而,這種方法有點復(fù)雜,且在映射過程中丟失了重要信息。為了克服這一缺陷,Bo和Mingyi[56]使用平移不變的圖像映射策略,先根據(jù)人體物體結(jié)構(gòu)把每幀圖像的人體骨架關(guān)節(jié)分為五個主要部分,然后把這些部分映射為2D形式。這種方法是的骨架圖像同時包含了時域信息和空間信息。然而,雖然性能得到改善,但是將人體骨架關(guān)節(jié)作為孤立的點是不合理的,因為在真是世界中整個身體的各個部分都會存在緊密的聯(lián)系。例如當(dāng)我們揮手的時候,不僅僅要考慮和手直接相關(guān)的關(guān)節(jié),還要考慮其他部分的情況,例如肩膀和腿也需要被考慮。
Yanshan和Rongjie[57]從幾何代數(shù)中提出了形狀運動表示法shape-motion representaion,解決了關(guān)節(jié)和骨骼的重要性,充分利用了骨架序列所提供的信息,如圖5(a)所示。
類似的,[2]也使用了增強的骨架可視化來表示骨架數(shù)據(jù),Carlos和Jessica[58]基于運動信息提出新的表示方法(命名為SkeleMotion),該方法通過顯式計算關(guān)節(jié)運動的幅度和方向值來編碼時間動態(tài)信息,如圖5(b)所示。
此外,和SkeleMotion類似,[59]使用SkeleMotion的框架但是基于樹結(jié)構(gòu)和參考關(guān)節(jié)來表示骨架圖像。

圖5. 骨架圖像表示方法展示.(a)Northwestern-UCLA數(shù)據(jù)集[60]上“單手俯臥撐”動作的shape-motion表示[57];(b)SkeleMotion表示的工作流程[58].
這些CNN-based方法通常把時域動態(tài)和關(guān)節(jié)簡單地編碼為行和列,來將骨架序列表示為圖像,因此卷積的時候僅考慮了卷積核內(nèi)的相鄰關(guān)節(jié)來學(xué)習(xí)共現(xiàn)特征,也就是說,對每個關(guān)節(jié)來說,一些潛在相關(guān)的關(guān)節(jié)會被忽略,因此CNN不能學(xué)習(xí)到相應(yīng)的有用的特征。Chao和Qiaoyong[61]使用一個端到端的框架通過分層方法來學(xué)習(xí)共現(xiàn)特征,在該框架中逐步匯總不同層級的上下文信息。首先對點級point-level信息進行獨立編碼,然后在時域和空域?qū)⑺鼈兘M合成語義表示。
在CNN-Based的技術(shù)中,除了3D骨架序列表示之外也有一些別的問題,例如模型的大小和速度[3],CNN的架構(gòu)(雙流或者單流[62]),遮擋,視角變化等等[2,3]。所以使用CNN來解決基于骨架的行為識別任務(wù)仍是一個開放的問題,需要研究人員進行深入研究。
(3)GCN based Methods
人類3D骨架數(shù)據(jù)是自然的拓撲圖,而不是一系列向量(RNN-based方法中的思路)或是偽圖像(CNN-based方法中的思路),因此GCN(能夠有效表示圖形結(jié)構(gòu)數(shù)據(jù))最近被頻繁地用到骨架行為識別任務(wù)中。目前現(xiàn)存的兩種與圖相關(guān)的神經(jīng)網(wǎng)絡(luò)有圖循環(huán)神經(jīng)網(wǎng)絡(luò)GNN和圖卷積神經(jīng)網(wǎng)絡(luò)GCN,本綜述主要關(guān)注GCN,同時我們也會展示一些相關(guān)的先進結(jié)果。而且僅從骨架的角度來看的話,把骨架序列簡單地編碼為序列向量或2D網(wǎng)格并不能完全表達相關(guān)關(guān)節(jié)的依賴關(guān)系。圖卷積神經(jīng)網(wǎng)絡(luò)Graph convolutional neural networks作為CNN的一種泛化形式,可以應(yīng)用于骨架圖在內(nèi)的任意結(jié)構(gòu)。在基于GCN的骨架行為識別技術(shù)中,最重要的問題是如何把原始數(shù)據(jù)組織稱特定的圖結(jié)構(gòu)(還是和骨架數(shù)據(jù)的表達相關(guān))。
Sijie和Yuanjun[31]首次提出了一種基于骨架動作識別的新模型--時空圖卷積網(wǎng)絡(luò)ST-GCN,該網(wǎng)絡(luò)首先將人的關(guān)節(jié)作為時空圖的頂點vertexs,將人體連通性和時間作為圖的邊edges;然后使用標準Softmax分類器來講ST-GCN上獲取的高級特征圖劃分為對應(yīng)的類別。這項工作讓更多人關(guān)注到使用GCN進行骨架行為識別的優(yōu)越性,因此最近出現(xiàn)了許多相關(guān)工作。
最常見的研究集中于對骨架數(shù)據(jù)的有效使用[68,78],Maose和Siheng[68]提出的運動結(jié)構(gòu)圖卷積網(wǎng)絡(luò)(Action Structural Graph Convolutional Network, AS-GCN)不僅能夠識別人的動作,還可以使用多任務(wù)學(xué)習(xí)策略來輸出目標下一個可能的姿態(tài)pose。這項工作中構(gòu)造的圖結(jié)構(gòu)可以通過兩個子模塊Actional Links和Structual Links來捕獲關(guān)節(jié)間更豐富的依賴性。圖6展示了AS-GCN的特征學(xué)習(xí)過程和其廣義骨架圖結(jié)構(gòu),該模型中使用的多任務(wù)學(xué)習(xí)策略可能是一個很不錯的方向,因為行為識別任務(wù)可能會從其他補充任務(wù)中得到提升。

圖6.廣義骨架圖的特征學(xué)習(xí)
根據(jù)上述介紹和討論,最受關(guān)注的地方仍然是數(shù)據(jù)驅(qū)動的,我們要做的就是獲取3D骨架序列數(shù)據(jù)背后的潛在信息,而GCN-based行為識別主要圍繞著“如何獲取”這一問題展開,這仍然是一個開放的具有挑戰(zhàn)的問題。尤其骨架數(shù)據(jù)本身就是時空耦合的,此外將骨架數(shù)據(jù)轉(zhuǎn)換為圖時,關(guān)節(jié)和骨骼之間的連接也是時空耦合的。
3、Latest Datasets and Performance
骨架序列數(shù)據(jù)集主要有MSRAAction3D[79],3D Action Pairs[80],MSR Daily Activity3D[39]等,這些數(shù)據(jù)都在許多綜述中有過分析[27,35,36],所以我們這里主要分析如下兩個數(shù)據(jù)集NTU-RGB+D[22]和NTU-RGB+D 120[81]。
NTU-RGB+D數(shù)據(jù)集在2016年提出,包含56880個視頻samples,這些樣本都是從一個大規(guī)模骨架行為識別數(shù)據(jù)集Microsoft Kinect v2上收集的,NTU-RGB+D像圖1(a)那樣提供了每個人、每個動作的25個關(guān)節(jié)的3D空間坐標。在該數(shù)據(jù)集上,建議使用兩種協(xié)議對提出的方法進行評估:跨子類Cross-Subject和跨視角Cross-View。其中Cross-Subject包含40320個訓(xùn)練樣本和16560個驗證樣本,劃分規(guī)則是根據(jù)40個subjects進行的;其中Cross-View將camera2和3作為訓(xùn)練集(37920個樣本),將camera1作為驗證集(18960個樣本)。
近來,提出了NTU-RGB+D的擴展版本NTU-RGB+D 120,包含120個動作類別和114480個骨架序列,視角點是155個。我們將在表I中展示最近相關(guān)的骨架行為識別性能,其中CS表示Cross-Subject,CV在NTU-RGB+D表示Cross-View,在NTU-RGB+D 120表示Cross-Setting。

表1. 最新Top10骨架行為識別算法在NTU-RGB+D和NTU-RGB+D 120數(shù)據(jù)集上的性能
從表中可以看到現(xiàn)存的算法已經(jīng)在NTU-RGB+D數(shù)據(jù)集上取得了極好的性能,在NTU-RGB+D 120數(shù)據(jù)集上仍然還有很大進步空間。
4、Conclusions and Discussion
本文分別基于三種主要的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)介紹了3D骨架序列數(shù)據(jù)上的行為識別問題,在介紹中我們強調(diào)了行為識別的含義、骨架數(shù)據(jù)的優(yōu)越性和不同深度框架的特性。
與之前的綜述數(shù)不同,我們的研究以數(shù)據(jù)驅(qū)動的方式深入了解了基于深度學(xué)習(xí)的行為識別方法,涵蓋了基于CNN、RNN、GCN的最新行為識別算法。其中RNN-Based和CNN-Based方法通過骨架數(shù)據(jù)表示和詳細的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計來解決時空特征問題,在GCN-based方法中,最重要的事情是如何充分利用關(guān)節(jié)和骨骼的信息和聯(lián)系。據(jù)此,我們得出結(jié)論:在三種不同的學(xué)習(xí)結(jié)構(gòu)中最常見的仍然是從3D骨架中獲取有效信息,而拓撲圖是人類骨架關(guān)節(jié)最自然的表示,這一點從各算法在NTU-RGB+D上的性能表現(xiàn)也可以看出來。然而, 這并不意味著CNN-based和RNN-based方法就不適合骨架行為識別任務(wù),相反的,當(dāng)在這些模型上應(yīng)用一些策略(例如多任務(wù)學(xué)習(xí))時,CV和CS性能都會得到提升。然而,在NTU-RGB+D上的精度已經(jīng)很高了,很難去進一步提升,所以注意力應(yīng)該放到更難的數(shù)據(jù)集上,例如NTU-RGB+D 120。
至于未來方向,長期行為識別、更有效的3D骨架序列表示、實時識別等都是待解決的問題,此外無監(jiān)督和弱監(jiān)督策略以及zero-show學(xué)習(xí)也可能會得到發(fā)展。
Peferences
二.論文總結(jié)
綜述文章,也沒什么好總結(jié)的,就用自己的話簡單總結(jié)一下這篇文章到底在review什么。
1.首先這篇綜述的主題是 3D Skeleton + Deeplearning + ActionRecognition
(1)深度學(xué)習(xí)不用說了,一般來說肯定比手工方法優(yōu)越
(2)至于3D Skeleton, 作者就開篇先論證了一下3D Skeleton 數(shù)據(jù)的優(yōu)越性(相比RGB RGB-D)
(3)作者給了個這個主題的基本pipeline
作者的意思就是說:我寫這個主題算是新穎的、有意義的。
2.以數(shù)據(jù)驅(qū)動的方式對RNN-Based、CNN-Based、GCN-Based骨架行為識別方法進行了總結(jié)
(1)所謂數(shù)據(jù)驅(qū)動方式:討論的核心都是這三種結(jié)構(gòu)都是如何從3D骨架序列數(shù)據(jù)中構(gòu)建、獲取時空信息的。
(2)在總結(jié)這三類方法時都是以網(wǎng)絡(luò)結(jié)構(gòu)本身的缺陷為著手點,引出各種相關(guān)方法的。最后就想說,RNN-Based和CNN-Based方法各有優(yōu)缺點,但明顯GCN更能自然地描述3D骨架數(shù)據(jù)。
3.列舉了一下以前綜述中討論過的3D骨架行為識別數(shù)據(jù)集,然后著重描述了一下NTU-RGB+D和其擴展版NTU-RGB+D 120兩個數(shù)據(jù)集,給出最近top10算法在這兩個數(shù)據(jù)集上的表現(xiàn)。
本篇綜述的翻譯和總結(jié)至此結(jié)束,歡迎討論~
推薦閱讀
two/one-stage,anchor-based/free目標檢測發(fā)展及總結(jié):一文了解目標檢測:https://zhuanlan.zhihu.com/p/100823629
人體關(guān)鍵點檢測(姿態(tài)估計)簡介+分類匯總:https://zhuanlan.zhihu.com/p/102457223
一文了解通用行為識別ActionRecognition:了解及分類:https://zhuanlan.zhihu.com/p/103566134

