大香蕉中文视频,出轨的女人高潮叫床视频网站,天堂网在线播放,777黄色,艹逼电影网站,久久99国产精品成人,成人性爱视频网,狼窝色中色

↑ 點擊藍字?關(guān)注極市平臺

作者丨凡心所向素履所往@知乎

來源丨知乎專欄：我的計算機視覺，https://zhuanlan.zhihu.com/p/107983551

極市導(dǎo)讀

本文對首篇基于3D骨架數(shù)據(jù)的深度學(xué)習(xí)行為識別方法的綜述論文進行了論文翻譯和要點總結(jié)，對基于RNN、CNN和GCN的主流行為識別技術(shù)進行了全面的介紹，同時介紹了最大的3D骨架數(shù)據(jù)集及相關(guān)算法。>>>極市七夕粉絲福利活動：煉丹師們，七夕這道算法題，你會解嗎？

本文是對論文《A Survey on 3D Skeleton-Based Action Recognition Using Learning Method》學(xué)習(xí)時所做的記錄和總結(jié)。

論文鏈接：https://arxiv.org/pdf/2002.05907.pdf

發(fā)布時間：2020.2.14

作者團隊：北大&騰訊研究院

分類：計算機視覺-行為識別-基于3D骨架的行為識別-綜述

本文目錄：

一、論文翻譯

二、論文總結(jié)

一、論文翻譯

Abstract

由于關(guān)鍵點（骨架）檢測的潛在優(yōu)勢，基于3D骨架的行為識別已經(jīng)成為計算機視覺中的活躍主題，因此多年來學(xué)者們提出了許多優(yōu)秀的方法，這些方法有的使用傳統(tǒng)手工特征，有的使用學(xué)習(xí)到的特征。

然而，之前的行為識別綜述大多數(shù)集中于調(diào)研以視頻或者RGB數(shù)據(jù)為輸入的方法，關(guān)于骨架數(shù)據(jù)為輸入的方法調(diào)研的很少，一般都是直接說一下骨架數(shù)據(jù)的表示或某些經(jīng)典技術(shù)在特定數(shù)據(jù)集上的表現(xiàn)；此外，盡管深度學(xué)習(xí)方法已經(jīng)在這個領(lǐng)域應(yīng)用多年，但是仍然沒有相關(guān)的研究來從深度學(xué)習(xí)結(jié)構(gòu)的角度對其進行介紹或總結(jié)。

為了打破這些限制，本綜述首先強調(diào)了行為識別的必要性和3D骨架數(shù)據(jù)的重要性；然后以數(shù)據(jù)驅(qū)動的方式對基于RNN、CNN和GCN的主流行為識別技術(shù)進行了全面的介紹；最后，我們簡要介紹了一下最大的3D骨架數(shù)據(jù)集NTU-RGB+D及其最新版本NTU-RGB+D 120，并展示了這兩個數(shù)據(jù)集中包含的幾種現(xiàn)有的頂級算法。

據(jù)我們所知，本文是首次全面討論基于3D骨架數(shù)據(jù)的深度學(xué)習(xí)行為識別方法的綜述。

1、Introduction

行為識別（Action Recognition）是計算機視覺中極其重要也非?；钴S的研究方向，它已經(jīng)被研究了數(shù)十年。因為人們可以用動作（行為）來處理事情、表達感情，因此行為識別有非常廣泛但又未被充分解決的應(yīng)用領(lǐng)域，例如智能監(jiān)控系統(tǒng)、人機交互、虛擬現(xiàn)實、機器人[1-5]等。以往的方法中都使用RGB圖像序列[6-8]，深度圖像序列[9,10]，視頻或者這些模態(tài)的特定融合（例如RGB+光流）[11-15]，也取得了超出預(yù)期的結(jié)果。然而，和骨架數(shù)據(jù)（人體關(guān)節(jié)和骨頭的一種拓撲表示）相比，前述模態(tài)會產(chǎn)生更多的計算消耗，且在面對復(fù)雜背景以及人體尺度變化、視角變化和運動速度變化[16]時魯棒性不足。此外，像Microsoft Kinect這樣的傳感器[17]和一些先進的人體姿態(tài)估計算法[18-20]都可以讓我們更輕松地獲得準確的3D骨架(關(guān)鍵點)數(shù)據(jù)[21]。圖1展示了人體骨架數(shù)據(jù)的可視化效果。

圖1. NTU RGB+D數(shù)據(jù)集[22]的一個示例.(a)數(shù)據(jù)集中的25個身體關(guān)節(jié)(b)人體RGB和RGB+關(guān)節(jié)展示

除了與其他模態(tài)數(shù)據(jù)相比具有的優(yōu)勢，骨架序列還有如下三個主要的特點：

i）空間信息Spatial information，相鄰關(guān)節(jié)之間存在很強的相關(guān)性，因此幀內(nèi)(intra-frame)可以獲取豐富的人體結(jié)構(gòu)信息。

ii）時域信息Temporal information，幀間inter-frame可以利用時域相關(guān)信息。

iii）時空域貢獻關(guān)系Co-occurrence relationship，當(dāng)考慮關(guān)節(jié)和骨骼的時候。

因此，許多研究人員使用骨架數(shù)據(jù)來做人體行為識別或檢測，且一定會有越來越多的研究會使用骨架數(shù)據(jù)。

基于骨架序列的行為上和別主要是一個時序問題temporal problem，因此傳統(tǒng)的基于骨架的方法通常都是從特定的骨架序列中提取運動模式，這引出了許多手工特征的研究，這些手工特征經(jīng)常會利用不同關(guān)節(jié)間的相對3D旋轉(zhuǎn)和平移。然而，文獻[27]認為這些手工特征只在一些特定數(shù)據(jù)集上表現(xiàn)良好，這進一步說明了從一個數(shù)據(jù)集上提取的手工特征可能無法遷移到其他數(shù)據(jù)集上，這使得行為識別算法難以推廣或應(yīng)用到更廣泛的應(yīng)用領(lǐng)域。

隨著深度學(xué)習(xí)方法在其他在其他計算機視覺任務(wù)上的發(fā)展和先進表現(xiàn)，使用骨架數(shù)據(jù)的RNN[29],CNN[30]和GCN[31]也開始出現(xiàn)。圖2展示了基于3D骨架的深度學(xué)習(xí)行為識別方法的通用pipeline（從原始的RGB序列或者視頻到最后的行為類別）。

圖2. 基于骨架的深度學(xué)習(xí)行為識別方法的通用pipeline.首先，直接從深度傳感器或者姿態(tài)估計算法獲取骨架數(shù)據(jù)；然后將骨架數(shù)據(jù)輸入到RNN,CNN,GCN等神經(jīng)網(wǎng)絡(luò)；最后得到行為類別。

在基于RNN的方法中，骨架序列是關(guān)節(jié)坐標的自然時間序列，這可以被視為序列向量，而RNN本身就適合于處理時間序列數(shù)據(jù)。此外，為了進一步改善學(xué)習(xí)到的關(guān)節(jié)序列的時序上下文信息，一些別的RNN(LSTM,GRU)方法也被用到骨架行為識別中。

當(dāng)使用CNN來處理這一基于骨架的任務(wù)的時候，可以將其視為基于RNN方法的補充，因為CNN結(jié)構(gòu)能更好地捕獲輸入數(shù)據(jù)的空間cues，而基于RNN的方法正缺乏空間信息的構(gòu)建。

最后，相對新的方法圖卷積神經(jīng)網(wǎng)絡(luò)GCN也有用于骨架數(shù)據(jù)處理中，因為骨架數(shù)據(jù)本身就是一個自然的拓撲圖數(shù)據(jù)結(jié)構(gòu)（關(guān)節(jié)點和骨頭可以被視為圖的節(jié)點和邊），而不是圖像或序列那樣的格式。

上述三種基于深度學(xué)習(xí)的方法都獲得了空前的表現(xiàn)，但是大多數(shù)review文獻只是專注于傳統(tǒng)方法或者是基于RGB-(D)數(shù)據(jù)的深度學(xué)習(xí)方法（作者的意思就是說別的綜述在總結(jié)深度學(xué)習(xí)行為識別方法的時候都是專注于以RGB或者RGBD數(shù)據(jù)為輸入的那些方法，而本文是專注于將骨架數(shù)據(jù)作為輸入的那些深度學(xué)習(xí)行為識別方法）。

Ronald Poppe[32]首先解決了該領(lǐng)域的基本挑戰(zhàn)，然后詳細介紹了關(guān)于直接分類和時間狀態(tài)空間模型的基本行為分類方法；Daniel和Remi[33]展示了行為表示在空間和時間域上的整體概況；這兩篇文章為輸入數(shù)據(jù)的預(yù)處理提供了一些啟發(fā)，但是既沒有考慮骨架序列數(shù)據(jù)也沒有考慮深度學(xué)習(xí)策略。

最近，[34,35]總結(jié)了基于深度學(xué)習(xí)的視頻分類和看圖說話任務(wù)，并在文中介紹了CNN和RNN的基本結(jié)構(gòu)，其中[35]對常見的用于行為識別的深度結(jié)構(gòu)和定量分析進行了分析。據(jù)我們所知，[36]是最近的第一篇深入研究3D骨架行為識別的文獻，它總結(jié)了行為表示和分類方法，同時提供了一些常用的數(shù)據(jù)集，例如UCF,MHAD,MSR daily activity 3D[37-39]等，但是它沒有涵蓋到最新興起的基于GCN的方法。

最后，文獻[27]基于Kinect數(shù)據(jù)集寫了個行為識別算法綜述，該綜述對那些使用了該數(shù)據(jù)集的算法進行了全面的比較，數(shù)據(jù)的類型包括RGB,Depth，RGB-D和skeleton sequences。

然而，上述所有工作都忽略了CNN-Based、RNN-Based、GCN-Based方法之間的區(qū)別和動機，尤其是將3D骨架序列考慮在內(nèi)的時候。

為了解決這些問題，我們基于骨架數(shù)據(jù)，使用三種基本的深度學(xué)習(xí)結(jié)構(gòu)（RNN,CNN,GCN），對行為識別進行了全面總結(jié)，并進一步地闡釋了這些模型的動機和未來研究方向。

總的來說，我們的研究包含4個主要貢獻：

i）以詳細且簡明的方式全面介紹了3D骨架序列數(shù)據(jù)的優(yōu)越性和三種深度學(xué)習(xí)模型的特點，并舉例說明了使用3D骨架數(shù)據(jù)的基于深度學(xué)習(xí)方法的行為識別pipeline。

ii）對每種深度模型，從數(shù)據(jù)驅(qū)動的角度介紹了基于骨架數(shù)據(jù)的最新算法，例如時空建模、骨架數(shù)據(jù)表示、共現(xiàn)特征學(xué)習(xí)等方面，這些部分也是現(xiàn)存的待解決的經(jīng)典問題。

iii）首先討論最新的具有挑戰(zhàn)的數(shù)據(jù)集NTU-RGB+D 120及其附帶的幾種top-rank方法，然后討論未來的研究方向。

iv）我們是首個 “在基于3D骨架數(shù)據(jù)的行為識別研究中考慮了各種深度模型（RNN CNN GCN）”的綜述。

2、3D Skeleton-Based Action Recognition with Deep Learning

現(xiàn)有的surveys已經(jīng)從基于RGB或基于骨架的角度對現(xiàn)有的行為識別技術(shù)進行了定量和定性比較，但是沒有從神經(jīng)網(wǎng)絡(luò)的角度來比較。為此，我們分別對基于RNN的，基于CNN的，基于GCN方法進行詳盡的討論和比較。對于每個部分，將基于某些缺陷（例如這三種模型之一的缺陷或者經(jīng)典的時空建模問題的缺陷）來引入一些最新的相關(guān)工作作為案例。

（1）RNN based Methods

RNN[40]通過將上一時刻的輸出作為當(dāng)前時刻的輸入來形成其結(jié)構(gòu)內(nèi)部的遞歸連接，這被證明是一種處理序列數(shù)據(jù)的有效方法。為了彌補標準RNN的不足（例如梯度消失問題和長時建模問題），LSTM和GRU分別在RNN內(nèi)部引入了門和線性記憶單元，改進了模型性能。

第一方面，時空建模算是行為識別任務(wù)的首要原則，由于RNN結(jié)構(gòu)缺乏空間建模能力，相關(guān)的方法通常也無法取得競爭性的結(jié)果[41-43]。最近，Hong和Liang[44]提出了一個新穎的雙流RNN結(jié)構(gòu)來為骨架數(shù)據(jù)建模時域和空域特征，其中骨架軸的交換作為數(shù)據(jù)預(yù)處理來更好地學(xué)習(xí)空間域特征，該工作的框架如下圖3所示。

圖3. RNN-based Methods中提出的解決空間建模問題的示例[44].(a)在RNN的基礎(chǔ)上增加了一個新的stream來增強空間信息.(b)一種數(shù)據(jù)驅(qū)動的技術(shù)（對原始骨架序列數(shù)據(jù)進行轉(zhuǎn)換）來解決空間建模能力問題

和[44]不同的是，Jun和Amir[45]對骨架序列的遍歷方法進行了研究，以此來獲取時空域的隱藏關(guān)系。一般的方法將將關(guān)節(jié)排列成簡單的鏈，這忽略了相鄰關(guān)節(jié)的運動依賴關(guān)系，而[45]提出了基于樹結(jié)構(gòu)的關(guān)節(jié)遍歷方法，該方法在人體關(guān)節(jié)的聯(lián)系不夠牢固時也不會添加虛假連接。然后使用帶有信任門trust gate的LSTM來區(qū)分輸入，即如果樹狀輸入單元是可靠的，則將使用輸入的潛在空間信息來更新記憶單元。

受CNN適合建?？臻g信息這一特性的啟發(fā)，Chunyu和Baochang[46]使用注意力RNN和CNN模型來改善復(fù)雜的時空建模。首先在殘差學(xué)習(xí)模塊中使用時域注意力子模型，來重新校準骨架序列中的時域注意力，然后后接時空卷積子模型（將上一子模型輸出的校準后的關(guān)節(jié)序列視為圖像）。

此外，[47]使用一個注意力循環(huán)關(guān)系LSTM網(wǎng)絡(luò)來學(xué)習(xí)骨架序列中的時空特征，其中循環(huán)關(guān)系網(wǎng)絡(luò)recurrent relation network學(xué)習(xí)空間特征、多層LSTM學(xué)習(xí)時域特征。

第二方面，網(wǎng)絡(luò)結(jié)構(gòu)也算是RNN的固有缺點。盡管RNN的性質(zhì)決定了其適合處理序列數(shù)據(jù)，但眾所周知的是梯度爆炸和消失問題不可避免。LSTM和GRU可以在一定程度上緩解這一問題，但tanh和sigmoid激活函數(shù)可能還是會導(dǎo)致層間的梯度衰減。為了解決這一缺陷，一些新型的RNN結(jié)構(gòu)被提出[48-50]，Shuai和Wanqing[50]提出了一個獨立的循環(huán)神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)可以解決梯度爆炸和消失問題，這使得構(gòu)建一個更長更深的RNN網(wǎng)絡(luò)來學(xué)習(xí)魯棒性更好的高級語義特征成為可能。這一改進的RNN不僅可以用于骨架行為識別，也可用用于其他領(lǐng)域例如語言模型。在這種結(jié)構(gòu)中，一層內(nèi)的神經(jīng)元彼此獨立，因此可以用于處理更長的序列。

最后一個方面，即第三個方面，數(shù)據(jù)驅(qū)動方面。考慮到并不是所有的關(guān)節(jié)對行為分析有用，[51]在LSTM網(wǎng)絡(luò)中添加了全局意識關(guān)注global contex-aware attention來選擇性地關(guān)注骨架序列中信息豐富的關(guān)節(jié)。圖4（a）展示了該方法的可視化效果，從中我們可以發(fā)現(xiàn)信息量更大的關(guān)節(jié)用紅色圓圈表示，表示這些關(guān)節(jié)對該特定的行為更重要。

圖4. 基于數(shù)據(jù)驅(qū)動的方法.(a)對于給定的骨架動作，不同關(guān)節(jié)的重要性不同[51];(b)特征表示過程，從左至右分別是原始輸入的骨架幀、轉(zhuǎn)換后的輸入幀和提取到的顯著運動特征[52]

另外，由于數(shù)據(jù)集或深度傳感器所提供的骨架并不是完美的，這可能會影響行為識別任務(wù)的結(jié)果，所以[52]將骨架轉(zhuǎn)換為另一種坐標系統(tǒng)來提升尺度變化、旋轉(zhuǎn)、平移的魯棒性，然后從轉(zhuǎn)換后的數(shù)據(jù)中提取顯著運動特征，而不是直接將原始骨架數(shù)據(jù)輸入到LSTM中，圖4（b）展示了這一特征表示過程。

除了上述這些，還有很多有價值的使用RNN的方法著眼于大視角變化、單個骨架中各關(guān)節(jié)的關(guān)系等問題。然而，我們必須承認在特定的建模方面RNN-based的方法確實比CNN based方法弱，接下來討論另一個有趣的問題：CNN-based方法如果進行時域信息建模以及如何找到時空信息的相對平衡點。

（2）CNN based Methods

卷積神經(jīng)網(wǎng)絡(luò)也被用于基于骨架的行為識別。和RNN不同的是，CNN憑借其自然、出色的高級信息提取能力可以有效且輕松地學(xué)習(xí)高級語義cues。不過CNN通常專注于image-based任務(wù)，而基于骨架序列的行為識別任務(wù)毫無疑問是一個強時間依賴的問題。所以在基于CNN的架構(gòu)中，如何平衡且更充分地利用空間信息和時域信息就非常有挑戰(zhàn)了。

為了滿足CNN輸入的需要，3D骨架序列數(shù)據(jù)通常要從向量序列轉(zhuǎn)換為偽圖像，然而，要同時具有時空信息的相關(guān)表示pertinent representation并不容易，因此許多研究者將骨架關(guān)節(jié)編碼為多個2D偽圖像，然后將其輸入到CNN中來學(xué)習(xí)有用的特征[53,54]。

Wang[55]提出了關(guān)聯(lián)軌跡圖(Joint Trajectory Maps, JTM)，它通過顏色編碼將關(guān)節(jié)軌跡的空間配置和動態(tài)信息spatial configuration and dynamics of joint trajectories表示為三個紋理圖像。然而，這種方法有點復(fù)雜，且在映射過程中丟失了重要信息。為了克服這一缺陷，Bo和Mingyi[56]使用平移不變的圖像映射策略，先根據(jù)人體物體結(jié)構(gòu)把每幀圖像的人體骨架關(guān)節(jié)分為五個主要部分，然后把這些部分映射為2D形式。這種方法是的骨架圖像同時包含了時域信息和空間信息。然而，雖然性能得到改善，但是將人體骨架關(guān)節(jié)作為孤立的點是不合理的，因為在真是世界中整個身體的各個部分都會存在緊密的聯(lián)系。例如當(dāng)我們揮手的時候，不僅僅要考慮和手直接相關(guān)的關(guān)節(jié)，還要考慮其他部分的情況，例如肩膀和腿也需要被考慮。

Yanshan和Rongjie[57]從幾何代數(shù)中提出了形狀運動表示法shape-motion representaion，解決了關(guān)節(jié)和骨骼的重要性，充分利用了骨架序列所提供的信息，如圖5（a）所示。

類似的，[2]也使用了增強的骨架可視化來表示骨架數(shù)據(jù)，Carlos和Jessica[58]基于運動信息提出新的表示方法（命名為SkeleMotion），該方法通過顯式計算關(guān)節(jié)運動的幅度和方向值來編碼時間動態(tài)信息，如圖5（b）所示。

此外，和SkeleMotion類似，[59]使用SkeleMotion的框架但是基于樹結(jié)構(gòu)和參考關(guān)節(jié)來表示骨架圖像。

圖5. 骨架圖像表示方法展示.(a)Northwestern-UCLA數(shù)據(jù)集[60]上“單手俯臥撐”動作的shape-motion表示[57];(b)SkeleMotion表示的工作流程[58].

這些CNN-based方法通常把時域動態(tài)和關(guān)節(jié)簡單地編碼為行和列，來將骨架序列表示為圖像，因此卷積的時候僅考慮了卷積核內(nèi)的相鄰關(guān)節(jié)來學(xué)習(xí)共現(xiàn)特征，也就是說，對每個關(guān)節(jié)來說，一些潛在相關(guān)的關(guān)節(jié)會被忽略，因此CNN不能學(xué)習(xí)到相應(yīng)的有用的特征。Chao和Qiaoyong[61]使用一個端到端的框架通過分層方法來學(xué)習(xí)共現(xiàn)特征，在該框架中逐步匯總不同層級的上下文信息。首先對點級point-level信息進行獨立編碼，然后在時域和空域?qū)⑺鼈兘M合成語義表示。

在CNN-Based的技術(shù)中，除了3D骨架序列表示之外也有一些別的問題，例如模型的大小和速度[3]，CNN的架構(gòu)（雙流或者單流[62]），遮擋，視角變化等等[2,3]。所以使用CNN來解決基于骨架的行為識別任務(wù)仍是一個開放的問題，需要研究人員進行深入研究。

（3）GCN based Methods

人類3D骨架數(shù)據(jù)是自然的拓撲圖，而不是一系列向量（RNN-based方法中的思路）或是偽圖像（CNN-based方法中的思路），因此GCN（能夠有效表示圖形結(jié)構(gòu)數(shù)據(jù)）最近被頻繁地用到骨架行為識別任務(wù)中。目前現(xiàn)存的兩種與圖相關(guān)的神經(jīng)網(wǎng)絡(luò)有圖循環(huán)神經(jīng)網(wǎng)絡(luò)GNN和圖卷積神經(jīng)網(wǎng)絡(luò)GCN，本綜述主要關(guān)注GCN，同時我們也會展示一些相關(guān)的先進結(jié)果。而且僅從骨架的角度來看的話，把骨架序列簡單地編碼為序列向量或2D網(wǎng)格并不能完全表達相關(guān)關(guān)節(jié)的依賴關(guān)系。圖卷積神經(jīng)網(wǎng)絡(luò)Graph convolutional neural networks作為CNN的一種泛化形式，可以應(yīng)用于骨架圖在內(nèi)的任意結(jié)構(gòu)。在基于GCN的骨架行為識別技術(shù)中，最重要的問題是如何把原始數(shù)據(jù)組織稱特定的圖結(jié)構(gòu)（還是和骨架數(shù)據(jù)的表達相關(guān)）。

Sijie和Yuanjun[31]首次提出了一種基于骨架動作識別的新模型--時空圖卷積網(wǎng)絡(luò)ST-GCN，該網(wǎng)絡(luò)首先將人的關(guān)節(jié)作為時空圖的頂點vertexs，將人體連通性和時間作為圖的邊edges；然后使用標準Softmax分類器來講ST-GCN上獲取的高級特征圖劃分為對應(yīng)的類別。這項工作讓更多人關(guān)注到使用GCN進行骨架行為識別的優(yōu)越性，因此最近出現(xiàn)了許多相關(guān)工作。

最常見的研究集中于對骨架數(shù)據(jù)的有效使用[68,78]，Maose和Siheng[68]提出的運動結(jié)構(gòu)圖卷積網(wǎng)絡(luò)(Action Structural Graph Convolutional Network, AS-GCN)不僅能夠識別人的動作，還可以使用多任務(wù)學(xué)習(xí)策略來輸出目標下一個可能的姿態(tài)pose。這項工作中構(gòu)造的圖結(jié)構(gòu)可以通過兩個子模塊Actional Links和Structual Links來捕獲關(guān)節(jié)間更豐富的依賴性。圖6展示了AS-GCN的特征學(xué)習(xí)過程和其廣義骨架圖結(jié)構(gòu)，該模型中使用的多任務(wù)學(xué)習(xí)策略可能是一個很不錯的方向，因為行為識別任務(wù)可能會從其他補充任務(wù)中得到提升。

圖6.廣義骨架圖的特征學(xué)習(xí)

根據(jù)上述介紹和討論，最受關(guān)注的地方仍然是數(shù)據(jù)驅(qū)動的，我們要做的就是獲取3D骨架序列數(shù)據(jù)背后的潛在信息，而GCN-based行為識別主要圍繞著“如何獲取”這一問題展開，這仍然是一個開放的具有挑戰(zhàn)的問題。尤其骨架數(shù)據(jù)本身就是時空耦合的，此外將骨架數(shù)據(jù)轉(zhuǎn)換為圖時，關(guān)節(jié)和骨骼之間的連接也是時空耦合的。

3、Latest Datasets and Performance

骨架序列數(shù)據(jù)集主要有MSRAAction3D[79]，3D Action Pairs[80]，MSR Daily Activity3D[39]等，這些數(shù)據(jù)都在許多綜述中有過分析[27,35,36]，所以我們這里主要分析如下兩個數(shù)據(jù)集NTU-RGB+D[22]和NTU-RGB+D 120[81]。

NTU-RGB+D數(shù)據(jù)集在2016年提出，包含56880個視頻samples，這些樣本都是從一個大規(guī)模骨架行為識別數(shù)據(jù)集Microsoft Kinect v2上收集的，NTU-RGB+D像圖1(a)那樣提供了每個人、每個動作的25個關(guān)節(jié)的3D空間坐標。在該數(shù)據(jù)集上，建議使用兩種協(xié)議對提出的方法進行評估：跨子類Cross-Subject和跨視角Cross-View。其中Cross-Subject包含40320個訓(xùn)練樣本和16560個驗證樣本，劃分規(guī)則是根據(jù)40個subjects進行的；其中Cross-View將camera2和3作為訓(xùn)練集（37920個樣本），將camera1作為驗證集（18960個樣本）。

近來，提出了NTU-RGB+D的擴展版本NTU-RGB+D 120，包含120個動作類別和114480個骨架序列，視角點是155個。我們將在表I中展示最近相關(guān)的骨架行為識別性能，其中CS表示Cross-Subject，CV在NTU-RGB+D表示Cross-View，在NTU-RGB+D 120表示Cross-Setting。

表1. 最新Top10骨架行為識別算法在NTU-RGB+D和NTU-RGB+D 120數(shù)據(jù)集上的性能

從表中可以看到現(xiàn)存的算法已經(jīng)在NTU-RGB+D數(shù)據(jù)集上取得了極好的性能，在NTU-RGB+D 120數(shù)據(jù)集上仍然還有很大進步空間。

4、Conclusions and Discussion

本文分別基于三種主要的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)介紹了3D骨架序列數(shù)據(jù)上的行為識別問題，在介紹中我們強調(diào)了行為識別的含義、骨架數(shù)據(jù)的優(yōu)越性和不同深度框架的特性。

與之前的綜述數(shù)不同，我們的研究以數(shù)據(jù)驅(qū)動的方式深入了解了基于深度學(xué)習(xí)的行為識別方法，涵蓋了基于CNN、RNN、GCN的最新行為識別算法。其中RNN-Based和CNN-Based方法通過骨架數(shù)據(jù)表示和詳細的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計來解決時空特征問題，在GCN-based方法中，最重要的事情是如何充分利用關(guān)節(jié)和骨骼的信息和聯(lián)系。據(jù)此，我們得出結(jié)論：在三種不同的學(xué)習(xí)結(jié)構(gòu)中最常見的仍然是從3D骨架中獲取有效信息，而拓撲圖是人類骨架關(guān)節(jié)最自然的表示，這一點從各算法在NTU-RGB+D上的性能表現(xiàn)也可以看出來。然而，這并不意味著CNN-based和RNN-based方法就不適合骨架行為識別任務(wù)，相反的，當(dāng)在這些模型上應(yīng)用一些策略（例如多任務(wù)學(xué)習(xí)）時，CV和CS性能都會得到提升。然而，在NTU-RGB+D上的精度已經(jīng)很高了，很難去進一步提升，所以注意力應(yīng)該放到更難的數(shù)據(jù)集上，例如NTU-RGB+D 120。

至于未來方向，長期行為識別、更有效的3D骨架序列表示、實時識別等都是待解決的問題，此外無監(jiān)督和弱監(jiān)督策略以及zero-show學(xué)習(xí)也可能會得到發(fā)展。

Peferences

二.論文總結(jié)

綜述文章，也沒什么好總結(jié)的，就用自己的話簡單總結(jié)一下這篇文章到底在review什么。

1.首先這篇綜述的主題是 3D Skeleton + Deeplearning + ActionRecognition

（1）深度學(xué)習(xí)不用說了，一般來說肯定比手工方法優(yōu)越

（2）至于3D Skeleton，作者就開篇先論證了一下3D Skeleton 數(shù)據(jù)的優(yōu)越性（相比RGB RGB-D）

（3）作者給了個這個主題的基本pipeline

作者的意思就是說：我寫這個主題算是新穎的、有意義的。

2.以數(shù)據(jù)驅(qū)動的方式對RNN-Based、CNN-Based、GCN-Based骨架行為識別方法進行了總結(jié)

（1）所謂數(shù)據(jù)驅(qū)動方式：討論的核心都是這三種結(jié)構(gòu)都是如何從3D骨架序列數(shù)據(jù)中構(gòu)建、獲取時空信息的。

（2）在總結(jié)這三類方法時都是以網(wǎng)絡(luò)結(jié)構(gòu)本身的缺陷為著手點，引出各種相關(guān)方法的。最后就想說，RNN-Based和CNN-Based方法各有優(yōu)缺點，但明顯GCN更能自然地描述3D骨架數(shù)據(jù)。

3.列舉了一下以前綜述中討論過的3D骨架行為識別數(shù)據(jù)集，然后著重描述了一下NTU-RGB+D和其擴展版NTU-RGB+D 120兩個數(shù)據(jù)集，給出最近top10算法在這兩個數(shù)據(jù)集上的表現(xiàn)。

本篇綜述的翻譯和總結(jié)至此結(jié)束，歡迎討論~

推薦閱讀

two/one-stage,anchor-based/free目標檢測發(fā)展及總結(jié)：一文了解目標檢測：https://zhuanlan.zhihu.com/p/100823629
人體關(guān)鍵點檢測（姿態(tài)估計）簡介+分類匯總：https://zhuanlan.zhihu.com/p/102457223
一文了解通用行為識別ActionRecognition：了解及分類：https://zhuanlan.zhihu.com/p/103566134
CVPR 2020 Oral｜解讀X3D，F(xiàn)acebook視頻理解/行為識別新作
計算高效，時序一致，超清還原！清華&NYU 提出 RRN：視頻超分新型遞歸網(wǎng)絡(luò)
匯總 Pytorch 踩過的10個坑

添加極市小助手微信（ID : cvmart2），備注：姓名-學(xué)校/公司-姿態(tài)估計-城市（如：小極-北大-姿態(tài)估計-深圳），即可申請加入極市姿態(tài)估計等技術(shù)交流群：每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

△長按添加極市小助手

△長按關(guān)注極市平臺，獲取最新CV干貨

覺得有用麻煩給個在看啦~??

全面綜述：基于3D骨架的深度學(xué)習(xí)行為識別方法

一、論文翻譯

Abstract

1、Introduction

2、3D Skeleton-Based Action Recognition with Deep Learning

3、Latest Datasets and Performance

4、Conclusions and Discussion

Peferences

二.論文總結(jié)

一、論文翻譯

1、Introduction

2、3D Skeleton-Based Action Recognition with Deep Learning