FAIR最新無監(jiān)督研究:視頻的無監(jiān)督時空表征學(xué)習(xí)
點藍色字關(guān)注“機器學(xué)習(xí)算法工程師”
設(shè)為星標(biāo),干貨直達!
近期,F(xiàn)AIR的Kaiming He組發(fā)布了關(guān)于視頻的無監(jiān)督學(xué)習(xí)研究:A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning,這篇論文被CVPR2021收錄。論文的核心是將近期圖像中的無監(jiān)督學(xué)習(xí)方法應(yīng)用在視頻的無監(jiān)督訓(xùn)練中。這個工作實驗非常充分,也只有Facebook和Google 這樣的大廠才有足夠的資源來做這樣的大規(guī)模實驗。
論文中共選取了四種無監(jiān)督學(xué)習(xí)方法:MoCo,BYOL,SimCLR,SwAV。其中MoCo和SimCLR是需要負樣本的對比學(xué)習(xí)方法,而BYOL和SwAV是只依賴正樣本的無監(jiān)督學(xué)習(xí)方法。從另外一個角度看,MoCo和BYOL都采用了momentum encoder,而SimCLR和SwAV并沒有。這里的四種方法有兩類是Facebook提出的(MoCo和SwAV),另外的兩類SimCLR和BYOL則是Google提出的 。

這四種方法原本都是用于圖像的無監(jiān)督訓(xùn)練,視頻相比圖像只是多了一個時間維度,這些方法可以非常容易地擴展到視頻的無監(jiān)督學(xué)習(xí)中。無論是圖像分類還是視頻分類,無監(jiān)督就是要學(xué)習(xí)到特征不變量。具體到圖像上,上述方法其實都是要同一個圖像做不同的augmentation送入一個encoder網(wǎng)絡(luò)來學(xué)習(xí)到不變的特征。那么對于視頻分類來說,除了圖像本身的變換外,還增加了時序維度。論文的做法是從同一個視頻中sample不同的視頻片段clips來做無監(jiān)督學(xué)習(xí)(這其實可看成video獨有的augmentation),這其實是希望學(xué)習(xí)到temporally-persistent features。論文中選擇的是SlowFast R-50來最為encoder。下圖展示了從一個視頻中抽取3個不同的clips:

如果只抽取一個clips,那么學(xué)習(xí)就其實只依賴圖像本身的變換,這對于視頻分類顯然不夠。論文實驗也證明了:more clips are beneficial。從下表可以看出,隨著clips的增加,四類方法的性能均會提升,這說明對視頻的無監(jiān)督學(xué)習(xí)來說:learning space-time persistence within a video is important。

另外一點是在采樣時timespan between positives越大越有效,這點也不難理解,因為圖像中也是越hard augmentation越好。不同clips時間差越大,將會產(chǎn)生hard positive,對于學(xué)習(xí)反而是有利的。不過如果是長視頻,那么時間差比較大的clips可能會發(fā)生語義變化,從論文實驗結(jié)果來看,對效果影響反而很?。▓D像分類的random crop其實也會改變語義,比如crop到了背景區(qū)域,不過看起來訓(xùn)練是能夠容許noise的)。如下表所示,對于IG-Curated-1M數(shù)據(jù)集,當(dāng)timespan大于60s時,性能還有提升;而對于IG-Uncurated-1M數(shù)據(jù)集,當(dāng)timespan大于600s時,性能也只是有稍微下降。

具體到四種方法上,從實驗結(jié)果來看,雖然4種方法性能沒有太明顯的差距,但是MoCo和BYOL的效果要稍高于SimCLR和SwAV,前面已經(jīng)說話前者都采用了momentum encoder,momentum encoder的作用是盡量保持模型輸出的一致性,可能視頻分類這個問題上影響更大。論文里面也沒有給出具體的解釋。對于視頻分類來說,由于訓(xùn)練所需資源更多,會不會無法采用較大的batch sizes(論文中是64*8=512),導(dǎo)致SimCLR效果稍差?這里面的變量較多,可能還需要進一步的研究。
當(dāng)無監(jiān)督用于下游任務(wù)時,無監(jiān)督訓(xùn)練方法在某些數(shù)據(jù)集上甚至可以超過有監(jiān)督訓(xùn)練的方法,如基于BYOL在K400-240K無監(jiān)督訓(xùn)練后應(yīng)用在AVA和SSv2數(shù)據(jù)集上性能可以超過直接基于K400-240K的有監(jiān)督訓(xùn)練后再在兩個數(shù)據(jù)集上finetune。

論文還有更多的實驗,更多可以詳見論文:https://arxiv.org/pdf/2104.14558.pdf
這篇論文通過大量的實驗證明了無監(jiān)督學(xué)習(xí)在視頻分類問題上的有效性,正如論文結(jié)尾所述,未來還有繼續(xù)提高的空間:
We observed that linear readout on Kinetics is a good indicator of the performance on other datasets and that unsupervised pre-training can compete with the supervised counterpart on several datasets, but there is room for improvement. We hope that our baselines will foster research and provide common ground for future comparisons.
推薦閱讀
DETR:基于 Transformers 的目標(biāo)檢測
"未來"的經(jīng)典之作ViT:transformer is all you need!
PVT:可用于密集任務(wù)backbone的金字塔視覺transformer!
漲點神器FixRes:兩次超越ImageNet數(shù)據(jù)集上的SOTA
不妨試試MoCo,來替換ImageNet上pretrain模型!
機器學(xué)習(xí)算法工程師
一個用心的公眾號

