編輯:小咸魚(yú) 好困
【新智元導(dǎo)讀】近日,北大校友、約翰·霍普金斯大學(xué)博士生提出了一種新的方法:MaskFeat,力壓大神何愷明的新作MAE,摘下12個(gè)SOTA!
CV大神何愷明的力作「Masked Autoencoders Are Scalable Vision Learners」(MAE) 剛出了一個(gè)多月。這是一個(gè)能用于視頻模型的自監(jiān)督預(yù)訓(xùn)練方法:掩碼特征預(yù)測(cè)(MaskFeat)。https://arxiv.org/abs/2112.09133簡(jiǎn)而言之,MaskFeat的ViT-B在ImageNet 1K上的準(zhǔn)確率達(dá)到了84.0%,MViT-L在Kinetics-400上的準(zhǔn)確率達(dá)到了86.7%,成功地超越了MAE,BEiT和SimMIM等方法。一作Chen Wei是約翰·霍普金斯大學(xué)的計(jì)算機(jī)科學(xué)博士生,此前在北京大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。并曾在FAIR、谷歌和華為諾亞方舟實(shí)驗(yàn)室實(shí)習(xí),主要研究方向是視覺(jué)自我監(jiān)督學(xué)習(xí)。
MAE最大的貢獻(xiàn),可能就是將NLP領(lǐng)域和CV兩大領(lǐng)域之間架起了一座更簡(jiǎn)便的橋梁。https://arxiv.org/abs/2111.06377此前,大名鼎鼎的GPT和BERT已經(jīng)將大型自然語(yǔ)言處理(NLP)模型的性能提升到了一個(gè)新的高度。直觀點(diǎn)講,就是事先遮住一些文本片段,讓AI模型通過(guò)自監(jiān)督學(xué)習(xí),通過(guò)海量語(yǔ)料庫(kù)的預(yù)訓(xùn)練,逐步掌握上下文語(yǔ)境,把這些被遮住的片段,用盡可能合乎邏輯的方式填回去。這和我們做「完形填空」的方式有些類(lèi)似。經(jīng)過(guò)海量數(shù)據(jù)的學(xué)習(xí)和訓(xùn)練,AI模型慢慢學(xué)會(huì)了自己生成自然文本。目前,隨著GPT及其后續(xù)改進(jìn)模型的不斷進(jìn)步,生成的自然文本幾乎可以亂真。而何愷明的MAE就是把NLP領(lǐng)域已被證明極其有效的方式:「Mask-and-Predict」,用在了計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域,先將輸入圖像的隨機(jī)部分予以屏蔽(Mask),再預(yù)測(cè)(Predict)丟失的像素(pixel)。而就在上周,F(xiàn)acebook AI Research和約翰霍普金斯大學(xué)的研究人員提出了MaskFeat,也是采用「Mask-and-Predict」的方法,性能卻比MAE上更進(jìn)一步。「Mask-and-Predict」總要有個(gè)可以「Predict」的特征來(lái)讓模型學(xué)習(xí)到東西。MaskFeat最核心的改變就是將MAE對(duì)圖像像素(pixel)的直接預(yù)測(cè),替換成對(duì)圖像的方向梯度直方圖(HOG)的預(yù)測(cè)。
?圖像HOG特征向量HOG是一種經(jīng)典的圖像特征提取算法,發(fā)表于2005年的CVPR,到現(xiàn)在已經(jīng)收獲了37000+的引用。?https://hal.inria.fr/file/index/docid/548512/filename/hog_cvpr2005.pdf那為什么預(yù)測(cè)圖像的HOG比直接預(yù)測(cè)像素更好呢?像素作為預(yù)測(cè)目標(biāo),有一個(gè)潛在的缺點(diǎn),那就是會(huì)讓模型過(guò)度擬合局部統(tǒng)計(jì)數(shù)據(jù)(例如光照和對(duì)比度變化)和高頻細(xì)節(jié),而這些對(duì)于視覺(jué)內(nèi)容的解釋來(lái)說(shuō)很可能并不是特別重要。相反,方向梯度直方圖(HOG)是描述局部子區(qū)域內(nèi)梯度方向或邊緣方向分布的特征描述符,通過(guò)簡(jiǎn)單的梯度濾波(即減去相鄰像素)來(lái)計(jì)算每個(gè)像素的梯度大小和方向來(lái)實(shí)現(xiàn)的。通過(guò)將局部梯度組織化和歸一化,HOG對(duì)模糊問(wèn)題更加穩(wěn)健HOG的特點(diǎn)是善于捕捉局部形狀和外觀,同時(shí)對(duì)幾何變化不敏感,對(duì)光的變化也有不變性,計(jì)算引入的開(kāi)銷(xiāo)還很小,可以忽略不計(jì)。這次,MaskFeat引入HOG,其實(shí)正是將手工特征與深度學(xué)習(xí)模型結(jié)合起來(lái)的一次嘗試。MaskFeat首先隨機(jī)地mask輸入序列的一部分,然后預(yù)測(cè)被mask區(qū)域的特征。對(duì)未見(jiàn)過(guò)的驗(yàn)證圖像的HOG預(yù)測(cè)只不過(guò),模型是通過(guò)預(yù)測(cè)給定masked input(左)的HOG特征(中間)來(lái)學(xué)習(xí)的,原始圖像(右)并不用于預(yù)測(cè)。方向梯度直方圖(HOG)這個(gè)點(diǎn)子的加入使得MaskFeat模型更加簡(jiǎn)化,在性能和效率方面都有非常出色的表現(xiàn)。在不使用額外的模型權(quán)重、監(jiān)督和數(shù)據(jù)的情況下,MaskFeat預(yù)訓(xùn)練的MViT-L在Kinetics-400數(shù)據(jù)集上獲得了86.7%的Top-1準(zhǔn)確率。這個(gè)成績(jī)以5.2%的幅度領(lǐng)先此前的SOTA,也超過(guò)了使用如IN-21K和JFT-300M這些大規(guī)模圖像數(shù)據(jù)集的方法。此外,MaskFeat的準(zhǔn)確率在Kinetics-600數(shù)據(jù)集上為88.3%,在Kinetics-700數(shù)據(jù)集上為80.4%,在AVA數(shù)據(jù)集上為38.8 mAP,而在SSv2數(shù)據(jù)集上為75.0%。相比于不使用預(yù)訓(xùn)練的CNN,嚴(yán)重依賴(lài)大規(guī)模圖像數(shù)據(jù)集和監(jiān)督性預(yù)訓(xùn)練的基于Transformer的方法,MaskFeat表現(xiàn)出極佳的性能。在Kinetics-400數(shù)據(jù)集上的比較經(jīng)過(guò)300個(gè)epoch預(yù)訓(xùn)練的MaskFeat將MViT-S,16×4的81.1%的top-1準(zhǔn)確率提高了1.1%。其中,16×4表示該模型在訓(xùn)練過(guò)程中采用16個(gè)時(shí)間跨度為4的幀作為輸入。而在K400上用MaskFeat預(yù)訓(xùn)練了800個(gè)epoch的MViT-L 16×4達(dá)到了84.3%的top-1準(zhǔn)確率,比其基線高出了3.8%,比使用IN-21K訓(xùn)練的監(jiān)督模型高出了0.8%。MaskFeat也以一己之力將K400上沒(méi)有外部數(shù)據(jù)的最佳準(zhǔn)確率(MoViNet-A6的81.5%)提高了5.2%。此外,MaskFeat僅用K400的結(jié)果(86.7%)就能和86.5%的Florence和86.8%的SwinV2-G不相上下。其中,F(xiàn)lorence使用了9億個(gè)文本-圖像對(duì),SwinV2-G使用了一個(gè)具有30億個(gè)參數(shù)的巨型模型,并首先在IN-21K和7千萬(wàn)張內(nèi)部圖像的大型數(shù)據(jù)集上進(jìn)行自我監(jiān)督和監(jiān)督預(yù)訓(xùn)練。可以說(shuō),MaskFeat在參數(shù)量、計(jì)算成本、數(shù)據(jù)和注釋方面的高效性再次證明了直接在未標(biāo)記的視頻上進(jìn)行預(yù)訓(xùn)練的優(yōu)勢(shì),也為一種全新的視頻預(yù)訓(xùn)練方式打開(kāi)了大門(mén)。Kinetics-600 & Kinetics-700數(shù)據(jù)集
在Kinetics-600數(shù)據(jù)集上的比較在Kinetics-700數(shù)據(jù)集上的比較MaskFeat在K600和K700上分別達(dá)到了86.4%和77.5%的top-1準(zhǔn)確率,與之前基于Transformer的方法相比,既沒(méi)有使用外部的圖像數(shù)據(jù),而且FLOPs還減少了10倍以上。而在更大的輸入分辨率312和更長(zhǎng)的持續(xù)時(shí)間40×3下,MaskFeat在K600上實(shí)現(xiàn)了88.3%的top-1準(zhǔn)確率,在K700上實(shí)現(xiàn)了80.4%的top-1準(zhǔn)確率。于是,MaskFeat在沒(méi)有任何外部監(jiān)督(如IN-21K和JFT-300M)的情況下,為每個(gè)數(shù)據(jù)集都創(chuàng)造了新的SOTA。對(duì)MaskFeat進(jìn)行1600個(gè)epoch的預(yù)訓(xùn)練,在ViT-B上微調(diào)100個(gè)epoch,在ViT-L上微調(diào)50個(gè)epoch。當(dāng)圖像大小為224x224時(shí),MaskFeat與在IN-21K上進(jìn)行的有監(jiān)督的預(yù)訓(xùn)練相比,在ViT-B上打成了平手,而在ViT-L上直接實(shí)現(xiàn)了超越。當(dāng)圖像大小為384x384時(shí),利用IN-21K的有監(jiān)督預(yù)訓(xùn)練需要用到比MaskFeat多10倍的圖像和標(biāo)注。通常來(lái)說(shuō),由于缺乏典型的CNN歸納偏置,ViT模型對(duì)數(shù)據(jù)要求很高,并且需要大規(guī)模的監(jiān)督預(yù)訓(xùn)練。而MaskFeat可以在沒(méi)有外部標(biāo)記數(shù)據(jù)的情況下通過(guò)解決特征圖像修復(fù)任務(wù)來(lái)克服這個(gè)問(wèn)題。此外,與BEiT相比,MaskFeat只需要計(jì)算HOG特征,擺脫了dVAE的tokenizer。而后者在250M DALL-E數(shù)據(jù)集上引入了額外的預(yù)訓(xùn)練階段,并在mask預(yù)測(cè)期間引入了不可忽視的推理開(kāi)銷(xiāo)。與MoCo v3和DINO相比,MaskFeat也更準(zhǔn)確、更簡(jiǎn)單。此處MaskFeat的預(yù)訓(xùn)練為300個(gè)epoch隨著MAE、MaskFeat等模型的出現(xiàn),NLP界的制勝武器「Mask-and-Predict」會(huì)是CV自監(jiān)督預(yù)訓(xùn)練的下一個(gè)標(biāo)準(zhǔn)范式嗎?對(duì)此,來(lái)自清華大學(xué)的知友「謝凌曦」表示:
視覺(jué)自監(jiān)督領(lǐng)域做了這么些年,從最早的生成式學(xué)習(xí)出發(fā),繞了一圈,又回到生成式學(xué)習(xí)。到頭來(lái),我們發(fā)現(xiàn)像素級(jí)特征跟各種手工特征、tokenizer、甚至離線預(yù)訓(xùn)練網(wǎng)絡(luò)得到的特征,在作為判斷生成圖像質(zhì)量方面,沒(méi)有本質(zhì)區(qū)別。也就是說(shuō),自監(jiān)督也許只是把模型和參數(shù)調(diào)得更適合下游任務(wù),但在「新知識(shí)從哪里來(lái)」這個(gè)問(wèn)題上,并沒(méi)有任何實(shí)質(zhì)進(jìn)展。
參考資料:
https://arxiv.org/pdf/2112.09133.pdf
https://www.zhihu.com/question/506657286/answer/2275700206