如何看待何愷明最新一作論文Masked Autoencoders Are Scalable Vision Learners?
來源:知乎
文章僅作學(xué)術(shù)分享,著作權(quán)歸屬原作者,侵刪
https://www.zhihu.com/question/498364155
電光幻影煉金術(shù)(香港中文大學(xué)? CS PhD在讀)回答:
現(xiàn)在是2021年11月12日中午,愷明剛放出來幾個小時,就預(yù)定了CVPR2022 best paper候選!
Arxiv地址:https://arxiv.org/pdf/2111.06377.pdf
愷明總能做出很新很有效的讓人震驚的文章,這篇又是一個力作。要知道凱明最近已經(jīng)很少發(fā)一作的文章了。
這篇文章推翻了之前自監(jiān)督領(lǐng)域的統(tǒng)領(lǐng)范式,開天辟地地提出了簡單本質(zhì)有效的自監(jiān)督方法:基于mask和autoencoder的恢復(fù)方法。

下面一起來賞析一下愷明的歷史性工作。模型非常簡單,上圖一目了然。就是把圖片中一部分像素遮蓋掉,然后用autoencoder來恢復(fù)。這樣無監(jiān)督學(xué)習(xí)到的表征可以用于多個下游任務(wù)中。
這篇文章的效果也非常驚艷,下圖可以看到,在驗證集上僅僅通過很少的像素點就可以恢復(fù)出有意義的圖像。

? ? 特別是95%遮擋的情況,簡直讓人拍案叫絕!

匿名用戶回答:
雖然我很尊重kaiming的工程能力和講故事的能力,但是這個東西就是bert里面那一套拿過來用吧,cv里面也已經(jīng)有了beit。就像18年的non local一樣,到現(xiàn)在幾千個citation,是多少人夢寐以求都達(dá)不到的高度,但是和不帶mlp的self attention有什么區(qū)別嗎。包括moco在內(nèi)的這幾篇文章,我覺得kaiming的高明之處在于能把別人想到了但是調(diào)不出來的東西調(diào)出一個很impressive的結(jié)果,給大伙指明下一步能做的方向,但是idea的原創(chuàng)性上真的沒有必要捧的那么高。
p.s. 不是噴kaiming,是噴那個“預(yù)定了CVPR2022 best paper候選”的標(biāo)題黨回答。

kai.han(北大?智能科學(xué))回答:
大致看了一遍,在iGPT和BEiT的基礎(chǔ)上,化繁為簡,找出了最關(guān)鍵的點,能夠讓BERT式預(yù)訓(xùn)練在CV上也能訓(xùn)到很好!能比肩GPT3的CV大模型不遠(yuǎn)矣。

戰(zhàn)斗性牧師回答:
東西看完之后我感覺非常amazing,不得不佩服kaiming He大佬的強大。
說一說我對于這篇文章的觀點吧
1、我覺得這絕對是一篇標(biāo)桿性的工作,這是毋容置疑。至于大家說的這不是原本有nlp相關(guān)的工作做過這類事情嗎?novelty其實就很弱了,其實我要在這里說一句,大家對于novelty和best的理解的格局不夠大。
首先我覺得真正的novelty是基于work的前提的,只有work才能說具有novelty,不然就是一個joke。在我的認(rèn)知范疇里面,工程(后續(xù)的影響力)是要大于所謂的novelty。不work,就是天方夜譚,談何novelty。
其次我覺得一個點子在從一個領(lǐng)域搬運到另一個領(lǐng)域,要work,其實中間的實現(xiàn)過程本身就是一個novelty的過程。那現(xiàn)在我說一句我覺得“我送你們上火星”,但是我做不work,那我非常具有創(chuàng)新性,你們服嗎?只有把你們送上了火星的那位,才是novelty,掌握了真正的創(chuàng)新技術(shù)。其實總在說我們的模型過擬合了,現(xiàn)在的我們何嘗不是對novelty的理解overfitting了。
2、best paper 我覺得我不敢說,但是這至少是我心中的一篇best work。至于是不是best paper,就要看其他的文章怎么樣了,現(xiàn)在不做對于cvpr reviewer的判斷造成影響的事情。
3、我想我接下來有時間會更加細(xì)致的了解他這項工作,已經(jīng)之前一些大神們對于這類型工作的思考,然后再和大家討論,一句話:不喜勿噴!
4、最后要說一句:kaiMing He yyds


