知乎熱議 | 何愷明 新作 如何?
點(diǎn)擊上方“機(jī)器學(xué)習(xí)與生成對(duì)抗網(wǎng)絡(luò)”,關(guān)注星標(biāo)
獲取有趣、好玩的前沿干貨!
來源 | 知乎,MLNLP編輯
https://www.zhihu.com/question/498364155
原問題:如何看待何愷明最新一作論文Masked Autoencoders?
論文鏈接:https://arxiv.org/pdf/2111.06377.pdf
回答一:作者-田永龍
我一般判斷看一篇方法類文章將來是否有影響力從下面三個(gè)角度(重要程度依次遞減)
(1) 驚人程度,Surprise
研究的目的就是探索前人不知道的知識(shí),挖掘新的信息。我認(rèn)為MAE在這點(diǎn)上很棒,它告訴了我直接reconstruct image原圖也可以做到很work,這改變了我們絕大多數(shù)人的認(rèn)知(之前iGPT沒有很work; 其他答案提的BEIT也并不是reconstruct原圖,而是reconstruct feature)。
在NLP reconstruct效果很好是因?yàn)槲淖直旧砭褪莌ighly semantic,所以模型預(yù)測(cè)的目標(biāo)信息量大,而噪音小; 圖片相比而言語意信息密度低,如果模型要完全預(yù)測(cè)對(duì)目標(biāo)的話就要浪費(fèi)capacity去model那些不重要的玩意兒。因此我一直覺得reconstruction這個(gè)學(xué)習(xí)目標(biāo)不太對(duì)。
但這篇文章似乎是換了種方式來解決這個(gè)問題(個(gè)人偏見),就是壓根就沒想讓模型完全恢復(fù)原圖,MAE只輸入很少的patch,那無論如何也恢復(fù)不了原圖。同時(shí)我們都知道,相比高頻信號(hào)而言,神經(jīng)網(wǎng)絡(luò)更擅長抓住低頻的信號(hào)。高頻是局部細(xì)節(jié),低頻更多是high level semantics。所以netwok最后可能以fit低頻信號(hào)為主學(xué)到了high-level feature? 論文里面的visualization看起來也比較契合。
以前CovNets時(shí)代做不了,如果把mask的圖丟給convnet,artifacts太大了,預(yù)訓(xùn)練時(shí)候模型時(shí)既得費(fèi)勁入管mask out掉的region,預(yù)訓(xùn)練完了后還造成了跟后面完整圖片的domain gap,吃力不討好,我之前用convnet試過這種mask patch的相關(guān)的東西,結(jié)果亂七八糟的不work。但MAE里Transformer可以很好避開這個(gè)坑,太妙了。我的導(dǎo)師也評(píng)價(jià)說我們AI的ecosystem一直在變,所以方法的有效性和相對(duì)優(yōu)越性也在evolve,不是一層不變的。
(2) 簡單性 simplicity
這篇文章非常idea非常簡單,實(shí)現(xiàn)起來也快捷,有趣的是文章里面一個(gè)公式都沒放哈哈。我受導(dǎo)師Phillip的影響,認(rèn)為在保持核心idea不變的情況下,或者說surpriseness不變的情況下,我們應(yīng)該最小化系統(tǒng)的復(fù)雜度。因?yàn)樵胶唵?,也?huì)愈發(fā)凸顯驚訝程度。害,說起來我最開始接觸科研老想著瞎加玩意兒,即使現(xiàn)在也經(jīng)常做加法而不是減法,確實(shí)比較菜…
(3) 通用性 generality
其實(shí)(2)和(3)我也不確信哪個(gè)更重要,有時(shí)候(2)和(3)也相輔相成,越簡單越通用。無疑MAE在(3)也做的很棒,幾乎影響所有vision里面的recognition類別的任務(wù),不過這也是做representation learning這方向的好處…死磕基礎(chǔ)問題。
所以,綜合這幾點(diǎn)我覺得無疑是visual representation learning今年最有影響力的文章…
P.S. 看到有個(gè)答案說KM的研究品味不高,我完全不敢同意,每個(gè)人喜好做不同類型的工作罷了,在做方法算法這塊,KM的的品味絕對(duì)是最top的,傳聞就有做graphics的很solid的教授評(píng)價(jià)他: whatever this guy touches become gold。當(dāng)然如果不是方法類的研究,而是要做一件從0到1的事,或者挖坑帶領(lǐng)大家前進(jìn),那影響力就不能從這三個(gè)標(biāo)準(zhǔn)來看了,得看vision了。
回答二:作者-胡瀚
趁著寫論文的間歇來寫個(gè)回答,講幾個(gè)感想:
1. 除了idea和實(shí)驗(yàn)方面的天賦,還想說愷明對(duì)于技術(shù)趨勢(shì)的敏銳性和革命前夕的神準(zhǔn)把握方面實(shí)在太牛了。一直覺得創(chuàng)新本身不是最重要的,更重要的是帶來改變領(lǐng)域走向的理解或者技術(shù),愷明這篇論文無疑是會(huì)達(dá)到這一成就的,MoCo和Mask R-CNN也是如此,大巧無工,但真的改變了領(lǐng)域。
2. 過去我們過于看重linear probe這個(gè)指標(biāo),MAE無疑會(huì)改變這一現(xiàn)狀,以及讓我們重新去看待contrastive learning和mask image modeling的未來。很巧的是,一年前,我們NLC組的同事Hangbo Gao、 @董力 以及韋福如和我們提到要做和MAE類似路線的方法:BEIT,那時(shí)還覺得這個(gè)路線的方法學(xué)到的特征會(huì)太low-level,沒想到半年后他們居然搞出來了,結(jié)果非常驚艷,事實(shí)上也改變了我的認(rèn)知。MAE這個(gè)工作無疑也會(huì)讓BEIT也大火起來, 盡管過去4、5個(gè)月BEIT其實(shí)在小范圍內(nèi)已經(jīng)很受關(guān)注,但它受到的關(guān)注顯然小于它實(shí)際的貢獻(xiàn)。愷明大神這次的論文,讓這個(gè)方向工作的重要性得到了應(yīng)有的證明。

3. 看到愷明Intro里的一句話:”The idea of masked autoencoders, a form of more general denoising autoencoders [48], is natural and applicable in computer vision as well. Indeed, closely related research in vision [49, 39] preceded BERT.” 要特別贊一下這句話,其實(shí)也是有共鳴的,今年在RACV上講了一個(gè)態(tài)度比較鮮明(或者極端吧。。)的talk,說要“重建CV人的文化自信”,就拿它作為其中一個(gè)例子:Mask Image Modeling或者視覺里叫Inpainting的方法在CV里做的蠻早的,在BERT之前就已經(jīng)有一些。

4. 想再次感嘆一下,CV和NLP以及更多領(lǐng)域的融合看來真的是大勢(shì)所驅(qū)了,希望不同領(lǐng)域的人多多合作,一起來搞事情。前幾天見到董力和福如,他們提到有個(gè)多模態(tài)的工作因?yàn)閽炝薃rxiv不能投ACL了,我提議他們投CVPR,不曉得他們最后是什么決定。無論如何,CV的會(huì)議是很開放和包容的,理論的、偏工程的、交叉的、基于toy data做的,只要有點(diǎn)意思都有機(jī)會(huì)被接收,相信這也是CV領(lǐng)域能夠長期這么繁榮的重要原因之一。在AI各個(gè)子領(lǐng)域技術(shù)趨同的背景下,它們之間的聯(lián)系和跨界也會(huì)越來越緊密,這正是CV這個(gè)社區(qū)體現(xiàn)開放和包容心態(tài)的時(shí)候,吸引更多NLP的同仁們加入CV或者交叉研究中,以及我們自己去嘗試給其他AI子領(lǐng)域進(jìn)行貢獻(xiàn)的時(shí)候,最終的目標(biāo)就是和各個(gè)領(lǐng)域一起共舞,共同推進(jìn)AI的進(jìn)展。
回答三:作者-田柯宇
MAE 簡單來說是把 pixel-level inpainting 在 ssl 上又做成功了(超過 contrastive learning) 這件事情:1)反常識(shí). BEiT驗(yàn)證了 pixel reconstruction 相比 token prediction 更難學(xué)習(xí),iGPT的性能也體現(xiàn)了這一點(diǎn)。2)大勢(shì)所趨. 最近爆火的 contrastive learning 存在過度依賴 augmentation 的固有問題,而比較優(yōu)雅的、在 nlp 領(lǐng)域全面開花的 generative ssl 在 vision 上卻一直處于“低估/未被充分挖掘”的狀態(tài)。
先擺明立場:
非常期待非 contrastive learning 的 ssl 方式在視覺領(lǐng)域的突破性進(jìn)展(也算是輪回了)。下文會(huì)有一些關(guān)于這個(gè)點(diǎn)的討論。
理智看待。“造神”或者“best paper 預(yù)訂”的一些言論確實(shí)有些過度了,但個(gè)人也不贊同“認(rèn)為 BEiT/MAE 是 BERT 的機(jī)械搬運(yùn)”的觀點(diǎn)。能把一個(gè)大膽的想法/一個(gè)無現(xiàn)成解法的問題做work(遠(yuǎn)超 iGPT,linear prob和finetune都很高),其實(shí)本身也是solid work的體現(xiàn),其中肯定也包含了有價(jià)值的insight和細(xì)節(jié)處理可以挖。實(shí)際BERT在nlp中也不是第一個(gè)做biLM的工作,但的確是方案最成熟,也是時(shí)間見證了最有impact的那一支工作。
具體 comments:
一直覺得近期的 augmentation-based contrastive learning 并不是 ssl for vision 最優(yōu)雅的方式:
雖然這波方法用上了圖像數(shù)據(jù)上有很好先驗(yàn)的 data augmentation 這個(gè)文本數(shù)據(jù)沒有的超大優(yōu)勢(shì),但存在一個(gè)很大的固有問題:本質(zhì)是學(xué)了一堆 transformation-invariant 的 representation. 而要判斷用哪些 augmentation 是好的,i.e. 要判斷讓模型學(xué)到什么樣的 transformation invariance 是好的,本身就依賴于要知道下游任務(wù)具體要干什么(比如下游任務(wù)如果認(rèn)為顏色語義很重要,那么 color-based augmentation 就不應(yīng)該用在 pretrain 中),導(dǎo)致“要想上游 pretrain 得好,就得先知道下游任務(wù)需要哪些語義信息”的奇怪尷尬局面。
這個(gè)問題在[3]中也有指出。另外最近一些工作似乎也在嘗試讓 contrastive learning 不僅僅只學(xué)一堆 invariance(例如同時(shí)保持對(duì)各種 transformation 的 variant 和 invariant,從而讓下游自己去挑選),以期望得到一個(gè)更 general 的 ssl algorithm.
早些陣子的 vision ssl,pretext-task 更五花八門一些,主要是一些 discriminative(rotation degree prediction,location prediction,jigsaw,etc.)和 generative(inpainting)的方法。個(gè)人認(rèn)為 inpainting 還是更優(yōu)雅一些,也更接近 self-supervised 的本質(zhì)(參考 LeCun's talk)。
但圖像數(shù)據(jù)相比文本數(shù)據(jù)天然有更弱的語義性/語義密度、更強(qiáng)的連續(xù)性和不確定性,導(dǎo)致 pixel-level inpainting 天然很難做到像 BERT 那樣的驚艷效果。再加上在 vision 大家都很關(guān)注的 linear probing 實(shí)驗(yàn),又天然不利于 generative ssl 施展拳腳,就導(dǎo)致了現(xiàn)在 contrastive learning 大行其道、非 contrastive learning 被冷落的局面。
也許有人會(huì) argue 說是因?yàn)樵缙?inpainting ssl 使用的模型太弱。但最近的 ViT,SiT,iGPT,甚至是 BEiT的 ablation,也說明了即便用上了先進(jìn)的 ViT,探索一條不是 contrastive learning 的 ssl 道路仍然是艱難的。
猜您喜歡:
等你著陸!【GAN生成對(duì)抗網(wǎng)絡(luò)】知識(shí)星球!
CVPR 2021 | GAN的說話人驅(qū)動(dòng)、3D人臉論文匯總
CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文
【CVPR 2021】通過GAN提升人臉識(shí)別的遺留難題
CVPR 2021生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總
最新最全20篇!基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文
附下載 | 經(jīng)典《Think Python》中文版
附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》
附下載 | 最新2020李沐《動(dòng)手學(xué)深度學(xué)習(xí)》
附下載 |?《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享
