1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        如何看待何愷明最新一作論文Masked Autoencoders Are Scalable Vision Learners?

        共 2581字,需瀏覽 6分鐘

         ·

        2021-11-15 14:01

        轉自:新智元


        CV大神何愷明又出力作!
        ?
        這次,何大神讓BERT式預訓練在CV上也能訓的很好。
        ?
        論文「Masked Autoencoders Are Scalable Vision Learners」證明了 masked autoencoders(MAE)?是一種可擴展的計算機視覺自監(jiān)督學習方法。
        ?
        目前,該論文已于11月11日提交在arxiv上。
        ?

        論文地址:https://arxiv.org/abs/2111.06377


        論文成果簡介

        ?
        此文最大的貢獻,可能是在NLP和CV兩大領域之間架起了一座更簡便的橋梁。
        ?
        此前,大名鼎鼎的GPT和BERT已經(jīng)將大型自然語言處理(NLP)模型的性能提升到了一個新的高度。
        ?
        直觀點講,就是事先遮住一些文本片段,讓AI模型通過自監(jiān)督學習,通過海量語料庫的預訓練,逐步掌握上下文語境,把這些被遮住的片段,用盡可能合乎邏輯的方式填回去。
        ?
        這和我們做「完形填空」的方式有些類似。經(jīng)過海量數(shù)據(jù)的學習和訓練,AI模型慢慢學會了自己生成自然文本。目前,隨著GPT及其后續(xù)改進模型的不斷進步,生成的自然文本幾乎可以亂真。
        ?
        現(xiàn)在,何愷明的這篇文章把NLP領域已被證明極其有效的方式,用在了計算機視覺(CV)領域,而且模型更簡單。
        ?
        一起先來看下效果:
        ?
        遮住95%的像素后,仍能還原出物體的輪廓,這居然還能work!
        ?
        ?
        本文提出了一種掩膜自編碼器 (MAE)架構,可以作為計算機視覺的可擴展自監(jiān)督學習器使用,而且效果拔群。
        ?
        實現(xiàn)方法很簡單:先將輸入圖像的隨機部分予以屏蔽(Mask),再重建丟失的像素。


        MAE模型結構與實現(xiàn)


        本文提出的MAE架構如下:
        ?
        ?
        在預訓練期間,大比例的隨機的圖像塊子集(如 75%)被屏蔽掉。編碼器用于可見patch的小子集。在編碼器之后引入掩碼標記,并且完整的編碼塊和掩碼標記集由一個小型解碼器處理,該解碼器以像素為單位重建原始圖像。
        ?
        預訓練后,解碼器被丟棄,編碼器應用于未損壞的圖像以生成識別任務的表示。
        ?
        ?
        MAE 是一種簡單的自編碼方法,可以在給定部分觀察的情況下重建原始信號。由編碼器將觀察到的信號映射到潛在表示,再由解碼器從潛在表示重建原始信號。
        ?
        與經(jīng)典的自動編碼器不同,MAE采用非對稱設計,允許編碼器僅對部分觀察信號(無掩碼標記)進行操作,并采用輕量級解碼器從潛在表示和掩碼標記中重建完整信號。
        ?
        掩膜
        ?
        將圖像劃分為規(guī)則的非重疊patch。對patch的子集進行采樣并屏蔽剩余patch。我們的采樣策略很簡單:均勻分布,簡單稱為“隨機抽樣”。
        ?
        ?
        MAE 編碼器
        ?
        編碼器僅適用于可見的、未屏蔽的patch。編碼器通過添加位置嵌入的線性投影嵌入patch,然后通過一系列 Transformer 塊處理結果集。編碼器只對整個集合的一小部分(如 25%)進行操作。
        ?
        被屏蔽的patch會被移除;不使用掩碼令牌。這樣可以節(jié)約計算資源,使用一小部分計算和內存來訓練非常大的編碼器。
        ?
        ?
        MAE解碼器
        ?
        解碼器的輸入是完整的令牌集。每個掩碼標記代表一個共享的、學習過的向量,表示存在要預測的缺失patch。
        ?
        解碼器僅在預訓練期間用于執(zhí)行圖像重建任務。因此,它的設計可以獨立于編碼器。實驗中使用的解碼器更加輕量級。通過這種非對稱設計,顯著減少了預訓練時間。
        ?
        圖像目標的重建
        ?
        MAE 通過預測每個掩碼塊的像素值來重建輸入圖像。
        ?
        解碼器輸出中的每個元素都是一個表示補丁的像素值向量。解碼器的最后一層是線性投影,其輸出通道的數(shù)量等于補丁中像素值的數(shù)量。解碼器的輸出被重新整形以形成重建的圖像。
        ?
        MAE 預訓練實施效率高,實現(xiàn)方式簡單,而且不需要任何專門的稀疏操作。
        ?
        ?
        從上圖可以看出,隨著輸入圖像被遮住的比例升高,MAE的性能迅速上升,在75%左右達到最佳效果。


        性能驚艷:ImageNet-1K最高87.8%


        與當前SOTA自監(jiān)督預訓練方法相比,對于 ViT-B 的表現(xiàn)結果都很接近。對于 ViT-L不同方法的結果就存在很大差距,這表明更大模型的挑戰(zhàn)是減少過度擬合。


        再看最后一列,僅使用ImageNet-1K數(shù)據(jù)時,ViT-Huge模型的最高精確度為87.8%,這明顯超過了所有在ImageNet-21K 預訓練的ViT變種模型。
        ?
        作者總結道,與 BEiT方法相比,MAE更準確、更簡單、更高效。
        ?
        ?


        網(wǎng)友:respect


        「現(xiàn)在是2021年11月12日中午,愷明剛放出來幾個小時,就預定了CVPR2022 best paper candidate(這里說的是best paper candidate,不是best paper)」

        ?
        這篇文章推翻了之前視覺自監(jiān)督領域的統(tǒng)領范式(NLP里面確實用的比較多,但是CV里面用的并不多),提出了簡單本質有效的自監(jiān)督方法: 基于mask和autoencoder的恢復方法。
        ?

        ?
        「大致看了一遍,做的很solid,在iGPT和BEiT的基礎上,化繁為簡,找出了最關鍵的點,能夠讓BERT式預訓練在CV上也能訓到很好!未來可以預見能比肩GPT3的CV大模型不遠矣?!?/span>
        ?
        ?
        「只想說,凱明大佬cv封神?。。∧ぐ荽罄?,求今年cvpr中簽?!?/span>
        ?
        ?

        作者介紹

        ?
        何愷明,本科就讀于清華大學,博士畢業(yè)于香港中文大學多媒體實驗室。
        ?
        ?
        2011年加入微軟亞洲研究院(MSRA)工作,主要研究計算機視覺和深度學習。2016年,加入Facebook AI Research(FAIR)擔任研究科學家。
        ?
        2020年1月11日,榮登AI全球最具影響力學者榜單。
        ?
        參考資料:
        ?
        https://arxiv.org/abs/2111.06377
        https://www.zhihu.com/question/498364155/answers/updated
        https://www.zhihu.com/question/498364155/answer/2219622610

        往期精彩:

        ?時隔一年!深度學習語義分割理論與代碼實踐指南.pdf第二版來了!

        ?新書預告 | 《機器學習公式推導與代碼實現(xiàn)》出版在即!

        瀏覽 92
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            日屄视频在线观看 | 亚洲AV成人无码一区无广告 | 黄色一级片免费在线观看 | 人人插| 乱欲视频在线播放毛片 | 疯狂做爰呻吟声 | 草逼国产 | 逼逼爱 | xxxxbdsmsexhd捆绑视频 | 日韩娇小xxxxhd |