1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        何愷明時隔2年再發(fā)一作論文:為視覺大模型開路,“CVPR 2022最佳論文候選預定”

        共 2219字,需瀏覽 5分鐘

         ·

        2021-11-14 21:41

        點擊上方視學算法”,選擇加"星標"或“置頂

        重磅干貨,第一時間送達

        楊凈 明敏 雷剛 發(fā)自 凹非寺
        量子位 報道 | 公眾號 QbitAI

        大神話不多,但每一次一作論文,必定引發(fā)江湖震動。

        這不,距離上一篇一作論文2年之后,何愷明再次以一作身份,帶來最新研究。

        依然是視覺領域的研究,依然是何愷明式的大道至簡。

        甚至在業(yè)內紛紛追求“大力出奇跡”、“暴力美學”的當下,何愷明還帶著一種堅持獨立思考的反共識氣概。

        簡潔:通篇論文沒有一個公式。

        有效:大巧不工,用最簡單的方法展現(xiàn)精妙之美。

        江湖震動:“CVPR 2022最佳論文候選預定”。

        所以,何愷明新作:

        Masked Autoencoders Are Scalable Vision Learners

        究竟有怎樣的思想和研究成果?

        用于CV的自監(jiān)督學習方案

        本文提出了一種用于計算機視覺的Masked AutoEncoders 掩蔽自編碼器,簡稱MAE。

        ——一種類似于NLP技術的自我監(jiān)督方法。

        操作很簡單:對輸入圖像的隨機區(qū)塊進行掩蔽,然后重建缺失的像素。

        主要有兩個核心設計。

        一個是非對稱的編碼-解碼架構,一個高比例遮蔽輸入圖像。

        先來看編碼-解碼架構。

        如圖所示,編碼器是ViT,它僅對可見區(qū)塊進行操作,然后用一個輕量級編碼器——僅在預訓練期間負責圖像重建任務。

        具體而言,作者先將圖像均勻劃分為非重疊區(qū)塊,然后隨機對區(qū)塊進行采樣。

        以遮蔽比例75%為例,它先在輸入圖像中掩蔽75%的隨機區(qū)塊,編碼器只在可見的25%區(qū)塊子集上運行,這樣就可以只用非常少的計算和顯存,來訓練非常大的編碼器。

        然后解碼器將可見的token和掩碼token組合,并向所有token中添加位置嵌入,通過預測每個掩蔽區(qū)塊的像素值來重建圖像信號。

        這樣一來,在預訓練時解碼器可以獨立于編碼器,從而可以用非常輕量級解碼器實驗,大量減少預訓練時間。

        另一個特點則是對輸入圖像的高比例進行遮蔽時,自監(jiān)督任務效果非常好。

        比如,掩蔽掉80%隨機patch的效果如下:

        其中最左列為輸入圖像,中間列為MAE方法重建效果,最右側為原圖效果。

        不同掩蔽比例在重建圖像中的表現(xiàn)對比如下:

        將這兩種設計結合,結果用來訓練大模型:

        訓練速度提升3倍以上,還提高準確率的那種。

        除此之外,基于該方案所得出的大模型具備很好的泛化能力:

        比如,在僅使用ImageNet-1K數(shù)據(jù)時,ViT-Huge模型準確性達87.8%。

        在COCO數(shù)據(jù)集中的表現(xiàn)如下,雖然重建效果不清晰,但是基本語義是正確的。

        研究者還對MAE遷移學習的性能進行了評估。

        結果在下游任務,比如目標檢測、實例分割、語義分割等任務都優(yōu)于監(jiān)督預訓練。

        在對比中可以看到,隨機遮蔽75%、整塊遮蔽50%和網(wǎng)格遮蔽50%的三種采樣方法中,隨機遮蔽75%重建圖像的質量最好

        基于這些研究成果,何愷明團隊在最后也表達了他們的看法。

        一方面,擴展性好的簡單算法是深度學習的核心。

        在計算機視覺中,盡管自監(jiān)督學習方面取得了進展,但實際預訓練仍需受到監(jiān)督。

        這項研究中,作者看到ImageNet和遷移學習任務中,自編碼器表現(xiàn)出了非常強的可擴展優(yōu)勢。

        為此作者認為,CV中自監(jiān)督學習現(xiàn)在可能正走上與NLP類似的軌道。

        另一方面,作者注意,圖像和語言是不同性質的信號,這種差異需要小心處理。

        圖像僅僅是記錄下來的光,并沒有語義分解為文字的視覺類似物。

        他們不是去試圖去除物體,而是去除可能不構成語義段的隨機區(qū)塊。重建的像素,也并不是語義實體。

        研究團隊

        論文的研究團隊,來自Facebook AI研究院(FAIR),每個人都屢屢獲譽,堪稱夢之隊。

        除了幾位老將,我們這次再多說說里面的華人面孔。

        Xinlei Chen,本科畢業(yè)于浙江大學計算機專業(yè),隨后在卡內基梅隆大學攻讀博士學位,曾在UCLA、谷歌云、MSR實習。

        謝賽寧,本科畢業(yè)于上海交通大學ACM班,隨后在UC圣迭戈分校攻讀計算機博士學位,曾在谷歌、DeepMind實習。

        Yanghao Li,本科畢業(yè)于北京大學計算機專業(yè),隨后留在本校繼續(xù)攻讀碩士學位。

        最后,再次隆重介紹下何愷明。

        一作何愷明,想必大家都不陌生。作為Mask R-CNN的主要提出者,他已4次斬獲頂會最佳論文。

        何愷明是2003年廣東高考狀元,并保送了清華,進入楊振寧發(fā)起設立的物理系基礎科學班。

        碩博階段,何愷明前往香港中文大學多媒體實驗室,導師正是后來的商湯科技創(chuàng)始人湯曉鷗。

        此間,何愷明還進入微軟亞洲研究院實習,在孫劍指導下,以一作身份發(fā)表ResNet研究,一舉成名天下知,榮獲2016年CVPR最佳論文。

        同年何愷明進入由Yann Lecun(獲2019年圖靈獎)掌舵的Facebook人工智能實驗室,與Ross Girshick、Piotr Dollar——本次研究中的其他幾位老面孔,組成了FAIR在AI研究領域的夢之隊。

        更加令人欽佩的是,何愷明年少成名,但這幾年來依然不斷潛心研究,一直帶來新驚喜。

        甚至他的新研究,很多都是那種可以開枝散葉的成果。

        這一次,MAE同樣被視為這樣的延續(xù)。

        你怎么看MAE?

        論文鏈接
        https://arxiv.org/abs/2111.06377


        點個在看 paper不斷!

        瀏覽 55
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            成人性生活免费视频 | 欧美国产日韩激情 | 公主揉肉蒂高潮h失禁视频 | 黄色一级国产 | 日本在线xxxx | 夜夜撸日日操 | 国产性受xxxx白人性爽 | 成 人 网 站 在 线 视 频不 | 日韩乱伦网站 | 久久夜色精品国产欧美一区麻豆 |