70頁「自監(jiān)督學習」大全來了!
自監(jiān)督學習?
轉(zhuǎn)自:機器之心「如果你想研究自監(jiān)督學習,那最好看看這本書?!?/p>
「關于自監(jiān)督學習,你想知道但又不敢問的一切都在這里了?!箞D靈獎得主、Meta 人工智能首席科學家 Yann LeCun 剛剛發(fā)了這樣一則推文。

在推文中,LeCun 介紹了他和 Meta 人工智能研究院研究員、研究經(jīng)理田淵棟等人共同撰寫的一份「Cookbook」(非常實用、可操作性強、就像一本菜譜一樣的論文)。這本 Cookbook 總共 70 頁,涵蓋了自監(jiān)督學習的定義、重要性、起源、家族、訓練部署方法、擴展方法等方面知識,是一份不可多得的學習材料?!溉绻阆胙芯孔员O(jiān)督學習,那最好看看這本書。」田淵棟補充說。

論文鏈接:https://arxiv.org/pdf/2304.12210v1.pdf
自監(jiān)督學習可以被看作是機器學習的一種「理想狀態(tài)」,模型直接從無標簽數(shù)據(jù)中自行學習,無需標注數(shù)據(jù)。它主要是利用輔助任務(pretext task)從大規(guī)模的無監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息,通過這種構(gòu)造的監(jiān)督信息對網(wǎng)絡進行訓練,從而可以學習到對下游任務有價值的表征。自監(jiān)督學習的優(yōu)勢在于它能夠利用大量的無標簽數(shù)據(jù)進行訓練,而不需要人工標注。這樣可以節(jié)省大量的人力和時間成本,并且可以利用更多的數(shù)據(jù)進行訓練,從而提高模型的性能。
眾所周知,Yann LeCun 一直是自監(jiān)督學習的積極支持者。近幾年,Meta 發(fā)表了一系列關于自監(jiān)督學習的論文。LeCun 堅定地認為,自監(jiān)督學習是 AI 系統(tǒng)的必要前提,它可以幫助 AI 系統(tǒng)構(gòu)建世界模型,以獲得類似人類的能力,如理性、常識,以及將技能和知識從一個環(huán)境遷移到另一個環(huán)境的能力。GPT-4 的成功有力地證明了自監(jiān)督學習的有效性。不過,Yann LeCun 并不看好 GPT 家族所采用的自回歸方法(預測下一個詞),而是更傾向于構(gòu)建「世界模型」。
這份 Cookbook 在社交媒體上受到了廣泛好評。

自監(jiān)督學習是什么?為什么如此重要?
2021 年,Yann LeCun 等人發(fā)布了一篇題為「Self-supervised learning: The dark matter of intelligence」的博客。在博客中,他們把自監(jiān)督學習(SSL)稱為「智能的暗物質(zhì)」,認為這是推進機器學習的一條有前途的道路。
自監(jiān)督學習(SSL)是深度學習在自然語言處理領域取得成功的基礎,它帶來了從自動機器翻譯到在網(wǎng)絡規(guī)模的無標簽文本語料庫上訓練的大型語言模型的進步。在計算機視覺方面,它推動了數(shù)據(jù)規(guī)模的新邊界,如在 10 億張圖像上訓練的 SEER 模型。用于計算機視覺的 SSL 方法已經(jīng)能夠媲美或在某些情況下超過在標記數(shù)據(jù)上訓練的模型,甚至在 ImageNet 等競爭激烈的基準上也是如此。SSL 也被成功地應用于其他模態(tài),如視頻、音頻和時間序列。
自監(jiān)督學習定義了一個基于無標簽輸入的輔助任務,以產(chǎn)生描述性的、可理解的表示。在自然語言中,一個常見的 SSL 目標是掩蓋文本中的一個詞并預測周圍的詞。這種預測一個詞周圍的上下文的目標鼓勵模型捕捉文本中的詞之間的關系,而不需要任何標簽。同樣的 SSL 模型表示可用于一系列下游任務,如跨語言的文本翻譯、總結(jié),甚至是生成文本,以及其他許多任務。在計算機視覺中,類似的目標存在于 MAE 或 BYOL 學習等模型中,以預測圖像或表征中被遮蔽的內(nèi)容塊。其他 SSL 目標鼓勵同一圖像的兩個視圖,例如通過添加顏色或裁剪形成,以映射到類似的表示。
在大量無標簽數(shù)據(jù)上進行訓練的能力帶來了許多好處。傳統(tǒng)的監(jiān)督學習方法是在一個特定的任務上進行訓練,而這個任務通常是基于可用的標記數(shù)據(jù)而預先知道的,SSL 則是在許多任務中學習有用的通用表征。SSL 在醫(yī)學等領域特別有用,因為這些領域的標簽成本很高,或者具體的任務不能事先知道。也有證據(jù)表明,SSL 模型可以學習到對對抗性例子、標簽損壞和輸入擾動更穩(wěn)健的表征,而且與有監(jiān)督的模型相比更公平。因此,SSL 是一個越來越受關注的領域。然而,就像烹飪一樣,訓練 SSL 的方法是一門精致的藝術,有很高的入門門檻。
為什么要編寫自監(jiān)督學習的 Cookbook
雖然研究人員熟悉 SSL 的許多組件,但成功訓練 SSL 的方法涉及從輔助任務到訓練超參數(shù)的一系列令人眼花繚亂的選擇。SSL 研究具有很高的進入門檻,包括:
1、計算成本高;
2、缺乏完全透明的論文來詳細說明充分實現(xiàn) SSL 潛力所需的復雜實現(xiàn);
3、缺乏統(tǒng)一 SSL 的專業(yè)詞匯和理論觀點。
由于 SSL 建立了與傳統(tǒng)的基于重建的無監(jiān)督學習方法 —— 如(去噪、變分)自編碼器 —— 不同的范式,因此我們在統(tǒng)一框架下理解 SSL 的詞匯量是有限的。事實上,在單一框架下統(tǒng)一 SSL 方法的嘗試直到去年才開始出現(xiàn) 。因為沒有一個共同的基礎來描述 SSL 方法的不同組成部分,研究人員著手研究 SSL 方法變得更具挑戰(zhàn)性。與此同時,SSL 研究迫切需要新的研究人員加入,以將其部署到現(xiàn)實世界中。然而,關于 SSL 泛化性的保證、公平性以及對對抗性攻擊甚至自變體的穩(wěn)健性,仍然存在許多未解之謎。這些問題對于 SSL 方法的可靠性至關重要。
此外,由經(jīng)驗驅(qū)動的 SSL 帶有許多可變的部分(主要是超參數(shù)),它們是可能會影響最終表示的關鍵屬性,而且在已發(fā)表的工作中不一定有詳細的說明。也就是說,要開始研究 SSL 方法,首先必須詳盡地對這些方法進行經(jīng)驗探究,以充分掌握所有這些部件的影響和行為。這種經(jīng)驗盲點有很大的局限性,因為它們需要大量的計算資源和預先存在的實踐經(jīng)驗??偠灾?,SOTA 的性能來自于看似不同但又重疊的方法,現(xiàn)有的理論研究很少,而這類模型在現(xiàn)實世界中的部署又很廣泛。因此,我們需要一本統(tǒng)一這項技術及其有關方法的 cookbook。這對降低 SSL 的研究門檻至關重要。
研究人員的目標是以 cookbook 的形式奠定 SSL 研究的基礎,并呈現(xiàn)與 SSL 有關的最新方法,從而降低 SSL 研究的門檻。
比如要成功烹飪,你必須首先學習基本技術:切碎、炒菜等。研究者從第 2 章開始使用通用詞匯介紹自監(jiān)督學習的基本技術。具體來說,他們描述了系統(tǒng)的方法以及理論線索,以統(tǒng)一的視角連接它們的目標。研究者們在概念框中突出顯示出關鍵的概念,例如 loss terms 或 training objectives。
接下來,「廚師們」必須學會熟練地應用這些技術來形成「美味的菜肴」,這需要學習現(xiàn)有的食譜,組合食材并評估菜肴。在第 3 章中,研究人員介紹了成功實現(xiàn) SSL 方法的實際注意事項,討論了常見的訓練方法,包括超參數(shù)選擇、如何組裝網(wǎng)絡架構(gòu)和優(yōu)化器等組件,以及如何評估 SSL 的方法。
他們還分享了一些優(yōu)秀的研究人員關于常見訓練配置和躲避陷阱的實用技巧。希望這本 cookbook 能成為大家成功訓練和探索自監(jiān)督學習的實踐基礎。

更多細節(jié)請參見原論文。
參考鏈接:https://zhuanlan.zhihu.com/p/66063089
