伯克利團隊重磅論文:神經(jīng)網(wǎng)絡(luò)沒有免費午餐
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)實戰(zhàn)派
作者:劉媛媛
雖然我們還缺乏對機器智能基本理論的理解,但機器學習研究仍然以瘋狂的速度推進。
現(xiàn)在的大多數(shù)機器學習論文,都專注于推進不同領(lǐng)域的新技術(shù)和新方法,例如自然語言處理和計算機視覺。
機器學習中的一些主要問題仍未得到解答,比如如何理解神經(jīng)網(wǎng)絡(luò)是怎么進行學習的?如何去量化知識泛化?
對此,不斷有研究者提出一些新的想法來挑戰(zhàn)以往對 ML 基礎(chǔ)理論的常規(guī)理解。伯克利人工智能研究所(BAIR)最近發(fā)表的一篇開創(chuàng)性論文 Neural Tangent Kernel Eigenvalues Accurately Predict Generalization 是其中一個重要嘗試(“數(shù)據(jù)實戰(zhàn)派”后臺回復(fù)“DL”可獲得論文地址)。
該論文提出了一種新的泛化理論。
對泛化的理解仍然是現(xiàn)代機器學習中最大的謎團之一。為什么神經(jīng)網(wǎng)絡(luò)學習的函數(shù)可以很好地泛化到看不見的數(shù)據(jù)?從經(jīng)典 ML 的角度來看,神經(jīng)網(wǎng)絡(luò)的高性能令人驚訝,因為它們被過度參數(shù)化,以至于它們可以很容易地表示無數(shù)泛化能力差的函數(shù)。
團隊轉(zhuǎn)而考慮以下定量問題:給定網(wǎng)絡(luò)架構(gòu)、目標函數(shù)和n個隨機示例的訓練集,能否有效地預(yù)測網(wǎng)絡(luò)學習函數(shù) 的泛化性能?與之相應(yīng)的理論不僅可以解釋為什么神經(jīng)網(wǎng)絡(luò)可以很好地概括某些函數(shù),而且還可以告訴我們給定架構(gòu)非常適合哪些函數(shù)類,甚至可能讓我們從第一原則中為給定問題選擇最佳架構(gòu),如以及作為解決一系列其他深度學習之謎的通用框架。
事實證明這是可能的。
在 BAIR 最近的論文中,他們推導(dǎo)出了一個第一性原理理論,它允許人們對神經(jīng)網(wǎng)絡(luò)泛化做出準確的預(yù)測(至少在某些情況下)。
BAIR 研究人員在他們的論文中解決了以下陳述中所描述的泛化基本問題的變體:
如果提供給定數(shù)量的訓練示例,是否可以根據(jù)第一原理有效地預(yù)測給定網(wǎng)絡(luò)架構(gòu)在學習給定函數(shù)時的泛化能力?
BAIR 團隊依賴于最近在深度學習方面取得的兩項突破來回答這個問題:
1)無限寬度網(wǎng)絡(luò)
第一個突破是近年來深度學習發(fā)展的最有趣的理論之一——無限寬度網(wǎng)絡(luò)理論,該理論表明:由于神經(jīng)網(wǎng)絡(luò)中的隱藏層趨向于無限,因此神經(jīng)網(wǎng)絡(luò)本身的行為采用非常簡單的分析形式。這個想法表明,通過研究理論上的無限神經(jīng)網(wǎng)絡(luò),可以深入了解有限等價物的泛化。這點類似于傳統(tǒng)微積分中的中心極限定理。
2)核回歸近似
第二個突破與第一個突破密切相關(guān),但更具體。深度學習泛化的最新研究表明,利用梯度下降法訓練一個具有均方誤差(MSE)損失函數(shù)的寬網(wǎng)絡(luò)等效于被稱為核回歸的經(jīng)典模型。在這種情況下,核代表網(wǎng)絡(luò)的“神經(jīng)切線內(nèi)核”(NTK),它描述了使用梯度下降訓練時的演化過程。研究表明核回歸(以 NTK 為內(nèi)核)的 MSE 近似值可以準確預(yù)測網(wǎng)絡(luò)學習任意函數(shù)的 MSE。
這項研究中,BAIR 提出的泛化性第一原理最大的貢獻是可學習性的概念。
可學習性的思想是量化目標函數(shù)和學習函數(shù)之間的近似值。這聽起來與 MSE 相似,但可學習性表現(xiàn)出與 MSE 完全不同的特性,這使得它更適合后續(xù)的模型。
在下圖中,展示了用不同的訓練大小去訓練四種不同神經(jīng)網(wǎng)絡(luò)(不同顏色分別代表不同神經(jīng)網(wǎng)絡(luò))的結(jié)果。曲線代表理論預(yù)測,點代表真實性能。我們可以看到可學習性指標的一致性要好很多。

BAIR 研究的結(jié)果遠非結(jié)論性的,而表明了盡管神經(jīng)網(wǎng)絡(luò)在難以捉摸這個特質(zhì)上“臭名昭著”,但人們?nèi)匀幌M私馑鼈兒螘r以及為何能正常工作。
就像在其他科學領(lǐng)域一樣,人們?nèi)匀豢梢哉业胶唵蔚囊?guī)則來管理這些看似復(fù)雜的系統(tǒng)。在真正理解深度學習之前,還有更多的工作要做,比如該理論只適用于 MSE 損失,除了最簡單的情況之外,NTK 特征系統(tǒng)在所有情況下都是未知的。


