6節(jié)上海交大暑期學(xué)校硬核深度學(xué)習(xí)理論課(附PPT下載)

導(dǎo)讀:這個(gè)在線暑期學(xué)校旨在介紹近幾年深度學(xué)習(xí)理論的進(jìn)展,包括均值場理論、神經(jīng)切核、函數(shù)空間理論、隱式正則化、頻率原理等。不同觀點(diǎn)之間的相互作用可能會(huì)對深度學(xué)習(xí)理論的發(fā)展有所啟示。
來源:上海交通大學(xué)自然科學(xué)研究院、專知(ID:Quan_Zhuanzhi)

在線暑期學(xué)校主頁:
https://ins.sjtu.edu.cn/schools/2020/07/16/online-summer-school-of-deep-learning-theory/1775
公眾號后臺對話框回復(fù)暑期學(xué)校,查看&下載以上PPT完整版。
01 均值場神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)的精確性和可訓(xùn)練性:近似和優(yōu)化的均值場視角
最近,對于深度神經(jīng)網(wǎng)絡(luò)理論研究有了一定突破。其中一支就是平均場理論(mean-field theory)。通過理論角度研究網(wǎng)絡(luò)的初始化,研究者發(fā)現(xiàn)了兩個(gè)影響網(wǎng)絡(luò)訓(xùn)練的因素,一個(gè)是前向傳播時(shí)網(wǎng)絡(luò)對于不同樣本的表達(dá)性(expressivity)以及反向傳播時(shí)梯度消失爆炸問題,我們用可訓(xùn)練性(trainability)一詞來描述關(guān)于梯度是否出現(xiàn)消失爆炸問題。
表達(dá)性以及可訓(xùn)練性這兩個(gè)因素確定了深度網(wǎng)絡(luò)能夠成功訓(xùn)練的超參數(shù)范圍。關(guān)于這一論斷,研究者已經(jīng)在全連接網(wǎng)絡(luò)(fully connected network),卷積神經(jīng)網(wǎng)絡(luò)(CNN),遞歸神經(jīng)網(wǎng)絡(luò)(RNN),以及殘差神經(jīng)網(wǎng)絡(luò)(Residual network)等等上面得到了實(shí)驗(yàn)驗(yàn)證。
在平均場理論基礎(chǔ)上,研究者通過研究Input-output Jacobian矩陣的譜分布,發(fā)現(xiàn)網(wǎng)絡(luò)初始化的另一個(gè)性質(zhì),dynamical isometry,即Jaconbian矩陣的奇異值分布集中在1附近時(shí),網(wǎng)絡(luò)的訓(xùn)練速度會(huì)特別快。利用這個(gè)結(jié)論,研究者成功訓(xùn)練了在沒有batch normalization以及resnet結(jié)構(gòu)幫助下的單純一萬層的卷積神經(jīng)網(wǎng)絡(luò)。




02 神經(jīng)切內(nèi)核-DNNs的收斂和推廣
現(xiàn)代深度學(xué)習(xí)使得大型神經(jīng)網(wǎng)絡(luò)得到普遍使用,但研究這類網(wǎng)絡(luò)的理論工具仍然缺乏。神經(jīng)正切核(NTK)描述了輸出神經(jīng)元在訓(xùn)練期間是如何進(jìn)化的。
在無限寬極限下(當(dāng)隱藏神經(jīng)元數(shù)增長到無窮大時(shí)),NTK收斂到一個(gè)確定的、固定的極限,導(dǎo)致對無限寬DNN的動(dòng)力學(xué)的簡單描述。NTK受網(wǎng)絡(luò)架構(gòu)的影響,因此有助于理解架構(gòu)的選擇如何影響DNNs的收斂和泛化。
隨著網(wǎng)絡(luò)深度的增長,出現(xiàn)了兩種機(jī)制。凍結(jié)狀態(tài)下,NTK幾乎是恒定的,收斂速度緩慢;混沌狀態(tài)下,NTK接近 Chaotic regime,這會(huì)加快訓(xùn)練速度,但可能會(huì)損害泛化。增加初始化偏差的方差將網(wǎng)絡(luò)推向凍結(jié)狀態(tài),而層歸一化和批歸一化等歸一化方法將網(wǎng)絡(luò)推向混沌狀態(tài)。
在GANs中,凍結(jié)狀態(tài)導(dǎo)致模態(tài)崩潰,其中產(chǎn)生器收斂于一個(gè)常數(shù),并導(dǎo)致棋盤圖案,即圖像中的重復(fù)圖案。當(dāng)產(chǎn)生器處于混沌狀態(tài)時(shí),這兩個(gè)問題都得到了很好的解決,這說明了批量歸一化在GANs訓(xùn)練中的重要性。




03 神經(jīng)網(wǎng)絡(luò)模型的函數(shù)空間理論和泛化誤差估計(jì)



我們建立了神經(jīng)網(wǎng)絡(luò)模型的函數(shù)空間理論,定義了兩層神經(jīng)網(wǎng)絡(luò)的Barron空間和殘差網(wǎng)絡(luò)的流誘導(dǎo)函數(shù)空間
直接定理和逆定理表明,函數(shù)空間包含所有的函數(shù),可以被表現(xiàn)良好的神經(jīng)網(wǎng)絡(luò)(沒有維數(shù)的詛咒)近似,規(guī)范控制常量因素。范數(shù)還可以控制估計(jì)誤差。
通過RKHS、Barron空間和合成空間的比較,可以看出殘差網(wǎng)絡(luò)優(yōu)于兩層網(wǎng)絡(luò),兩層網(wǎng)絡(luò)優(yōu)于核方法。
04 對深度學(xué)習(xí)中隱式正則化的理解
對于神經(jīng)網(wǎng)絡(luò)模型,GD或SGD總能很好地找到可泛化的解決方案。與隱式正則化相比,顯式正則化,例如權(quán)值衰減、退出等,只能略微提高泛化性能。明確的正則化在某些場景中可能是非常重要的,例如高噪聲數(shù)據(jù)、無監(jiān)督學(xué)習(xí)(GAN)等。


05 頻率原理:線性模型和一般理論




06?神經(jīng)正切核



公眾號后臺對話框回復(fù)暑期學(xué)校,查看&下載以上PPT完整版。


