使用有限的數(shù)據(jù)來訓(xùn)練GANs
點(diǎn)擊上方“程序員大白”,選擇“星標(biāo)”公眾號(hào)
重磅干貨,第一時(shí)間送達(dá)
作者:Mayank Agarwal
編譯:ronghuaiyang
使用自適應(yīng)增強(qiáng)判別器(ADA)來訓(xùn)練StyleGAN2。
生成對抗網(wǎng)絡(luò)(GANs)的長期挑戰(zhàn)之一是在很少數(shù)據(jù)的情況下訓(xùn)練它。小數(shù)據(jù)集的關(guān)鍵問題是識(shí)別器對訓(xùn)練樣本的快速過擬合。鑒別器的工作是將其輸入分類為假的或真的,但由于過擬合,它把除了訓(xùn)練數(shù)據(jù)集以外的所有東西都作為是假的。結(jié)果,生成器收到的反饋很少,無法改進(jìn)它的生成,訓(xùn)練失敗。在本文中,我們討論了Karras等人的最近的工作,通過自適應(yīng)鑒別器增強(qiáng)來解決這個(gè)問題。

在深度學(xué)習(xí)的幾乎所有領(lǐng)域,數(shù)據(jù)增強(qiáng)是防止過擬合的標(biāo)準(zhǔn)解決方案。例如,在旋轉(zhuǎn)、噪聲、模糊等條件下訓(xùn)練圖像分類器,會(huì)導(dǎo)致在失真情況下這些語義保持不變性增加 —— 這是分類器非常需要的品質(zhì)。然而,這并不能直接用于訓(xùn)練GANs,因?yàn)樯善鲗W(xué)習(xí)如何生成增強(qiáng)后的分布。這種對生成的樣本的增強(qiáng)的“泄漏”是非常不可取的。
為了克服這種“泄漏”問題,作者提出了一種稱為隨機(jī)鑒別器增強(qiáng)的增強(qiáng)技術(shù)。他們只使用增強(qiáng)圖像來評(píng)估鑒別器,并且在訓(xùn)練生成器時(shí)也這樣做。鑒別器增強(qiáng)相當(dāng)于在鑒別器上戴上失真鏡,并要求生成器生成的圖在通過失真鏡觀察時(shí)無法與訓(xùn)練集樣本區(qū)分。


然而,這種方法只有在這種扭曲可以用數(shù)據(jù)空間上的概率分布的“可逆”變換來表示時(shí)才有效。重要的是要理解,這并不意味著在單個(gè)圖像上執(zhí)行的增強(qiáng)就必須是可逆的。例如,從概率分布的意義上講,將輸入圖像的90%置為零這樣極端的增強(qiáng)是可逆的,即使對人類來說,通過忽略黑色圖像直到只剩下10%的圖像,來推斷原始分布是很容易的。
讓我們借用文中的另一個(gè)例子來直觀地理解可逆變換。從{0,90,180,270}度均勻選擇的隨機(jī)旋轉(zhuǎn)是不可逆的(圖4):增強(qiáng)后無法辨別方向的差異。這里,生成器可以自由地生成上下顛倒的圖像,因?yàn)樵谠鰪?qiáng)分布中,{0,90,180,270}度的相對位置是相同的。因此,盡管生成器學(xué)會(huì)了匹配增強(qiáng)的分布Tx和Ty,但匹配虛假和真實(shí)數(shù)據(jù)分布x和y的潛在目標(biāo)仍然沒有得到解決。

如果這個(gè)旋轉(zhuǎn)僅以概率p<1進(jìn)行(圖2,右):這增加了0度的出現(xiàn)率,現(xiàn)在只有生成的圖像有正確的方向時(shí),增強(qiáng)分布才能匹配(圖5)?,F(xiàn)在,當(dāng)生成器試圖生成顛倒的圖像時(shí),增強(qiáng)分布不再一致。因此,為了匹配轉(zhuǎn)換后的分布Tx和Ty,生成器被迫匹配假分布x和真實(shí)分布y。

更一般地說,如果我們對生成的分布x和真實(shí)的分布y應(yīng)用一個(gè)可逆變換T,那么為了匹配原始分布x和y,匹配增強(qiáng)分布Tx和Ty就足夠了(圖6)。

理論上,如果增強(qiáng)操作T是可逆的,存在一個(gè)且只有一個(gè)增強(qiáng)分布Tx, 而且x不應(yīng)該有“泄漏”。然而,在實(shí)踐中,由于有限的樣本的局限性,有限的網(wǎng)絡(luò)表示能力,歸納偏差和訓(xùn)練動(dòng)態(tài),很高的p值導(dǎo)致了生成圖像的增強(qiáng)的泄漏。作者還表明,p的最優(yōu)值對數(shù)據(jù)集大小非常敏感。他們通過使過程自適應(yīng)來解決對p進(jìn)行昂貴的網(wǎng)格搜索的問題。在深入細(xì)節(jié)之前,讓我們先了解如何在GANs中度量過擬合。
不同大小的數(shù)據(jù)集,在每種情況下訓(xùn)練開始以同樣的方式,但最終優(yōu)化停止了,并且FID開始上升(圖8)。同時(shí),開始的時(shí)候,鑒別器輸出分布的和生成的圖像重疊,但隨著鑒別器(圖7)變得越來越自信,這兩個(gè)分布變得漸行漸遠(yuǎn),并且,從FID開始惡化的點(diǎn)開始,隨著分布的充分重疊,loss開始變得恒定。

量化過擬合的標(biāo)準(zhǔn)方法是使用一個(gè)單獨(dú)的驗(yàn)證集,并觀察其相對于訓(xùn)練集的行為。當(dāng)過擬合開始時(shí),驗(yàn)證集的行為開始越來越像生成的圖像,而真實(shí)樣本和生成樣本的鑒別器輸出開始發(fā)散。從圖8可以看出,對于較小的數(shù)據(jù)集,這種情況發(fā)生得更早。

作者提出了兩種似是而非的過擬合啟發(fā)式方法來度量過擬合(圖9)。第一個(gè)是啟發(fā)式的r*v,*表示了驗(yàn)證集相對于訓(xùn)練集和生成的圖像的輸出。當(dāng)訓(xùn)練集和驗(yàn)證集表現(xiàn)完全相同時(shí),分子為0,因此r=0表示沒有過擬合。當(dāng)生成的和驗(yàn)證集行為完全相同時(shí),分子和分母是相同的,因此r=1表示完全過擬合。

因?yàn)樗僭O(shè)在一個(gè)已經(jīng)很小的數(shù)據(jù)集中存在一個(gè)單獨(dú)的驗(yàn)證集,所以不可能計(jì)算rv啟發(fā)式。因此,作者轉(zhuǎn)向rt,它使用訓(xùn)練集的鑒別器預(yù)測為正的部分來識(shí)別過擬合,并隨著訓(xùn)練的進(jìn)展動(dòng)態(tài)調(diào)整增強(qiáng)概率p:
rt太高→增加更多(增加p) rt過低→增加更少(減少p)
總之,作者提出了一種即插即用技術(shù),通過引入一個(gè)應(yīng)用增強(qiáng)的概率p來將不可逆轉(zhuǎn)的圖像增強(qiáng)轉(zhuǎn)換為可逆變換。它們還提供了一種機(jī)制來自適應(yīng)地調(diào)整這些增強(qiáng),以改善GAN訓(xùn)練過程到最優(yōu)狀態(tài)。想要了解更多細(xì)節(jié),我強(qiáng)烈推薦閱讀原文。

英文原文:https://medium.com/swlh/training-gans-with-limited-data-22a7c8ffce78
推薦閱讀
國產(chǎn)小眾瀏覽器因屏蔽視頻廣告,被索賠100萬(后續(xù))
年輕人“不講武德”:因看黃片上癮,把網(wǎng)站和786名女主播起訴了
關(guān)于程序員大白
程序員大白是一群哈工大,東北大學(xué),西湖大學(xué)和上海交通大學(xué)的碩士博士運(yùn)營維護(hù)的號(hào),大家樂于分享高質(zhì)量文章,喜歡總結(jié)知識(shí),歡迎關(guān)注[程序員大白],大家一起學(xué)習(xí)進(jìn)步!


