Nature最新封面:AI訓練AI?也許越來越笨
共 4694字,需瀏覽 10分鐘
·
2024-07-25 12:35
當前,在愈發(fā)火熱的大模型行業(yè),Scaling Law 被證明依然奏效。
問題是,一旦由人類生成的高質(zhì)量數(shù)據(jù)(如書籍、文章、照片、視頻等)用盡,大模型訓練又該如何進行?
什么是模型崩潰?
圖 | 受模型崩潰影響的 OPT-125m 模型的文本輸出示例-模型在幾代之間退化。
圖 | 模型會逐漸忽視訓練數(shù)據(jù)中不常見的元素。
為何會發(fā)生?
圖 | 對學習過程中反饋機制的高層次描述。
-
由于樣本數(shù)量有限,模型無法完全捕捉到真實數(shù)據(jù)分布的所有細節(jié)。隨著時間的推移,低概率事件(即分布的尾部)會逐漸消失,因為它們被采樣的概率很低。 -
隨著模型訓練代數(shù)的增加,這種誤差會不斷累積,導致模型最終收斂到一個與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。
-
神經(jīng)網(wǎng)絡等函數(shù)近似器的表達能力是有限的,無法完美地逼近任何分布。 -
這種誤差會導致模型在逼近真實分布時產(chǎn)生偏差,例如,將高密度區(qū)域分配到低密度區(qū)域,或者將低密度區(qū)域分配到高密度區(qū)域。 -
隨著模型訓練代數(shù)的增加,這種誤差會不斷累積,導致模型最終收斂到一個與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。
-
學習過程的局限性,例如隨機梯度下降的結(jié)構(gòu)偏差或目標函數(shù)的選擇,也會導致模型產(chǎn)生誤差。 -
這種誤差會導致模型在逼近真實分布時產(chǎn)生偏差,例如,過擬合密度模型導致模型錯誤地外推數(shù)據(jù),并將高密度區(qū)域分配到訓練集支持范圍之外的低密度區(qū)域。 -
隨著模型訓練代數(shù)的增加,這種誤差會不斷累積,導致模型最終收斂到一個與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。
可以避免嗎?
評論
圖片
表情
