1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Nature最新封面:AI訓練AI?也許越來越笨

        共 4694字,需瀏覽 10分鐘

         ·

        2024-07-25 12:35

        大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自學術(shù)頭條
        撰文:馬雪薇
        編審:佩奇

        當前,在愈發(fā)火熱的大模型行業(yè),Scaling Law 被證明依然奏效。

        問題是,一旦由人類生成的高質(zhì)量數(shù)據(jù)(如書籍、文章、照片、視頻等)用盡,大模型訓練又該如何進行?


        目前,一個被寄予厚望的方法是“用大模型自己生成的數(shù)據(jù)來訓練自己”。事實上,如果后代模型的訓練數(shù)據(jù)也從網(wǎng)絡中獲取,就會不可避免地使用前代模型生成的數(shù)據(jù)。

        然而,來自牛津大學和劍橋大學的研究團隊及其合作者,卻給這一設想“潑了一盆冷水”。

        他們給出了這樣一個結(jié)論:模型在訓練中使用自身生成的內(nèi)容,會出現(xiàn)不可逆轉(zhuǎn)的缺陷,逐漸忘記真實數(shù)據(jù)分布,從而導致模型性能下降。

        即“模型崩潰”(Model Collapse)。

        相關(guān)研究論文以“AI models collapse when trained on recursively generated data”為題,已發(fā)表在權(quán)威科學期刊 Nature 上。


        但他們也表示,用一個舊模型生成的數(shù)據(jù)去訓練一個新模型,并非不可行,但必須對數(shù)據(jù)進行嚴格的過濾。

        在一篇同期發(fā)表的新聞與觀點文章中,來自杜克大學的 Emily Wenger 認為,“論文作者沒有考慮模型在由其他模型生成的數(shù)據(jù)上訓練時會發(fā)生什么,他們專注于模型在自身輸出上訓練的結(jié)果。一個模型在訓練其他模型的輸出時是否會崩潰還有待觀察。因此,下一個挑戰(zhàn)將是要搞清楚模型崩潰發(fā)生的機制。”

        么是模型崩潰?


        本質(zhì)上,當大模型生成的數(shù)據(jù)最終污染了后續(xù)模型的訓練集時,就會發(fā)生“模型崩潰”。

        像 GMM 和 VAE 這樣的小型模型通常是從頭開始訓練的,而LLM 重新訓練的成本非常高,因此通常使用如 BERT4、RoBERTa5 或 GPT-2 這樣在大型文本語料庫上預訓練的模型進行初始化,然后針對各種下游任務進行微調(diào)。

        那么當語言模型依次使用其他模型生成的數(shù)據(jù)進行微調(diào)時會發(fā)生什么?

        為此,研究團隊使用 OPT-125m 語言模型進行實驗,并使用 wikitext2 數(shù)據(jù)集進行微調(diào)。實驗結(jié)果表明,無論是否保留原始數(shù)據(jù),模型崩潰現(xiàn)象都發(fā)生了。隨著迭代次數(shù)的增加,模型生成的樣本中低困惑度樣本的數(shù)量開始積累,表明模型開始忘記真實數(shù)據(jù)分布中的尾部事件。并且,與原始模型相比,后續(xù)迭代模型的性能有所下降,表現(xiàn)為困惑度增加。此外,模型生成的數(shù)據(jù)中包含大量重復的短語。

        圖 | 受模型崩潰影響的 OPT-125m 模型的文本輸出示例-模型在幾代之間退化。

        想象一下一個生成 AI 模型負責生成狗的圖像。AI 模型會傾向于重現(xiàn)訓練數(shù)據(jù)中最常見的狗的品種,因此可能會過多地呈現(xiàn)金毛,而非法斗。如果隨后的模型在一個 AI 生成的數(shù)據(jù)集中進行訓練,而這個數(shù)據(jù)集中過多地呈現(xiàn)了金毛,這個問題就會加劇。經(jīng)過足夠多輪次的過多呈現(xiàn)金毛后,模型將忘記諸如法斗這樣的冷門品種的存在,只生成金毛的圖像。最終,模型將崩潰,無法生成有意義的內(nèi)容。

        圖 | 模型會逐漸忽視訓練數(shù)據(jù)中不常見的元素。

        總而言之,模型會逐漸忘記真實語言中出現(xiàn)的低概率事件,例如罕見詞匯或短語。這會導致模型生成的內(nèi)容缺乏多樣性,并無法正確地模擬真實世界的復雜性。并且,模型會逐漸生成與真實世界不符的內(nèi)容,例如錯誤的日期、地點或事件。這會導致模型生成的內(nèi)容失去可信度,并無法用于可靠的信息檢索或知識問答等任務。此外,模型會逐漸學習到訓練數(shù)據(jù)中的偏見和歧視,并將其反映在生成的內(nèi)容中。

        為何會發(fā)生?


        模型崩潰是一個退化過程,模型生成的內(nèi)容會污染下一代的訓練數(shù)據(jù),導致模型逐漸失去對真實數(shù)據(jù)分布的記憶。模型崩潰分為早期和晚期兩種情況:在早期階段,模型開始失去對低概率事件的信息;到了晚期階段,模型收斂到一個與原始分布差異很大的分布,通常方差顯著減小。

        圖 | 對學習過程中反饋機制的高層次描述。

        隨著代數(shù)的增加,模型傾向于生成由最初模型更可能生成的樣本。同時,后代模型的樣本分布尾部變得更長。后代模型開始生成原始模型絕不會生成的樣本,即它們開始基于先前模型引入的錯誤誤解現(xiàn)實。盡管在生成數(shù)據(jù)上訓練的模型能夠?qū)W習部分原始任務,但也會出現(xiàn)錯誤,如困惑度增加所示。

        模型崩潰主要由三種誤差累積導致:

        1. 統(tǒng)計近似誤差:
        • 由于樣本數(shù)量有限,模型無法完全捕捉到真實數(shù)據(jù)分布的所有細節(jié)。隨著時間的推移,低概率事件(即分布的尾部)會逐漸消失,因為它們被采樣的概率很低。
        • 隨著模型訓練代數(shù)的增加,這種誤差會不斷累積,導致模型最終收斂到一個與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。

        2. 函數(shù)表達能力誤差:
        • 神經(jīng)網(wǎng)絡等函數(shù)近似器的表達能力是有限的,無法完美地逼近任何分布。
        • 這種誤差會導致模型在逼近真實分布時產(chǎn)生偏差,例如,將高密度區(qū)域分配到低密度區(qū)域,或者將低密度區(qū)域分配到高密度區(qū)域。
        • 隨著模型訓練代數(shù)的增加,這種誤差會不斷累積,導致模型最終收斂到一個與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。

        3. 函數(shù)近似誤差:
        • 學習過程的局限性,例如隨機梯度下降的結(jié)構(gòu)偏差或目標函數(shù)的選擇,也會導致模型產(chǎn)生誤差。
        • 這種誤差會導致模型在逼近真實分布時產(chǎn)生偏差,例如,過擬合密度模型導致模型錯誤地外推數(shù)據(jù),并將高密度區(qū)域分配到訓練集支持范圍之外的低密度區(qū)域。
        • 隨著模型訓練代數(shù)的增加,這種誤差會不斷累積,導致模型最終收斂到一個與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。

        可以避免嗎?


        研究團隊認為,用 AI 生成數(shù)據(jù)訓練一個模型并非不可能,但必須對數(shù)據(jù)進行嚴格過濾。

        首先,在每一代模型的訓練數(shù)據(jù)中,保留一定比例的原始數(shù)據(jù),例如 10% 或 20%。這樣可以確保模型始終接觸到真實世界的樣本,避免完全依賴于模型生成的內(nèi)容。定期對原始數(shù)據(jù)進行重采樣,并將其添加到訓練數(shù)據(jù)中。這樣可以保證訓練數(shù)據(jù)始終保持新鮮,并且能夠反映真實世界的最新變化。

        其次,可以使用多樣化的數(shù)據(jù)。例如,除了模型生成的內(nèi)容,還應該使用人類產(chǎn)生的數(shù)據(jù)作為訓練數(shù)據(jù)。人類數(shù)據(jù)更加真實可靠,可以幫助模型更好地理解真實世界的復雜性和多樣性。此外,可以使用其他類型的機器學習模型生成的數(shù)據(jù)作為訓練數(shù)據(jù),例如強化學習模型或模擬器。這樣可以保證訓練數(shù)據(jù)來源的多樣性,并避免過度依賴于單一類型的模型。

        最后,可以嘗試改進學習算法。研究更魯棒的語言模型訓練算法,例如對抗訓練、知識蒸餾或終身學習。這些算法可以幫助模型更好地處理訓練數(shù)據(jù)中的噪聲和偏差,并提高模型的泛化能力。

        盡管這一警示似乎對當前的生成式 AI 技術(shù)以及尋求通過它獲利的公司來說都是令人擔憂的,但是從中長期來看,或許能讓人類內(nèi)容創(chuàng)作者看到更多希望。

        研究人員表示,在充滿 AI 工具及其生成內(nèi)容的未來世界,如果只是作為 AI 原始訓練數(shù)據(jù)的來源,人類創(chuàng)造的內(nèi)容將比今天更有價值。 


        租售GPU算力
        租:4090/A800/H800/H100
        售:現(xiàn)貨H100/H800

        特別適合企業(yè)級應用
        掃碼了解詳情?


        點「在看」的人都變好看了哦!
        瀏覽 122
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            榴莲视频网站 | 日屄日屄 | 黄色骚虎视频 | 性爱AV| 人摸人人操 | 国精品无码一区二区三区四区五区 | 大插香蕉视频 | 欧美日韩一级毛 | 国产绿帽娇妻找猛男3p视频 | 空姐黄片 |