1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        大語言模型為什么這么強?關(guān)鍵步驟是……

        共 4330字,需瀏覽 9分鐘

         ·

        2024-04-12 00:31

        ??點擊“博文視點Broadview”,獲取更多書訊


        --文末贈書--

        研究人員發(fā)現(xiàn),隨著語言模型參數(shù)量的不斷增加,模型完成各個任務(wù)的效果也得到不同程度的提升。

        大語言模型是指模型參數(shù)量超過一定規(guī)模的語言模型,相比參數(shù)量較小的預訓練模型(如 BERT、GPT-1、GPT-2 等)!

        大語言模型有以下 3 個顯著特點。 

        (1)模型參數(shù)規(guī)模更大:這是最直觀的特點,在 BERT 時代,1B 的參數(shù)量已經(jīng)屬于很大 的參數(shù)規(guī)模,而在大語言模型時代,GPT-3 系列中最大的模型具有 175B 的參數(shù)量,BLOOM 具有 176B 的參數(shù)量,PaLM 具有 540B 的參數(shù)量。巨大的參數(shù)規(guī)模意味著模型能夠存儲和 處理前所未有的信息量。理論上,巨大的參數(shù)量可以幫助模型更好地學習語言中的細微差異, 捕捉復雜的語義結(jié)構(gòu),理解更復雜的句子和文本結(jié)構(gòu)。巨大的參數(shù)量也是大語言模型任務(wù)處 理能力的基本保證。 

        (2)訓練數(shù)據(jù)量更多:大語言模型時代,模型的預訓練數(shù)據(jù)覆蓋范圍更廣,量級更大。大 部分大語言模型的預訓練數(shù)據(jù)量在萬億 Token 以上,如 Meta 推出的 LLaMA 系列使用 1.4 萬億個 Token 的參數(shù)量進行預訓練,LLaMA2 則使用 2 萬億個 Token 的參數(shù)量進行預訓練, QWen(通義千問)系列大語言模型更是使用 3 萬億個 Token 的參數(shù)量進行預訓練。這種大規(guī)模的數(shù)據(jù)訓練使模型學習到更多的語言規(guī)律和知識,從而在各種自然語言處理任務(wù)上表現(xiàn) 更佳。

        (3)計算資源要求更高:大語言模型的訓練通常需要極大的計算資源,包括大量的 GPU 或 TPU,以及巨大的存儲和內(nèi)存空間。這對模型訓練階段和推理階段的計算能力、內(nèi)存空間 提出更高要求。LLaMA 的 65B 模型使用了 2,048 塊 80GB A100 GPU,訓練了近一個月。因 此,計算資源昂貴成為制約大語言模型研究和開發(fā)的一個重要因素。

        表1 列出了部分已公開的大語言模型的基本情況,從上面提到的模型參數(shù)、訓練數(shù)據(jù) 和所用的訓練資源等情況可以看出,相比傳統(tǒng)模型,大語言模型擁有更大的參數(shù)量和更大規(guī)模的訓練數(shù)據(jù)。

        這預示著模型的復雜性和處理能力都將顯著增強,并展現(xiàn)出以下兩種能力。

        表1 部分已公開的大語言模型的基本情況

        (1)具備涌現(xiàn)能力:涌現(xiàn)能力是指模型能在未明確進行優(yōu)化的情況下表現(xiàn)出一些特定的能力或特征。例如,大語言模型能在沒有經(jīng)過特定任務(wù)微調(diào)的情況下,依靠其龐大的參數(shù)量和預訓練數(shù)據(jù),顯示出在多種自然語言處理任務(wù)上的高效性和泛化能力。這種零樣本學習或少樣本學習的能力,在大語言模型上表現(xiàn)得尤為突出,也是與傳統(tǒng)預訓練模型的最大區(qū)別之一。如圖1所示,隨著模型變大、數(shù)據(jù)變多(模型訓練計算量增加),涌現(xiàn)出很多小模型不存在的能力。當 GPT-3 的訓練計算量較小時,訓練效果接近 0;當訓練計算量達到 2 × 1022 時,訓練效果突然提升,這就是“涌現(xiàn)能力”,如圖1(A)所示。另外,這種能力也從根本上改變了用戶使用大語言模型的方式,ChatGPT 是其中最有代表性的應(yīng)用之一,通過問答 的形式,用戶可以與大語言模型進行交互。

        圖1 模型能力隨訓練計算量的變化情況 

        (2)多模態(tài)能力增強:部分大語言模型的功能進一步拓展到了多模態(tài)學習領(lǐng)域,能夠理解和生成包括文本、圖像和聲音在內(nèi)的多種類型的數(shù)據(jù)。這類模型不僅能處理單一模態(tài)的任 務(wù),還能進行跨模態(tài)的信息理解和生成,比如從文本到圖像或從圖像到文本的內(nèi)容生成。

        從參數(shù)規(guī)模的爆炸性增長,到涌現(xiàn)能力的出現(xiàn),再到對巨大計算資源的需求,大語言模型的出現(xiàn)標志著自然語言處理的新紀元的開始。

        這些模型之所以能夠取得如此顯著的成果, 其背后的關(guān)鍵步驟就是預訓練。

        預訓練是模型訓練的初始階段,通常在大量無監(jiān)督的文本數(shù)據(jù)上進行。

        在這個階段,模型通過學習有數(shù)十億或數(shù)萬億個Token 的文本,逐漸掌握語言的基本結(jié)構(gòu)、模式和上下文關(guān)系。

        這種大規(guī)模的數(shù)據(jù)驅(qū)動訓練,使模型有能力捕捉到微妙的語言細節(jié)和語境變化。

        在完成預訓練后,模型可以在特定的下游任務(wù)上進行微調(diào),從而快速適應(yīng)并在多種自然語言處理任務(wù)上表現(xiàn)出色。

        這種先預訓練后微調(diào)的策略,不僅提高了模型的泛化能力,還減輕了對大量標注數(shù)據(jù)的依賴,這是傳統(tǒng)模型難以比肩的。

        與此同時,預訓練也帶來了新的問題,如模型如何處理偏見信息、如何確保模型生成的內(nèi)容不違反道德倫理等。

        《大語言模型:原理與工程實踐(全彩)》一書中,筆者將更詳細地介紹大語言模型預訓練階段的完整過程,更多內(nèi)容可參閱此書。


        參考文獻:

        [1] BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901. 

        [2] SHANAHAN M. Talking about large language models[J]. arXiv preprint arXiv:2212.03551, 2022.

        [3] WEI J, TAY Y, BOMMASAN R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022.

        ↑新書首發(fā),限時優(yōu)惠↑

        本書一經(jīng)上市便位居京東新書熱賣榜日榜TOP 1 !

        新書首發(fā),感興趣的小伙伴推薦入手 


               


        互動有獎

        按以下方式與博文菌互動,即有機會獲贈圖書!

        活動方式:在評論區(qū)留言參與“你認為大語言模型之所以這么厲害的關(guān)鍵是什么”等話題互動,屆時會在參與的小伙伴中抽取1名幸運鵝贈送本期圖書一本!

        說明:留言區(qū)收到回復“恭喜中獎”者將免費獲贈本圖書,中獎?wù)哒堅谑盏酵ㄖ?4小時內(nèi)將您的“姓名+電話+快遞地址”留言至原評論下方處即可,隱私信息不會被放出,未在規(guī)定時間內(nèi)回復視作自動放棄兌獎資格。

        活動時間:截至3月25日開獎。

        快快拉上你的小伙伴參與進來吧~~

        溫馨提示可以將“博文視點”設(shè)為星標,以免錯過贈書活動哦!




        發(fā)布:劉恩惠

        審核:陳歆懿

                
                  
         


        如果喜歡本文
        歡迎 在看留言分享至朋友圈 三連
        <
         PAST · 往期回顧 
        >

        書單 | 3月新書速遞!


        瀏覽 47
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            大屌在线免费视频 | 成人片黄网站色大片免费韩国 | www.色色色色.com | 国产成人精品综合久久久久99 | 三上悠亚ssni在线 | 色播五月丁香 | 午夜AAAAAA片免费观看 | 大香蕉伊人威哥视频 | 爽娇妻快高h绿帽王大牛 | 国产女同无遮挡互慰高潮91 |