青娱乐免费偷拍视频播放,久久精品中文,夫妻性视频,五月天激情啪啪,丰满岳妇乱一区二区三区,www.黄视频,无码精品电影,黄片影院

??點擊“博文視點Broadview”，獲取更多書訊

--文末贈書--

研究人員發(fā)現(xiàn)，隨著語言模型參數(shù)量的不斷增加，模型完成各個任務(wù)的效果也得到不同程度的提升。

大語言模型是指模型參數(shù)量超過一定規(guī)模的語言模型，相比參數(shù)量較小的預訓練模型（如 BERT、GPT-1、GPT-2 等）！

大語言模型有以下 3 個顯著特點。

（1）模型參數(shù)規(guī)模更大：這是最直觀的特點，在 BERT 時代，1B 的參數(shù)量已經(jīng)屬于很大的參數(shù)規(guī)模，而在大語言模型時代，GPT-3 系列中最大的模型具有 175B 的參數(shù)量，BLOOM 具有 176B 的參數(shù)量，PaLM 具有 540B 的參數(shù)量。巨大的參數(shù)規(guī)模意味著模型能夠存儲和處理前所未有的信息量。理論上，巨大的參數(shù)量可以幫助模型更好地學習語言中的細微差異，捕捉復雜的語義結(jié)構(gòu)，理解更復雜的句子和文本結(jié)構(gòu)。巨大的參數(shù)量也是大語言模型任務(wù)處理能力的基本保證。

（2）訓練數(shù)據(jù)量更多：大語言模型時代，模型的預訓練數(shù)據(jù)覆蓋范圍更廣，量級更大。大部分大語言模型的預訓練數(shù)據(jù)量在萬億 Token 以上，如 Meta 推出的 LLaMA 系列使用 1.4 萬億個 Token 的參數(shù)量進行預訓練，LLaMA2 則使用 2 萬億個 Token 的參數(shù)量進行預訓練， QWen（通義千問）系列大語言模型更是使用 3 萬億個 Token 的參數(shù)量進行預訓練。這種大規(guī)模的數(shù)據(jù)訓練使模型學習到更多的語言規(guī)律和知識，從而在各種自然語言處理任務(wù)上表現(xiàn) 更佳。

（3）計算資源要求更高：大語言模型的訓練通常需要極大的計算資源，包括大量的 GPU 或 TPU，以及巨大的存儲和內(nèi)存空間。這對模型訓練階段和推理階段的計算能力、內(nèi)存空間提出更高要求。LLaMA 的 65B 模型使用了 2,048 塊 80GB A100 GPU，訓練了近一個月。因此，計算資源昂貴成為制約大語言模型研究和開發(fā)的一個重要因素。

表1 列出了部分已公開的大語言模型的基本情況，從上面提到的模型參數(shù)、訓練數(shù)據(jù) 和所用的訓練資源等情況可以看出，相比傳統(tǒng)模型，大語言模型擁有更大的參數(shù)量和更大規(guī)模的訓練數(shù)據(jù)。

這預示著模型的復雜性和處理能力都將顯著增強，并展現(xiàn)出以下兩種能力。

表1 部分已公開的大語言模型的基本情況

（1）具備涌現(xiàn)能力：涌現(xiàn)能力是指模型能在未明確進行優(yōu)化的情況下表現(xiàn)出一些特定的能力或特征。例如，大語言模型能在沒有經(jīng)過特定任務(wù)微調(diào)的情況下，依靠其龐大的參數(shù)量和預訓練數(shù)據(jù)，顯示出在多種自然語言處理任務(wù)上的高效性和泛化能力。這種零樣本學習或少樣本學習的能力，在大語言模型上表現(xiàn)得尤為突出，也是與傳統(tǒng)預訓練模型的最大區(qū)別之一。如圖1所示，隨著模型變大、數(shù)據(jù)變多（模型訓練計算量增加），涌現(xiàn)出很多小模型不存在的能力。當 GPT-3 的訓練計算量較小時，訓練效果接近 0；當訓練計算量達到 2 × 1022 時，訓練效果突然提升，這就是“涌現(xiàn)能力”，如圖1（A）所示。另外，這種能力也從根本上改變了用戶使用大語言模型的方式，ChatGPT 是其中最有代表性的應(yīng)用之一，通過問答的形式，用戶可以與大語言模型進行交互。

圖1 模型能力隨訓練計算量的變化情況

（2）多模態(tài)能力增強：部分大語言模型的功能進一步拓展到了多模態(tài)學習領(lǐng)域，能夠理解和生成包括文本、圖像和聲音在內(nèi)的多種類型的數(shù)據(jù)。這類模型不僅能處理單一模態(tài)的任務(wù)，還能進行跨模態(tài)的信息理解和生成，比如從文本到圖像或從圖像到文本的內(nèi)容生成。

從參數(shù)規(guī)模的爆炸性增長，到涌現(xiàn)能力的出現(xiàn)，再到對巨大計算資源的需求，大語言模型的出現(xiàn)標志著自然語言處理的新紀元的開始。

這些模型之所以能夠取得如此顯著的成果，其背后的關(guān)鍵步驟就是預訓練。

預訓練是模型訓練的初始階段，通常在大量無監(jiān)督的文本數(shù)據(jù)上進行。

在這個階段，模型通過學習有數(shù)十億或數(shù)萬億個Token 的文本，逐漸掌握語言的基本結(jié)構(gòu)、模式和上下文關(guān)系。

這種大規(guī)模的數(shù)據(jù)驅(qū)動訓練，使模型有能力捕捉到微妙的語言細節(jié)和語境變化。

在完成預訓練后，模型可以在特定的下游任務(wù)上進行微調(diào)，從而快速適應(yīng)并在多種自然語言處理任務(wù)上表現(xiàn)出色。

這種先預訓練后微調(diào)的策略，不僅提高了模型的泛化能力，還減輕了對大量標注數(shù)據(jù)的依賴，這是傳統(tǒng)模型難以比肩的。

與此同時，預訓練也帶來了新的問題，如模型如何處理偏見信息、如何確保模型生成的內(nèi)容不違反道德倫理等。

在《大語言模型：原理與工程實踐（全彩）》一書中，筆者將更詳細地介紹大語言模型預訓練階段的完整過程，更多內(nèi)容可參閱此書。

參考文獻：

[1] BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901.

[2] SHANAHAN M. Talking about large language models[J]. arXiv preprint arXiv:2212.03551, 2022.

[3] WEI J, TAY Y, BOMMASAN R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022.

↑新書首發(fā)，限時優(yōu)惠↑

本書一經(jīng)上市便位居京東新書熱賣榜日榜TOP 1 ！

新書首發(fā)，感興趣的小伙伴推薦入手

       
        
         

        
        
         
        
       
       
        互動有獎
        
        按以下方式與博文菌互動，即有機會獲贈圖書！
        活動方式：在評論區(qū)留言參與“你認為大語言模型之所以這么厲害的關(guān)鍵是什么”等話題互動，屆時會在參與的小伙伴中抽取1名幸運鵝贈送本期圖書一本！
        說明：留言區(qū)收到回復“恭喜中獎”者將免費獲贈本圖書，中獎?wù)哒堅谑盏酵ㄖ?4小時內(nèi)將您的“姓名+電話+快遞地址”留言至原評論下方處即可，隱私信息不會被放出，未在規(guī)定時間內(nèi)回復視作自動放棄兌獎資格。
        活動時間：截至3月25日開獎。
        快快拉上你的小伙伴參與進來吧~~
        溫馨提示：可以將“博文視點”設(shè)為星標，以免錯過贈書活動哦！

發(fā)布：劉恩惠

審核：陳歆懿

          
           
            
              
              
               
                
                 
                  

                 
                 
                  

                 
                
               
              
            
            
             如果喜歡本文
            
            
             歡迎 在看丨留言丨分享至朋友圈 三連
            
            
             
              
               
                
                 
                  <
                 
                 
                    PAST · 往期回顧 
                 
                 
                   >
                 
                
                
                 
                  
                   
                    
                   
                  
                  
                   
                    
                     

                    
                   
                   
                    書單 | 3月新書速遞！

大語言模型為什么這么強？關(guān)鍵步驟是……