大語言模型為什么這么強?關(guān)鍵步驟是……
??點擊“博文視點Broadview”,獲取更多書訊


--文末贈書--
研究人員發(fā)現(xiàn),隨著語言模型參數(shù)量的不斷增加,模型完成各個任務(wù)的效果也得到不同程度的提升。
大語言模型是指模型參數(shù)量超過一定規(guī)模的語言模型,相比參數(shù)量較小的預訓練模型(如 BERT、GPT-1、GPT-2 等)!
大語言模型有以下 3 個顯著特點。
(1)模型參數(shù)規(guī)模更大:這是最直觀的特點,在 BERT 時代,1B 的參數(shù)量已經(jīng)屬于很大 的參數(shù)規(guī)模,而在大語言模型時代,GPT-3 系列中最大的模型具有 175B 的參數(shù)量,BLOOM 具有 176B 的參數(shù)量,PaLM 具有 540B 的參數(shù)量。巨大的參數(shù)規(guī)模意味著模型能夠存儲和 處理前所未有的信息量。理論上,巨大的參數(shù)量可以幫助模型更好地學習語言中的細微差異, 捕捉復雜的語義結(jié)構(gòu),理解更復雜的句子和文本結(jié)構(gòu)。巨大的參數(shù)量也是大語言模型任務(wù)處 理能力的基本保證。
(2)訓練數(shù)據(jù)量更多:大語言模型時代,模型的預訓練數(shù)據(jù)覆蓋范圍更廣,量級更大。大 部分大語言模型的預訓練數(shù)據(jù)量在萬億 Token 以上,如 Meta 推出的 LLaMA 系列使用 1.4 萬億個 Token 的參數(shù)量進行預訓練,LLaMA2 則使用 2 萬億個 Token 的參數(shù)量進行預訓練, QWen(通義千問)系列大語言模型更是使用 3 萬億個 Token 的參數(shù)量進行預訓練。這種大規(guī)模的數(shù)據(jù)訓練使模型學習到更多的語言規(guī)律和知識,從而在各種自然語言處理任務(wù)上表現(xiàn) 更佳。
(3)計算資源要求更高:大語言模型的訓練通常需要極大的計算資源,包括大量的 GPU 或 TPU,以及巨大的存儲和內(nèi)存空間。這對模型訓練階段和推理階段的計算能力、內(nèi)存空間 提出更高要求。LLaMA 的 65B 模型使用了 2,048 塊 80GB A100 GPU,訓練了近一個月。因 此,計算資源昂貴成為制約大語言模型研究和開發(fā)的一個重要因素。
表1 列出了部分已公開的大語言模型的基本情況,從上面提到的模型參數(shù)、訓練數(shù)據(jù) 和所用的訓練資源等情況可以看出,相比傳統(tǒng)模型,大語言模型擁有更大的參數(shù)量和更大規(guī)模的訓練數(shù)據(jù)。
這預示著模型的復雜性和處理能力都將顯著增強,并展現(xiàn)出以下兩種能力。
表1 部分已公開的大語言模型的基本情況

(1)具備涌現(xiàn)能力:涌現(xiàn)能力是指模型能在未明確進行優(yōu)化的情況下表現(xiàn)出一些特定的能力或特征。例如,大語言模型能在沒有經(jīng)過特定任務(wù)微調(diào)的情況下,依靠其龐大的參數(shù)量和預訓練數(shù)據(jù),顯示出在多種自然語言處理任務(wù)上的高效性和泛化能力。這種零樣本學習或少樣本學習的能力,在大語言模型上表現(xiàn)得尤為突出,也是與傳統(tǒng)預訓練模型的最大區(qū)別之一。如圖1所示,隨著模型變大、數(shù)據(jù)變多(模型訓練計算量增加),涌現(xiàn)出很多小模型不存在的能力。當 GPT-3 的訓練計算量較小時,訓練效果接近 0;當訓練計算量達到 2 × 1022 時,訓練效果突然提升,這就是“涌現(xiàn)能力”,如圖1(A)所示。另外,這種能力也從根本上改變了用戶使用大語言模型的方式,ChatGPT 是其中最有代表性的應(yīng)用之一,通過問答 的形式,用戶可以與大語言模型進行交互。

圖1 模型能力隨訓練計算量的變化情況
(2)多模態(tài)能力增強:部分大語言模型的功能進一步拓展到了多模態(tài)學習領(lǐng)域,能夠理解和生成包括文本、圖像和聲音在內(nèi)的多種類型的數(shù)據(jù)。這類模型不僅能處理單一模態(tài)的任 務(wù),還能進行跨模態(tài)的信息理解和生成,比如從文本到圖像或從圖像到文本的內(nèi)容生成。
從參數(shù)規(guī)模的爆炸性增長,到涌現(xiàn)能力的出現(xiàn),再到對巨大計算資源的需求,大語言模型的出現(xiàn)標志著自然語言處理的新紀元的開始。
這些模型之所以能夠取得如此顯著的成果, 其背后的關(guān)鍵步驟就是預訓練。
預訓練是模型訓練的初始階段,通常在大量無監(jiān)督的文本數(shù)據(jù)上進行。
在這個階段,模型通過學習有數(shù)十億或數(shù)萬億個Token 的文本,逐漸掌握語言的基本結(jié)構(gòu)、模式和上下文關(guān)系。
這種大規(guī)模的數(shù)據(jù)驅(qū)動訓練,使模型有能力捕捉到微妙的語言細節(jié)和語境變化。
在完成預訓練后,模型可以在特定的下游任務(wù)上進行微調(diào),從而快速適應(yīng)并在多種自然語言處理任務(wù)上表現(xiàn)出色。
這種先預訓練后微調(diào)的策略,不僅提高了模型的泛化能力,還減輕了對大量標注數(shù)據(jù)的依賴,這是傳統(tǒng)模型難以比肩的。
與此同時,預訓練也帶來了新的問題,如模型如何處理偏見信息、如何確保模型生成的內(nèi)容不違反道德倫理等。
在《大語言模型:原理與工程實踐(全彩)》一書中,筆者將更詳細地介紹大語言模型預訓練階段的完整過程,更多內(nèi)容可參閱此書。
參考文獻:
[1] BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901.
[2] SHANAHAN M. Talking about large language models[J]. arXiv preprint arXiv:2212.03551, 2022.
[3] WEI J, TAY Y, BOMMASAN R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022.
↑新書首發(fā),限時優(yōu)惠↑

本書一經(jīng)上市便位居京東新書熱賣榜日榜TOP 1 !

新書首發(fā),感興趣的小伙伴推薦入手

互動有獎
按以下方式與博文菌互動,即有機會獲贈圖書!
活動方式:在評論區(qū)留言參與“你認為大語言模型之所以這么厲害的關(guān)鍵是什么”等話題互動,屆時會在參與的小伙伴中抽取1名幸運鵝贈送本期圖書一本!
說明:留言區(qū)收到回復“恭喜中獎”者將免費獲贈本圖書,中獎?wù)哒堅谑盏酵ㄖ?4小時內(nèi)將您的“姓名+電話+快遞地址”留言至原評論下方處即可,隱私信息不會被放出,未在規(guī)定時間內(nèi)回復視作自動放棄兌獎資格。
活動時間:截至3月25日開獎。
快快拉上你的小伙伴參與進來吧~~
溫馨提示:可以將“博文視點”設(shè)為星標,以免錯過贈書活動哦!
發(fā)布:劉恩惠
審核:陳歆懿
如果喜歡本文 歡迎 在看丨留言丨分享至朋友圈 三連 < PAST · 往期回顧 > ![]()
書單 | 3月新書速遞!

