baichuan-7B開(kāi)源中英文大模型
baichuan-7B 是開(kāi)源的大規(guī)模預(yù)訓(xùn)練模型,基于 Transformer 結(jié)構(gòu),在大約 1.2 萬(wàn)億 tokens 上訓(xùn)練的 70 億參數(shù)模型,支持中英雙語(yǔ),上下文窗口長(zhǎng)度為 4096。
整體模型基于標(biāo)準(zhǔn)的Transformer結(jié)構(gòu),采用了和LLaMA一樣的模型設(shè)計(jì)
-
位置編碼:rotary-embedding是現(xiàn)階段被大多模型采用的位置編碼方案,具有更好的外延效果。雖然訓(xùn)練過(guò)程中最大長(zhǎng)度為4096,但是實(shí)際測(cè)試中模型可以很好的擴(kuò)展到5000個(gè)tokens上,如下圖:
-
激活層:SwiGLU,Feedforward變化為(8/3)倍的隱含層大小,即11008
-
Layer-Normalization: 基于RMSNorm的Pre-Normalization
數(shù)據(jù)
- 原始數(shù)據(jù)包括開(kāi)源的中英文數(shù)據(jù)和自行抓取的中文互聯(lián)網(wǎng)數(shù)據(jù),以及部分高質(zhì)量知識(shí)性數(shù)據(jù),總量超過(guò)10T。
- 參考相關(guān)數(shù)據(jù)工作,頻率和質(zhì)量是數(shù)據(jù)處理環(huán)節(jié)重點(diǎn)考慮的兩個(gè)維度?;趩l(fā)式規(guī)則和質(zhì)量模型打分,對(duì)原始數(shù)據(jù)集進(jìn)行篇章和句子粒度的過(guò)濾。在全量數(shù)據(jù)上,利用局部敏感哈希方法,對(duì)篇章和句子粒度做濾重。
整體流程如下所示:
- 經(jīng)過(guò)不斷的調(diào)整和多輪測(cè)試,最終確認(rèn)了一個(gè)在下游任務(wù)上表現(xiàn)最好的中英文配比。
- 使用了一個(gè)基于自動(dòng)學(xué)習(xí)的數(shù)據(jù)權(quán)重策略,對(duì)不同類別的數(shù)據(jù)進(jìn)行配比。
評(píng)論
圖片
表情
