1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        GLM用于自然語(yǔ)言理解和生成的通用預(yù)訓(xùn)練框架

        聯(lián)合創(chuàng)作 · 2023-09-25 23:17

        GLM (General Language Model) 是清華大學(xué)推出的一種使用自回歸填空目標(biāo)進(jìn)行預(yù)訓(xùn)練的通用語(yǔ)言模型,可以針對(duì)各種自然語(yǔ)言理解和生成任務(wù)進(jìn)行微調(diào)。

        GLM 通過添加 2D 位置編碼并允許以任意順序預(yù)測(cè)跨度來(lái)改進(jìn)空白填充預(yù)訓(xùn)練,從而在 NLU 任務(wù)上獲得優(yōu)于 BERT 和 T5 的性能。同時(shí),GLM 可以通過改變空白的數(shù)量和長(zhǎng)度對(duì)不同類型的任務(wù)進(jìn)行預(yù)訓(xùn)練。在橫跨 NLU、條件和無(wú)條件生成的廣泛任務(wù)上,GLM 在給定相同的模型大小和數(shù)據(jù)的情況下優(yōu)于 BERT、T5 和 GPT,并從單一的預(yù)訓(xùn)練模型中獲得了 1.25 倍 BERT Large 參數(shù)的最佳性能,表明其對(duì)不同下游任務(wù)的通用性。

        關(guān)于 GLM 的詳細(xì)描述可參考論文 GLM: General Language Model Pretraining with Autoregressive Blank Infilling (ACL 2022)

        ChatGLM-6B 就是在 GLM 框架的基礎(chǔ)上為中文 QA 和對(duì)話進(jìn)行了優(yōu)化。

        預(yù)訓(xùn)練模型

        可以從 OneDrive 或 Tsinghua-Cloud 下載論文中使用的預(yù)訓(xùn)練模型。

        Name Params Language Corpus Objective File Config
        GLM-Base 110M English Wiki+Book Token glm-base-blank.tar.bz2 model_blocklm_base.sh
        GLM-Large 335M English Wiki+Book Token glm-large-blank.tar.bz2 model_blocklm_large.sh
        GLM-Large-Chinese 335M Chinese WuDaoCorpora Token+Sent+Doc glm-large-chinese.tar.bz2 model_blocklm_large_chinese.sh
        GLM-Doc 335M English Wiki+Book Token+Doc glm-large-generation.tar.bz2 model_blocklm_large_generation.sh
        GLM-410M 410M English Wiki+Book Token+Doc glm-1.25-generation.tar.bz2 model_blocklm_1.25_generation.sh
        GLM-515M 515M English Wiki+Book Token+Doc glm-1.5-generation.tar.bz2 model_blocklm_1.5_generation.sh
        GLM-RoBERTa 335M English RoBERTa Token glm-roberta-large-blank.tar.bz2 model_blocklm_roberta_large.sh
        GLM-2B 2B English Pile Token+Sent+Doc glm-2b.tar.bz2 model_blocklm_2B.sh
        GLM-10B 10B English Pile Token+Sent+Doc Download model_blocklm_10B.sh
        GLM-10B-Chinese 10B Chinese WuDaoCorpora Token+Sent+Doc Download model_blocklm_10B_chinese.sh

        將下載的文件解壓到本地文件夾中,并在相應(yīng)的腳本中設(shè)置CHECKPOINT_PATH為文件夾路徑。

        結(jié)果

        SuperGLUE

        驗(yàn)證集、單模型、單任務(wù)微調(diào)

        Model COPA WSC RTE WiC CB MultiRC BoolQ ReCoRD
        GLM-10B 98.0 95.2 93.1 75.7 98.7/98.2 88.1/63.3 88.7 94.4/94.0
        DeBERTa-XXLarge-v2 97.0 - 93.5 - - 87.8/63.6 88.3 94.1/93.7

        Seq2Seq

        CNN/Daily Mail (test set,沒有使用額外的數(shù)據(jù))

        Model ROUGE-1 ROUGE-2 ROUGE-L
        GLM-10B 44.7 21.4 41.4
        T5-11B 43.5 21.6 40.7
        PEGASUS-Large 44.2 21.5 41.4
        BART-Large 44.2 21.3 40.9

        XSum (test set,沒有使用額外的數(shù)據(jù))

        Model ROUGE-1 ROUGE-2 ROUGE-L
        GLM-10B 48.9 25.7 40.4
        PEGASUS-Large 47.2 24.6 39.3
        BART-Large 45.1 22.3 37.3

        Language Modeling

        測(cè)試集,零樣本

        Model LAMBADA (accuracy) Wikitext103 (perplexity)
        GLM-10B (bi) 72.35 11.33
        GLM-10B (uni) 67.18 12.22
        GPT-2 52.66 17.48
        Megatron-LM (8.3B) 66.51 10.81
        Turing-NLG 67.98 10.21
        瀏覽 22
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        編輯 分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        編輯 分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            欧美黄色一级视频 | 免费看成人A片无码照片 | 男人日女人下面 | 色噜噜狠狠色综合无码久久欧美 | 床戏麻豆 | 99性爱| 又大又爽的视频 | 开心激情网婷婷五月天 | 4438全国成人 | 人人妻人人要 |