1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        PERT基于 BERT 的預訓練語言模型

        聯(lián)合創(chuàng)作 · 2023-09-25 23:03

        在自然語言處理領域中,預訓練語言模型(Pre-trained Language Models,PLMs)已成為非常重要的基礎技術。在近兩年,哈工大訊飛聯(lián)合實驗室發(fā)布了多種中文預訓練模型資源以及相關配套工具。作為相關工作的延續(xù),在本項目中,我們提出了一種基于亂序語言模型的預訓練模型(PERT),在不引入掩碼標記[MASK]的情況下自監(jiān)督地學習文本語義信息。PERT在部分中英文NLU任務上獲得性能提升,但也在部分任務上效果較差,請酌情使用。目前提供了中文和英文的PERT模型,包含兩種模型大?。╞ase、large)。

        原版下載地址

        這里主要提供TensorFlow 1.15版本的模型權重。如需PyTorch或者TensorFlow2版本的模型,請看下一小節(jié)。

        開源版本僅包含Transformer部分的權重,可直接用于下游任務精調,或者其他預訓練模型二次預訓練的初始權重,更多說明見FAQ。

        • PERT-large:24-layer, 1024-hidden, 16-heads, 330M parameters
        • PERT-base 12-layer, 768-hidden, 12-heads, 110M parameters
        模型簡稱 語種 語料 Google下載 百度盤下載
        Chinese-PERT-large 中文 EXT數據[1] TensorFlow TensorFlow(密碼:e9hs)
        Chinese-PERT-base 中文 EXT數據[1] TensorFlow TensorFlow(密碼:rcsw)
        English-PERT-large (uncased) 英文 WikiBooks[2] TensorFlow TensorFlow(密碼:wxwi)
        English-PERT-base (uncased) 英文 WikiBooks[2] TensorFlow TensorFlow(密碼:8jgq)

        [1] EXT數據包括:中文維基百科,其他百科、新聞、問答等數據,總詞數達5.4B,約占用20G磁盤空間,與MacBERT相同。
        [2] Wikipedia + BookCorpus

        以TensorFlow版Chinese-PERT-base為例,下載完畢后對zip文件進行解壓得到:

        chinese_pert_base_L-12_H-768_A-12.zip
            |- pert_model.ckpt      # 模型權重
            |- pert_model.meta      # 模型meta信息
            |- pert_model.index     # 模型index信息
            |- pert_config.json     # 模型參數
            |- vocab.txt            # 詞表(與谷歌原版一致)
        

        其中bert_config.jsonvocab.txt與谷歌原版BERT-base, Chinese完全一致(英文版與BERT-uncased版本一致)。

        PyTorch以及TensorFlow 2版本

        通過??transformers模型庫可以下載TensorFlow (v2)和PyTorch版本模型。

        下載方法:點擊任意需要下載的模型 → 選擇"Files and versions"選項卡 → 下載對應的模型文件。

        模型簡稱 模型文件大小 transformers模型庫地址
        Chinese-PERT-large 1.2G https://huggingface.co/hfl/chinese-pert-large
        Chinese-PERT-base 0.4G https://huggingface.co/hfl/chinese-pert-base
        Chinese-PERT-large-MRC 1.2G https://huggingface.co/hfl/chinese-pert-large-mrc
        Chinese-PERT-base-MRC 0.4G https://huggingface.co/hfl/chinese-pert-base-mrc
        English-PERT-large 1.2G https://huggingface.co/hfl/english-pert-large
        English-PERT-base 0.4G https://huggingface.co/hfl/english-pert-base

        快速加載

        由于PERT主體部分仍然是BERT結構,用戶可以使用transformers庫輕松調用PERT模型。

        注意:本目錄中的所有模型均使用BertTokenizer以及BertModel加載(MRC模型使用BertForQuestionAnswering)。

        from transformers import BertTokenizer, BertModel
        
        tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
        model = BertModel.from_pretrained("MODEL_NAME")

        其中MODEL_NAME對應列表如下:

        模型名 MODEL_NAME
        Chinese-PERT-large hfl/chinese-pert-large
        Chinese-PERT-base hfl/chinese-pert-base
        Chinese-PERT-large-MRC hfl/chinese-pert-large-mrc
        Chinese-PERT-base-MRC hfl/chinese-pert-base-mrc
        English-PERT-large hfl/english-pert-large
        English-PERT-base hfl/english-pert-base

        基線系統(tǒng)效果

        以下僅列舉部分實驗結果。詳細結果和分析見論文。實驗結果表格中,括號外為最大值,括號內為平均值。

        中文任務

        在以下10個任務上進行了效果測試。

        閱讀理解

         

        文本分類

         

        命名實體識別

         

         

        文本糾錯(亂序)

        除了上述任務之外,我們還在文本糾錯中的亂序任務上進行了測試,效果如下。

         

         

        英文任務

        在以下6個任務上進行了效果測試。

        english-nlu

         

        瀏覽 25
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        編輯 分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        編輯 分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            精品一区二区久久久久久无码小说 | 奶大灬大灬大灬硬灬爽灬无码视频 | 一级片操逼网站 | 啪啪啪啪啊啊啊啊 | 欧美国产一级片 | 干人人 | 久久久久久久九九九国产精品 | 国产哺乳奶水91在线播放 | 人人精品| 亚洲人成色777777精品音频 |