1. CINO少數(shù)民族語言預(yù)訓(xùn)練模型

        聯(lián)合創(chuàng)作 · 2023-09-26 06:52

        在自然語言處理領(lǐng)域中,預(yù)訓(xùn)練語言模型(Pre-trained Language Model, PLM)已成為重要的基礎(chǔ)技術(shù),在多語言的研究中,預(yù)訓(xùn)練模型的使用也愈加普遍。為了促進中國少數(shù)民族語言信息處理的研究與發(fā)展,哈工大訊飛聯(lián)合實驗室(HFL)發(fā)布少數(shù)民族語言預(yù)訓(xùn)練模型CINO (Chinese mINOrity PLM)。

        中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知識蒸餾工具TextBrewer | 模型裁剪工具TextPruner

        本項工作的主要貢獻:

        • CINO (Chinese mINOrity PLM) 基于多語言預(yù)訓(xùn)練模型XLM-R,在多種國內(nèi)少數(shù)民族語言語料上進行了二次預(yù)訓(xùn)練。該模型提供了藏語、蒙語(回鶻體)、維吾爾語、哈薩克語(阿拉伯體)、朝鮮語、壯語、粵語等少數(shù)民族語言與方言的理解能力。

        • 為了便于評價包括CINO在內(nèi)的各個多語言預(yù)訓(xùn)練模型性能,我們構(gòu)建了基于維基百科的少數(shù)民族語言分類任務(wù)數(shù)據(jù)集Wiki-Chinese-Minority(WCM)。具體見少數(shù)民族語言分類數(shù)據(jù)集。

        • 通過實驗證明,CINO在Wiki-Chinese-Minority(WCM)以及其他少數(shù)民族語言數(shù)據(jù)集:藏語新聞分類 Tibetan News Classification Corpus (TNCC) 、朝鮮語新聞分類 KLUE-TC (YNAT) 上獲得了最好的效果。相關(guān)結(jié)果詳見實驗結(jié)果。

        該模型涵蓋:

        • Chinese,中文(zh)
        • Tibetan,藏語(bo)
        • Mongolian (Uighur form),蒙語(mn)
        • Uyghur,維吾爾語(ug)
        • Kazakh (Arabic form),哈薩克語(kk)
        • Korean,朝鮮語(ko)
        • Zhuang,壯語
        • Cantonese,粵語(yue)

        瀏覽 48
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        編輯 分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        編輯 分享
        舉報
          
          

            1. 日韩操逼片 | 大香蕉福利视频 | 我要看操逼毛片 | 欧美国产日韩一区二区 | 右手影院亚洲欧美 |