小骚逼操死你视频,成人性爱网站在线观看,AV无码影视,女生裸体网站在线观看,欧美成人青涩激情网,欧美精品无码一区二区,欧美一级大片免费看,大香蕉官网

CINO少數(shù)民族語言預(yù)訓(xùn)練模型

聯(lián)合創(chuàng)作 · 2023-09-26 06:52

在自然語言處理領(lǐng)域中，預(yù)訓(xùn)練語言模型（Pre-trained Language Model, PLM）已成為重要的基礎(chǔ)技術(shù)，在多語言的研究中，預(yù)訓(xùn)練模型的使用也愈加普遍。為了促進中國少數(shù)民族語言信息處理的研究與發(fā)展，哈工大訊飛聯(lián)合實驗室（HFL）發(fā)布少數(shù)民族語言預(yù)訓(xùn)練模型CINO (Chinese mINOrity PLM)。

本項工作的主要貢獻：

CINO (Chinese mINOrity PLM) 基于多語言預(yù)訓(xùn)練模型XLM-R，在多種國內(nèi)少數(shù)民族語言語料上進行了二次預(yù)訓(xùn)練。該模型提供了藏語、蒙語（回鶻體）、維吾爾語、哈薩克語（阿拉伯體）、朝鮮語、壯語、粵語等少數(shù)民族語言與方言的理解能力。
為了便于評價包括CINO在內(nèi)的各個多語言預(yù)訓(xùn)練模型性能，我們構(gòu)建了基于維基百科的少數(shù)民族語言分類任務(wù)數(shù)據(jù)集Wiki-Chinese-Minority（WCM）。具體見少數(shù)民族語言分類數(shù)據(jù)集。
通過實驗證明，CINO在Wiki-Chinese-Minority（WCM）以及其他少數(shù)民族語言數(shù)據(jù)集：藏語新聞分類 Tibetan News Classification Corpus (TNCC) 、朝鮮語新聞分類 KLUE-TC (YNAT) 上獲得了最好的效果。相關(guān)結(jié)果詳見實驗結(jié)果。

該模型涵蓋：

Chinese，中文（zh）
Tibetan，藏語（bo）
Mongolian (Uighur form)，蒙語（mn）
Uyghur，維吾爾語（ug）
Kazakh (Arabic form)，哈薩克語（kk）
Korean，朝鮮語（ko）
Zhuang，壯語
Cantonese，粵語（yue）

點贊

評論

編輯分享

舉報