1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        無需「域外」文本,微軟:NLP就應該針對性預訓練

        共 1681字,需瀏覽 4分鐘

         ·

        2020-08-11 14:50



        ??新智元報道??

        來源:venturebeat

        編輯:小勻

        【新智元導讀】在生物醫(yī)學這樣的專業(yè)領域訓練NLP模型,除了特定數據集,「域外」文本也被認為是有用的。但最近,微軟的研究人員「大呼」:我不這么覺得!


        什么是預訓練?

        ?

        這是一個拷問人工智能「門外漢」的靈魂問題。



        生而為人,我們不需要一切從零開始學習。但是,我們會「以舊學新」,用過去所學的舊知識,來理解新知識和處理各種新任務。


        在人工智能中,預訓練就是模仿人類這個過程。


        預訓練(pre-training)這個詞經常在論文中見到,指的是用一個任務去訓練一個模型,幫助它形成可以在其他任務中使用的參數。


        用已學習任務的模型參數初始化新任務的模型參數。通過這種方式,舊的知識可以幫助新模型從舊的經驗中成功地執(zhí)行新任務,而不是從零開始。


        以前的研究已經表明,在像生物醫(yī)學這樣的專業(yè)領域,當訓練一個NLP模型時,特定領域的數據集可以提高準確性。不過,還有一個普遍的認識是,「域外」文本也有用。



        但是!微軟研究人員對這一假設提出了質疑。



        近日,微軟研究人員提出一種人工智能技術,針對生物醫(yī)學NLP的領域特定語言模型預訓練。并自信地說,通過從公開的數據集中編譯一個「全面的」生物醫(yī)學NLP基準,在包括命名實體識別、基于證據的醫(yī)學信息提取、文檔分類等任務上取得了最先進的成果。


        他們認為,「混合領域」預訓練?不就是遷移學習的另一種形式嗎?源領域是一般文本(如新聞),目標領域是專門文本(如生物醫(yī)學論文)。


        在此基礎上,針對特定領域的生物醫(yī)學NLP模型的預訓練總是優(yōu)于通用語言模型的預訓練,說明「混合領域」預訓練并不完美。


        神經語言模型預訓練的兩種范式。「混合領域」預訓練(上);只使用域內文本預訓練(下)


        如此自信,研究人員是有證據的。


        他們通過對生物醫(yī)學NLP應用的影響,比較了訓練前的建模和特定任務的微調。


        第一步,他們創(chuàng)建了一個名為生物醫(yī)學語言理解和推理基準(BLURB)的基準,該基準側重于PubMed(一個生物醫(yī)學相關的數據庫)提供的出版物,涵蓋了諸如關系提取、句子相似度和問題回答等任務,以及諸如是/否問題回答等分類任務。為了計算總結性分數,BLURB中的語料庫按任務類型分組,并分別打分,之后計算所有的平均值。



        為了評估,他們又在最新的PubMed文檔中生成了一個詞匯表并訓練了一個模型:1400萬篇摘要和32億個單詞,總計21GB。在一臺擁有16個V100顯卡的Nvidia DGX-2機器上,培訓了大約5天時間。這個模型具有62,500步長和批量大小,可與以前生物醫(yī)學預訓練實驗中使用的計算量相媲美。

        ?

        又一個自信,研究人員說他們的模型——PubMedBERT,是建立在谷歌的BERT之上。

        ?

        那個牛掰掰的BERT?Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領域最具有突破性的一項技術。



        但有趣的是,將PubMed的全文添加到預訓練文本(168億字)中會讓性能略有下降,直到預訓練時間延長。但研究人員將這部分歸因于數據中的噪聲。


        “在本文中,我們挑戰(zhàn)了神經語言預訓練模型中普遍存在的假設(就是前面說的「混合領域」預訓練),并證明了從「無」開始對特定領域進行預訓練可以顯著優(yōu)于「混合領域」預訓練?!笧樯镝t(yī)學NLP的應用帶來了新的、最先進的結果,」研究人員寫道,「我們未來會進一步探索特定領域的預培訓策略,將BLURB基準擴展到臨床或其他高價值領域?!?/span>


        為了鼓勵生物醫(yī)學NLP的研究,研究人員創(chuàng)建了一個以BLURB基準為特色的排行榜。他們還以開源的方式發(fā)布了預先訓練過的特定任務模型。


        研究已發(fā)布于預印論文網站arxiv上。


        參考鏈接:https://venturebeat.com/

        論文預印版:https://arxiv.org/pdf/2007.15779.pdf



        瀏覽 34
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            中文字幕乱码亚洲中文在线 | 综合激情五月丁香 | 吴梦梦伦理高潮 | 麻豆va一区二区三区久久浪 | 下载操逼| 成人无码区免费A片在线 | 韩国电影《少妇的激情》 | 搞黄色的视频 | 女生性高潮视频 | 国产精品免费久久久久软件 |