1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        理解NLP中的屏蔽語言模型(MLM)和因果語言模型(CLM)

        共 1491字,需瀏覽 3分鐘

         ·

        2021-07-03 12:51

        來源:DeepHub IMBA

        本文約1100字,建議閱讀7分鐘 
        本文與你討論兩種流行的訓(xùn)練前方案,即MLM和CLM。

        大多數(shù)現(xiàn)代的NLP系統(tǒng)都遵循一種非常標(biāo)準(zhǔn)的方法來訓(xùn)練各種用例的新模型,即先訓(xùn)練后微調(diào)。在這里,預(yù)處理訓(xùn)練的目標(biāo)是利用大量未標(biāo)記的文本,在對各種特定的自然語言處理任務(wù)(如機(jī)器翻譯、文本摘要等)進(jìn)行微調(diào)之前,建立一個通用的語言理解模型。



        在本文章中,我們將討論兩種流行的訓(xùn)練前方案,即掩蔽語言建模(MLM)和因果語言建模(CLM)。

        屏蔽語言模型解釋


        在屏蔽語言建模中,我們通常屏蔽給定句子中特定百分比的單詞,模型期望基于該句子中的其他單詞預(yù)測這些被屏蔽的單詞。這樣的訓(xùn)練方案使這個模型在本質(zhì)上是雙向的,因為掩蔽詞的表示是根據(jù)出現(xiàn)的詞來學(xué)習(xí)的,不管是左還是右。你也可以把它想象成一個填空式的問題陳述。


        下面的圖顯示了更詳細(xì)的視圖與損失計算步驟:


        在這里,被屏蔽詞的表示可以像BERT和其他變體一樣是基于注意力的,或者你也可以不這樣設(shè)計它。基于α(注意權(quán)重)的分布可以權(quán)衡其他的表示輸入的單詞學(xué)習(xí)表示被遮蔽的詞,例如-α= 1將給予同等重視,周圍的單詞(也就是說,每個詞將遮蔽平等的貢獻(xiàn)表示)。

        因果語言模型解釋


        因果語言模型,這里的思想是預(yù)測一個給定句子中的蒙面標(biāo)記,但與MLM不同,這個模型被只考慮發(fā)生在它左邊的單詞來做同樣的事情(理想情況下,這個可以是左的或者右的,想法是使它是單向的)。這樣的訓(xùn)練方案使得這種模式在本質(zhì)上是單向的

        正如您在下面的圖中可以看到的,該模型預(yù)計將根據(jù)出現(xiàn)在其左側(cè)的單詞預(yù)測句子中出現(xiàn)的掩碼標(biāo)記?;谀P蛯嶋H標(biāo)簽的預(yù)測,計算交叉熵?fù)p失并反向傳播來訓(xùn)練模型參數(shù)。


        下面的圖顯示了更詳細(xì)的視圖與損失計算步驟:


        在這里,屏蔽詞的表示可以是基于注意力的,就像GPT和變體一樣,或者你也可以不這樣設(shè)計它,就像我們在LSTM里使用它一樣?;讦恋姆植?見圖)你可以權(quán)衡其他的表示輸入的單詞學(xué)習(xí)表示被遮蔽的詞,例如-α= 1將給予同等重視,周圍的單詞(也就是說,每個詞將平等貢獻(xiàn)了遮蔽表示)。

        這些系統(tǒng)也被稱為解碼器模型,因為在典型的編碼器-解碼器架構(gòu)中,如機(jī)器翻譯、文本摘要等,解碼器(文本生成器)的工作原理類似。

        何時使用?


        當(dāng)目標(biāo)是學(xué)習(xí)輸入文檔的良好表示時,MLM 損失是首選,而當(dāng)我們希望學(xué)習(xí)生成流暢文本的系統(tǒng)時,CLM 是首選。此外,從直覺上看,這是有道理的,因為在為每個單詞學(xué)習(xí)良好的輸入表示時,您想知道它出現(xiàn)的單詞是左還是右,而當(dāng)您想學(xué)習(xí)生成文本的系統(tǒng)時,您只能看到什么到目前為止看到了什么,您已經(jīng)生成了所有內(nèi)容(就像人類的寫作方式一樣)。因此,制作一個在生成文本的同時也可以窺視另一側(cè)的系統(tǒng)可能會引入限制模型創(chuàng)造力的偏差。

        盡管在訓(xùn)練具有編碼器和解碼器的整個架構(gòu)時,您經(jīng)常會發(fā)現(xiàn) MLM 和 CLM 損失。兩者都有其優(yōu)點和局限性,一種稱為 XLNet 的新模型使用置換技術(shù)來利用兩全其美(MLM 和 CLM)。

        作者:Prakhar Mishra
        原文地址:https://towardsdatascience.com/understanding-masked-language-models-mlm-and-causal-language-models-clm-in-nlp-194c15f56a5

        編輯:黃繼彥


        瀏覽 75
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            欧美日韩国产一区二区不卡 | 青娱乐在线观看 | 女人高潮叫床声音频 | 成人高清无码免费视频 | 《乳色吐息》无删减 | 成 人 黄 色 免费 观 看下载 | 无码日逼视频 | 操老肥逼 | 精品交换一区二区三区无码 | 五月天色片 |