Transformer預(yù)訓(xùn)練模型已經(jīng)變革NLP領(lǐng)域,一文概覽當(dāng)前現(xiàn)狀
來(lái)源:機(jī)器之心
Transformer 為自然語(yǔ)言處理領(lǐng)域帶來(lái)的變革已無(wú)需多言。近日,印度國(guó)立理工學(xué)院、生物醫(yī)學(xué)人工智能創(chuàng)業(yè)公司 Nference.ai 的研究者全面調(diào)查了 NLP 領(lǐng)域中基于 Transformer 的預(yù)訓(xùn)練模型,并將調(diào)查結(jié)果匯集成了一篇綜述論文。本文將按大致脈絡(luò)翻譯介紹這篇論文,并重點(diǎn)關(guān)注其中的討論部分,因?yàn)檠芯空咴谄渲兄赋隽嗽擃I(lǐng)域新的研究機(jī)會(huì)。尤其需要說(shuō)明:研究者將該論文命名為「 AMMUS 」,即? AMMU Smiles,這是為了紀(jì)念他們的朋友 K.S.Kalyan。

第 2 節(jié)將簡(jiǎn)單介紹自監(jiān)督學(xué)習(xí),這是 T-PTLM 的核心技術(shù)。
第 3 節(jié)將介紹與 T-PTLM 相關(guān)的一些核心概念,包括預(yù)訓(xùn)練、預(yù)訓(xùn)練方法、預(yù)訓(xùn)練任務(wù)、嵌入和下游適應(yīng)方法。
第 4 節(jié)將給出一種針對(duì) T-PTLM 的新型分類法。這種分類法考慮了四大方面,即預(yù)訓(xùn)練語(yǔ)料庫(kù)、架構(gòu)、自監(jiān)督學(xué)習(xí)類型和擴(kuò)展方法。
第 5 節(jié)將給出一種針對(duì)不同下游適應(yīng)方法的新型分類法并將詳細(xì)解釋每個(gè)類別。
第 6 節(jié)將簡(jiǎn)要介紹多種用于評(píng)估 T-PTLM 進(jìn)展的基準(zhǔn),包括內(nèi)部基準(zhǔn)和外部基準(zhǔn)。
第 7 節(jié)將給出一些適用于 T-PTLM 的軟件庫(kù),從 Huggingface Transformers 到 Transformer-interpret。
第 8 節(jié)將簡(jiǎn)單討論一些可能有助于進(jìn)一步改進(jìn)這些模型的未來(lái)研究方向。
嚴(yán)重依賴人類標(biāo)注的實(shí)例,而獲取這些實(shí)例耗時(shí)費(fèi)力。
缺乏泛化能力,容易出現(xiàn)虛假相關(guān)的問(wèn)題。
醫(yī)療和法律等許多領(lǐng)域缺乏有標(biāo)注數(shù)據(jù),這會(huì)限制 AI 模型在這些領(lǐng)域的應(yīng)用。
難以使用大量免費(fèi)可用的無(wú)標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。
學(xué)習(xí)通用語(yǔ)言表征,這能為下游模型提供優(yōu)良的背景。
通過(guò)學(xué)習(xí)大量免費(fèi)可用的無(wú)標(biāo)注文本數(shù)據(jù)來(lái)獲得更好的泛化能力。
通過(guò)利用大量無(wú)標(biāo)注文本,預(yù)訓(xùn)練有助于模型學(xué)習(xí)通用語(yǔ)言表征。
只需增加一兩個(gè)特定的層,預(yù)訓(xùn)練模型可以適應(yīng)下游任務(wù)。因此這能提供很好的初始化,從而避免從頭開始訓(xùn)練下游模型(只需訓(xùn)練特定于任務(wù)的層)。
讓模型只需小型數(shù)據(jù)集就能獲得更好的表現(xiàn),因此可以降低對(duì)大量有標(biāo)注實(shí)例的需求。
深度學(xué)習(xí)模型由于參數(shù)數(shù)量大,因此在使用小型數(shù)據(jù)集訓(xùn)練時(shí),容易過(guò)擬合。而預(yù)訓(xùn)練可以提供很好的初始化,從而可避免在小型數(shù)據(jù)集上過(guò)擬合,因此可將預(yù)訓(xùn)練視為某種形式的正則化。
準(zhǔn)備預(yù)訓(xùn)練語(yǔ)料庫(kù)
生成詞匯庫(kù)
設(shè)計(jì)預(yù)訓(xùn)練任務(wù)
選擇預(yù)訓(xùn)練方法
選擇預(yù)訓(xùn)練動(dòng)態(tài)


閑聊語(yǔ)言建模(CLM)
掩碼語(yǔ)言建模(MLM)
替代 token 檢測(cè)(RTD)
混洗 token 檢測(cè)(STD)
隨機(jī) token 替換(RTS)
互換語(yǔ)言建模(SLM)
翻譯語(yǔ)言建模(TLM)
替代語(yǔ)言建模(ALM)
句子邊界目標(biāo)(SBO)
下一句子預(yù)測(cè)(NSP)
句子順序預(yù)測(cè)(SOP)
序列到序列語(yǔ)言模型(Seq2SeqLM)
去噪自動(dòng)編碼器(DAE)







