1. 最新 Transformer 預(yù)訓(xùn)練模型綜述!

        共 8480字,需瀏覽 17分鐘

         ·

        2021-10-26 04:40


        機(jī)器之心報(bào)道


        在如今的 NLP 領(lǐng)域,幾乎每項(xiàng)任務(wù)中都能看見「基于 Transformer 的預(yù)訓(xùn)練語言模型(T-PTLM)」成功的身影。這些模型的起點(diǎn)是 GPT 和 BERT。而這些模型的技術(shù)基礎(chǔ)包括 Transformer、自監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)。T-PTLM 可使用自監(jiān)督學(xué)習(xí)從大規(guī)模文本數(shù)據(jù)學(xué)習(xí)普適性的語言表征,然后將學(xué)到的知識(shí)遷移到下游任務(wù)。這些模型能為下游任務(wù)提供優(yōu)質(zhì)的背景知識(shí),從而可避免從頭開始訓(xùn)練下游任務(wù)。

        這篇詳盡調(diào)查 T-PTLM 的綜述論文首先將簡(jiǎn)要介紹自監(jiān)督學(xué)習(xí)。接下來將解釋多個(gè)核心概念,包括預(yù)訓(xùn)練、預(yù)訓(xùn)練方法、預(yù)訓(xùn)練任務(wù)、嵌入和下游任務(wù)適應(yīng)方法。接下來,文章將為 T-PTLM 給出一種新的分類方法,然后簡(jiǎn)要介紹多種不同的基準(zhǔn),包括內(nèi)部基準(zhǔn)和外部基準(zhǔn)。研究者還歸納總結(jié)了一些適用于 T-PTLM 的軟件庫(kù)。最后討論了一些可能有助于進(jìn)一步改進(jìn)這些模型的未來研究方向。


        ?論文地址:https://arxiv.org/pdf/2108.05542.pdf

        研究者相信,這篇全面詳盡的綜述論文能作為一份很好的參考資料,幫助讀者了解 T-PTLM 的相關(guān)核心概念和近期研究進(jìn)展。

        引言

        基于 Transformer 的預(yù)訓(xùn)練語言模型(T-PTLM)具備從大規(guī)模無標(biāo)注文本數(shù)據(jù)學(xué)習(xí)通用語言表征并將所學(xué)知識(shí)遷移到下游任務(wù)的能力,因此已經(jīng)在 NLP 領(lǐng)域取得了巨大的成功,這類模型包括 GPT-1、BERT、XLNet、RoBERTa、ELECTRA、T5、ALBERT、BART 和 PEGAUSUS。在更早期,NLP 系統(tǒng)大都采用了基于規(guī)則的方法,之后取而代之的是機(jī)器學(xué)習(xí)模型。機(jī)器學(xué)習(xí)模型需要特征工程,而特征工程又需要領(lǐng)域?qū)I(yè)知識(shí)并且需要較長(zhǎng)的時(shí)間。

        隨著 GPU 等更好的計(jì)算機(jī)硬件以及 Word2Vec 和 Glove 等詞嵌入方法的出現(xiàn),CNN 和 RNN 等深度學(xué)習(xí)模型在構(gòu)建 NLP 系統(tǒng)方面得到了更廣泛的應(yīng)用。這些深度學(xué)習(xí)模型的主要缺點(diǎn)是除了詞嵌入之外,需要從頭開始訓(xùn)練模型。從頭開始訓(xùn)練這類模型需要大量有標(biāo)注實(shí)例,而生成這些實(shí)例的成本很高。但是,我們希望僅使用少量有標(biāo)注實(shí)例來獲得表現(xiàn)良好的模型。

        遷移學(xué)習(xí)讓我們可以將在源任務(wù)上學(xué)習(xí)到的知識(shí)很好地復(fù)用到目標(biāo)任務(wù)上。在這其中,目標(biāo)任務(wù)應(yīng)該與源任務(wù)相似。基于遷移學(xué)習(xí)的思想,計(jì)算機(jī)視覺領(lǐng)域的研究者已在使用 ImageNet 等大規(guī)模有標(biāo)注數(shù)據(jù)集來訓(xùn)練大型 CNN 模型。這些模型學(xué)習(xí)到的圖像表征對(duì)所有任務(wù)來說都是普適的。然后,這些大型預(yù)訓(xùn)練 CNN 模型可以適應(yīng)下游任務(wù),具體做法是添加少數(shù)特定于任務(wù)的層,然后在目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào)。由于預(yù)訓(xùn)練 CNN 模型能為下游模型提供很好的背景知識(shí),因此它們?cè)谠S多計(jì)算機(jī)視覺任務(wù)上取得了巨大的成功。

        CNN 和 RNN 等深度學(xué)習(xí)模型難以建模長(zhǎng)期上下文以及學(xué)習(xí)具有局部性偏差(locality bias)的詞表征。此外,由于 RNN 按順序處理輸入(逐詞處理),因此只能有限度地使用并行計(jì)算硬件。為了克服現(xiàn)有深度學(xué)習(xí)模型的這些缺點(diǎn),Vaswani et al. 提出了完全基于自注意力的深度學(xué)習(xí)模型:Transformer。相比于 RNN,自注意力支持更高度的并行化,并且還能輕松地建模長(zhǎng)期上下文,因?yàn)檩斎胄蛄兄械拿總€(gè) token 都會(huì)關(guān)注其它所有 token。

        Transformer 包含一些堆疊的編碼器和解碼器層。在堆疊編碼器和解碼器層的幫助下,Transformer 可以學(xué)習(xí)到復(fù)雜的語言信息。在 NLP 領(lǐng)域,生成大量有標(biāo)注數(shù)據(jù)的成本非常高,也非常耗時(shí)。但是,大量無標(biāo)注文本數(shù)據(jù)卻很容易獲得。在計(jì)算機(jī)視覺社區(qū)使用基于 CNN 的預(yù)訓(xùn)練模型所取得的成功的感召下,NLP 研究社區(qū)將 Transformer 和自監(jiān)督學(xué)習(xí)的能力組合到一起,開發(fā)出了 T-PTLM。自監(jiān)督學(xué)習(xí)讓 Transformer 可以使用由一個(gè)或多個(gè)預(yù)訓(xùn)練任務(wù)提供的偽監(jiān)督進(jìn)行學(xué)習(xí)。
        ?
        GPT 和 BERT 是最早的 T-PTLM,它們分別是基于 Transformer 解碼器和編碼器層開發(fā)的。之后,又誕生了 XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART 和 PEGAUSUS 等模型。其中,XLNet、RoBERTa、ELECTRA 和 ALBERT 是基于 BERT 的改進(jìn)模型;T5、BART 和 PEGAUSUS 是基于編碼器 - 解碼器的模型。

        Kaplan et al. 表明只需增加 T-PTLM 模型的規(guī)模就能帶來性能的提升。這一發(fā)現(xiàn)推動(dòng)了大規(guī)模 T-PTLM 的發(fā)展并催生了 GPT-3 (175B)、PANGU (200B)、GShard (600B) 等包含上千億參數(shù)的模型,而 Switch-Transformers (1.6T) 的參數(shù)量更是達(dá)到了萬億級(jí)。

        T-PTLM 在通用英語領(lǐng)域取得成功之后,又開始進(jìn)軍其它領(lǐng)域,包括金融、法律、新聞、編程、對(duì)話、網(wǎng)絡(luò)、學(xué)術(shù)和生物醫(yī)學(xué)。T-PTLM 還支持遷移學(xué)習(xí),即通過在目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào)和即時(shí)調(diào)整,可讓這些模型適用于下游任務(wù)。本文將全面回顧與 T-PTLM 有關(guān)的近期研究成果。這篇綜述論文的看點(diǎn)總結(jié)如下:

        • 第 2 節(jié)將簡(jiǎn)單介紹自監(jiān)督學(xué)習(xí),這是 T-PTLM 的核心技術(shù)。

        • 第 3 節(jié)將介紹與 T-PTLM 相關(guān)的一些核心概念,包括預(yù)訓(xùn)練、預(yù)訓(xùn)練方法、預(yù)訓(xùn)練任務(wù)、嵌入和下游適應(yīng)方法。

        • 第 4 節(jié)將給出一種針對(duì) T-PTLM 的新型分類法。這種分類法考慮了四大方面,即預(yù)訓(xùn)練語料庫(kù)、架構(gòu)、自監(jiān)督學(xué)習(xí)類型和擴(kuò)展方法。

        • 第 5 節(jié)將給出一種針對(duì)不同下游適應(yīng)方法的新型分類法并將詳細(xì)解釋每個(gè)類別。

        • 第 6 節(jié)將簡(jiǎn)要介紹多種用于評(píng)估 T-PTLM 進(jìn)展的基準(zhǔn),包括內(nèi)部基準(zhǔn)和外部基準(zhǔn)。

        • 第 7 節(jié)將給出一些適用于 T-PTLM 的軟件庫(kù),從 Huggingface Transformers 到 Transformer-interpret。

        • 第 8 節(jié)將簡(jiǎn)單討論一些可能有助于進(jìn)一步改進(jìn)這些模型的未來研究方向。


        自監(jiān)督學(xué)習(xí)(SSL)

        監(jiān)督學(xué)習(xí)的缺點(diǎn)總結(jié)如下:

        • 嚴(yán)重依賴人類標(biāo)注的實(shí)例,而獲取這些實(shí)例耗時(shí)費(fèi)力。

        • 缺乏泛化能力,容易出現(xiàn)虛假相關(guān)的問題。

        • 醫(yī)療和法律等許多領(lǐng)域缺乏有標(biāo)注數(shù)據(jù),這會(huì)限制 AI 模型在這些領(lǐng)域的應(yīng)用。

        • 難以使用大量免費(fèi)可用的無標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。


        SSL 與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)等其它流行學(xué)習(xí)范式具有一些相似性。SSL 與無監(jiān)督學(xué)習(xí)的相似之處是它們都不需要人類標(biāo)注的實(shí)例。但是,它與無監(jiān)督學(xué)習(xí)也有不同之處:a) SSL 需要監(jiān)督,而無監(jiān)督學(xué)習(xí)沒有監(jiān)督;b) 無監(jiān)督學(xué)習(xí)的目標(biāo)是識(shí)別隱藏模式,而 SSL 的目標(biāo)是學(xué)習(xí)有意義的表征。SSL 與監(jiān)督學(xué)習(xí)的相似之處是學(xué)習(xí)范式時(shí)都需要監(jiān)督。但是,它與監(jiān)督學(xué)習(xí)也有不同之處:a) SSL 會(huì)自動(dòng)生成標(biāo)簽,而無需任何人類干預(yù);b) 監(jiān)督學(xué)習(xí)的目標(biāo)是提供特定于任務(wù)的知識(shí),而 SSL 的目標(biāo)是向模型提供通用知識(shí)。

        SSL 的目標(biāo)總結(jié)如下:

        • 學(xué)習(xí)通用語言表征,這能為下游模型提供優(yōu)良的背景。

        • 通過學(xué)習(xí)大量免費(fèi)可用的無標(biāo)注文本數(shù)據(jù)來獲得更好的泛化能力。


        自監(jiān)督學(xué)習(xí)可大致分為生成式 SSL、對(duì)比式 SSL 和對(duì)抗式 SSL 三種。

        T-PTLM 核心概念

        預(yù)訓(xùn)練

        預(yù)訓(xùn)練能帶來以下一些優(yōu)勢(shì):

        • 通過利用大量無標(biāo)注文本,預(yù)訓(xùn)練有助于模型學(xué)習(xí)通用語言表征。

        • 只需增加一兩個(gè)特定的層,預(yù)訓(xùn)練模型可以適應(yīng)下游任務(wù)。因此這能提供很好的初始化,從而避免從頭開始訓(xùn)練下游模型(只需訓(xùn)練特定于任務(wù)的層)。

        • 讓模型只需小型數(shù)據(jù)集就能獲得更好的表現(xiàn),因此可以降低對(duì)大量有標(biāo)注實(shí)例的需求。

        • 深度學(xué)習(xí)模型由于參數(shù)數(shù)量大,因此在使用小型數(shù)據(jù)集訓(xùn)練時(shí),容易過擬合。而預(yù)訓(xùn)練可以提供很好的初始化,從而可避免在小型數(shù)據(jù)集上過擬合,因此可將預(yù)訓(xùn)練視為某種形式的正則化。


        預(yù)訓(xùn)練的步驟

        預(yù)訓(xùn)練一個(gè)模型涉及以下五個(gè)步驟:

        • 準(zhǔn)備預(yù)訓(xùn)練語料庫(kù)

        • 生成詞匯庫(kù)

        • 設(shè)計(jì)預(yù)訓(xùn)練任務(wù)

        • 選擇預(yù)訓(xùn)練方法

        • 選擇預(yù)訓(xùn)練動(dòng)態(tài)


        預(yù)訓(xùn)練語料庫(kù)

        圖 1:預(yù)訓(xùn)練語料庫(kù)

        圖 2:預(yù)訓(xùn)練方法,其中 PTS 是從頭開始型預(yù)訓(xùn)練、CPT 是持續(xù)型預(yù)訓(xùn)練、SPT 是同時(shí)型預(yù)訓(xùn)練、TAPT 是任務(wù)自適應(yīng)型預(yù)訓(xùn)練、KIPT 是知識(shí)繼承型預(yù)訓(xùn)練

        預(yù)訓(xùn)練任務(wù)

        • 閑聊語言建模(CLM)

        • 掩碼語言建模(MLM)

        • 替代 token 檢測(cè)(RTD)

        • 混洗 token 檢測(cè)(STD)

        • 隨機(jī) token 替換(RTS)

        • 互換語言建模(SLM)

        • 翻譯語言建模(TLM)

        • 替代語言建模(ALM)

        • 句子邊界目標(biāo)(SBO)

        • 下一句子預(yù)測(cè)(NSP)

        • 句子順序預(yù)測(cè)(SOP)

        • 序列到序列語言模型(Seq2SeqLM)

        • 去噪自動(dòng)編碼器(DAE)


        嵌入

        圖 8:T-PTLM 中的嵌入

        分類法

        為了了解以及跟蹤各種 T-PTLM 的發(fā)展,研究者從四個(gè)方面對(duì) T-PTLM 進(jìn)行了分類,即預(yù)訓(xùn)練語料庫(kù)、模型架構(gòu)、SSL 類型和擴(kuò)展方法。如下圖 9 所示:

        圖 9:T-PTLM 的分類法。
        ?
        下游適應(yīng)方法

        一旦完成語言模型的訓(xùn)練,就可將其用于下游任務(wù)了。將預(yù)訓(xùn)練后的語言模型用于下游任務(wù)的方式有三種:基于特征的方法、微調(diào)和基于提示的微調(diào)(prompt-based tuning)。

        如下圖 10 所示,基于特征的方法涉及到根據(jù)語言模型生成上下文的詞嵌入,然后在針對(duì)特定下游任務(wù)的模型中將它們用作輸入特征。微調(diào)涉及到根據(jù)下游任務(wù),通過盡量降低針對(duì)特定任務(wù)的損失來調(diào)整模型權(quán)重。

        圖 10:下游適應(yīng)方法。
        ?
        評(píng)估

        在預(yù)訓(xùn)練階段,T-PTLM 會(huì)獲取預(yù)訓(xùn)練語料庫(kù)中編碼的知識(shí)。這里的知識(shí)包括句法、語義、事實(shí)和常識(shí)。對(duì)于 T-PTLM 的效果,評(píng)估方式有兩種,即內(nèi)在方式和外在方式。見下圖 11。

        內(nèi)在評(píng)估方式是通過探測(cè) T-PTLM 中編碼的知識(shí)進(jìn)行評(píng)估,而外在評(píng)估方式則是評(píng)估 T-PTLM 在真實(shí)世界下游任務(wù)中的效果如何。內(nèi)在評(píng)估方式可讓我們了解 T-PTLM 在預(yù)訓(xùn)練階段獲得的知識(shí),這有助于我們?cè)O(shè)計(jì)更好的預(yù)訓(xùn)練任務(wù),使得模型可以在預(yù)訓(xùn)練階段學(xué)習(xí)到更多知識(shí)。

        圖 11:用于評(píng)估 T-PTLM 研究進(jìn)展的基準(zhǔn)。
        ?
        有用的軟件庫(kù)

        研究者還歸納總結(jié)了一些適用于 T-PTLM 的常用軟件庫(kù)。其中,Transformers 和 Fairseq 等軟件庫(kù)適用于模型訓(xùn)練和評(píng)估。SimpleTransformers、HappyTransformer、AdaptNLP 等則構(gòu)建于 Transformer 軟件庫(kù)之上,可讓用戶僅使用少量代碼就實(shí)現(xiàn)更輕松的訓(xùn)練和評(píng)估。FastSeq、DeepSpeed、FastT5、OnnxT5 和 LightSeq 等則可用于提升模型的推理速度。Ecco、BertViz 和 exBERT 都是可視化分析工具,可用于探索 Transformer 模型的層。Transformers-interpret 和 Captum 則能用于解釋模型決策。

        表 11:適用于 T-PTLM 的軟件庫(kù)。
        ?
        討論和未來方向

        更好的預(yù)訓(xùn)練方法

        僅使用 SSL 來訓(xùn)練模型(尤其是帶有成千上萬億參數(shù)的大模型)的成本非常高。知識(shí)繼承型預(yù)訓(xùn)練(KIPT)等全新的預(yù)訓(xùn)練方法涉及到 SSL 和知識(shí)蒸餾。SSL 讓模型可以學(xué)習(xí)預(yù)訓(xùn)練語料庫(kù)中可用的知識(shí),而知識(shí)蒸餾則讓模型可以學(xué)習(xí)已經(jīng)編碼在已有預(yù)訓(xùn)練模型中的知識(shí)。由于在通過知識(shí)蒸餾的預(yù)訓(xùn)練階段,模型可獲得額外的知識(shí),因此 a) 模型可以更快速地收斂并由此縮短預(yù)訓(xùn)練時(shí)間,b) 相比于僅使用 SSL 預(yù)訓(xùn)練的模型,在下游任務(wù)上的表現(xiàn)會(huì)更好。研究社區(qū)必須重點(diǎn)關(guān)注開發(fā) KIPT 等更好的預(yù)訓(xùn)練方法,讓模型獲得更多知識(shí)以及降低預(yù)訓(xùn)練時(shí)間。

        樣本高效型預(yù)訓(xùn)練任務(wù)

        如果一個(gè)預(yù)訓(xùn)練任務(wù)能最大化地利用每個(gè)訓(xùn)練實(shí)例,那么就可以說該預(yù)訓(xùn)練任務(wù)是樣本高效的,即它應(yīng)該能在訓(xùn)練實(shí)例中的所有 token 上獲得定義。樣本高效型預(yù)訓(xùn)練任務(wù)能使預(yù)訓(xùn)練的計(jì)算效率更高。最常用的預(yù)訓(xùn)練任務(wù) MLM 的樣本效率就不太高,因?yàn)槠鋬H涉及到一個(gè) token 子集,即掩碼 token,其占總 token 數(shù)的 15%。RTD、RTS 和 STD 等預(yù)訓(xùn)練任務(wù)可被視為是開發(fā)樣本高效型預(yù)訓(xùn)練任務(wù)的早期嘗試。這三種預(yù)訓(xùn)練任務(wù)都定義在每個(gè)訓(xùn)練實(shí)例的所有 token 之上,即它們涉及到識(shí)別每個(gè) token 是否被替代、隨機(jī)替換或混洗。未來應(yīng)該還將出現(xiàn)使計(jì)算效率更高的樣本高效型預(yù)訓(xùn)練任務(wù)。

        高效模型

        由于模型尺寸較大并且需要大量無標(biāo)注的文本數(shù)據(jù),因此預(yù)訓(xùn)練 T-PTLM 的成本也很高。但是,較長(zhǎng)的預(yù)訓(xùn)練時(shí)間對(duì)環(huán)境并不友好,因?yàn)檫@個(gè)過程會(huì)釋放二氧化碳;而在生物醫(yī)學(xué)等許多領(lǐng)域,也沒有大規(guī)模的無標(biāo)注文本數(shù)據(jù)。近期,在 BERT 模型基礎(chǔ)上進(jìn)行全新改進(jìn)的 DeBERTa 等模型實(shí)現(xiàn)了比 RoBERTa 模型更好的性能,盡管其僅使用了 78 GB 數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,這只是預(yù)訓(xùn)練 RoBERTa 模型所用的數(shù)據(jù)量的一半。類似地,ConvBERT 憑借全新的混合注意力模塊,僅使用 ELECTRA 模型四分之一的預(yù)訓(xùn)練成本就取得了更優(yōu)的表現(xiàn)。為了降低預(yù)訓(xùn)練的數(shù)據(jù)量和訓(xùn)練成本,人們需要 DeBERTa 和 ConvBERT 這樣的高效模型。

        更好的位置編碼機(jī)制

        自注意力機(jī)制是置換不變型的方法,不存在位置偏差。使用絕對(duì)或相對(duì)位置嵌入,可以提供位置偏差。此外,絕對(duì)位置嵌入可以預(yù)先確定或?qū)W習(xí)到。但是,這兩種方法各有優(yōu)缺點(diǎn)。絕對(duì)位置嵌入會(huì)有泛化問題,但卻很容易實(shí)現(xiàn)。不同于絕對(duì)位置,相對(duì)位置嵌入能穩(wěn)健地應(yīng)對(duì)序列長(zhǎng)度變化,但卻難以實(shí)現(xiàn),性能也更差。我們還需要全新的位置編碼機(jī)制,比如 CAPE,其將絕對(duì)和相對(duì)位置嵌入的優(yōu)勢(shì)組合到了一起。

        改進(jìn)現(xiàn)有的 T-PTLM

        BERT 和 RoBERTa 等 T-PTLM 已經(jīng)在許多 NLP 任務(wù)上取得了優(yōu)良的結(jié)果。近期的研究表明,通過基于對(duì)抗或?qū)Ρ阮A(yù)訓(xùn)練任務(wù)的持續(xù)預(yù)訓(xùn)練注入句子層級(jí)的語義,還可以進(jìn)一步改進(jìn)這些模型。舉個(gè)例子,Panda et al. 表明使用混洗 token 檢測(cè)目標(biāo)的持續(xù)預(yù)訓(xùn)練可提升 RoBERTa 模型在 GLUE 任務(wù)上的性能,因?yàn)槠湓试S模型學(xué)習(xí)更連貫的句子表征。類似地,使用對(duì)比預(yù)訓(xùn)練目標(biāo)的持續(xù)性預(yù)訓(xùn)練可以提升 T-PTLM 在 GLUE 任務(wù)上的性能以及多語言 T-PTLM 在 Mickey Probe 上的表現(xiàn)。為了將其擴(kuò)展到其它單語言和特定領(lǐng)域的 T-PTLM,還需要進(jìn)一步的研究。
        ?
        超越樸素的微調(diào)

        為了將預(yù)訓(xùn)練模型用于下游任務(wù),微調(diào)是最常用的方法。但是,樸素的微調(diào)的主要缺點(diǎn)是其會(huì)改變預(yù)訓(xùn)練模型中的所有層,因此我們需要為每個(gè)任務(wù)維持另一個(gè)副本,這會(huì)增加部署成本。為了以一種參數(shù)高效的方式將預(yù)訓(xùn)練模型用于下游任務(wù),人們提出了 Adapters 和基于剪枝的微調(diào)等方法。

        舉個(gè)例子,adapter 是添加到每個(gè) Transformer 層的針對(duì)特定任務(wù)的小層。而在下游任務(wù)適應(yīng)期間,僅更新 adapter 層的參數(shù),Transformer 層的參數(shù)保持不變。此外,Poth et al. 表明 adapter 也可用于中間微調(diào)。近期,基于提示的微調(diào)(prompt-based tuning)方法在參數(shù)效率方面取得了明顯更優(yōu)的表現(xiàn),并得到了研究社區(qū)的關(guān)注。舉個(gè)例子,Prefix-tuning 等基于提示的微調(diào)方法僅需要 0.1% 的針對(duì)特定任務(wù)的參數(shù),而基于 adapter 的微調(diào)則需要 3% 的針對(duì)特定任務(wù)的參數(shù)。

        基準(zhǔn)評(píng)測(cè)

        在最后四層中,人們引入了很多基準(zhǔn)來評(píng)估通用型和領(lǐng)域特定型預(yù)訓(xùn)練模型的進(jìn)展。除了英語之外,也出現(xiàn)了一些用于評(píng)估其它單語言和多語言模型進(jìn)展的基準(zhǔn)。但是,現(xiàn)有的基準(zhǔn)不足以覆蓋所有場(chǎng)景。舉個(gè)例子,還沒有基準(zhǔn)用于評(píng)估 a) 緊湊預(yù)訓(xùn)練模型的進(jìn)展,b) 預(yù)訓(xùn)練模型的穩(wěn)健性,c) 針對(duì)社交媒體以及學(xué)術(shù)等專業(yè)領(lǐng)域開發(fā)的 PTLM。

        近日,Explainboard 等排行榜不再只是使用已有基準(zhǔn)等單一指標(biāo)評(píng)估進(jìn)展,也會(huì)深挖或分析模型的長(zhǎng)項(xiàng)和短板。這類排行榜應(yīng)該也能擴(kuò)展到其它領(lǐng)域。此外,F(xiàn)ewGLUE、FLEX 和 FewCLUE 等評(píng)估少量次學(xué)習(xí)技術(shù)的基準(zhǔn)也應(yīng)當(dāng)擴(kuò)展到其它語言和領(lǐng)域。

        緊湊模型

        T-PTLM 幾乎在每種 NLP 任務(wù)上都獲得了最佳表現(xiàn)。但是,這些模型都很大,需要更大的存儲(chǔ)空間。因?yàn)檫@些模型的層數(shù)很多,因此輸入需要一定時(shí)間才能完全通過模型,從而得到預(yù)測(cè)結(jié)果,因此延遲很高。而真實(shí)世界應(yīng)用的資源有限,需要更低的延遲,因此剪枝、量化、知識(shí)蒸餾、參數(shù)共享和分解等模型壓縮方法已經(jīng)在英語通用領(lǐng)域應(yīng)用方面得到了探索。研究這些模型壓縮方法在其它語言和領(lǐng)域的應(yīng)用具有很大的前景。
        ?
        對(duì)噪聲的穩(wěn)健性

        T-PTLM 容易受到噪聲影響,其中包括對(duì)抗噪聲和自然噪聲。其主要原因是使用了子詞嵌入。在使用子詞嵌入時(shí),一個(gè)詞會(huì)被分解為多個(gè)子詞 token,因此即使很小的拼寫錯(cuò)誤也可能改變?cè)撛~的整體表征,進(jìn)而阻礙模型學(xué)習(xí)并影響模型預(yù)測(cè)。為了提升模型對(duì)噪聲的穩(wěn)健性,CharacterBERT 等模型采用了只使用字符嵌入的方法,而 CharBERT 等模型則會(huì)將字符嵌入和子詞嵌入一起使用。這兩種方法都能提升對(duì)噪聲的穩(wěn)健性。

        近期,研究者們還提出了 CANINE、ByT5 和 Charformer 等無 token 化模型來提升對(duì)噪聲的穩(wěn)健性。為了讓這些模型能在真實(shí)世界中得到應(yīng)用,尤其是在醫(yī)學(xué)等敏感領(lǐng)域,我們需要提升它們的穩(wěn)健性。

        全新的適應(yīng)方法

        為了將通用模型適應(yīng)到生物醫(yī)學(xué)等專業(yè)領(lǐng)域或?qū)⒍嗾Z言模型適應(yīng)到特定語言,常用的策略是使用持續(xù)性預(yù)訓(xùn)練。盡管這種方法通過調(diào)整模型以適應(yīng)特定的領(lǐng)域或語言能得到良好的結(jié)果,但如果缺少領(lǐng)域或語言特定的詞匯庫(kù),下游模型的性能會(huì)受到影響。近期有研究者提出了擴(kuò)展詞匯表然后持續(xù)預(yù)訓(xùn)練的方法。這些方法能克服 OOV 詞的問題,但由于會(huì)在詞匯表中增加新詞,因此會(huì)增大詞匯表的規(guī)模。近日,Yao et al. 提出了 Adapt and Distill 方法,即使用詞匯表擴(kuò)展和知識(shí)蒸餾來使通用模型適應(yīng)特定領(lǐng)域。不同于已有的適應(yīng)方法,該方法不僅能讓通用模型適應(yīng)特定領(lǐng)域,而且還能減小模型的規(guī)模。這一注意值得進(jìn)一步研究并有望產(chǎn)出全新的適應(yīng)方法。

        隱私問題

        T-PTLM 已經(jīng)在許多 NLP 任務(wù)上取得了優(yōu)良的結(jié)果。但是,這些模型也存在一些超出預(yù)期且并無益處的風(fēng)險(xiǎn)。舉個(gè)例子,數(shù)據(jù)泄露是人們擔(dān)心的一個(gè)主要問題,尤其是當(dāng)這些模型的預(yù)訓(xùn)練使用了隱私數(shù)據(jù)時(shí)。由于模型是在大量文本數(shù)據(jù)上預(yù)訓(xùn)練的,因此有可能從中恢復(fù)敏感信息,比如可識(shí)別出個(gè)人身份的信息。因此,需要防止人們公開發(fā)布使用隱私數(shù)據(jù)預(yù)訓(xùn)練的模型。

        近日,Carlini et al. 研究表明,GPT-2 模型可生成一個(gè)人的完整郵政地址,這些地址包含在訓(xùn)練數(shù)據(jù)中,可使用該人的名字通過提示得到。近期出現(xiàn)在生物醫(yī)學(xué)領(lǐng)域的 KART 框架可通過執(zhí)行多種攻擊來評(píng)估數(shù)據(jù)泄露情況。研究社區(qū)需要開發(fā)更復(fù)雜的攻擊來評(píng)估數(shù)據(jù)泄露情況并開發(fā)防止預(yù)訓(xùn)練模型泄露敏感數(shù)據(jù)的方法。
        ?
        降低偏見

        基于深度學(xué)習(xí)的方法正在現(xiàn)實(shí)世界中得到越來越廣泛的應(yīng)用,其中包括在生物醫(yī)學(xué)和法律等專業(yè)領(lǐng)域。但是,這些模型很容易學(xué)習(xí)并放大訓(xùn)練數(shù)據(jù)中已有的偏見。由此造成的結(jié)果是:這些模型會(huì)產(chǎn)生對(duì)特定種族、性別或年齡群體的偏見。我們完全不需要這樣的模型。

        近期出現(xiàn)了一些重點(diǎn)關(guān)注識(shí)別和降低偏見的研究。比如,Minot et al. 提出了一種用于減少性別偏見的數(shù)據(jù)增強(qiáng)方法,Liang et al. 提出的 A-INLP 方法可以動(dòng)態(tài)地識(shí)別偏見敏感型 token。在這一領(lǐng)域進(jìn)行進(jìn)一步研究有助于降低預(yù)訓(xùn)練模型中的偏見并幫助它們做出公平的決定。

        降低微調(diào)不穩(wěn)定性

        為了讓預(yù)訓(xùn)練模型適應(yīng)下游任務(wù),最常用的方法是微調(diào)。盡管微調(diào)的表現(xiàn)不錯(cuò),但它并不穩(wěn)定,即使用不同隨機(jī)種子來執(zhí)行微調(diào)會(huì)令下游表現(xiàn)差距巨大。有人認(rèn)為,微調(diào)不穩(wěn)定的原因包括災(zāi)難性遺忘和數(shù)據(jù)集規(guī)模較小。但是,Mosbach et al. 表明這兩個(gè)原因都不是微調(diào)不穩(wěn)定的原因,并進(jìn)一步表明微調(diào)不穩(wěn)定的原因包括:a) 優(yōu)化困難,導(dǎo)致梯度消失,b) 泛化問題。為了降低微調(diào)不穩(wěn)定,可能的解決方案包括:a) 中間微調(diào),b) 混合(mix-out),c) 在早期 epoch 采用更小的學(xué)習(xí)率并且增多微調(diào) epoch 的次數(shù),d) 同時(shí)使用監(jiān)督式對(duì)比損失和交叉熵?fù)p失。讓微調(diào)更穩(wěn)定的方法值得進(jìn)一步研究。


        往期精彩:

        ?時(shí)隔一年!深度學(xué)習(xí)語義分割理論與代碼實(shí)踐指南.pdf第二版來了!

        ?我工作第五年的學(xué)習(xí)與讀書之法

        ?基于閾值處理的圖像分割算法!

        ?基于邊緣檢測(cè)的圖像分割算法!

        瀏覽 59
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 午夜男女免费视频 | 吴梦梦做爱视频 | 小浪货喷水h | 日韩一区不卡 | 强嗯~受~噗嗤~啊~H视频 |