【NLP】一文了解基于深度學(xué)習(xí)的自然語言處理研究
????自然語言處理被稱為人工智能皇冠上的明珠,因此如何使用深度學(xué)習(xí)技術(shù)推動(dòng) NLP 中各個(gè)任務(wù)的發(fā)展是當(dāng)前研究熱點(diǎn)和難點(diǎn)。語言是人類所特有的一種能力,而如何用自然語言與計(jì)算機(jī)進(jìn)行通信,是人們長期以來追求的。自然語言處理就是實(shí)現(xiàn)人機(jī)間通過自然語言交流。但自然語言是高度抽象的符號化系統(tǒng),文本間存在數(shù)據(jù)離散、稀疏,同時(shí)還存在多義詞、一詞多義等問題。而深度學(xué)習(xí)方法具有強(qiáng)大的特征提取和學(xué)習(xí)能力,可以更好地處理高維度稀疏數(shù)據(jù),在 NLP 領(lǐng)域諸多任務(wù)中都取得了長足發(fā)展。本文主要從基于深度學(xué)習(xí)的NLP應(yīng)用研究進(jìn)展和預(yù)訓(xùn)練語言模型兩方面進(jìn)行介紹,最后是基于深度學(xué)習(xí)的自然語言處理遇到的一些問題及展望。
基于深度學(xué)習(xí)的自然語言處理應(yīng)用研究進(jìn)展
????詞性標(biāo)注(Part-Of-Speech tagging,POS)是指確定句子中每個(gè)詞的詞性,如形容詞、動(dòng)詞、名詞等,又稱詞類標(biāo)注或者簡稱標(biāo)注。
? ?2017年,Kadari等提出了一種解決CCG超級標(biāo)簽任務(wù)的方法。該方法通過結(jié)合雙向長期短期記憶和條件隨機(jī)場(BLSTM-CRF)模型,提取輸入的特征并完成標(biāo)注,取得了優(yōu)異的成果。同年,F(xiàn)eng等提出一種跨語言知識作為關(guān)注納入神經(jīng)架構(gòu)的方法。該方法聯(lián)合應(yīng)用詞層面的跨語言相互影響和實(shí)體類層面的單語分布來加強(qiáng)低資源名稱標(biāo)注。實(shí)驗(yàn)證明,相比于所有傳統(tǒng)對名稱標(biāo)記的方法,該方法取得了重大改進(jìn) 。
????句法分析(Syntactic analysis)的主要任務(wù)是自動(dòng)識別句子中包含的句法單位(如動(dòng)詞、名詞、名詞短語等)以及這些句法單位相互之間的關(guān)系,并通過構(gòu)造語法樹來轉(zhuǎn)化句子。
??? 2017年,Kim等提出了一種采用集合對自然語句進(jìn)行依賴分析的神經(jīng)網(wǎng)絡(luò)框架。該集合方法將滑動(dòng)輸入位置分配給包含要預(yù)測的標(biāo)簽位置的分量分類器。如果關(guān)鍵輸入特征具有靈活性且相對距離較長等特質(zhì),則該方法與具有加權(quán)投票的簡單集合相比提高了標(biāo)簽準(zhǔn)確性。最后,通過對其下限精度的理論估計(jì)以及通過對問題進(jìn)行實(shí)證分析來顯示集合的影響,從而改變關(guān)鍵輸入特征的可移動(dòng)性的強(qiáng)度。實(shí)驗(yàn)結(jié)果表明,該方法相對于最先進(jìn)的依賴解析器,在未標(biāo)記的與標(biāo)記的數(shù)據(jù)上準(zhǔn)確性分別提高了0.28%和0.14%。
????情感分析(Sentiment analysis)又稱為傾向性分析、意見抽取(Opinion extraction)、意見挖掘(Opinion mining)、情感挖掘(Sentiment mining)、主觀分析(Subjectivity analysis)等,它是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程,同樣屬于文本分類的一種。
??? 2017年,Xiao等提出了基于卷積控制塊(CCB)概念的中文情感分類模型。該方法以句子為單位,基于CCB的模型考慮短期和長期的上下文依賴性進(jìn)行情感分類,將句子中的分詞連接到5層CCB中,并取得了對積極情緒的預(yù)測準(zhǔn)確率達(dá)到92.58%的好成績。同時(shí),Dragoni等提出了一種利用域之間語言重疊的方法來構(gòu)建支持屬于每個(gè)域的文檔的極性推斷的情感模型。該方法將Word嵌入和深度學(xué)習(xí)架構(gòu)一起實(shí)施到NeuroSent工具,以構(gòu)建多領(lǐng)域情感模型。同年,Paredes-Valverde等提出了一種基于深度學(xué)習(xí)的方法。這種方法基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和word2vec,通過實(shí)驗(yàn)得到了精確度為88.7%的好成績。Chen提出將條件隨機(jī)場(Conditional Random Field,CRF)引入情感分析中,利用BiLSTM和CRF組合模型捕獲句子中不同目標(biāo),然后利用一維 CNN 進(jìn)行分類。2018年,Wu等提出了一種混合無監(jiān)督的方法,以解決情感分析中的長期提取(ATE)和意見目標(biāo)提取(OTE)這兩個(gè)重要的任務(wù)。該方法通過將被提取名詞短語進(jìn)行過濾得到符合域相關(guān)性的意見目標(biāo)與方面項(xiàng);最后將所得數(shù)據(jù)用于訓(xùn)練方面項(xiàng)提取和意見目標(biāo)提取的深門控循環(huán)單元(GRU)網(wǎng)絡(luò)。這種方法用了很少的標(biāo)注量,提高了GRU的有效性。與此同時(shí),Hassan等提出了一種CNN和RNN聯(lián)合框架的方法。該方法通過CNN和RNN聯(lián)合訓(xùn)練,得到通過長期短期記憶學(xué)習(xí)的長期依賴關(guān)系的卷積層,在情緒分析問題上取得了93.3%的準(zhǔn)確性 。同年,黃改娟等人提出一種雙重注意力模型,在模型訓(xùn)練過程中使用微博數(shù)據(jù)集,數(shù)據(jù)中不僅包含文本信息還包括情感符號。通過注意力機(jī)制和情感符號的結(jié)合,模型增加了對微博數(shù)據(jù)中情感知識的獲取能力,進(jìn)而將分類的準(zhǔn)確率進(jìn)行了提升。金志剛等人通過對 BiLSTM 和 Bagging 算法的改進(jìn),提出一種新的情感分析Bi-LSTMM-B模型,該模型的優(yōu)點(diǎn)在于結(jié)合了深度學(xué)習(xí)模型可提取抽象特征的優(yōu)勢和集成學(xué)習(xí)多分類器共同決策的思想,相比于其它模型,該模型提高了情感分析的準(zhǔn)確率。
????機(jī)器翻譯(Machine translation)是利用計(jì)算機(jī)把一種自然源語言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語言的過程,也稱為自動(dòng)翻譯。
??? 2016年,He等提出了將統(tǒng)計(jì)機(jī)器翻譯(SMT)特征(如翻譯模型和ngram語言模型)與對數(shù)線性框架下的NMT模型結(jié)合的方法。實(shí)驗(yàn)表明,該方法在NIST開放測試集上獲得高達(dá)2.33BIEU分?jǐn)?shù)的增益。2017年,LIU提出了一種面向SMT系統(tǒng)組合的大規(guī)模特征的深度神經(jīng)網(wǎng)絡(luò)組合(DCNN)。該模型采用改進(jìn)的遞歸神經(jīng)網(wǎng)絡(luò)生成適合短語生成過程的短語對語義向量,并使用自動(dòng)編碼器提高詞組生成過程的性能。采用改進(jìn)的遞歸神經(jīng)網(wǎng)絡(luò)來指導(dǎo)SMT任務(wù)中的解碼過程,并從另一個(gè)解碼器中考慮相互影響信息。結(jié)果表明,DCNN分別在非均勻系統(tǒng)和語料庫組合中分別高于基線1.0~1.9BLEU和1.0~1.58BLEU。2018年,Choi 等人提出一種細(xì)粒度注意力用于機(jī)器翻譯任務(wù)中,其中上下文向量的每個(gè)維度都將收到單獨(dú)的注意力分?jǐn)?shù)。2019年,Wu 等人提出一種輕量級的機(jī)器翻譯模型,將動(dòng)態(tài)卷積與自注意力機(jī)制相結(jié)合,在英語—德語翻譯任務(wù)中取得了優(yōu)異的效果。
????文本分類是利用計(jì)算機(jī)將文本集按照一定的分類體系或標(biāo)準(zhǔn),進(jìn)行自動(dòng)分類標(biāo)記的過程。
??? 2016年,Ji提出了一個(gè)基于遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的模型。該模型在3個(gè)不同的數(shù)據(jù)集上實(shí)現(xiàn)了在文本分類領(lǐng)域最先進(jìn)的結(jié)果。2017年,Yu等提出了一種用于自動(dòng)故事分割的混合神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型方法。該方法通過深度神經(jīng)網(wǎng)絡(luò)(DNN)把單詞出現(xiàn)的頻率與相應(yīng)的主題詞后驗(yàn)概率相結(jié)合。結(jié)果表明,該方法顯著優(yōu)于傳統(tǒng)的HMM方法。2018年,他們又提出通過使用深度神經(jīng)網(wǎng)絡(luò)(DNN)來直接預(yù)測輸人句子的主題類別來學(xué)習(xí)句子表示。該方法將文本聚類為一個(gè)個(gè)類,并將類ID用作DNN訓(xùn)練文本的主題標(biāo)簽。結(jié)果表明,該方法提出的主題句子表示優(yōu)于BOW基線和最近提出的基于神經(jīng)網(wǎng)絡(luò)的表示 。
預(yù)訓(xùn)練語言模型
????當(dāng)前影響最大的預(yù)訓(xùn)練語言模型是基于Transformer的雙向深度語言模型—BERT。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1?BERT模型
????BERT 是由多層雙向 Transformer 解碼器構(gòu)成,主要包括 2 個(gè)不同大小的版本: 基礎(chǔ)版本有 12 層 Transformer,每個(gè) Transformer 中的多頭注意力層是12 個(gè),隱 藏 層 大 小 為 768; 加 強(qiáng) 版 有 24 層 Transformer,每個(gè)Transformer 中的多頭注意力層是24 個(gè),隱藏層大小為 1024。由此可見深而窄的模型效果要優(yōu)于淺而寬的模型。目前 BERT 在機(jī)器翻譯、文本分類、文本相似性、閱讀理解等多個(gè)任務(wù)中都有優(yōu)異的表現(xiàn)。BERT 模型的訓(xùn)練方式包括 2 種:?
????( 1) 采用遮蓋單詞的方式。將訓(xùn)練語料中的80%的單詞用[MASK]替換,如 my dog is hairy—> my dog is [MASK]。還有 10%的單詞進(jìn)行隨機(jī)替換,如 my dog is hairy—> my dog is banana。剩下10%則保持句子內(nèi)容不變。?
????( 2) 采用預(yù)測句子下一句的方式。將語料中的語句分為 A 和 B,B 中的 50%的句子是 A 中的下一句,另外的 50%則是隨機(jī)的句子。通過上述 2 種方式訓(xùn)練得到通用語言模型,然后利用微調(diào)的方法進(jìn)行下游任務(wù),如文本分類、機(jī)器翻譯等任務(wù)。較比以前的預(yù)訓(xùn)練模型,BERT 可以捕獲真正意義上的雙向上下文語義。但 BERT 也有一定的缺點(diǎn),既在訓(xùn)練模型時(shí),使用大量的[MASK]會影響模型效果,而且每個(gè)批次只有 15%的標(biāo)記被預(yù)測,因此 BERT 在訓(xùn)練時(shí)的收斂速度較慢。此外由于在預(yù)訓(xùn)練過程和生成過程不一致,導(dǎo)致在自然語言生成任務(wù)表現(xiàn)不佳,而且 BERT 無法完成文檔級別的 NLP 任務(wù),只適合于句子和段落級別的任務(wù)。
??? XLNet是一種廣義自回歸的語言模型,是基于 Transformer-XL而構(gòu)建的。Transformer 的缺點(diǎn):?
????(1)字符之間的最大依賴距離受輸入長度的限制。
????(2)對于輸入文本長度超過 512 個(gè)字符時(shí),每個(gè)段都是從頭開始單獨(dú)訓(xùn)練,因此使訓(xùn)練效率下降,影響模型性能。針對以上 2 個(gè)缺點(diǎn),Transformer-XL引入 了 2 個(gè) 解 決 方 法: 分 割 循 環(huán) 機(jī) 制 ( Division Recurrence Mechanism) 和 相 對 位 置 編 碼 ( Relative Positional Encoding) 。Transformer -XL 的測試速度更快,可以捕獲更長的上下文長度。
????無監(jiān)督表征學(xué)習(xí)在 NLP 領(lǐng)域取得了巨大成功,在這種理念下,很多研究者探索了不同的無監(jiān)督預(yù)訓(xùn)練目標(biāo),而自回歸語言建模和自編碼語言是 2 個(gè)最成功的預(yù)訓(xùn)練目標(biāo)。而 XLNet 是一種集合了自回歸和自編碼 2 種方式的泛化自回歸方法。XLNet不使用傳統(tǒng)自回歸模型中的固定前向或后向因式分解順序,而使用一種隨機(jī)排列自然語言預(yù)測某個(gè)位置可能出現(xiàn)的詞,這種方式不僅可以使句子中的每個(gè)位置都能學(xué)習(xí)來自所有位置的語境信息,而且還可以構(gòu)建雙向語義,更好地獲取上下文語義。由于XLNet 采用的是 Transformer -XL,因此模型性能更優(yōu),尤其在包含長文本序列的任務(wù)中。通過 XLNet訓(xùn)練得到語言模型后,可以用于下游相關(guān)任務(wù),如閱讀理解,基于 XLNet 得到的結(jié)果已經(jīng)遠(yuǎn)超人類水平,在文本分類、機(jī)器翻譯等任務(wù)中取得了優(yōu)異的效果。
????無論是 BERT 還是 XLNet 語言模型,在英文語料中表現(xiàn)都很優(yōu)異,但在中文語料中效果一般, ERNIE則是以中文語料訓(xùn)練得出一種語言模型。ERNIE 是一種知識增強(qiáng)語義表示模型,其在語言推斷、語義相似度、命名實(shí)體識別、文本分類等多個(gè)NLP 中文任務(wù)上都有優(yōu)異表現(xiàn)。ERNIE 在處理中文語料時(shí),通過對預(yù)測漢字進(jìn)行建模,可以學(xué)習(xí)到更大語義單元的完整語義表示。ERNIE 模型內(nèi)部核心是由 Transformer 所構(gòu)成,其模型結(jié)構(gòu)如圖 2 所 示。模型結(jié)構(gòu)主要包括 2 個(gè)模塊,下層模塊的文本編碼器( T-Encoder) 主要負(fù)責(zé)捕獲來自輸入標(biāo)記的基本詞匯和句法信息,上層模塊的知識編碼器( K- Encoder) 負(fù)責(zé)從下層獲取的知識信息集成到文本信息中,以便能夠?qū)?biāo)記和實(shí)體的異構(gòu)信息表示成一個(gè)統(tǒng)一的特征空間中。

圖2?ERNIE模型
??? ERNIE 模型通過建立海量數(shù)據(jù)中的實(shí)體概念等先驗(yàn)語義知識,學(xué)習(xí)完整概念的語義表示,即在訓(xùn)練模型時(shí)采用遮蓋單詞的方式通過對詞和實(shí)體概念等語義單詞進(jìn)行遮蓋,使得模型對語義知識單元的表示更貼近真實(shí)世界。此外,ERNIE 模型引入多源語料訓(xùn)練,其中包括百科類、新聞資訊類、論壇對話等數(shù)據(jù)。總體來說,ERNIE 模型通過對實(shí)體概念知識的學(xué)習(xí)來學(xué)習(xí)真實(shí)世界的完整概念語義表示,使得模型對實(shí)體概念的學(xué)習(xí)和推理能力更勝一籌,其次通過對訓(xùn)練語料的擴(kuò)充,尤其是引入了對話語料使得模型的語義表示能力更強(qiáng)。
問題與展望
????當(dāng)今,該方面的研究的難點(diǎn)是在模型構(gòu)建過程中優(yōu)化調(diào)整參數(shù)。最大的問題還是在解決訓(xùn)練數(shù)據(jù)的需求上。深度學(xué)習(xí)算法,不管是對訓(xùn)練數(shù)據(jù)量的要求,還是對運(yùn)算時(shí)間的要求,都遠(yuǎn)遠(yuǎn)高于其他算法。深度學(xué)習(xí)算法結(jié)果的準(zhǔn)確性十分依賴于訓(xùn)練數(shù)據(jù)的數(shù)量。因此,在不同的領(lǐng)域優(yōu)化相關(guān)的深度學(xué)習(xí)算法,使之可以擁有更高的學(xué)習(xí)效率,成為了下一步發(fā)展的方向。
????在面對這種問題時(shí),可以引用混合傳統(tǒng)機(jī)器學(xué)習(xí)方法與深度學(xué)習(xí)方法相結(jié)合的方式來解決。深度學(xué)習(xí)是一種模仿人腦學(xué)習(xí)的過程,這就意味著當(dāng)我們用它去解決一個(gè)任務(wù)時(shí),要拋棄現(xiàn)有的知識,從頭開始學(xué)習(xí)。因此,將已有的知識(即傳統(tǒng)的機(jī)器學(xué)習(xí)方法)與深度學(xué)習(xí)方法相結(jié)合,從而加快深度學(xué)習(xí)的學(xué)習(xí)效率,成為了下一步研究的方向。
????在深度學(xué)習(xí)過程中都需要大量的數(shù)據(jù)進(jìn)行支撐。然而,在自然語言處理中一部分任務(wù)無法使用海量無標(biāo)注語料進(jìn)行學(xué)習(xí),因此相關(guān)領(lǐng)域的海量有監(jiān)督數(shù)據(jù)就顯得十分有必要。
????對于這個(gè)問題,希望各個(gè)領(lǐng)域有能力的政府部門、企業(yè)和研究院可以提供相關(guān)的數(shù)據(jù),給予從事相關(guān)研究人員使用數(shù)據(jù)的權(quán)力。但這種解決方法依然有待于數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等問題的解決。在深度學(xué)習(xí)過程中都需要大量的數(shù)據(jù)進(jìn)行支撐。然而,在自然語言處理中一部分任務(wù)無法使用海量無標(biāo)注語料進(jìn)行學(xué)習(xí),因此相關(guān)領(lǐng)域的海量有監(jiān)督數(shù)據(jù)就顯得十分有必要。對于這個(gè)問題,希望各個(gè)領(lǐng)域有能力的政府部門、企業(yè)和研究院可以提供相關(guān)的數(shù)據(jù),給予從事相關(guān)研究人員使用數(shù)據(jù)的權(quán)力。但這種解決方法依然有待于數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等問題的解決。
往期精彩回顧
獲取一折本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開:
https://t.zsxq.com/662nyZF
本站qq群704220115。
加入微信群請掃碼進(jìn)群(如果是博士或者準(zhǔn)備讀博士請說明):
