
在本文中介紹了幾種從統(tǒng)計、基于圖和嵌入方法中提取關鍵字的方法。
關鍵詞提取方法可以在文檔中找到相關的關鍵詞。在本文中,我總結(jié)了最常用的關鍵字提取方法。
什么是關鍵詞提?。?/span>
關鍵字提取是從文本文檔中檢索關鍵字或關鍵短語。這些關鍵詞從文本文檔的短語中選擇出來的并且表征了文檔的主題。在本文中,我總結(jié)了最常用的自動提取關鍵字的方法。自動從文檔中提取關鍵字的方法是從文本文檔中選擇最常用和最重要的單詞或短語的啟發(fā)式方法。我將關鍵字提取方法歸入自然語言處理領域,這是機器學習和人工智能中的一個重要領域。關鍵字提取器用于提取單詞(關鍵字)或創(chuàng)建短語(關鍵短語)的兩個或多個單詞的組。在本文中,我使用術(shù)語關鍵字提取,其中包括關鍵字或關鍵短語提取。為什么我們需要關鍵字提取的方法呢?
節(jié)省時間——根據(jù)關鍵詞,可以決定文本的主題(例如文章)是否對他感興趣以及是否閱讀。關鍵字向用戶提供了該篇文章或文檔主要內(nèi)容摘要。查找相關文檔——大量文章的出現(xiàn)使得我們不可能全部進行閱讀。關鍵詞提取算法可以幫助我們找到相關文章。關鍵字提取算法還可以自動構(gòu)建書籍、出版物或索引。關鍵字提取作為機器學習的支持——關鍵字提取算法找到描述文本的最相關的詞。它們以后可以用于可視化或自動分類文本。關鍵詞提取方法
在本文中,我將概述一些最常用的關鍵字提取方法。我會考慮無監(jiān)督(不需要訓練)和領域獨立的方法。我將方法分為三組:統(tǒng)計方法、基于圖的方法和基于向量嵌入的方法。基于統(tǒng)計的方法
統(tǒng)計方法是最簡單的。他們計算關鍵字的統(tǒng)計數(shù)據(jù)并使用這些統(tǒng)計數(shù)據(jù)對它們進行評分。一些最簡單的統(tǒng)計方法是詞頻、詞搭配和共現(xiàn)。也有一些更復雜的,例如 TF-IDF 和 YAKE!。TF-IDF 或term frequency–inverse document frequency,會計算文檔中單詞相對于整個語料庫(更多文檔集)的重要性。它計算文檔中每個詞的頻率,并通過詞在整個語料庫中的頻率的倒數(shù)對其進行加權(quán)。最后,選擇得分最高的詞作為關鍵詞。其中 t 是觀察項。該等式應用于文檔中的每個術(shù)語(單詞或短語)。方程的藍色部分是詞頻(TF),橙色部分是逆文檔頻率(IDF)。
TF-IDF 的想法是文檔中出現(xiàn)頻率更高的詞不一定是最相關的。該算法偏愛在文本文檔中頻繁出現(xiàn)而在其他文檔中不常見的術(shù)語。TF-IDF 的優(yōu)點是速度快,缺點是需要至少幾十個文檔的語料庫,并且 TF-IDF 與語言無關。YAKE (Yet Another Keyword Extractor) 是一種關鍵字提取方法,它利用單個文檔的統(tǒng)計特征來提取關鍵字。它通過五個步驟提取關鍵字:1、預處理和候選詞識別——文本被分成句子、塊(句子的一部分用標點符號分隔)和標記。文本被清理、標記和停用詞也會被識別。
2、特征提取——算法計算文檔中術(shù)語(單詞)的以下五個統(tǒng)計特征:a) 大小寫——計算該術(shù)語在文本中出現(xiàn)大寫或作為首字母縮略詞的次數(shù)(與所有出現(xiàn)成比例)。重要的術(shù)語通常更頻繁地出現(xiàn)大寫。b) 詞條位置——詞條在文本中的中間位置。更接近開頭的術(shù)語過去更重要。d) 術(shù)語與上下文的相關性——衡量候選術(shù)語同時出現(xiàn)的不同術(shù)語的數(shù)量。更重要的術(shù)語與較少不同的術(shù)語同時出現(xiàn)。e) 術(shù)語不同的句子——測量術(shù)語在不同句子中出現(xiàn)的次數(shù)。得分越高表示術(shù)語越重要。3、計算術(shù)語分數(shù)——上一步的特征與人造方程組合成一個單一的分數(shù)。4、生成 n-gram 并計算關鍵字分數(shù)——該算法識別所有有效的 n-gram。n-gram 中的單詞必須屬于同一塊,并且不能以停用詞開頭或結(jié)尾。然后通過將每個 n-gram 的成員分數(shù)相乘并對其進行歸一化,以減少 n-gram 長度的影響。停用詞的處理方式有所不同,以盡量減少其影響。5、重復數(shù)據(jù)刪除和排名——在最后一步算法刪除相似的關鍵字。它保留了更相關的那個(分數(shù)較低的那個)。使用 Levenshtein 相似度、Jaro-Winkler 相似度或序列匹配器計算相似度。最后,關鍵字列表根據(jù)它們的分數(shù)進行排序。YAKE 的優(yōu)勢在于它不依賴于外部語料庫、文本文檔的長度、語言或領域。與 TF-IDF 相比,它在單個文檔的基礎上提取關鍵字,并且不需要龐大的語料庫。基于圖的方法
基于圖的方法是從文檔中生成相關術(shù)語的圖。例如,圖將文本中共同出現(xiàn)的術(shù)語連接起來?;趫D的方法使用圖排序方法,該方法考慮圖的結(jié)構(gòu)來對頂點重要性進行評分。最著名的基于圖的方法之一是 TextRank。TextRank 是一種基于圖的排序方法,用于提取相關句子或查找關鍵字。我將重點介紹它在關鍵字提取中的用法。該方法通過以下步驟提取關鍵字:1、帶有詞性 (PoS) 標簽的文本標記化和注釋。
2、詞共現(xiàn)圖構(gòu)建——圖中的頂點是帶有選定 PoS 標簽的詞(作者僅選擇名詞和形容詞即可獲得最佳結(jié)果)。如果兩個頂點出現(xiàn)在文本中的 N 個單詞的窗口內(nèi),則它們與一條邊相連(根據(jù)作者的實驗,最佳表現(xiàn) N 為 2)。該圖是無向和未加權(quán)的。3、圖排序——每個頂點的分數(shù)設置為1,在圖上運行排序算法。作者使用 Google 的 PageRank 算法,該算法主要用于對網(wǎng)站圖表進行排名。該算法使用上圖中的公式。頂點 Vi 的權(quán)重 S(Vi) 是通過考慮連接到節(jié)點 Vi 的頂點的權(quán)重來計算的。在等式中,d 是設置為 0.85 的阻尼因子,如 PageRank 文章中所述。In(Vi) 是到頂點 Vi 的入站鏈接,而 Out(Vj) 是來自頂點 Vj 的出站鏈接。由于我們考慮的是無向圖,因此頂點的入站鏈接和頂點的出站鏈接是相同的。該算法在每個節(jié)點上運行多次迭代,直到節(jié)點上的權(quán)重收斂——迭代之間的變化低于 0.0001。4、得分最高的單詞選擇——單詞(頂點)從得分最高的單詞到最低得分的單詞排序。最后,算法選擇單詞的前 1/3。5、關鍵詞提取——在這一步中,如果上一階段選擇的單詞一起出現(xiàn)在文本中,則將它們連接為多詞關鍵詞。新構(gòu)建的關鍵字的分數(shù)是單詞分數(shù)的總和。該算法對每個文檔單獨執(zhí)行,不需要一個文檔語料庫來進行關鍵字提取。TextRank也是語言無關的。RAKE (Rapid Automatic Keyword Extraction)是另一種基于圖的關鍵字提取算法。該算法是基于這樣的觀察:關鍵字通常由多個單詞組成,通常不包括停頓詞或標點符號。1、候選關鍵詞提取——基于停用詞和短語分隔符對候選關鍵詞進行文本分割。候選關鍵字是位于兩個停用詞或短語定界符之間的短語。例如,短語分隔符是標點符號。
2、關鍵詞共現(xiàn)圖構(gòu)建——圖中的頂點是單詞。如果它們一起出現(xiàn)在候選關鍵字中,則它們是連接的。該圖是加權(quán)的——權(quán)重是連接詞在候選關鍵字中一起出現(xiàn)的次數(shù)。該圖還包括與頂點本身的連接(每個單詞與自身一起出現(xiàn)在候選關鍵字中)。a) 詞度 deg(w)——詞 w 共同出現(xiàn)的詞數(shù)(邊權(quán)重總和,包括指向頂點本身的邊)。度數(shù)偏愛出現(xiàn)頻率更高、關鍵字更長的詞。b) 詞頻 freq(w) — 該詞出現(xiàn)在任何候選關鍵字中的次數(shù)。頻率偏愛出現(xiàn)頻率更高的詞。c) 度數(shù)與頻率之比 deg(w)/freq(w)——這個指標偏向于主要出現(xiàn)在較長候選關鍵詞中的詞。建議使用詞度或度數(shù)與頻率之比。從這兩個角度來看,排名將有利于較短的關鍵字。4、候選關鍵詞得分——每個候選關鍵詞的得分為其成員詞得分之和。5、相鄰關鍵詞——候選關鍵詞不包括停用詞。由于有時停用詞可能是關鍵字的一部分,因此在此步驟中添加了它們。該算法在文本中找到與停用詞連接的關鍵字對,并將它們添加到現(xiàn)有停用詞集中。它們必須在要添加的文本中至少出現(xiàn)兩次。新關鍵字的得分是其成員關鍵字的總和。6、關鍵詞提取——結(jié)果,1/3 得分最高的關鍵詞被提取出來。RAKE 和 TextRank 的主要區(qū)別在于 RAKE 考慮候選關鍵字內(nèi)的共現(xiàn)而不是固定窗口。它使用更簡單、更具統(tǒng)計性的評分程序。該算法對每個文檔分別進行,因此不需要文檔語料庫來進行關鍵詞提取。基于深度學習
深度學習的出現(xiàn)使基于嵌入的方法成為可能。研究人員開發(fā)了幾種使用文檔嵌入的關鍵字提取方法(例如 Bennani 等人)。這些方法主要查找候選關鍵字列表(例如,Bennani 等人只考慮由名詞和形容詞組成的關鍵字)。他們將文檔和候選關鍵字嵌入到相同的嵌入空間中,并測量文檔和關鍵字嵌入之間的相似度(例如余弦相似度)。他們根據(jù)相似度度量選擇與文檔文本最相似的關鍵字。總結(jié)
在本文中介紹了幾種從統(tǒng)計、基于圖和嵌入方法中提取關鍵字的方法。由于該領域非?;钴S,我只介紹最常見的方法。我只考慮無監(jiān)督方法的一個子組(它們不需要訓練)。也有在帶注釋文檔的訓練數(shù)據(jù)集上訓練的監(jiān)督方法。它們表現(xiàn)良好,但在實踐中較少使用,因為它們需要訓練并且需要帶注釋的文檔數(shù)據(jù)集,結(jié)果也通常僅適用于訓練數(shù)據(jù)集中的主題。引用
[1]Bennani-Smires, Kamil, et al. Simple unsupervised keyphrase extraction using sentence embeddings. arXiv preprint arXiv:1801.04470, 2018.
[1] Campos, Ricardo, et al. YAKE! Keyword extraction from single documents using multiple local features. Information Sciences, 2020, 509: 257–289.
[3] Jones, Karen Sparck. A statistical interpretation of term specificity and its application in retrieval. Journal of documentation, 1972.
[4] Mihalcea, Rada; Tarau, Paul. TextRank: Bringing order into texts. 2004. In: Association for Computational Linguistics.
[5] Rose, Stuart, et al. Automatic keyword extraction from individual documents. Text mining: applications and theory, 2010, 1: 1–20.
編輯:王菁
校對:汪雨晴