1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        【NLP】一文了解命名實體識別

        共 10274字,需瀏覽 21分鐘

         ·

        2020-09-07 13:43

        導讀:從1991年開始,命名實體識別逐漸開始走進人們的視野,在各評測會議的推動下,命名實體識別技術得到了極大地發(fā)展,從最初的基于規(guī)則和字典的方法,到現(xiàn)在熱門的注意力機制、圖神經網絡等方法,命名實體識別已經在各開放數據集上取得了很高的準確率,但從自然語言處理實際應用的角度來看,命名實體識別技術依舊面臨著很大的挑戰(zhàn)。


        什么是命名實體

        ????1991年Rau等學者首次提出了命名實體識別任務,但命名實體(named entity,NE)作為一個明確的概念和研究對象,是在1995年11月的第六屆MUC會議(MUC-6,the Sixth Message Understanding Conferences)上被提出的。當時的MUC-6和后來的MUC-7并未對什么是命名實體進行深入的討論和定義,只是說明了需要標注的實體是“實體的唯一標識符(unique identifiers of entities)”,規(guī)定了NER評測需要識別的三大類(命名實體、時間表達式、數量表達式)、七小類實體,其中命名實體分為:人名、機構名和地名 。MUC 之后的ACE將命名實體中的機構名和地名進行了細分,增加了地理-政治實體和設施兩種實體,之后又增加了交通工具和武器。CoNLL-2002、CoNLL-2003 會議上將命名實體定義為包含名稱的短語,包括人名、地名、機構名、時間和數量,基本沿用了 MUC 的定義和分類,但實際的任務主要是識別人名、地名、機構名和其他命名實體 。SIGHAN Bakeoff-2006、Bakeoff-2007 評測也大多采用了這種分類。

        ????除了主流的 NER 評測會議之外,也有學者專門就命名實體的含義和類型進行討論,Petasis等認為命名實體就是專有名詞(proper noun,PN),作為某人或某事的名稱。Alfonseca 等從構建本體的角度,提出命名實體就是能用來解決特定問題的我們感興趣的對象(objects)。Sekine 等認為通用的 7 小類命名實體并不能滿足自動問答和信息檢索應用的需求,提出了包含 150 種實體類別的擴展命名實體層級(extended named entity hierarchy),并在后來將類別種數增加到200個。

        ??? Borrega等從語言學角度對命名實體進行了詳細的定義,規(guī)定只有名詞和名詞短語可以作為命名實體,同時命名實體必須是唯一且沒有歧義的。比較特別的是,該研究將命名實體分為強命名實體(strong named entities,SNE)和弱命名實體(weak named entities,WNE),其中 SNE 對應詞匯,而WNE對應短語,SNE 和 WNE 又可以細分為若干個小類。雖然該研究將每種類別都進行了詳細的定義和闡釋,但可能由于過于復雜而不利于計算機自動識別,因此該研究并未得到太多關注。

        ??? Nadeau等指出,“命名實體”中的“命名(named)”表示:只關心那些表示所指對象(referent)的嚴格指示詞(rigid designators)。嚴格指示詞的概念源于Kripke的觀點,“對于一個對象 x,如果在所有存在 x 的世界中,指示詞 d 都表示 x,而不表示別的對象,那么 x 的指示詞 d 是嚴格的”。

        ??? Marrero等總結了前人對命名實體的定義,并將之歸納為語法類別、嚴格指示、唯一標識和應用目的四種類別。作者先假設每種類別都能作為定義命名實體的標準,再通過分析和舉例等方式否定其作為標準的可行性。最后得出的結論是,應用方面的需求目的,是定義命名實體唯一可行的標準。

        ????命名實體是命名實體識別的研究主體,而命名實體識別通常認為是從原始文本中識別有意義的實體或實體指代項的過程,即在文本中標識命名實體并劃分到相應的實體類型中,通常實體類型包括人名、地名、組織機構名、日期等。舉例說明,“當地時間 14 日下午,敘利亞一架軍用直升機在阿勒坡西部鄉(xiāng)村被一枚惡意飛彈擊中?!边@句話中包含的實體有:日期實體“14 日下午”、組織機構實體“敘利亞”、地名實體“阿勒坡西部鄉(xiāng)村”、裝備實體“軍用直升機”和“飛彈”,如圖1所示。

        圖1


        命名實體識別的特點、難點、熱點

        1

        特點?

        ????評判一個命名實體是否被正確識別包括兩個方面:實體的邊界是否正確;實體的類型是否標注正確。

        ????對比中文和英文本身的語言特點,英語中的命名實體具有比較明顯的形態(tài)標志,如人名、地名等實體中的每個詞的第一個字母要大寫等,而且,英文句子中的每個詞都是通過空格自然分開,所以英文的實體邊界識別相對中文來說比較容易,故而其任務的重點是確定實體的類型。相比于英文,中文里的漢字排列緊密,中文的句子由多個字符組成且單詞之間沒有空格,這一自身獨特的語言特征增大了命名實體識別的難度。

        2

        難點?

        ????(1)領域命名實體識別局限性。目前命令實體識別只是在有限的領域和有限的實體類型中取得了較好的成績,如針對新聞語料中的人名、地名、組織機構名的識別。但這些技術無法很好地遷移到其他特定領域中,如軍事、醫(yī)療、生物、小語種語言等。一方面,由于不同領域的數據往往具有領域獨特特征,如醫(yī)療領域中實體包括疾病、癥狀、藥品等,而新聞領域的模型并不適合;另一方面,由于領域資源匱乏造成標注數據集缺失,導致模型訓練很難直接開展。

        ????(2)命名實體表述多樣性和歧義性。自然語言的多樣性和歧義性給自然語言理解帶來了很大挑戰(zhàn),在不同的文化、領域、背景下,命名實體的外延有差異,是命名實體識別技術需要解決的根本問題。獲取大量文本數據后,由于知識表示粒度不同、置信度相異、缺乏規(guī)范性約束等問題,出現(xiàn)命名實體表述多樣、指代不明確等現(xiàn)象。

        ????(3)命名實體的復雜性和開放性。傳統(tǒng)的實體類型只關注一小部分類型,例如“人名”“地名”“組織機構名”,而命名實體的復雜性體現(xiàn)在實際數據中實體的類型復雜多樣,需要識別細粒度的實體類型,將命名實體分配到更具體的實體類型中。目前業(yè)界還沒有形成可遵循的嚴格的命名規(guī)范。命名實體的開放性是指命名實體內容和類型并非永久不變,會隨著時間變化發(fā)生各種演變,甚至最終失效。命名實體的開放性和復雜性給實體分析帶來了巨大的挑戰(zhàn),也是亟待解決的核心關鍵問題。

        3

        熱點?

        ????通 過 調 研 近 三 年 來 ACL,AAAI,EMNLP,COLING,NAACL 等自然語言處理頂級會議中命名實體識別相關的論文,總結并選擇了若干具有代表性的研究熱點進行展開介紹,分別是匱乏資源命名實體識別、細粒度命名實體識別、嵌套命名實體識別、命名實體鏈接。

        ????(1)?匱乏資源命名實體識別

        ????命名實體識別通常需要大規(guī)模的標注數據集,例如標記句子中的每個單詞,這樣才能很好地訓練模型。然而這種方法很難應用到標注數據少的領域,如生物、醫(yī)學等領域。這是因為資源不足的情況下,模型無法充分學習隱藏的特征表示,傳統(tǒng)的監(jiān)督學習方法的性能會大大降低。

        ????近來,越來越多的方法被提出用于解決低資源命名實體識別。一些學者采用遷移學習的方法,橋接富足資源和匱乏資源,命名實體識別的遷移學習方法可以分為兩種:基于并行語料庫的遷移學習和基于共享表示的遷移學習。利用并行語料庫在高資源和低資源語言之間映射信息,Chen 和 Feng 等提出同時識別和鏈接雙語命名實體。Ni 和 Mayhew 等創(chuàng)建了一個跨語言的命名實體識別系統(tǒng),該系統(tǒng)通過將帶注釋的富足資源數據轉換到匱乏資源上,很好地解決了匱乏資源問題。Zhou等采用雙對抗網絡探索高資源和低資源之間有效的特征融合,將對抗判別器和對抗訓練集成在一個統(tǒng)一的框架中進行,實現(xiàn)了端到端的訓練。

        ????還有學者采用正樣本-未標注樣本學習方法(Positive-Unlabeled,PU),僅使用未標注數據和部分不完善的命名實體字典來實現(xiàn)命名實體識別任務。Yang 等學者采用 AdaSampling 方法,它最初將所有未標記的實例視為負實例,不斷地迭代訓練模型,最終將所有未標注的實例劃分到相應的正負實例集中。Peng 等學者實現(xiàn)了 PU 學習方法在命名實體識別中的應用,僅使用未標記的數據集和不完備的命名實體字典來執(zhí)行命名實體識別任務,該方法無偏且一致地估算任務損失,并大大減少對字典大小的要求。

        ????因此,針對資源匱乏領域標注數據的缺乏問題,基于遷移學習、對抗學習、遠監(jiān)督學習等方法被充分利用,解決資源匱乏領域的命名實體識別難題,降低人工標注工作量,也是最近研究的重點。

        ????(2)細粒度命名實體識別

        ????為了智能地理解文本并提取大量信息,更精確地確定非結構化文本中提到的實體類型很有意義。通常這些實體類型在知識庫的類型層次結構中可以形成類型路徑 ,例如,牛頓可以按照如下類型的路徑歸類:物理學家 /科學家/人。知識庫中的類型通常為層次結構的組織形式,即類型層次。

        ????大多數命名實體識別研究都集中在有限的實體類型上,MUC-7只考慮了 3 類:人名、地名和組織機構名,CoNLL-03增加了其他類,ACE引入了地緣 政治、武器、車輛和設施 4 類 實 體,Ontonotes類型增加到 18 類,BBN有 29 種實體類型。Ling 和 Daniel 定義了一個細粒度的112 個標簽集。

        ?????學者們在該領域已經進行了許多研究,通常學習每個實體的分布式表示,并應用多標簽分類模型進行類型推斷。Neelakantan 和 Chang利用各種信息構造實體的特征表示,如實體的文字描述、屬性和類型,之后,學習預測函數來推斷實體是否為某類型的實例。Yaghoobzadeh 等重點關注實體的名稱和文本中的實體指代項,并為實體和類型對設計了兩個評分模型。這些工作淡化了實體之間的內部關系,并單獨為每個實體分配類型。Jin 等以實體之間的內部關系為結構信息,構造實體圖,進一步提出了一種網絡嵌入框架學習實體之間的相關性。最近的研究表明以卷積方式同時包含節(jié)點特征和圖結構信息,將實體特征豐富到圖結構將獲益頗多。此外,還有學者考慮到由于大多數知識庫都不完整,缺乏實體類型信息,例如在 DBpedia 數據庫中 36.53%的實體沒有類型信息。因此對于每個未標記的實體,Jin 等充分利用其文本描述、類型和屬性來預測缺失的類型,將推斷實體的細粒度類型問題轉化成基于圖的半監(jiān)督分類問題,提出了使用分層多圖卷積網絡構造 3 種連通性矩陣,以捕獲實體之間不同類型的語義相關性。

        ????此外,實現(xiàn)知識庫中命名實體的細粒度劃分也是完善知識庫的重要任務之一。細粒度命名實體識別現(xiàn)有方法大多是通過利用實體的固有特征(文本描述、屬性和類型)或在文本中實體指代項來進行類型推斷,最近有學者研究將知識庫中的實體轉換為實體圖,并應用到基于圖神經網絡的算法模型中。

        ????(3)嵌套命名實體識別

        ????通常要處理的命名實體是非嵌套實體,但是在實際應用中,嵌套實體非常多。大多數命名實體識別會忽略嵌套實體,無法在深層次文本理解中捕獲更細粒度的語義信息。如圖2 所示,在“3 月 3 日,中國駐愛爾蘭使館提醒旅愛中國公民重視防控,穩(wěn)妥合理加強防范?!本渥又刑岬降闹袊v愛爾蘭使館是一個嵌套實體,中國和愛爾蘭均為地名,而中國駐愛爾蘭使館為組織機構名。普通的命名實體識別任務只會識別出其中的地名“中國”和“愛爾蘭”,而忽略了整體的組織機構名。

        圖2

        ????學者們提出了多種用于嵌套命名實體識別的方法。Finkel 和 Manning基于 CRF 構建解析器,將每個命名實體作為解析樹中的組成部分。Ju 等動態(tài)堆疊多個扁平命名實體識別層,并基于內部命名實體識別提取外部實體。如果較短的實體被錯誤地識別,這類方法可能會遭受錯誤傳播問題的困擾。嵌套命名實體識別的另一系列方法是基于超圖的方法。Lu和Roth 首次引入了超圖,允許將邊緣連接到不同類型的節(jié)點以表示嵌套實體。Muis 和Lu使用多圖表示法,并引入分隔符的概念用于嵌套實體檢測。但是這樣需要依靠手工提取的特征來識別嵌套實體,同時遭受結構歧義問題的困擾。Wang 和 Lu提出了一種使用神經網絡獲取分布式特征表示的神經分段超圖模型。Katiyar 和Cardie提出了一種基于超圖的計算公式,并以貪婪學習的方式使用 LSTM 神經網絡學習嵌套結構。這些方法都存在超圖的虛假結構問題,因為它們枚舉了代表實體的節(jié)點、類型和邊界的組合。Xia等提出了 MGNER 架構,不僅可以識別句子中非重疊的命名實體,也可以識別嵌套實體,此外不同于傳統(tǒng)的序列標注任務,它將命名實體識別任務分成兩部分開展,首先識別實體,然后進行實體分類。

        ????嵌套實體識別充分利用內部和外部實體的嵌套信息,從底層文本中捕獲更細粒度的語義,實現(xiàn)更深層次的文本理解,研究意義重大。

        ????(4)命名實體鏈接

        ????命名實體鏈接主要目標是進行實體消歧,從實體指代項對應的多個候選實體中選擇意思最相近的一個實體。這些候選實體可能選自通用知識庫,例如維基百科、百度百科,也可能來自領域知識庫,例如軍事知識庫、裝備知識庫。圖3給出了一個實體鏈接的示例。短文本“美海軍陸戰(zhàn)隊 F/A-18C戰(zhàn)斗機安裝了生產型 AN/APG-83 雷達”,其中實體指代項是“生產型 AN/APG-83 雷達”,該實體指代項在知識庫中可能存在多種表示和含義,而在此處短文本,其正確的含義為“AN/APG-83 可擴展敏捷波束雷達”。

        圖3

        ????實體鏈接的關鍵在于獲取語句中更多的語義,通常使用兩種方法。一種是通過外部語料庫獲取更多的輔助信息,另一種是對本地信息的深入了解以獲取更多與實體指代項相關的信息。Tan 等提出了一種候選實體選擇方法,使用整個包含實體指代項的句子而不是單獨的實體指代項來搜索知識庫,以獲得候選實體集,通過句子檢索可以獲取更多的語義信息,并獲得更準確的結果。Lin 等尋找更多線索來選擇候選實體,這些線索被視為種子實體指代項,用作實體指代項與候選實體的橋梁。Dai 等使用社交平臺 Yelp 的特征信息,包括用戶名、用戶評論和網站評論,豐富了實體指代項相關的輔助信息,實現(xiàn)了實體指代項的歧義消除。因此,與實體指代項相關的輔助信息將通過實體指代項和候選實體的鏈接實現(xiàn)更精確的歧義消除。

        ????另一些學者使用深度學習研究文本語義。Francis-Landau 等使用卷積神經網絡學習文本的表示形式,然后獲得候選實體向量和文本向量的余弦相似度得分。Ganea 和 Hofmann專注于文檔級別的歧義消除,使用神經網絡和注意力機制來深度表示實體指代項和候選實體之間的關系。Mueller和 Durrett將句子左右分開,然后分別使用門控循環(huán)單元和注意力機制,獲得關于實體指代項和候選實體的分數。Ouyang 等提出一種基于深度序列匹配網絡的實體鏈接算法,綜合考慮實體之間的內容相似度和結構相似性,從而幫助機器理解底層數據。目前,在實體鏈接中使用深度學習方法是一個熱門的研究課題。


        命名實體識別的研究方法

        ????命名實體識別從早期基于詞典和規(guī)則的方法,到傳統(tǒng)機器學習的方法,后來采用基于深度學習的方法,一直到當下熱門的注意力機制、圖神經網絡等研究方法,命名實體識別技術路線隨著時間在不斷發(fā)展,技術發(fā)展趨勢如圖4所示。

        圖4

        1

        基于規(guī)則和字典的方法

        ????基于規(guī)則和字典的方法是最初代的命名實體識別使用的方法,這些方法多采用由語言學家通過人工方式,依據數據集特征構建的特定規(guī)則模板或者特殊詞典。規(guī)則包括關鍵詞、位置詞、方位詞、中心詞、指示詞、統(tǒng)計信息、標點符號等。詞典是由特征詞構成的詞典和外部詞典共同組成,外部詞典指已有的常識詞典。制定好規(guī)則和詞典后,通常使用匹配的方式對文本進行處理以實現(xiàn)命名實體識別。

        ????Rau等學者首次提出將人工編寫的規(guī)則與啟發(fā)式想法相結合的方法,實現(xiàn)了從文本中自動抽取公司名稱類型的命名實體。這種基于規(guī)則的方法局限性非常明顯,不僅需要消耗巨大的人力勞動,且不容易在其他實體類型或數據集擴展,無法適應數據的變化情況。

        2

        基于傳統(tǒng)機器學習的方法

        ????在基于機器學習的方法中,命名實體識別被當作是序列標注問題。與分類問題相比,序列標注問題中當前的預測標簽不僅與當前的輸入特征相關,還與之前的預測標簽相關,即預測標簽序列之間是有強相互依賴關系的。采用的傳統(tǒng)機器學習方法主要包括:隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)、最大熵馬爾可夫模型( Maximum Entropy Markov Model,MEMM)、支持向量機(Support Vector Machine,SVM)、條件隨機場 ( Conditional Random Fields,CRF)? 等。

        ????在這 5 種學習方法中,ME 結構緊湊,具有較好的通用性,其主要缺點是訓練時間復雜性非常高,甚至導致訓練代價難以承受,另外由于需要明確的歸一化計算,導致開銷比較大。HMM 對轉移概率和表現(xiàn)概率直接建模,統(tǒng)計共現(xiàn)概率。ME 和 SVM 在正確率上要 HMM 高一些,但是 HMM 在訓練和識別時的速度要快一些。MEMM 對轉移概率和表現(xiàn)概率建立聯(lián)合概率,統(tǒng)計條件概率,但由于只在局部做歸一化容易陷入局部最優(yōu)。CRF 模型統(tǒng)計全局概率,在歸一化時考慮數據在全局的分布,而不是僅僅在局部進行歸一化,因此解決了 MEMM 中標記偏置的問題。在傳統(tǒng)機器學習中,CRF 被看作是命名實體識別的主流模型,優(yōu)點在于在對一個位置進行標注的過程中 CRF 可以利用內部及上下文特征信息。

        ????還有學者通過調整方法的精確率和召回率對傳統(tǒng)機器學習進行改進。Culotta 和 McCallum計算從 CRF 模型提取的短語的置信度得分,將這些得分用于對實體識別進行排序和過濾。Carpenter 從HMM 計算短語級別的條件概率,并嘗試通過降低這些概率的閾值來增加對命名實體識別的召回率。對給定訓練好的 CRF 模型,Minkov 等學者通過微調特征的權重來判斷是否是命名實體,更改權重可能會獎勵或懲罰 CRF 解碼過程中的實體識別。

        3

        基于深度學習的方法

        ????隨著深度學習的不斷發(fā)展,命名實體識別的研究重點已轉向深層神經網絡(Deep Neural Network,DNN),該技術幾乎不需要特征工程和領域知識 。Collobert 等學者首次提出基于神經網絡的命名實體識別方法,該方法中每個單詞具有固定大小的窗口,但未能考慮長距離單詞之間的有效信息。為了克服這一限制,Chiu 和 Nichols提出了一種雙向 LSTM-CNNs 架構,該架構可自動檢測單詞和字符級別的特征。Ma 和 Hovy進一步將其擴展到 BiLSTM-CNNs-CRF 體系結構,其中添加了 CRF 模塊以優(yōu)化輸出標簽序列。Liu 等提出了一種稱為 LM-LSTM-CRF 的任務感知型神經語言模型,將字符感知型神經語言模型合并到一個多任務框架下,以提取字符級向量化表示。這些端到端模型具備從數據中自動學習的功能,可以很好地識別新實體。

        ????部分學者將輔助信息和深度學習方法混合使用進行命名實體識別。Liu 等在混合半馬爾可夫條件隨機場(Hybrid Semi-Markov Conditional Random Fields,HSCRFs) 的體系結構的基礎上加入了Gazetteers 地名詞典,利用實體在地名詞典的匹配結果作為命名實體識別的特征之一。一些研究嘗試在標簽級別跨數據集共享信息,Greenberg等提出了一個單一的 CRF 模型,使用異構標簽集進行命名實體識別,此方法對平衡標簽分布的領域數據集有實用性。Augenstein 等使用標簽向量化表示在任務之間進一步播信息。Beryozkin 等建議使用給定的標簽層次結構共同學習一個在所有標簽集中共享其標簽層的神經網絡,取得了非常優(yōu)異的性能。

        ????近年來,在基于神經網絡的結構上加入注意力機制、圖神經網絡、遷移學習、遠監(jiān)督學習等熱門研究技術也是目前的主流研究方向。


        公開的數據集和評價指標

        1

        公開的數據集?

        ????常用的命名實體識別數據集有 CoNLL 2003,CoNLL 2002,ACE 2004,ACE 2005 等。數據集的具體介紹如下:

        ????① CoNLL 2003 數據集包括1393 篇英語新聞文章和 909 篇德語新聞文章,英語語料庫是免費的,德國語料庫需要收費。英語語料取自路透社收集的共享任務數據集。數據集中標注了 4 種實體類型:PER,LOC,ORG,MISC。

        ?????② CoNLL 2002 數據集是從西班牙 EFE 新聞機構收集的西班牙共享任務數據集。數據集標注了 4 種實體類型:PER,LOC,ORG,MISC。

        ????③ ACE 2004 多語種訓練語料庫版權屬于語言數據聯(lián)盟(Linguistic Data Consortium,LDC),ACE2004多語言培訓語料庫包含用于2004年自動內容提取(ACE)技術評估的全套英語、阿拉伯語和中文培訓數據。語言集由為實體和關系標注的各種類型的數據組成。

        ????④ ACE2005多語種訓練語料庫版權屬于LDC,包含完整的英語、阿拉伯語和漢語訓練數據,數據來源包括:微博、廣播新聞、新聞組、廣播對話等,可以用來做實體、關系、事件抽取等任務。

        ????⑤ OntoNotes5.0數據集版權屬于LDC,由1745K英語、900K中文和300 K阿拉伯語文本數據組成,OntoNotes5.0的數據來源也多種多樣,來自電話對話、新聞通訊社、廣播新聞、廣播對話和博客等。實體被標注為PERSON,ORGANIZATION,LOCATION 等18個類型。

        ????⑥ MUC 7 數據集是發(fā)布的可以用于命名實體識別任務,版權屬于LDC,下載需要支付一定費用。數據取自北美新聞文本語料庫的新聞標題,其中包含190K訓練集、64K測試集。

        ????⑦ Twitter 數據集是由 Zhang 等提供,數據收集于 Twitter,訓練集包含了 4 000 推特文章,3 257 條推特用戶測試。該數據集不僅包含文本信息還包含了圖片信息。

        ????大部分數據集的發(fā)布官方都直接給出了訓練集、驗證集和測試集的劃分。同時不同的數據集可能采用不同的標注方法,最常見的標注方法有 IOB,BIOES,Markup,IO,BMEWO 等,下面詳細介紹幾種常用的標注方法(如圖5所示):

        ????(1)IOB 標注法,是 CoNLL 2003 采用的標注法,I 表示內部,O 表示外部,B 表示開始。如若語料中某個詞標注 B/I-XXX,B/I 表示這個詞屬于命名實體的開始或內部,即該詞是命名實體的一部分,XXX表示命名實體的類型。當詞標注 O 則表示屬于命名實體的外部,即它不是一個命名實體。

        ????(2)BIOES 標注法,是在 IOB 方法上的擴展,具有更完備的標注規(guī)則。其中 B 表示這個詞處于一個命名實體的開始,I 表示內部,O 表示外部,E 表示這個詞處于一個實體的結束,S 表示這個詞是單獨形成一個命名實體。BIOES 是目前最通用的命名實體標注方法。

        圖5

        2

        評價指標

        ????對命名實體識別系統(tǒng)的發(fā)展來說,對系統(tǒng)的全面評估是必不可少的,許多系統(tǒng)被要求根據它們標注文本的能力來對系統(tǒng)進行排序。目前,通常采用的評估指標主要有查準率(Precision,亦稱準確率)、查全率(Recall,亦稱召回率)和 F1值,它們的定義如下:

        表1

        ? ?查準率P和查全率R分別定義為

        ????查準率和查全率是一對矛盾的度量,一般來說,查準率高時,查全率往往偏低;而查全率高時,查準率往往偏低。通常只有在一些簡單的任務中,才可能使查全率和查準率都很高。為了綜合考慮查全率和查準率,引入它們的調和平均F1值,F(xiàn)1值的定義如下:


        注:本文旨在學習和分享,如內容上有不到之處,歡迎后臺批評指正。

        參考文獻:

        [1]陳曙東,歐陽小葉.命名實體識別技術綜述[J].無線電通信技術,2020,46(03):251-260.

        [2]劉瀏,王東波.命名實體識別研究綜述[J].情報學報,2018,37(03):329-340.

        [3]孫鎮(zhèn),王惠臨.命名實體識別研究進展綜述[J].現(xiàn)代圖書情報技術,2010(06):42-47.

        [4]周志華.機器學習[M].北京:清華大學出版社,2016:30-32.




        往期精彩回顧





        獲取一折本站知識星球優(yōu)惠券,復制鏈接直接打開:

        https://t.zsxq.com/662nyZF

        本站qq群1003271085。

        加入微信群請掃碼進群(如果是博士或者準備讀博士請說明):

        瀏覽 86
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            日逼片 | 久久中文精品 | 国产日韩精品在线播放 | 人人操人人插人人爽 | 成人三级片在线 | 超碰caopo | 巨爆乳幕巨爆乳熟女电影 | 日日摸夜夜爽 | www.婷婷色 | 久久久久三级片 |