知識圖譜與事件類圖譜
知識圖譜與事件類圖譜
一、知識圖譜發(fā)展三個周期
知識圖譜,從2012年谷歌正式將這一概念應(yīng)用到工業(yè)界之后,到現(xiàn)在已經(jīng)逐步走過了將近7年的時間,在這七年的時間里,知識圖譜逐步經(jīng)歷了從概念興起、概念泛化、技術(shù)掙扎與落地尷尬三個環(huán)節(jié)。
1、 知識圖譜的概念興起——起于谷歌,興于搜索
知識圖譜,真正以一種新鮮事物進(jìn)入公眾視野的時間大概是谷歌于2012年提出的knowledge graph,國內(nèi)學(xué)者直接意譯為“知識圖譜”。(當(dāng)然之前有科學(xué)知識圖譜、語義網(wǎng),不在此文討論范圍之內(nèi))。從字面意義上來說,知識圖譜的核心包括兩個,一個是knowledge,另一個是graph。Knowledge充當(dāng)?shù)氖菙?shù)據(jù)的類型角色,所刻畫和描述的數(shù)據(jù)被稱作是知識,graph充當(dāng)?shù)氖菙?shù)據(jù)組織和存儲結(jié)構(gòu)的角色,即圖結(jié)構(gòu)。數(shù)據(jù)這個點(diǎn)決定了知識圖譜所能涵蓋和刻畫的領(lǐng)域和范圍,圖結(jié)構(gòu)決定了數(shù)據(jù)的使用方式和應(yīng)用方向。
2012年,谷歌首先拋出了知識圖譜這個概念,并將其應(yīng)用于提升搜索服務(wù),在搜索效果上的直觀體現(xiàn)主要還是集中于實(shí)體級別的搜索,通過內(nèi)部實(shí)體之間的關(guān)聯(lián)信息以及實(shí)體的屬性等信息,在用戶在進(jìn)行實(shí)體搜索時,通過關(guān)聯(lián)查詢,以知識卡片的形式同時提供實(shí)體本身以及關(guān)聯(lián)實(shí)體的信息,從而在給出什么是什么的情況下,再一度地給出此外還有什么的問題。簡單的來說,這種搜索體驗(yàn)大致可以歸為2點(diǎn),一是搜索結(jié)果的目的簡潔性,是一個實(shí)體或者實(shí)體屬性,形式上更為確定,而非一個網(wǎng)頁。而是搜索結(jié)果的上下文擴(kuò)展,這里所說的上下文指的是實(shí)體的關(guān)聯(lián)信息,這些關(guān)聯(lián)信息能夠在讓用戶知道多一點(diǎn)的情況下可進(jìn)一步提升用戶的點(diǎn)擊興趣。事實(shí)證明,谷歌這一做法是奏效的,新的搜索方式引領(lǐng)了一步新的潮流,并且隨后被國內(nèi)外同行爭相跟進(jìn),如yahoo,Microsoft,facebook,百度,搜狗,阿里巴巴先后提出了自己的知識圖譜并快速產(chǎn)品化。這類產(chǎn)品主要還是集中于搜索領(lǐng)域,歸結(jié)的來說,即知識圖譜起于谷歌,興于搜索。
2、 知識圖譜概念的泛化——雖有嘗試,亦存跟風(fēng)
當(dāng)知識圖譜起于谷歌,興于搜索之后,借著搜索的東風(fēng)以及搜索本身作為一種信息傳播的工具,知識圖譜這一概念開始經(jīng)歷第二個時期,即快速傳播時期。主要傳播的方式包括三個途徑,一種是文字上的傳播,關(guān)于大量知識圖譜的報(bào)道,軟文介紹在互聯(lián)網(wǎng)上大規(guī)模傳播,“知識圖譜”、“knowledge graph”等關(guān)鍵詞充斥于各個技術(shù)文章當(dāng)中。二是視覺上的傳播,“兩個圓圈一條邊,邊上幾個文字懸”的知識圖譜形象化展示圖片被大量生產(chǎn)出來,這似乎固化了知識圖譜在大眾心目中的物化形象,即知識圖譜就是一張網(wǎng),就是網(wǎng)中的可視化。三是聽覺上的傳播,如ccks為主要代表的會議,線上以及線下知識圖譜講座、課程使得“zhi shi tu pu”這個名詞在人群中廣為傳播。這三種方式一同發(fā)力,直接將知識圖譜這一概念的流行度推向高峰。而一旦一個名詞性概念被廣為流傳和熟知之后,如ai一般,知識圖譜恐怕難逃“知識圖譜+”這樣的命運(yùn),這里的“知識圖譜+”與“互聯(lián)網(wǎng)+”以及“ai+”一樣,成為互聯(lián)網(wǎng)創(chuàng)業(yè)中的基本標(biāo)配,越來越多的項(xiàng)目向知識圖譜靠攏,形式上,知識圖譜在各個領(lǐng)域的快速應(yīng)用,醫(yī)療知識圖譜、法律知識圖譜、食品知識圖譜、農(nóng)業(yè)知識圖譜、金融知識圖譜、產(chǎn)業(yè)鏈知識圖譜、教育知識圖譜等等,如雨后春筍般涌現(xiàn)。這些知識圖譜的大量出現(xiàn),歸結(jié)的來說,雖有嘗試,亦存跟風(fēng)。知識圖譜可以作為一個技術(shù)本身而存在,而不同的業(yè)務(wù)場景,不同的需求是否真正需要使用知識圖譜從而完成所需目標(biāo)就另當(dāng)別論了。
3、 知識圖譜概念的落地——躊躇滿志,艱難不止
當(dāng)一個新鮮事物被廣為流傳之時,即到達(dá)了一個頂峰之后,就必然不能停留在想象之中,想象中,很不同,與現(xiàn)實(shí)場景有很大不同,即現(xiàn)實(shí)場景下,就到了概念到實(shí)際應(yīng)用的轉(zhuǎn)化了。說到這,自然而然就要說到知識圖譜本身的技術(shù)問題了。第一節(jié)說到,知識圖譜核心包括數(shù)據(jù)-知識,結(jié)構(gòu)-圖譜,數(shù)據(jù)是最為重要的一點(diǎn),目前運(yùn)用數(shù)據(jù)進(jìn)行產(chǎn)品研發(fā)和應(yīng)用落地的重要前提就是數(shù)據(jù)的靠譜性,所謂的數(shù)據(jù)靠譜,主要體現(xiàn)在知識的準(zhǔn)確性、實(shí)時性以及小眾性三個方面。其中準(zhǔn)確性是首要前提,錯誤的數(shù)據(jù)會導(dǎo)致錯誤的結(jié)論;實(shí)時性主要是尊重知識的客觀屬性,即動態(tài)性,社會是不斷動態(tài)變化的,知識是不斷動態(tài)實(shí)時更新的,舊的落后的數(shù)據(jù)無法保持得到的結(jié)論是可靠的;小眾性主要是從知識的價值大小來說,“物以希為貴”這條定理很好的說明了這個問題,大眾的知識是你有我有全都有的知識,這大眾已知的知識對于后期的應(yīng)用以及公司的競爭力來說,沒有太大的意義。而如法律知識、軍事知識、交易數(shù)據(jù)等私密或者只有少部分人能夠獲取的知識,才真正大有可為。因此,要真正意義上把握這三點(diǎn),將知識圖譜做好,其實(shí)是個“躊躇滿志,艱難不止”的事情。在知識圖本身技術(shù)上的局限性,從知識抽取-知識融合-知識更新這一長條知識工程pipeline上,知識圖譜這一塊的骨頭可謂是相當(dāng)難啃。
二、從實(shí)體到事件
當(dāng)知識圖譜作為一項(xiàng)技術(shù)和名詞性概念進(jìn)行發(fā)展之時,新的變體就會必然出現(xiàn)。知識圖譜的基本組成單位,<實(shí)體,實(shí)體關(guān)系,實(shí)體>中,我們進(jìn)行成分替換之后可以得到多種不同的類型,例如,我們將實(shí)體單位換成是一個事件,實(shí)體之間的關(guān)系換成是事件的關(guān)系,那么就可以得到以“事件”為核心的event knowledge graph。然而,目前關(guān)于event knowledge graph,概念不統(tǒng)一,因此,接下來可以展開論述。概念不統(tǒng)一,本質(zhì)在于對event knowledge的界定不同,什么是事件知識,而事件又是什么?本身關(guān)于事件(event)的界定都不明確。目前關(guān)于事件的界定有很多,如目前ACE、TDT、chambers在做narrative event chain或者scripts中的事件,這些事件都給出了不同的解釋。而從計(jì)算機(jī)處理事件來說,應(yīng)該從以下幾個方面去考慮一個事件:
1、事件的外部表示界定
知識圖譜中的實(shí)體和實(shí)體關(guān)系都有唯一的一個表現(xiàn)形式進(jìn)行表示,如名詞性的“劉煥勇”,動詞性的“畢業(yè)于”,形容詞性的“美麗”等,這種唯一的表現(xiàn)形式提供了節(jié)點(diǎn)表示的可能。而如果要將節(jié)點(diǎn)替換成事件,用一種特定的字符串序列來表示事件,會出現(xiàn)什么情況?一個事件是一個名詞還是動詞,還是一個短語,還是一個主謂或動賓二元組,還是一個主謂賓三元組,還是一句描述,還是囊括更多信息的N元組?這些都是需要考慮的問題。目前廣泛應(yīng)用于scripts以及narrative chain中的以動詞作為事件的表示方式往往太過于抽象,往往一些名詞也可以充當(dāng)事件,這個放在兼類現(xiàn)象嚴(yán)重的中文中問題更大。事實(shí)上,事件在外部形式上的表現(xiàn)方式,直接決定了事件在圖譜中的組織方式和管理機(jī)制。
2、事件的內(nèi)部信息表示界定
單純以一個詞來表示事件的方式往往太過于單薄和抽象,而一個事件之所以能夠成為事件,那么最好的方式是能夠使用盡可能少量的字符或者字段表達(dá)盡可能多的事件相關(guān)信息。在這個方面,ACE定義了8類事件,以及幾十個小類的事件類型,人工地針對每個事件小類定義了槽即slot的概念,從不同的側(cè)面圍繞一個特定的事件觸發(fā)詞trigger words來進(jìn)行事件描述。由于這種事件結(jié)構(gòu)定義不具備普適性和拓展性,遷移成本特別高,因此,后期有人考慮使用framenet以及verbnet來解決這個問題,但依舊有限,而且這都是屬于英文領(lǐng)域,對于中文,又會遇到“巧婦難為無米之炊”的問題。目前,關(guān)于事件的info-schema,可以自行搜索關(guān)于eventschema相關(guān)的框架,主要代表性的有國內(nèi)上海大學(xué)的5元組事件表示,國外的semevent本體表示框架。
3、事件之間關(guān)系的表示界定
靜態(tài)性的知識數(shù)量規(guī)模巨大,這決定了實(shí)體關(guān)系類型的豐富性,而相對于實(shí)體而言,事件之間的關(guān)系則相對較少,從大的方面來說,事件之間的關(guān)系主要包括空間關(guān)系和時間關(guān)系兩個大類,兩個大類底下能夠繼續(xù)下分,形成不同的子空間關(guān)系和子時間關(guān)系??臻g關(guān)系和時間關(guān)系又可進(jìn)一步聚類形成邏輯關(guān)系,不同的空間和時間關(guān)系組合決定了不同的邏輯關(guān)系。
三、事件類圖譜的幾個類別
根據(jù)事件外部表示以及關(guān)系的不同,事件類知識圖譜主要有以下幾種概念形式(此處為個人總結(jié)):
1、 事件知識圖譜(event knowledge graph)
事件知識圖譜,在這里,我更傾向于認(rèn)為這個圖譜本身更傾向于為一個事件知識庫,而非知識圖譜。事件知識圖譜的工作主要圍繞事件知識本身進(jìn)行展開,關(guān)注點(diǎn)在于事件內(nèi)部信息,如ACE中的8大類事件,將這幾類事件中的信息進(jìn)行抽取和填充就能夠得到一個以特定事件類型作為分類標(biāo)準(zhǔn)的事件知識庫,如婚姻事件庫、爆炸事件庫等。最近的工作包括自動化所關(guān)于金融事件知識圖譜的工作,集中于資產(chǎn)凍結(jié)等少數(shù)幾個特定事件的事件知識圖譜。這種事件知識圖譜中的事件由特定的事件類型及其槽構(gòu)成,內(nèi)部關(guān)系主要考慮包括事件論元之間的關(guān)聯(lián),對于外部事件之間的關(guān)聯(lián)關(guān)注較少。
2、 抽象事理圖譜(abstract event evolutionary graph)
抽象事理圖譜,最早由哈工大信息檢索實(shí)驗(yàn)室在narrative chain的基礎(chǔ)上提出,目標(biāo)是揭示事件之間的演化性,關(guān)系上主要考慮順承和因果兩種,在事件節(jié)點(diǎn)的設(shè)置上傾向于事件的抽象性,以原文短句的形式作為字符串表示,這種抽象性質(zhì)決定了該事件不具備更為細(xì)致的內(nèi)部事件信息,形式上很為簡潔。但存在的挑戰(zhàn)很多,例如如何抽象,以原文短句作為事件外部表示似乎看不到抽象的成分在,抽象的力度如何控制,不同的抽象粒度會得到不同的抽象結(jié)果。
3、 事件邏輯知識圖譜(event logic knowledge graph)
事件邏輯知識圖譜,是綜合事件知識圖譜和抽象事理圖譜之間的一種知識圖譜類型,該知識圖譜既保留了事件知識圖譜中事件內(nèi)部信息的完備性,又保留了抽象事理圖譜中外部事件表示的抽象性,具有完備性和抽象性雙重特征。不過,事件邏輯知識圖譜與事件圖譜不同,事件邏輯知識圖譜規(guī)避了事件知識圖譜的領(lǐng)域特征,而采用統(tǒng)一的事件槽,即通用的事件N個論元組對事件表示,其中論元的設(shè)置綜合考慮了回答5個W,1個H的問題的同時,更考慮事件的情緒、確定性、完成性、主觀性、權(quán)威性等信息,并通過領(lǐng)域?qū)嶓w的增加與替換來達(dá)到對不同領(lǐng)域的適配。本質(zhì)上來說,事件邏輯知識圖譜的核心在于邏輯,而這種邏輯的本質(zhì)特性是抽象性,因此事件之間的邏輯關(guān)系需要從底層的事件進(jìn)行高度抽象而成,這種抽象主要體現(xiàn)在事件邏輯知識庫中事件外部形式的表示上。與抽象事理圖譜不同,由于有了底層具有豐富內(nèi)部屬性的實(shí)例事件作為支撐,可用于事件抽象的信息更多,在事件融合方面帶來了極大的便利,另外在事件之間的關(guān)系上,進(jìn)一步進(jìn)行擴(kuò)展,可以形成對立、條件、部分與整體等多種邏輯網(wǎng)絡(luò)。
四、事件類圖譜的幾個重要問題
在實(shí)際的理論研究和生產(chǎn)過程當(dāng)中,我們發(fā)現(xiàn),以下幾個方面的問題需要急需解決。
1、事件關(guān)系語料庫的構(gòu)建與融合。目前關(guān)于這方面的英文語料庫主要有timebank以及propbank,中文的有突發(fā)事件cec語料庫以及哈工大的篇章關(guān)系語料庫等,這些語料庫一方面在分布上較為分散,另外,在事件的標(biāo)注上,還是局限于動詞性詞語作為事件表示。因此,更多類型的事件關(guān)系語料庫需要構(gòu)建,在標(biāo)注的形式和規(guī)范上需要從詞級別進(jìn)一步轉(zhuǎn)換成句子級別等。
2、事件關(guān)系抽取的任務(wù)規(guī)則轉(zhuǎn)變。目前,時序事件評測以及因果事件評測任務(wù)大多轉(zhuǎn)換成了一個序列標(biāo)注任務(wù)或者文本分類問題來做,而這基于一個重要的前提,即數(shù)據(jù)集中明確標(biāo)注了事件本身,我認(rèn)為這樣的任務(wù)與其說是抽取,不如說是分類,因?yàn)闆]有事件抽取的概念在。這樣的評測任務(wù),直接會造成在實(shí)際應(yīng)用場景下無法直接使用。識別出事件這一個步驟需要提上日程,而不是在已標(biāo)注好的事件上,做事件關(guān)系的判定之類的刷榜游戲,實(shí)際落地應(yīng)用價值不是特別大。
3、事件類知識圖譜的評估。這個問題是我們在工作過程當(dāng)中,包括與別人討論時必問的一個問題,即準(zhǔn)確率的評估問題。事件邏輯知識圖譜是目前我們工作的重點(diǎn),我們在通用事件論元表示,抽象性事件關(guān)聯(lián)抽取上做了一些工作??偨Y(jié)的來說,事件邏輯知識圖譜從零到有,包括因果、順承、對立等事件的抽取,事件內(nèi)部論元的識別,事件的抽象與融合,事件的動態(tài)等一系列環(huán)節(jié),組成一個具有誤差傳播的pipeline,每一個環(huán)節(jié)的準(zhǔn)確率都需要進(jìn)行評估。此外,在構(gòu)建好的事件邏輯知識圖譜當(dāng)中,如何應(yīng)用進(jìn)行輔助決策,在應(yīng)用層也需要進(jìn)行準(zhǔn)確性的量化。這些評估問題在標(biāo)準(zhǔn)數(shù)據(jù)集的構(gòu)建以及評估方法上面臨著諸多挑戰(zhàn),這是我們目前遇到以及正在解決的問題,可以關(guān)注我們的工作。
五、總結(jié)
知識圖譜目前已經(jīng)發(fā)展了近7年的時間,在這7年的時間里,知識圖譜從興起走向泛化,目前正處于從概念到落地的環(huán)節(jié),還存在諸多挑戰(zhàn)。正如知識圖譜一樣,事理圖譜提的多了,大家對該概念的理解就會出現(xiàn)偏差,也就會對事件類圖譜有不同的認(rèn)識,本文介紹了我們在實(shí)際過程中對事件類圖譜的認(rèn)識,可以幫助大家掃掃盲區(qū)。另外,也正如知識圖譜一樣,事理圖譜目前到了落地應(yīng)用的環(huán)節(jié),技術(shù)上存在多種問題需要解決,本文也提出了幾個需要解決的問題,如事件關(guān)系語料庫的構(gòu)建、事件關(guān)系抽取任務(wù)規(guī)則的轉(zhuǎn)變、事件類知識圖譜的評估,大家也可以多想想關(guān)注此類問題。
關(guān)于作者:
1、劉煥勇,中科院軟件所,[email protected]
2、我的github項(xiàng)目介紹:https://liuhuanyong.github.io
3、我的csdn博客:https://blog.csdn.net/lhy2014
4、我的公眾號:老劉說NLP
