1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        知識(shí)圖譜入門必看!

        共 3978字,需瀏覽 8分鐘

         ·

        2021-03-06 18:56

        來源:知乎    作者:gaojing

        著作權(quán)歸屬原作者,本文僅作學(xué)術(shù)分享,侵刪


        知識(shí)圖譜

        針對(duì)于知識(shí)圖譜基礎(chǔ)知識(shí),領(lǐng)域應(yīng)用和學(xué)術(shù)前沿趨勢(shì)進(jìn)行介紹。


        知識(shí)圖譜介紹

        知識(shí)圖譜(Knowledge Graph)以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系。是融合了認(rèn)知計(jì)算、知識(shí)表示與推理、信息檢索與抽取、自然語言處理、Web技術(shù)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)挖掘等等方向的交叉學(xué)科。人工智能是以傳統(tǒng)符號(hào)派與目前流行的深度神經(jīng)網(wǎng)路為主,如下圖所示,知識(shí)圖譜發(fā)展史。
        知識(shí)圖譜發(fā)展史
        知識(shí)表示與深度學(xué)習(xí)表示
        • 各大公司布局知識(shí)圖譜
        補(bǔ)充其中還包括國(guó)內(nèi)的京東與美團(tuán)(美團(tuán)的AI大腦,數(shù)十億知識(shí)圖譜構(gòu)建)
        • 知識(shí)圖譜應(yīng)用模式(來之美團(tuán)的Ai大會(huì)報(bào)告)
        • 知識(shí)圖譜技術(shù)鏈
        • 知識(shí)圖譜賦能
        知識(shí)圖譜應(yīng)用非常廣泛,目前主要應(yīng)用到搜索引擎、智能問答、大數(shù)據(jù)分析、語言翻譯和語言理解及輔助設(shè)備互聯(lián)(Iot領(lǐng)域),如下圖所示,知識(shí)圖譜在搜索引擎的應(yīng)用。
        通用知識(shí)圖譜與垂直領(lǐng)域知識(shí)圖譜對(duì)比
        相比較DBpedia、Yago、Wikidata、百度和谷歌等通用知識(shí)圖譜,+特定領(lǐng)域內(nèi)的知識(shí)圖譜在知識(shí)表示、知識(shí)結(jié)構(gòu)、知識(shí)質(zhì)量及知識(shí)應(yīng)用更高的要求(關(guān)于領(lǐng)域知識(shí)圖譜與通用知識(shí)圖譜之間的問題可以查看復(fù)旦肖仰華)。
        國(guó)內(nèi)外知識(shí)圖譜項(xiàng)目
        國(guó)外:早期的常識(shí)知識(shí)庫(kù)Cyc、WordNet、ConceptNet等;互聯(lián)網(wǎng)知識(shí)圖譜,主要有FreeBase、DBpedia、Schema、Wikidata 、BableNet、Microsofot ConceptGraph,醫(yī)療領(lǐng)域Linked Life Data等
        國(guó)內(nèi):中文知識(shí)圖譜OpenKG,CN-DBpedia,中醫(yī)藥知識(shí)圖譜,阿里電商知識(shí)圖譜、美團(tuán)知識(shí)圖譜、XLore(清華大學(xué))、Belief-Eigen(中科院)、PKUPie(北京大學(xué)),開放類的中文百科知識(shí)圖譜,zhishi.me


        知識(shí)圖譜技術(shù)模塊

        知識(shí)表示

        如何利用計(jì)算符號(hào)運(yùn)算來表示人腦中的知識(shí)和推理過程,知識(shí)表示主要有兩種,基于離散符號(hào)的知識(shí)表示法和基于連續(xù)向量的知識(shí)表示。
        基于離散符號(hào)的知識(shí)表示法
        RDF(Triple-based Assertion Model) 三元組模型,構(gòu)建方式主要是主-謂-賓有向標(biāo)記圖和RDFS(simple Vocabularty and schema)
        OWL(Web Ontology language):是一種W3C開發(fā)的網(wǎng)路本體語言,用于對(duì)本體進(jìn)行語義描述。
        SPARQL(Protocol and RDF Query Language) :RDF的查詢語言,支持主流圖形數(shù)據(jù)庫(kù)。下圖URI/IRI為主要網(wǎng)絡(luò)協(xié)議,主要數(shù)據(jù)存儲(chǔ)格式是RDF與XML
        • 基于連續(xù)向量的知識(shí)表示
        KG embedding 主要是KG中實(shí)體與關(guān)系映射到一個(gè)低維的向量空間,主要的方法有張量分解、NN、距離模型(現(xiàn)有的詞向量模型基于連續(xù)向量空間來表示)(Embedding projector)
        • 兩種方法對(duì)比

        知識(shí)抽取

        KG中知識(shí)抽取主要從結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù)中轉(zhuǎn)為三元組表示的標(biāo)準(zhǔn)知識(shí)形態(tài)。
        • 主要處理流程

        實(shí)體抽?。∟ER命名實(shí)體識(shí)別)

        目的是識(shí)別文本中指定類別的實(shí)體,主要包括人 名、 地名、 機(jī)構(gòu)名、 專有名詞等的任務(wù)“ 姚明(Yao Ming),1980年9月12日出生于上海市徐匯區(qū),祖籍江蘇省蘇州市吳江區(qū)震澤鎮(zhèn),前中國(guó)職業(yè)籃球運(yùn)動(dòng)員,司職中鋒,現(xiàn)任中職聯(lián)公司董事長(zhǎng)兼總經(jīng)理“。如下圖所示,命名實(shí)體識(shí)別主要包含兩個(gè)部分:實(shí)體邊界識(shí)別與實(shí)體分類。傳統(tǒng)方法(HMM(隱馬爾科夫模型) CRF(條件隨機(jī)場(chǎng)) SVM、最大熵分類模型等方法進(jìn)行處理。現(xiàn)在能采用深度學(xué)習(xí),比如CNN\RNN\LSTM及LSTM-CRF。采用的工具可以有Jiagu、jieba、Stanford CoreNLP等。

        實(shí)體鏈接

        目的是將實(shí)體提及與知識(shí)庫(kù)中對(duì)應(yīng)實(shí)體進(jìn)行鏈接 ,主要解決實(shí)體名的歧義性與多樣性問題,是文本中實(shí)體名指向真實(shí)世界實(shí)體的任務(wù)。傳統(tǒng)模型是計(jì)算實(shí)體提及與知識(shí)庫(kù)中實(shí)體的相似度,并選取特定的實(shí)體提及的目標(biāo)實(shí)體,比如“蘋果發(fā)布新的手機(jī)‘IphoneX11’”,[蘋果(水果)、蘋果(電影)、蘋果(公司)等候選實(shí)體],主要使用包括實(shí)體統(tǒng)計(jì)信息、名字統(tǒng)計(jì)信息、上下文詞語分布、實(shí)體關(guān)聯(lián)度、文章主題等信息,同時(shí),考慮到一段文本中實(shí)體之間的相互關(guān)聯(lián),相關(guān)的全局推理算法也被提出來尋找全局最優(yōu)決策。目前深度學(xué)習(xí)方法,構(gòu)建多類型多模態(tài)上下文及知識(shí)的統(tǒng)一表示,并建模不同信息、不同證據(jù)之間的相互交互 通過將不同類型的信息映射到相同的特征空間,并提供高效的端到端訓(xùn)練算法。包括多源異構(gòu)證據(jù)的向量表示學(xué)習(xí)、以及不同證據(jù)之間相似度的學(xué)習(xí)等工作[Ganea & Hofmann, 2017] [Gupta et al., 2017] [Sil et al 2018] 。開源工具dexter2
        • 實(shí)體關(guān)系抽取

        實(shí)體關(guān)系抽取是知識(shí)圖譜構(gòu)建與信息提取的關(guān)鍵環(huán)節(jié),主要提取兩個(gè)或者多個(gè)實(shí)體之間的某種聯(lián)系。格式,三元組(實(shí)體1,關(guān)系,實(shí)體2),"北京是中國(guó)的首都、政治中心和文化中心 "中實(shí)體關(guān)系可以表示為(中國(guó)、首都、北京)(中國(guó) 政治中心 北京)(中國(guó) 文化中心 北京)。
        限定關(guān)系抽?。翰捎萌醣O(jiān)督/監(jiān)督機(jī)器學(xué)習(xí)進(jìn)行預(yù)定義的實(shí)體關(guān)系知識(shí)抽取,一般為多分類問題,可以直接抽取三元組關(guān)系。一般會(huì)采用基于特征向量的方法、基于核函數(shù)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法 。
        開發(fā)域關(guān)系抽?。侯A(yù)先不進(jìn)行預(yù)定義,系統(tǒng)本身自動(dòng)抽取實(shí)體之間的關(guān)系,一般采用無監(jiān)督學(xué)習(xí)方法進(jìn)行自動(dòng)提取實(shí)體之間的關(guān)系(三元組)。缺點(diǎn)是抽取的知識(shí)缺乏語義化、很難做歸一化處理,弱監(jiān)督學(xué)習(xí)可以自動(dòng)生成大規(guī)模的訓(xùn)練醫(yī)療庫(kù),但是會(huì)產(chǎn)生噪音數(shù)據(jù)。
        關(guān)于NER與實(shí)體鏈接可以查看另一篇文章https://zhuanlan.zhihu.com/p/85567106
        事件關(guān)系抽取
        識(shí)別文本中關(guān)于事件的信息,并以結(jié)構(gòu)化的形式呈現(xiàn),核心概念包括:事件描述、事件觸發(fā)詞(動(dòng)詞或者名詞)、事件元素(實(shí)體、時(shí)間和屬性等表達(dá)語義的細(xì)粒度單位組成)、元素角色(角色在某件事情上面的語義關(guān)系)、事件類型(事件元素和觸發(fā)詞決定事件的類別),如下圖所示
        基于模式匹配的方法:對(duì)于某一個(gè)事件的識(shí)別與抽取是在一些模式的指導(dǎo)下進(jìn)行的,主要有兩個(gè)步驟:模式獲取和模式匹配,有可分為基于人工標(biāo)注語料和弱監(jiān)督學(xué)習(xí)
        基于機(jī)器學(xué)習(xí)的方法:把事件建模成多分類問題,可以分為基于特征、基于結(jié)構(gòu)和基于神經(jīng)網(wǎng)路。
        基于特征:該方法多用管道式事件抽取
        基于結(jié)構(gòu)預(yù)測(cè):將事件結(jié)構(gòu)看做是依存樹結(jié)構(gòu)預(yù)測(cè)?;诮Y(jié)構(gòu)感知機(jī)的聯(lián)合模型可同時(shí)完成觸發(fā)詞與事件元素識(shí)別的兩個(gè)子任務(wù)。
        基于神經(jīng)網(wǎng)路:利用RNN進(jìn)行事件檢測(cè)及聯(lián)合模型與RNN相結(jié)合進(jìn)行預(yù)測(cè)觸發(fā)詞和事件元素
        基于弱監(jiān)督:在學(xué)術(shù)上,[Chen and Ji, 2009] [Liao and Grishman, 2011a; 2011b] [Liu et.al., 2016b] 等,但是由于該方法無法直接映射到結(jié)構(gòu)化數(shù)據(jù)中,無法直接構(gòu)建三元組。
        中文事件抽取
        中文與英文事件抽取區(qū)別較大,主要是缺乏統(tǒng)一、公認(rèn)的事件語料庫(kù)及公開評(píng)測(cè)系統(tǒng)(上海大學(xué)CEC(Chinese Event Corpus))

        知識(shí)融合

        知識(shí)融合是指合并兩個(gè)知識(shí)圖譜,本體可以讓用戶非常方便和靈活的根據(jù)自己的業(yè)務(wù)建立或者修改數(shù)據(jù)模型。通過數(shù)據(jù)映射技術(shù)建立本體中術(shù)語和不同數(shù)據(jù)源抽取知識(shí)中詞匯的映射關(guān)系,進(jìn)而將不同數(shù)據(jù)源的數(shù)據(jù)融合在一起。同時(shí)不同源的實(shí)體可能會(huì)指向現(xiàn)實(shí)世界的同一個(gè)客體,這時(shí)需要使用實(shí)體匹配將不同數(shù)據(jù)源相同客體的數(shù)據(jù)進(jìn)行融合。不同本體間也會(huì)存在某些術(shù)語描述同一類數(shù)據(jù),那么對(duì)這些本體間則需要本體融合技術(shù)把不同的本體融合。

        知識(shí)融合-異構(gòu)問題

        語言層不匹配:RDF OWL OWL2等本體語言之間不兼容。
        實(shí)體對(duì)齊問題:由于多源、異構(gòu)、跨語言知識(shí)圖譜差異性較大,比如結(jié)構(gòu)化不可比、實(shí)體名稱表述差別較大、外部工具不穩(wěn)定等,可訓(xùn)練數(shù)據(jù)較少。方法:可以基于圖神經(jīng)網(wǎng)路的實(shí)體結(jié)構(gòu)語義表示及匹配(關(guān)于知識(shí)融合中實(shí)體對(duì)齊在學(xué)術(shù)上有很多研究)

        知識(shí)存儲(chǔ)


        • 知識(shí)圖譜的知識(shí)存儲(chǔ)一般是采用圖形數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),主要有兩種圖數(shù)據(jù)模型:RDF圖和屬性圖
        • 查詢語言:RDF圖---SPARQL;屬性圖:Cypher 和 Gremlin
        • 常見知識(shí)圖譜存儲(chǔ)方式
          • 基于關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)方案
            • 主要是三元組表(3store)、水平表(DLDB)、屬性表(JENA)、垂直劃分(SW-Store)、DB2RDF和六重索引(RDFX-3X、Hexastore)
          • 面向RDF的三元組數(shù)據(jù)庫(kù)
            • Jena RDF4J RDF-3X gStore
          • 原生圖數(shù)據(jù)庫(kù)
            • Neo4j
            • 分布式圖形數(shù)據(jù)庫(kù) JanusGraph
            • OrientDB
            • Cayley
          • 圖形數(shù)據(jù)庫(kù)對(duì)比

        來之DB-Engiens圖引擎和美團(tuán)知識(shí)圖譜報(bào)告,美團(tuán)采用JanusGraph分布式圖形引擎

        知識(shí)推理

        根據(jù)已有的知識(shí)圖譜中的事實(shí)或者關(guān)系推斷出新的事實(shí)與關(guān)系,一般是考察實(shí)體、關(guān)系和圖譜結(jié)構(gòu)三個(gè)方面的信息特征

        基于演繹的知識(shí)圖譜推理

        基于歸納的知識(shí)圖譜推理

        • 基于圖結(jié)構(gòu)
        • 基于規(guī)則學(xué)習(xí)
        • 基于表示學(xué)習(xí)
        • 新的方法
          • 時(shí)序法
          • 基于強(qiáng)化學(xué)習(xí)
          • 基于圖神經(jīng)網(wǎng)路

        開源工具

        • Jena和Drools

        知識(shí)圖譜構(gòu)建流程

        • 主要介紹主流的知識(shí)圖譜構(gòu)建流程,實(shí)體圖譜的構(gòu)建主要有自底向上、自頂向下和二則混合的方法,如下圖所示,分別為自底向上和自頂向下
        自底向上
        自頂向下
        知識(shí)圖譜整體構(gòu)建流程
        參考文獻(xiàn)(略)
        瀏覽 202
        1點(diǎn)贊
        評(píng)論
        1收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        1點(diǎn)贊
        評(píng)論
        1收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            五月天色婷婷丁香 | 日韩三级黄色 | 宝宝睡前c1v1酒瓶 | 操屄的视频 | 伊人婷婷影院 | 精品77777 | 天天干天天日天天操天天爽天天射天天 | 日本三级成人网站 | 天天爱天天干天天操 | 99re免费视频 |