1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        盤點(diǎn)4個(gè)典型的知識(shí)圖譜項(xiàng)目

        共 2945字,需瀏覽 6分鐘

         ·

        2021-09-27 08:47

        導(dǎo)讀:本文將列舉幾個(gè)典型的知識(shí)圖譜項(xiàng)目。


        作者:邵浩 張凱 李方圓 張?jiān)瓶?戴錫強(qiáng)
        來源:大數(shù)據(jù)DT(ID:hzdashuju)



        圖1-6給出了具有代表性的知識(shí)圖譜項(xiàng)目的發(fā)展歷史。


        ▲圖1-6 知識(shí)圖譜發(fā)展歷史


        從20世紀(jì)80年代開始的CYC項(xiàng)目,到Google 2012年提出的知識(shí)圖譜,再到現(xiàn)在不同語種、不同領(lǐng)域的知識(shí)圖譜項(xiàng)目大量涌現(xiàn),知識(shí)圖譜已經(jīng)被深入研究并廣泛應(yīng)用于各個(gè)行業(yè)。


        例如,WordNet是典型的詞典知識(shí)庫,BabelNet也是類似于WordNet的多語言詞典知識(shí)庫,YAGO集成了Wikipedia、WordNet、GeoNames三個(gè)源的數(shù)據(jù),NELL則持續(xù)不斷從互聯(lián)網(wǎng)上自動(dòng)抽取三元組知識(shí)。


        由于這些項(xiàng)目的相關(guān)資料較為豐富,本文僅挑選若干具有代表性的知識(shí)圖譜項(xiàng)目加以介紹。



        01 CYC


        https://cyc.com/


        CYC項(xiàng)目開始于1984年,最初目標(biāo)是建立人類最大的常識(shí)知識(shí)庫,將上百萬條知識(shí)編碼成機(jī)器可用的形式。根據(jù)維基百科數(shù)據(jù),CYC包含320萬條人類定義的斷言,涉及30萬個(gè)概念和15000個(gè)謂詞。


        1986年,Douglas Lenat推斷要構(gòu)建這樣龐大的知識(shí)庫需設(shè)計(jì)25萬條規(guī)則,同時(shí)需要350個(gè)人年才能完成。這個(gè)看似瘋狂的計(jì)劃之所以能夠推進(jìn),和當(dāng)時(shí)的歷史背景是不可分開的。


        在CYC中,大部分工作是以知識(shí)工程為基礎(chǔ),且大部分事實(shí)都是通過手動(dòng)添加到知識(shí)庫上的。CYC主要由兩部分構(gòu)成,第一部分是作為數(shù)據(jù)載體的多語境知識(shí)庫,第二部分是系統(tǒng)本身的推理引擎。


        比如,通過“每棵樹都是植物”和“植物最終都會(huì)死亡”的知識(shí),推理引擎可以推斷出“樹會(huì)死亡”的結(jié)論。1994年圖靈獎(jiǎng)獲得者愛德華·費(fèi)根鮑姆曾稱:“CYC是世界上最大的知識(shí)庫,也是技術(shù)論的最佳代表。”



        02 ConceptNet


        https://www.conceptnet.io/


        ConceptNet是一個(gè)利用眾包構(gòu)建的常識(shí)知識(shí)圖譜,起源于麻省理工大學(xué)媒體實(shí)驗(yàn)室的Open Mind Common Sense(OMCS)項(xiàng)目,它免費(fèi)開放并且具有多語言版本。其英文版本自1999年發(fā)布以來,由15000個(gè)貢獻(xiàn)者積累了超過100多萬個(gè)事實(shí)。


        ConceptNet的一大特點(diǎn)是它的知識(shí)描述是非形式化的,更加貼近自然語言的描述。圖1-7給出了ConceptNet的一個(gè)組織架構(gòu)。這里列舉了一些更為具體的描述,例如:“企鵝是一種鳥”“企鵝出現(xiàn)在動(dòng)物園”“企鵝想要有足夠的食物”等。


        ▲圖1-7 ConceptNet的組織架構(gòu)示例



        03 DBpedia


        https://www.dbpedia.org/


        DBpedia是指數(shù)據(jù)庫版本的Wikipedia,是從Wikipedia中的信息框抽取出的鏈接數(shù)據(jù)庫。英文版本的DBpedia包含600萬實(shí)體,其中510萬個(gè)實(shí)體可以鏈接到本體上。并且,DBpedia還和Freebase、OpenCYC、Bio2RDF等多個(gè)數(shù)據(jù)集建立了數(shù)據(jù)鏈接。


        截至目前,DBpedia是鏈接開放數(shù)據(jù)(LOD)中最大的具有代表性的開放鏈接數(shù)據(jù)庫之一。



        04 LOD


        https://lod-cloud.net/


        上文提到,LOD的初衷是實(shí)現(xiàn)Tim有關(guān)鏈接數(shù)據(jù)作為語義網(wǎng)的一種實(shí)現(xiàn)的設(shè)想。


        其遵循四個(gè)原則:


        • 使用URI進(jìn)行標(biāo)識(shí);

        • 使用HTTP URI,以便用戶可以像訪問網(wǎng)頁一樣查看事物的描述;

        • 使用RDF和SPARQL標(biāo)準(zhǔn);

        • 為事物添加與其他事物的URI鏈接,建立數(shù)據(jù)關(guān)聯(lián)。


        截至2020年7月,LOD有1260個(gè)知識(shí)圖譜,包含16187個(gè)鏈接。圖1-8給出了LOD統(tǒng)計(jì)的知識(shí)圖譜的示意圖,它按照不同的顏色將知識(shí)圖譜分為9個(gè)大類,其中社交媒體、政府、出版和生命科學(xué)四個(gè)領(lǐng)域的數(shù)據(jù)占比之和超過 90%。


        ▲圖1-8 LOD知識(shí)圖譜概覽


        關(guān)于作者:邵浩資深人工智能技術(shù)專家,vivo技術(shù)總監(jiān)。曾任狗尾草智能科技AI研究院院長,帶領(lǐng)團(tuán)隊(duì)打造了虛擬生命產(chǎn)品的交互引擎。上海市靜安區(qū)首屆優(yōu)秀人才,上海市人才發(fā)展基金獲得者,杭州市高層次人才。中國中文信息學(xué)會(huì)青年工作委員會(huì)委員,語言與知識(shí)計(jì)算專委會(huì)委員,中國計(jì)算機(jī)學(xué)會(huì)語音對(duì)話與聽覺專委會(huì)委員,自然語言處理專委會(huì)委員。
        張凱,資深A(yù)I算法工程師,主要研究方向包括知識(shí)圖譜、對(duì)話系統(tǒng)、推薦系統(tǒng)、機(jī)器翻譯等,擁有多年算法落地經(jīng)驗(yàn)。主導(dǎo)構(gòu)建了開放通用知識(shí)圖譜七律,參與了《知識(shí)圖譜評(píng)測(cè)標(biāo)準(zhǔn)》和《知識(shí)圖譜白皮書》的編寫。聊天機(jī)器人專業(yè)書籍作者之一。
        李方圓,資深A(yù)I算法工程師,主要研究方向包括機(jī)器翻譯、知識(shí)圖譜和問答系統(tǒng),具有多年實(shí)戰(zhàn)項(xiàng)目經(jīng)驗(yàn),現(xiàn)任vivo機(jī)器翻譯團(tuán)隊(duì)負(fù)責(zé)人,主導(dǎo)從零構(gòu)建機(jī)器翻譯能力。
        張?jiān)瓶?/span>,資深A(yù)I算法工程師,中文信息學(xué)會(huì)會(huì)員,碩士畢業(yè)于加拿大Queen’s University,曾任職于奇虎360。主要研究方向包括自然語言處理與知識(shí)圖譜,曾于領(lǐng)域內(nèi)知名會(huì)議發(fā)表相關(guān)論文,擁有豐富的算法落地經(jīng)驗(yàn)。
        戴錫強(qiáng),資深A(yù)I算法工程師,主要研究方向?yàn)橹R(shí)圖譜、對(duì)話系統(tǒng)等,參與構(gòu)建了百科知識(shí)圖譜,醫(yī)藥領(lǐng)域知識(shí)圖譜,基于知識(shí)圖譜的問答系統(tǒng)等,具有豐富的知識(shí)圖譜落地經(jīng)驗(yàn)。

        本文摘編自《從零構(gòu)建知識(shí)圖譜:技術(shù)、方法與案例》,經(jīng)出版方授權(quán)發(fā)布。

        延伸閱讀從零構(gòu)建知識(shí)圖譜:技術(shù)、方法與案例
        點(diǎn)擊上圖了解及購買
        轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData

        推薦語:這是一本能讓讀者快速從零開始構(gòu)建工業(yè)級(jí)知識(shí)圖譜的著作。本書不僅詳細(xì)講解了知識(shí)圖譜的技術(shù)原理和構(gòu)建工具,而且還循序漸進(jìn)地講解了知識(shí)圖譜的構(gòu)建方法、步驟和行業(yè)應(yīng)用。配有大量實(shí)戰(zhàn)案例,并且開放了源代碼,確保讀者能學(xué)會(huì)并落地。作者是知識(shí)圖譜和自然語言處理領(lǐng)域的專家,本書得到了OpenKG聯(lián)合創(chuàng)始人王昊奮、清華大學(xué)教授李涓子等學(xué)界和業(yè)界知識(shí)圖譜扛旗人的一致好評(píng)和推薦。


        劃重點(diǎn)??


        干貨直達(dá)??


        更多精彩??

        在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞
        查看更多優(yōu)質(zhì)內(nèi)容!

        讀書 | 書單 | 干貨 | 講明白 | 神操作 | 手把手
        大數(shù)據(jù) | 云計(jì)算 | 數(shù)據(jù)庫 | Python | 爬蟲 | 可視化
        AI | 人工智能 | 機(jī)器學(xué)習(xí) | 深度學(xué)習(xí) | NLP
        5G | 中臺(tái) | 用戶畫像 數(shù)學(xué) | 算法 數(shù)字孿生

        據(jù)統(tǒng)計(jì),99%的大咖都關(guān)注了這個(gè)公眾號(hào)
        ??
        瀏覽 11
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产亲子伦一区二区三区四区 | 超碰熟女| 久久久久九 | 亚洲精品自拍视频 | 国产精品禁久久久精品 | 精品人妻无码一区二区三区51 | 美女扒开粉嫩尿囗给男生桶 | 少妇无码视频一区二区色戒 | 肏逼123 | 无码人妻一区 |