微信搜一搜中的智能問答技術

本文約7600字,建議閱讀15分鐘
本文給大家介紹微信搜一搜中的智能問答技術。

背景介紹 基于圖譜的問答 基于文檔的問答 未來展望


基于圖譜的問答事實型query,答案形式是實體短語類的短答案。例如“劉德華的妻子”,或者實體集合“中國四大名著”,還有時間/數(shù)字等。 第二類是觀點型query,答案形式是“是或否”,例如像“高鐵可以逃票嗎”等。 第三類是摘要型query,不同于前兩類短答案,答案可能需要用長句的摘要來回答,通常是“為什么”、“怎么辦”、“怎么做”等問題。 最后一類是列表型query,通常是流程、步驟相關的問題,答案需要用列表做精確的回答。

結(jié)構(gòu)化數(shù)據(jù),來源于百科、豆瓣等垂類網(wǎng)站的infobox。優(yōu)點是質(zhì)量高,便于獲取和加工;缺點是只覆蓋頭部知識,覆蓋率不夠。例如“易建聯(lián)的身高”、“無間道1的導演是誰”。 非結(jié)構(gòu)化的通用文本,來源于百科、公眾號等互聯(lián)網(wǎng)網(wǎng)頁文本庫。優(yōu)點是覆蓋面廣,但缺點在于文本質(zhì)量參差不齊,對醫(yī)療、法律等專業(yè)領域知識的覆蓋度和權威度不夠。 非結(jié)構(gòu)化的專業(yè)垂類網(wǎng)站問答庫,來源于專業(yè)領域垂類站點的問答數(shù)據(jù),通常以問答對的形式存在。優(yōu)點是在專業(yè)領域知識覆蓋廣、權威度高。

KBQA的優(yōu)點是擴展性強,能查詢實體的各種屬性,同時支持推理,可以解析復雜查詢。例如圖中右邊的一個例子,“姚明的老婆有多高”可以解析得到中間的語義表達式,從而轉(zhuǎn)換成知識圖譜的查詢,得到問題的答案。涉及的關鍵技術是圖譜構(gòu)建(包括schema構(gòu)建、實體挖掘、關系抽取、開放信息抽取技術)和問題解析(包括實體鏈接、基于semantic parsing的問題解析方法、基于檢索的問題解析方法等技術)。 DocQA相較于KBQA的優(yōu)點是覆蓋面更廣,能覆蓋更多中長尾的問題,同時能解決一些KBQA難以解析的問題。例如,“中國歷史上第一個不平等條約”這個query,很難解析成結(jié)構(gòu)化的表達,涉及到的技術主要包括閱讀理解(MRC)、開放域問答(OpenQA)。

開放領域知識庫中存在大量的歧義實體,例如“長城”、“蘋果”,可能在知識庫中存在多種類型的同名實體。從query中識別出正確的實體是整個KBQA中一個比較關鍵的模塊。 開放域的知識圖譜屬性眾多,需要從4000+屬性中識別出正確的屬性。 自然語言的問法多樣,同一個屬性有不同問法,例如詢問李白的出生地,可以有“李白是哪里人”、“李白老家是哪里的”等多種不同的表達。同一個問法也可能針對不同的屬性,例如“姚明有多高”、“珠穆朗瑪峰有多高”,同樣是“有多高”,但詢問屬性分別是身高和海拔。

方案一:檢索式的方法。把query和候選答案(知識圖譜中的候選節(jié)點)表征為向量計算相似度。優(yōu)點是可以進行端到端的訓練,但可解釋性和可擴展性差,難以處理限定、聚合等復雜類型的query。 方案二:基于解析的方法。把query解析成可查詢的結(jié)構(gòu)化表示,然后去知識圖譜中查詢。這種方法的優(yōu)點是可解釋性強,符合人能理解的圖譜顯示推理過程,但依賴高質(zhì)量的解析算法。綜合考慮優(yōu)缺點,我們在實際工作中主要采用的是這種方法。

實體鏈接,識別出query中的實體,并關聯(lián)到圖譜中的節(jié)點; 關系識別,query詢問的具體屬性; Topic實體識別,當query涉及到多個實體時,判斷哪個實體是問題的主實體; 條件/約束識別,解析query中涉及到的一些約束條件; 查詢推理,將前幾步的結(jié)果組合成查詢推理的語句,通過知識圖譜獲得答案。










二分類判別:簡單問題還是復雜問題 一跳關系剪枝:減少中間節(jié)點數(shù)量 基于啟發(fā)式規(guī)則剪枝











編輯:王菁
校對:林亦霖
評論
圖片
表情
