1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        【關(guān)于 GENER 】 那些你不知道的事

        共 4225字,需瀏覽 9分鐘

         ·

        2021-04-04 08:42

        作者:楊夕

        論文名稱:AUTOREGRESSIVE ENTITY RETRIEVAL

        論文地址:https://openreview.net/pdf?id=5k8F6UU39V

        論文代碼:https://github.com/facebookresearch/GENRE

        來源:ICLR 2021

        項(xiàng)目地址:https://github.com/km1994/nlp_paper_study

        NLP 面筋:https://github.com/km1994/NLP-Interview-Notes

        個(gè)人介紹:大佬們好,我叫楊夕,該項(xiàng)目主要是本人在研讀頂會(huì)論文和復(fù)現(xiàn)經(jīng)典論文過程中,所見、所思、所想、所聞,可能存在一些理解錯(cuò)誤,希望大佬們多多指正。

        摘要

        • 介紹:實(shí)體是我們表示和聚合知識(shí)的中心。例如,維基百科等百科全書是由實(shí)體構(gòu)成的(例如,一篇維基百科文章)。檢索給定查詢的實(shí)體的能力是知識(shí)密集型任務(wù)(如實(shí)體鏈接和開放域問答)的基礎(chǔ)。理解當(dāng)前方法的一種方法是將分類器作為一個(gè)原子標(biāo)簽,每個(gè)實(shí)體一個(gè)。它們的權(quán)重向量是通過編碼實(shí)體元信息(如它們的描述)產(chǎn)生的密集實(shí)體表示。

        • 缺點(diǎn):

          • (i)上下文和實(shí)體的親和力主要是通過向量點(diǎn)積來獲取的,可能會(huì)丟失兩者之間的細(xì)粒度交互;

          • (ii)在考慮大型實(shí)體集時(shí),需要大量內(nèi)存來存儲(chǔ)密集表示;

          • (iii)必須在訓(xùn)練時(shí)對(duì)一組適當(dāng)硬的負(fù)面數(shù)據(jù)進(jìn)行二次抽樣[。

        • 工作內(nèi)容介紹:在這項(xiàng)工作中,我們提出了第一個(gè) GENRE,通過生成其唯一的名稱,從左到右,token-by-token 的自回歸方式和條件的上下文。

        • 這使得我們能夠緩解上述技術(shù)問題,

          • (i)自回歸公式允許我們直接捕獲文本和實(shí)體名稱之間的關(guān)系,有效地交叉編碼兩者 ;

          • (ii)由于我們的編碼器-解碼器結(jié)構(gòu)的參數(shù)隨詞匯表大小而不是詞匯量大小而縮放,因此內(nèi)存足跡大大減少實(shí)體計(jì)數(shù);

          • (iii)準(zhǔn)確的softmax損失可以有效地計(jì)算,而無需對(duì)負(fù)數(shù)據(jù)進(jìn)行子采樣。

        • 實(shí)驗(yàn)結(jié)果:我們展示了該方法的有效性,在實(shí)體消歧、端到端實(shí)體鏈接和文檔檢索任務(wù)上對(duì)20多個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),在使用競爭系統(tǒng)內(nèi)存占用的一小部分的情況下,獲得了最新的或非常有競爭力的結(jié)果。他們的實(shí)體,我們只需簡單地指定新的名稱,就可以添加

        一、實(shí)體檢索任務(wù)

        1.1 定義介紹

        • 實(shí)體檢索任務(wù):給定一段輸入文本和知識(shí)庫,需要模型 根據(jù)知識(shí)庫,從文本找出最關(guān)聯(lián)的候選實(shí)體。

        舉例

        給定文本:湖人隊(duì)獲得 2020 年 NBA 總決賽冠軍;
        給定知識(shí)庫:[洛杉磯湖人隊(duì),...]
        抽取出結(jié)果:
        湖人隊(duì) -> 洛杉磯湖人隊(duì)

        1.2 常用方法

        任務(wù)類型分類式實(shí)體檢索生成式實(shí)體檢索
        類型實(shí)體 ID 分類實(shí)體名稱生成
        內(nèi)存高【需要加載 知識(shí)庫】低【不需要加載 知識(shí)庫】
        負(fù)采樣需要【由于直接加載整個(gè)知識(shí)庫內(nèi)存占用大】不需要

        1.3 生成式實(shí)體消歧、實(shí)體鏈接、文檔檢索

        • 實(shí)體消歧:給定一個(gè)包含mention的輸入,需要生成mention所指代的是KB中的哪一個(gè)實(shí)體。

        • 端到端實(shí)體鏈接:給定一個(gè)文檔,系統(tǒng)需要檢測(cè)其中的entity mentions,并將mentions鏈接到KB中相應(yīng)的實(shí)體。

        比如輸入是 “In 1503, Leonardo began painting the Mona Lisa “, 則需要模型檢測(cè)出其中的mention是 Leonardo 和 Mona Lisa “,然后將其鏈接到KB中的實(shí)體 Leonardo da Vinci 和 Mona Lisa 。

        • 頁面級(jí)別的文本檢索:給定一個(gè)包含輸入query,找到其所對(duì)應(yīng)的Wikipedia的文章題目。

        比如輸入是“Which Florentine painter 1535-1607 used the name Bronzino after the death of his ‘uncle’?”,輸出是文章題目名’Bronzino’。

        二、為什么 生成式 能夠 應(yīng)用于 實(shí)體鏈指?

        • 分類式實(shí)體檢索特點(diǎn):每一個(gè)實(shí)體帶有一個(gè)唯一的原子標(biāo)簽,因此所以被視為 多分類任務(wù)

        • 生成式實(shí)體檢索特點(diǎn):

          • 原子標(biāo)簽

          • 文章標(biāo)題(實(shí)體名稱)【存在唯一性,所以也可以作為 表示符,同時(shí)還具有高結(jié)構(gòu)性和組合性,而且在內(nèi)容上可提供更詳細(xì)的信息,并且這些實(shí)體名稱與mention context存在可預(yù)測(cè)的匹配模式?!?/p>

        注:mention 表示自然語言表示實(shí)體的文本片段,如 1.1 章,湖人隊(duì) 為 mention,mention 的 context 指 mention 上下文,例如:2020 年 NBA 總決賽冠軍

        三、實(shí)體名稱和mention+context的匹配類型?

        將實(shí)體標(biāo)識(shí)符視為分類器中的原子標(biāo)簽忽略了這樣一個(gè)事實(shí),即我們通常擁有明確、高度結(jié)構(gòu)化和組合的實(shí)體名稱。例如,Wikipedia將獨(dú)特的標(biāo)題與文章聯(lián)系起來,這些標(biāo)題可能是主題的名稱或主題的描述,以及消除歧義的潛在獨(dú)特信息(參見圖1中的一些示例)。這些實(shí)體名稱通常以一種可預(yù)測(cè)的、有規(guī)律的方式與 mention 上下文進(jìn)行交互。

        1. 實(shí)體名稱和 mention 完全相同

        2. 由上下文中的標(biāo)記組成

        3. 實(shí)體名稱和 mention 規(guī)范化后相同

        4. 需要“規(guī)范化”,例如 mention 的正確別名

        5. 要求可能存儲(chǔ)在模型參數(shù)中的事實(shí)知識(shí)

        6. 實(shí)體名稱和 mention 完全相同


        從上面這六種類型說明實(shí)體名稱和帶mention的input之間存在著固定形式的映射,因此對(duì)于一個(gè)mention+context或者輸入,是有可能采用 生成的方式 將其中的mention轉(zhuǎn)換為一個(gè)唯一的實(shí)體名稱的。

        四、GENER 方法 如何生成實(shí)體呢?

        • 生成式實(shí)體檢索方式:生成 一個(gè) 給定輸入到實(shí)體名稱,也就是 模型 需要 根據(jù) 輸入信息,生成 其所對(duì)應(yīng)的實(shí)體,并且該實(shí)體 必須 存在于 知識(shí)庫或知識(shí)圖譜中 的 候選實(shí)體集合;

        • GENER 所用 框架:seq2seq 方式

        • GENER 思路:

        1. 采用 預(yù)訓(xùn)練語言模型(BART[1]) 計(jì)算輸入與每個(gè)候選實(shí)體的log-likelihood分?jǐn)?shù);

        2. 然后按照分?jǐn)?shù)取top-N個(gè)候選實(shí)體。從技術(shù)上講,GENRE通過fine-tune預(yù)訓(xùn)練語言模型來生成實(shí)體名稱。

        五、GENER 方法 所生成的實(shí)體 會(huì)不會(huì)不落在 知識(shí)庫中?

        • 動(dòng)機(jī):實(shí)體檢索 的目標(biāo)就是 從 知識(shí)庫 或者 知識(shí)圖譜 中 檢索出 已存在的實(shí)體,如果采用 生成式方法 生成實(shí)體,是否會(huì)存在 生成的實(shí)體不在 知識(shí)庫 中的情況呢?

        • 傳統(tǒng)方法方法及存在問題:在解碼的過程中,是在WIkipedia的所有實(shí)體(~6M)進(jìn)行搜索,也就是允許每個(gè)位置可以是任何的token,所以無法保證生成的實(shí)體一定屬于 知識(shí)庫 中實(shí)體;

        • 論文解決方法:采用 一種 受約束的beam search 來解決該問題。所謂的約束是通過前綴樹(trie) 定義的,樹上的每一個(gè)節(jié)點(diǎn)是詞表中的一個(gè)token,節(jié)點(diǎn)的孩子表示所有可能的后續(xù)tokens 。

        例如:Enligh的后續(xù)tokens是language和literature,那幺在解碼時(shí)如果當(dāng)前詞是English, 那幺就下一個(gè)token只能從language和literature中選擇。

        六、生成式的端到端實(shí)體鏈接 問題解決方法?

        • 前言:對(duì)于 1.3 所介紹的 實(shí)體消歧、端到端實(shí)體鏈接、頁面級(jí)別的文本檢索 三種任務(wù),實(shí)體消歧和頁面級(jí)別的文本檢索 任務(wù) 可以直接將數(shù)據(jù)集中的輸入喂給 預(yù)訓(xùn)練語言模型(BART[1]) 即可,但是對(duì)于 生成式的端到端實(shí)體鏈接任務(wù) 并不能 采用 這種方式解決,那么 該問題 需要如何處理呢?

        • 思路:訓(xùn)練時(shí)encoder的輸入是文本序列,decoder的輸入是在基礎(chǔ)上標(biāo)注了mention和實(shí)體鏈接信息,從而監(jiān)督模型的生成這兩部分信息。

        encoder輸入: In 1503, Leonardo began painting the Mona Lisa .

        decoder輸入: In 1503, [Leonardo](Leonardo da Vinci) began painting the [Mona Lisa](Mona Lisa) 。

        注:從上面可以看出,在 decoder 階段并沒有太大不同,但是在 decoder 階段,論文 會(huì)將 輸入中 的 mention 用 [] 進(jìn)行標(biāo)注,并且 利用 () 標(biāo)注出 mention 在 KB 中所對(duì)應(yīng)的實(shí)體

        • 問題:但是因?yàn)閙ention是free-form的文本,如果定義所有mentions的前綴樹trie的話,則搜索空間會(huì)非常的大。那要怎幺辦呢?

        • 解決方法:采用了動(dòng)態(tài)解碼的方式

        1. metion的生成: 由 “[” 激活—->從輸入中復(fù)制mention span —-> 生成 “]” 結(jié)束。ps: 因?yàn)閙ention span的生成是直接從復(fù)制的,所以就不需要去進(jìn)行大量的空間搜索~

        2. entity的生成:由 “]” 激活 —-> 利用entities trie生成有效entity —-> 生成 “)” 結(jié)束。

        3. 其余tokens的生成: 直接從中復(fù)制就好。

        舉例說明:

        七、實(shí)驗(yàn)結(jié)果分析

        7.1 整體效果


        注:在8個(gè)實(shí)體鏈接數(shù)據(jù)集上的整體Micro F1比之前SOTA高出了1.8

        7.2 頁面級(jí)別的文本檢索任務(wù)上的實(shí)驗(yàn)結(jié)果


        八、總結(jié)

        • 方法:一種新的范式體裁來解決實(shí)體檢索:自動(dòng)回歸生成實(shí)體名。實(shí)體名稱有幾個(gè)屬性可能有助于(甚至人類)重新檢索它們,包括組成結(jié)構(gòu)和與實(shí)體的可預(yù)測(cè)交互上下文自回歸公式允許我們直接捕捉其中的一些性質(zhì)

        • 優(yōu)點(diǎn):相對(duì)于當(dāng)前的解決方案

          • 一種有效的方法交叉編碼上下文和實(shí)體候選;

          • 內(nèi)存占用小得多;

          • 無需對(duì)負(fù)數(shù)據(jù)進(jìn)行子采樣即可計(jì)算精確的softmax。

        • 實(shí)驗(yàn)結(jié)果:這些特征與受限的解碼策略相結(jié)合,在大量的實(shí)體檢索數(shù)據(jù)集上產(chǎn)生了最先進(jìn)的性能,包括實(shí)體消歧、端到端實(shí)體鏈接和頁面級(jí)文檔檢索,同時(shí)導(dǎo)致系統(tǒng)具有顯著的內(nèi)存bootprint、空間平均減少20倍。此外,我們還證明了在我們的系統(tǒng)中,通過簡單地將新實(shí)體的明確名稱附加到候選集,可以有效地考慮新實(shí)體。

        參考

        1. Facebook提出生成式實(shí)體


        瀏覽 165
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            欧美日本| 久久综合东京热 | 国产人妖TS重口系列喝尿视频 | 伦理片免费网站 | 香蕉国产2023 | 美女视频黄www老师 | 逼特视频| 色五月激情五月天 | 9797人妻 | 日本爱爱免费视频 |