久久免费看,久久99久久99久久,做爱视频软件,狼人综合色,香蕉黄色电影,日韩成人无码电影一区二区三区,亚洲第一激情网,aaaaaaa片

作者：楊夕
論文名稱：AUTOREGRESSIVE ENTITY RETRIEVAL
論文地址：https://openreview.net/pdf?id=5k8F6UU39V
論文代碼：https://github.com/facebookresearch/GENRE
來源：ICLR 2021
項(xiàng)目地址：https://github.com/km1994/nlp_paper_study
NLP 面筋：https://github.com/km1994/NLP-Interview-Notes
個(gè)人介紹：大佬們好，我叫楊夕，該項(xiàng)目主要是本人在研讀頂會(huì)論文和復(fù)現(xiàn)經(jīng)典論文過程中，所見、所思、所想、所聞，可能存在一些理解錯(cuò)誤，希望大佬們多多指正。

摘要

介紹：實(shí)體是我們表示和聚合知識(shí)的中心。例如，維基百科等百科全書是由實(shí)體構(gòu)成的（例如，一篇維基百科文章）。檢索給定查詢的實(shí)體的能力是知識(shí)密集型任務(wù)（如實(shí)體鏈接和開放域問答）的基礎(chǔ)。理解當(dāng)前方法的一種方法是將分類器作為一個(gè)原子標(biāo)簽，每個(gè)實(shí)體一個(gè)。它們的權(quán)重向量是通過編碼實(shí)體元信息（如它們的描述）產(chǎn)生的密集實(shí)體表示。
缺點(diǎn)：

（i）上下文和實(shí)體的親和力主要是通過向量點(diǎn)積來獲取的，可能會(huì)丟失兩者之間的細(xì)粒度交互；
（ii）在考慮大型實(shí)體集時(shí)，需要大量內(nèi)存來存儲(chǔ)密集表示；
（iii）必須在訓(xùn)練時(shí)對(duì)一組適當(dāng)硬的負(fù)面數(shù)據(jù)進(jìn)行二次抽樣[。

工作內(nèi)容介紹：在這項(xiàng)工作中，我們提出了第一個(gè) GENRE，通過生成其唯一的名稱，從左到右，token-by-token 的自回歸方式和條件的上下文。
這使得我們能夠緩解上述技術(shù)問題，

（i）自回歸公式允許我們直接捕獲文本和實(shí)體名稱之間的關(guān)系，有效地交叉編碼兩者；
（ii）由于我們的編碼器-解碼器結(jié)構(gòu)的參數(shù)隨詞匯表大小而不是詞匯量大小而縮放，因此內(nèi)存足跡大大減少實(shí)體計(jì)數(shù)；
（iii）準(zhǔn)確的softmax損失可以有效地計(jì)算，而無需對(duì)負(fù)數(shù)據(jù)進(jìn)行子采樣。

實(shí)驗(yàn)結(jié)果：我們展示了該方法的有效性，在實(shí)體消歧、端到端實(shí)體鏈接和文檔檢索任務(wù)上對(duì)20多個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)，在使用競爭系統(tǒng)內(nèi)存占用的一小部分的情況下，獲得了最新的或非常有競爭力的結(jié)果。他們的實(shí)體，我們只需簡單地指定新的名稱，就可以添加

一、實(shí)體檢索任務(wù)

1.1 定義介紹

實(shí)體檢索任務(wù)：給定一段輸入文本和知識(shí)庫，需要模型根據(jù)知識(shí)庫，從文本找出最關(guān)聯(lián)的候選實(shí)體。

舉例

給定文本：湖人隊(duì)獲得 2020 年 NBA 總決賽冠軍；
    給定知識(shí)庫：[洛杉磯湖人隊(duì)，...]
    抽取出結(jié)果：
        湖人隊(duì) -> 洛杉磯湖人隊(duì)

1.2 常用方法

任務(wù)類型	分類式實(shí)體檢索	生成式實(shí)體檢索
類型	實(shí)體 ID 分類	實(shí)體名稱生成
內(nèi)存	高【需要加載知識(shí)庫】	低【不需要加載知識(shí)庫】
負(fù)采樣	需要【由于直接加載整個(gè)知識(shí)庫內(nèi)存占用大】	不需要

1.3 生成式實(shí)體消歧、實(shí)體鏈接、文檔檢索

實(shí)體消歧：給定一個(gè)包含mention的輸入，需要生成mention所指代的是KB中的哪一個(gè)實(shí)體。
端到端實(shí)體鏈接：給定一個(gè)文檔，系統(tǒng)需要檢測(cè)其中的entity mentions，并將mentions鏈接到KB中相應(yīng)的實(shí)體。

比如輸入是 “In 1503, Leonardo began painting the Mona Lisa “, 則需要模型檢測(cè)出其中的mention是 Leonardo 和 Mona Lisa “，然后將其鏈接到KB中的實(shí)體 Leonardo da Vinci 和 Mona Lisa 。

頁面級(jí)別的文本檢索：給定一個(gè)包含輸入query，找到其所對(duì)應(yīng)的Wikipedia的文章題目。

比如輸入是“Which Florentine painter 1535-1607 used the name Bronzino after the death of his ‘uncle’?”，輸出是文章題目名’Bronzino’。

二、為什么生成式能夠應(yīng)用于實(shí)體鏈指？

分類式實(shí)體檢索特點(diǎn)：每一個(gè)實(shí)體帶有一個(gè)唯一的原子標(biāo)簽，因此所以被視為多分類任務(wù)
生成式實(shí)體檢索特點(diǎn)：

原子標(biāo)簽
文章標(biāo)題（實(shí)體名稱）【存在唯一性，所以也可以作為表示符，同時(shí)還具有高結(jié)構(gòu)性和組合性，而且在內(nèi)容上可提供更詳細(xì)的信息，并且這些實(shí)體名稱與mention context存在可預(yù)測(cè)的匹配模式?！?/p>

注：mention 表示自然語言表示實(shí)體的文本片段，如 1.1 章，湖人隊(duì) 為 mention，mention 的 context 指 mention 上下文，例如：2020 年 NBA 總決賽冠軍

三、實(shí)體名稱和mention+context的匹配類型？

將實(shí)體標(biāo)識(shí)符視為分類器中的原子標(biāo)簽忽略了這樣一個(gè)事實(shí)，即我們通常擁有明確、高度結(jié)構(gòu)化和組合的實(shí)體名稱。例如，Wikipedia將獨(dú)特的標(biāo)題與文章聯(lián)系起來，這些標(biāo)題可能是主題的名稱或主題的描述，以及消除歧義的潛在獨(dú)特信息（參見圖1中的一些示例）。這些實(shí)體名稱通常以一種可預(yù)測(cè)的、有規(guī)律的方式與 mention 上下文進(jìn)行交互。

實(shí)體名稱和 mention 完全相同
由上下文中的標(biāo)記組成
實(shí)體名稱和 mention 規(guī)范化后相同
需要“規(guī)范化”，例如 mention 的正確別名
要求可能存儲(chǔ)在模型參數(shù)中的事實(shí)知識(shí)
實(shí)體名稱和 mention 完全相同

從上面這六種類型說明實(shí)體名稱和帶mention的input之間存在著固定形式的映射，因此對(duì)于一個(gè)mention+context或者輸入，是有可能采用生成的方式將其中的mention轉(zhuǎn)換為一個(gè)唯一的實(shí)體名稱的。

四、GENER 方法如何生成實(shí)體呢？

生成式實(shí)體檢索方式：生成一個(gè) 給定輸入到實(shí)體名稱，也就是模型需要根據(jù) 輸入信息，生成其所對(duì)應(yīng)的實(shí)體，并且該實(shí)體必須存在于知識(shí)庫或知識(shí)圖譜中的候選實(shí)體集合；
GENER 所用框架：seq2seq 方式
GENER 思路：

采用預(yù)訓(xùn)練語言模型(BART[1]) 計(jì)算輸入與每個(gè)候選實(shí)體的log-likelihood分?jǐn)?shù)；
然后按照分?jǐn)?shù)取top-N個(gè)候選實(shí)體。從技術(shù)上講，GENRE通過fine-tune預(yù)訓(xùn)練語言模型來生成實(shí)體名稱。

五、GENER 方法所生成的實(shí)體會(huì)不會(huì)不落在知識(shí)庫中？

動(dòng)機(jī)：實(shí)體檢索的目標(biāo)就是從知識(shí)庫或者知識(shí)圖譜中檢索出已存在的實(shí)體，如果采用生成式方法生成實(shí)體，是否會(huì)存在生成的實(shí)體不在知識(shí)庫中的情況呢？
傳統(tǒng)方法方法及存在問題：在解碼的過程中，是在WIkipedia的所有實(shí)體(~6M)進(jìn)行搜索，也就是允許每個(gè)位置可以是任何的token，所以無法保證生成的實(shí)體一定屬于知識(shí)庫中實(shí)體；
論文解決方法：采用一種受約束的beam search 來解決該問題。所謂的約束是通過前綴樹（trie) 定義的，樹上的每一個(gè)節(jié)點(diǎn)是詞表中的一個(gè)token，節(jié)點(diǎn)的孩子表示所有可能的后續(xù)tokens 。

例如：Enligh的后續(xù)tokens是language和literature，那幺在解碼時(shí)如果當(dāng)前詞是English, 那幺就下一個(gè)token只能從language和literature中選擇。

六、生成式的端到端實(shí)體鏈接問題解決方法？

前言：對(duì)于 1.3 所介紹的實(shí)體消歧、端到端實(shí)體鏈接、頁面級(jí)別的文本檢索三種任務(wù)，實(shí)體消歧和頁面級(jí)別的文本檢索任務(wù) 可以直接將數(shù)據(jù)集中的輸入喂給預(yù)訓(xùn)練語言模型(BART[1]) 即可，但是對(duì)于生成式的端到端實(shí)體鏈接任務(wù) 并不能采用這種方式解決，那么該問題需要如何處理呢？
思路：訓(xùn)練時(shí)encoder的輸入是文本序列，decoder的輸入是在基礎(chǔ)上標(biāo)注了mention和實(shí)體鏈接信息，從而監(jiān)督模型的生成這兩部分信息。

encoder輸入: In 1503, Leonardo began painting the Mona Lisa .

    decoder輸入: In 1503, [Leonardo](Leonardo da Vinci) began painting the [Mona Lisa](Mona Lisa) 。

注：從上面可以看出，在 decoder 階段并沒有太大不同，但是在 decoder 階段，論文會(huì)將輸入中的 mention 用 [] 進(jìn)行標(biāo)注，并且利用 () 標(biāo)注出 mention 在 KB 中所對(duì)應(yīng)的實(shí)體

問題：但是因?yàn)閙ention是free-form的文本，如果定義所有mentions的前綴樹trie的話，則搜索空間會(huì)非常的大。那要怎幺辦呢？
解決方法：采用了動(dòng)態(tài)解碼的方式

metion的生成: 由 “[” 激活—->從輸入中復(fù)制mention span —-> 生成 “]” 結(jié)束。ps: 因?yàn)閙ention span的生成是直接從復(fù)制的，所以就不需要去進(jìn)行大量的空間搜索~
entity的生成：由 “]” 激活 —-> 利用entities trie生成有效entity —-> 生成 “)” 結(jié)束。
其余tokens的生成: 直接從中復(fù)制就好。

舉例說明：

七、實(shí)驗(yàn)結(jié)果分析

7.1 整體效果

注：在8個(gè)實(shí)體鏈接數(shù)據(jù)集上的整體Micro F1比之前SOTA高出了1.8

7.2 頁面級(jí)別的文本檢索任務(wù)上的實(shí)驗(yàn)結(jié)果

八、總結(jié)

方法：一種新的范式體裁來解決實(shí)體檢索：自動(dòng)回歸生成實(shí)體名。實(shí)體名稱有幾個(gè)屬性可能有助于（甚至人類）重新檢索它們，包括組成結(jié)構(gòu)和與實(shí)體的可預(yù)測(cè)交互上下文自回歸公式允許我們直接捕捉其中的一些性質(zhì)
優(yōu)點(diǎn)：相對(duì)于當(dāng)前的解決方案

一種有效的方法交叉編碼上下文和實(shí)體候選；
內(nèi)存占用小得多；
無需對(duì)負(fù)數(shù)據(jù)進(jìn)行子采樣即可計(jì)算精確的softmax。

實(shí)驗(yàn)結(jié)果：這些特征與受限的解碼策略相結(jié)合，在大量的實(shí)體檢索數(shù)據(jù)集上產(chǎn)生了最先進(jìn)的性能，包括實(shí)體消歧、端到端實(shí)體鏈接和頁面級(jí)文檔檢索，同時(shí)導(dǎo)致系統(tǒng)具有顯著的內(nèi)存bootprint、空間平均減少20倍。此外，我們還證明了在我們的系統(tǒng)中，通過簡單地將新實(shí)體的明確名稱附加到候選集，可以有效地考慮新實(shí)體。

參考

Facebook提出生成式實(shí)體

【關(guān)于 GENER 】 那些你不知道的事

摘要

一、實(shí)體檢索任務(wù)

1.1 定義介紹

1.2 常用方法

1.3 生成式實(shí)體消歧、實(shí)體鏈接、文檔檢索

二、為什么 生成式 能夠 應(yīng)用于 實(shí)體鏈指？

三、實(shí)體名稱和mention+context的匹配類型？

四、GENER 方法 如何生成實(shí)體呢？

五、GENER 方法 所生成的實(shí)體 會(huì)不會(huì)不落在 知識(shí)庫中？

六、生成式的端到端實(shí)體鏈接 問題解決方法？