AAAI 2021最佳論文Informer:效果遠(yuǎn)超Transformer的長(zhǎng)序列預(yù)測(cè)神器!

新智元推薦
ProbSparse Self-Attention,在時(shí)間復(fù)雜度和內(nèi)存使用率上達(dá)到了,在序列的依賴對(duì)齊上具有相當(dāng)?shù)男阅堋?/span>
self-attention 提取通過將級(jí)聯(lián)層輸入減半來突出控制注意,并有效地處理超長(zhǎng)的輸入序列。
產(chǎn)生式decoder雖然概念上簡(jiǎn)單,但在一個(gè)正向操作中預(yù)測(cè)長(zhǎng)時(shí)間序列,而不是一步一步地進(jìn)行,這大大提高了長(zhǎng)序列預(yù)測(cè)的推理速度。
Intuition:Transformer是否可以提高計(jì)算、內(nèi)存和架構(gòu)效率,以及保持更高的預(yù)測(cè)能力?
self-attention的二次計(jì)算復(fù)雜度,self-attention機(jī)制的操作,會(huì)導(dǎo)致我們模型的時(shí)間復(fù)雜度為;
長(zhǎng)輸入的stacking層的內(nèi)存瓶頸:J個(gè)encoder/decoder的stack會(huì)導(dǎo)致內(nèi)存的使用為;
預(yù)測(cè)長(zhǎng)輸出的速度驟降:動(dòng)態(tài)的decoding會(huì)導(dǎo)致step-by-step的inference非常慢。
提出Informer來成功地提高LSTF問題的預(yù)測(cè)能力,這驗(yàn)證了類Transformer模型的潛在價(jià)值,以捕捉長(zhǎng)序列時(shí)間序列輸出和輸入之間的單個(gè)的長(zhǎng)期依賴性;
提出了ProbSparse self-attention機(jī)制來高效的替換常規(guī)的self-attention并且獲得了的時(shí)間復(fù)雜度以及的內(nèi)存使用率;
提出了self-attention distilling操作全縣,它大幅降低了所需的總空間復(fù)雜度;
提出了生成式的Decoder來獲取長(zhǎng)序列的輸出,這只需要一步,避免了在inference階段的累計(jì)誤差傳播;
Encoder-decoder框架:許多流行的模型被設(shè)計(jì)對(duì)輸入表示進(jìn)行編碼,將編碼為一個(gè)隱藏狀態(tài)表示并且將輸出的表示解碼.在推理的過程中設(shè)計(jì)到step-by-step的過程(dynamic decoding),decoder從前一個(gè)狀態(tài)計(jì)算一個(gè)新的隱藏狀態(tài)以及第步的輸出,然后對(duì)個(gè)序列進(jìn)行預(yù)測(cè); 輸入表示:為了增強(qiáng)時(shí)間序列輸入的全局位置上下文和局部時(shí)間上下文,給出了統(tǒng)一的輸入表示。


ProbSparse Self-attention



Encoder: Allowing for processing longer sequential inputs under the memory usage limitation

Self-attention Distilling

2. Decoder: Generating long sequential outputs through one forward procedure


Generative Inference
Loss Function
1. 實(shí)驗(yàn)效果

所提出的模型Informer極大地提高了所有數(shù)據(jù)集的推理效果(最后一列的獲勝計(jì)數(shù)),并且在不斷增長(zhǎng)的預(yù)測(cè)范圍內(nèi),它們的預(yù)測(cè)誤差平穩(wěn)而緩慢地上升。
query sparsity假設(shè)在很多數(shù)據(jù)集上是成立的;
Informer在很多數(shù)據(jù)集上遠(yuǎn)好于LSTM和ERNN
2. 參數(shù)敏感性

Input Length:當(dāng)預(yù)測(cè)短序列(如48)時(shí),最初增加編碼器/解碼器的輸入長(zhǎng)度會(huì)降低性能,但進(jìn)一步增加會(huì)導(dǎo)致MSE下降,因?yàn)樗鼤?huì)帶來重復(fù)的短期模式。然而,在預(yù)測(cè)中,輸入時(shí)間越長(zhǎng),平均誤差越低:信息者的參數(shù)敏感性。長(zhǎng)序列(如168)。因?yàn)檩^長(zhǎng)的編碼器輸入可能包含更多的依賴項(xiàng);
Sampling Factor:我們驗(yàn)證了冗余點(diǎn)積的查詢稀疏性假設(shè);實(shí)踐中,我們把sample factor設(shè)置為5即可,即
Number of Layer Stacking:Longer stack對(duì)輸入更敏感,部分原因是接收到的長(zhǎng)期信息較多
3. 解耦實(shí)驗(yàn)

ProbSparse self-attention機(jī)制的效果:ProbSparse self-attention的效果更好,而且可以節(jié)省很多內(nèi)存消耗; self-attention distilling:是值得使用的,尤其是對(duì)長(zhǎng)序列進(jìn)行預(yù)測(cè)的時(shí)候; generative stype decoderL:它證明了decoder能夠捕獲任意輸出之間的長(zhǎng)依賴關(guān)系,避免了誤差的積累;
4. 計(jì)算高效性

在訓(xùn)練階段,在基于Transformer的方法中,Informer獲得了最佳的訓(xùn)練效率。 在測(cè)試階段,我們的方法比其他生成式decoder方法要快得多。
設(shè)計(jì)了ProbSparse self-attention和提取操作來處理vanilla Transformer中二次時(shí)間復(fù)雜度和二次內(nèi)存使用的挑戰(zhàn)。 generative decoder緩解了傳統(tǒng)編解碼結(jié)構(gòu)的局限性。 通過對(duì)真實(shí)數(shù)據(jù)的實(shí)驗(yàn),驗(yàn)證了Informer對(duì)提高預(yù)測(cè)能力的有效性
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting:https://arxiv.org/pdf/2012.07436.pdf


