綜述 | 注意力機(jī)制
點(diǎn)擊上方“程序員大白”,選擇“星標(biāo)”公眾號
重磅干貨,第一時(shí)間送達(dá)
來源:人工智能前沿講習(xí)
地址:https://zhuanlan.zhihu.com/p/364819787、https://zhuanlan.zhihu.com/p/365550383
01

3. 注意力機(jī)制如何實(shí)現(xiàn),以及注意力機(jī)制的分類
簡單來說就是對于模型的每一個(gè)輸入項(xiàng),可能是圖片中的不同部分,或者是語句中的某個(gè)單詞分配一個(gè)權(quán)重,這個(gè)權(quán)重的大小就代表了我們希望模型對該部分一個(gè)關(guān)注程度。這樣一來,通過權(quán)重大小來模擬人在處理信息的注意力的側(cè)重,有效的提高了模型的性能,并且一定程度上降低了計(jì)算量。
References:
02
1. 自注意力機(jī)制概述
2. 文字處理中單詞向量編碼的方式
3. 自注意力機(jī)制如何實(shí)現(xiàn)

對于每一個(gè)輸入向量a,在本例中也就是每一個(gè)詞向量,經(jīng)過self-attention之后都輸出一個(gè)向量b,這個(gè)向量b是考慮了所有的輸入向量才得到的,這里有四個(gè)詞向量a對應(yīng)就會輸出四個(gè)向量b
,
,
得到q,k,v三個(gè)值:
寫成向量形式: 
寫成向量形式: 
寫成向量形式: 

寫成向量形式: 

,寫成向量形式 


先通過三個(gè)W矩陣生成q,k,v;然后利用q,k計(jì)算attention的值α,再把所有的α經(jīng)過softmax得到α';最后對所有的v進(jìn)行加權(quán)求和,權(quán)重是α',得到a1對應(yīng)的self-attention輸出的b1
4. 自注意力機(jī)制的問題
5. 自注意力機(jī)制&CNN、RNN

評論
圖片
表情


