清華南開發(fā)布attention 7年全回顧:注意力機(jī)制還有7大問題要研究!

2014年的RAM模型拉開了attention的序幕,距今發(fā)展已有7年,無數(shù)的研究成果涌現(xiàn)出來。最近清華大學(xué)、南開大學(xué)的研究人員共同寫就一篇關(guān)于注意力機(jī)制的綜述,將attention分為四類,還指出7大問題還懸而未決!
神經(jīng)網(wǎng)絡(luò)中注意力(attention)機(jī)制可謂是如日中天,在各類神經(jīng)網(wǎng)絡(luò)模型中都有它的身影,尤其是Transformer更是以self-attention為核心。
?
受到人類注意力的啟發(fā),將注意力機(jī)制引入計(jì)算機(jī)視覺模型后可以模擬人類視覺系統(tǒng),能夠?qū)⑤斎雸D像特征的權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整。
?
注意力機(jī)制在圖像分類、目標(biāo)檢測(cè)、語義分割、視頻理解、圖像生成、三維視覺、多模態(tài)任務(wù)和自監(jiān)督學(xué)習(xí)等許多視覺任務(wù)中都取得了很大的成功。
?
來自清華大學(xué)、南開大學(xué)、卡迪夫大學(xué)的研究人員共同寫了一篇survey,對(duì)計(jì)算機(jī)視覺中的各種注意力機(jī)制進(jìn)行了全面的回顧,并根據(jù)這些機(jī)制的方法進(jìn)行分類,如通道注意力(channel attention)、空間注意力(spatial attention)、時(shí)序注意力(temporal attention)和分支注意力(branch attention)。論文中涉及到的代碼已經(jīng)開源。
?

?
文章的通訊作者胡事民是清華大學(xué)計(jì)算機(jī)系教授,可視媒體研究中心主任。2002年獲得國(guó)家杰出青年基金資助,2006年-2015年擔(dān)任國(guó)家重大基礎(chǔ)研究(973)計(jì)劃項(xiàng)目 首席科學(xué)家,2007年入選教育部長(zhǎng)江學(xué)者特聘教授,現(xiàn)為國(guó)家自然科學(xué)基金委創(chuàng)新群體項(xiàng)目學(xué)術(shù)帶頭人。
主要從事計(jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)、智能信息處理和系統(tǒng)軟件等方面的教學(xué)與研究工作。曾擔(dān)任PG、SGP、CVM、VR、EG、SIGGRAPH ASIA等多個(gè)國(guó)際重要會(huì)議的程序委員會(huì)主席和委員,曾經(jīng)和現(xiàn)任IEEE、Elsevier、Springer等多個(gè)期刊的主編、副主編和編委。
?

?
將模型的注意力轉(zhuǎn)移到圖像中最重要的區(qū)域,并且忽視無關(guān)部分的方法稱為注意力機(jī)制。人類的視覺系統(tǒng)使用注意力來幫助高效、有效地分析和理解復(fù)雜場(chǎng)景,這反過來又激勵(lì)了研究人員將注意力機(jī)制引入計(jì)算機(jī)視覺系統(tǒng),以提高模型的性能。
?
在視覺系統(tǒng)中,注意力機(jī)制可以被視為一個(gè)動(dòng)態(tài)的選擇過程,根據(jù)輸入圖像的重要性,通過自適應(yīng)加權(quán)來實(shí)現(xiàn)。
?
在過去的十年里,注意力機(jī)制在計(jì)算機(jī)視覺中發(fā)揮了越來越重要的作用。研究進(jìn)展可大致分為四個(gè)階段。
?

?
第一階段從RAM開始,開創(chuàng)了將深度神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合的工作。它能夠循環(huán)預(yù)測(cè)重要區(qū)域,并通過策略梯度以端到端的方式更新整個(gè)網(wǎng)絡(luò)。后來,各種相關(guān)論文都采用了類似的策略在視覺中使用注意力。在這一階段,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是注意力機(jī)制的必要工具。
?
在第二階段,Jaderberg提出了STN,引入了一個(gè)子網(wǎng)來預(yù)測(cè)用于選擇輸入中重要區(qū)域的仿射轉(zhuǎn)化,明確預(yù)測(cè)判別輸入特性是第二階段的主要特征;DCNS也是其中代表性的網(wǎng)絡(luò)。
?
在第三階段,SENet 提出了一種隱式自適應(yīng)預(yù)測(cè)潛在關(guān)鍵特征的信道注意力網(wǎng)絡(luò)。CBAM和ECANET是本階段的代表性工作。
?
最后一個(gè)階段是自注意力的時(shí)代。自我關(guān)注最早出現(xiàn)在Attention Is All You Need 那篇論文中,并迅速在自然語言處理領(lǐng)域取得了顯著的性能提升,隨后有研究人員將自注意力引入計(jì)算機(jī)視覺領(lǐng)域,并提出了一種在視頻理解和目標(biāo)檢測(cè)方面取得巨大成功的新型non-local 網(wǎng)絡(luò)。Emanet、CCNet、Hamnet和Stand-Alone網(wǎng)絡(luò)這些工作提高了模型的速度、結(jié)果質(zhì)量和通用性。
?

?
研究人員在文中還指出了未來注意力機(jī)制的六個(gè)可能研究方向:
?
1. 注意力的必要和充分條件
?
常見的注意力公式是必要條件,但并非充要條件。例如,GoogleNet符合這個(gè)公式,但并不屬于注意力機(jī)制。但目前研究領(lǐng)域還沒人關(guān)注注意力機(jī)制的充要條件,所以這個(gè)研究方向還有待探索,也能夠幫助我們對(duì)注意力機(jī)制的理解。

?
2. 通用的注意力塊(general attention block)
?
目前的研究工作都需要為每項(xiàng)不同的任務(wù)設(shè)計(jì)一個(gè)特別的注意力機(jī)制,這也要求研究人員在探索潛在的注意力方法方面需要耗費(fèi)相當(dāng)大的功夫。例如channel attention 是圖像分類的一個(gè)很好的選擇,而spatial attention則很適合于語義分割、目標(biāo)檢測(cè)等密集的預(yù)測(cè)任務(wù)。channel attention主要關(guān)注于重點(diǎn)是什么(what to pay attention to),而spatial attention的關(guān)注重點(diǎn)是哪里(where to pay attention)。
根據(jù)這一觀察結(jié)果,是否可以有一個(gè)利用所有類型注意機(jī)制的一般性attention block?例如,軟選擇機(jī)制(branch attention)可以根據(jù)所執(zhí)行的特定任務(wù)在channel attention、spatial attention和temporal attention之間進(jìn)行選擇。
?
3. 特性和可解釋性(Characterisation and interpretability)
?
注意力機(jī)制是由人類視覺系統(tǒng)驅(qū)動(dòng)的,是朝著建立一個(gè)可預(yù)測(cè)的計(jì)算機(jī)視覺系統(tǒng)的目標(biāo)邁出的一步。通常通過繪制注意力圖可以來理解基于注意力的模型,但這只能給人一種直觀的感覺,而非準(zhǔn)確的理解。
但在安全性相關(guān)或?qū)Π踩院苤匾暤膽?yīng)用領(lǐng)域,如醫(yī)療診斷和自動(dòng)駕駛系統(tǒng),往往有更嚴(yán)格的要求。在這些領(lǐng)域需要更好地描述工作方法,包括故障模式。發(fā)展具有特征性(charaterisable)和可解釋性的注意力模型可以使它們適用更廣泛的應(yīng)用領(lǐng)域。
?

?
4. 稀疏激活(sparse activation)
?
可視化一些注意力圖(attention map)后可以得到一些和ViT 一致的結(jié)論,即注意力機(jī)制可能會(huì)產(chǎn)生稀疏激活。這種現(xiàn)象帶來一個(gè)啟示是,稀疏激活可以在深度神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)更強(qiáng)的性能。但值得注意的是,稀疏激活與人類認(rèn)知相似,這也許能夠激勵(lì)我們探索哪種架構(gòu)更可以模擬人類視覺系統(tǒng)。
?
5. 基于注意力的預(yù)訓(xùn)練模型
?
大規(guī)模的基于注意力的預(yù)訓(xùn)練模型在自然語言處理方面取得了巨大的成功。而最近如MoCoV3、DINO、BEiT和MAE已經(jīng)證明基于注意力的模型也非常適合視覺任務(wù)。由于它們能夠適應(yīng)不同的輸入,基于注意的模型可以處理不可見的物體,并且很自然地適合將預(yù)先訓(xùn)練的權(quán)重轉(zhuǎn)移到各種任務(wù)中。所以應(yīng)進(jìn)一步探索預(yù)訓(xùn)練模型和注意力模型的結(jié)合:訓(xùn)練方法、模型結(jié)構(gòu)、訓(xùn)練前任務(wù)和數(shù)據(jù)規(guī)模都值得研究。
?
6. 優(yōu)化(Optimization)
?
SGD和Adam非常適合優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)。對(duì)于ViT,AdamW的運(yùn)行效果更好。最近有研究人員通過使用一種新的優(yōu)化器,即銳度感知最小化器(sharpness-aware minimizer, SAM),顯著改進(jìn)了ViT。顯然,注意力網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)是不同的模型;不同的優(yōu)化方法對(duì)不同的模型可能效果更好。注意力模型的新優(yōu)化方法可能是一個(gè)值得研究的領(lǐng)域。
?
7. 部署(Deployment)
?
卷積神經(jīng)網(wǎng)絡(luò)具有簡(jiǎn)單、統(tǒng)一的結(jié)構(gòu),易于部署在各種硬件設(shè)備上。然而,在邊緣器件上部署復(fù)雜多樣的基于注意力的模型是一個(gè)難題。但實(shí)驗(yàn)表明,基于注意力的模型比卷積神經(jīng)網(wǎng)絡(luò)提供了更好的結(jié)果,因此值得嘗試找到簡(jiǎn)單、高效和有效的基于注意力的模型,使得這些模型可以廣泛部署于各種設(shè)備上。
參考資料:
https://arxiv.org/abs/2111.07624

