清華南開發(fā)布attention 7年全回顧:注意力機制還有7大問題要研究!

??新智元報道??

??新智元報道??
編輯:LRS
【新智元導讀】2014年的RAM模型拉開了attention的序幕,距今發(fā)展已有7年,無數(shù)的研究成果涌現(xiàn)出來。最近清華大學、南開大學的研究人員共同寫就一篇關于注意力機制的綜述,將attention分為四類,還指出7大問題還懸而未決!
神經網(wǎng)絡中注意力(attention)機制可謂是如日中天,在各類神經網(wǎng)絡模型中都有它的身影,尤其是Transformer更是以self-attention為核心。
?
受到人類注意力的啟發(fā),將注意力機制引入計算機視覺模型后可以模擬人類視覺系統(tǒng),能夠將輸入圖像特征的權重進行動態(tài)調整。
?
注意力機制在圖像分類、目標檢測、語義分割、視頻理解、圖像生成、三維視覺、多模態(tài)任務和自監(jiān)督學習等許多視覺任務中都取得了很大的成功。
?
來自清華大學、南開大學、卡迪夫大學的研究人員共同寫了一篇survey,對計算機視覺中的各種注意力機制進行了全面的回顧,并根據(jù)這些機制的方法進行分類,如通道注意力(channel attention)、空間注意力(spatial attention)、時序注意力(temporal attention)和分支注意力(branch attention)。論文中涉及到的代碼已經開源。
?

?
文章的通訊作者胡事民是清華大學計算機系教授,可視媒體研究中心主任。2002年獲得國家杰出青年基金資助,2006年-2015年擔任國家重大基礎研究(973)計劃項目 首席科學家,2007年入選教育部長江學者特聘教授,現(xiàn)為國家自然科學基金委創(chuàng)新群體項目學術帶頭人。
主要從事計算機圖形學、虛擬現(xiàn)實、智能信息處理和系統(tǒng)軟件等方面的教學與研究工作。曾擔任PG、SGP、CVM、VR、EG、SIGGRAPH ASIA等多個國際重要會議的程序委員會主席和委員,曾經和現(xiàn)任IEEE、Elsevier、Springer等多個期刊的主編、副主編和編委。
?

?
將模型的注意力轉移到圖像中最重要的區(qū)域,并且忽視無關部分的方法稱為注意力機制。人類的視覺系統(tǒng)使用注意力來幫助高效、有效地分析和理解復雜場景,這反過來又激勵了研究人員將注意力機制引入計算機視覺系統(tǒng),以提高模型的性能。
?
在視覺系統(tǒng)中,注意力機制可以被視為一個動態(tài)的選擇過程,根據(jù)輸入圖像的重要性,通過自適應加權來實現(xiàn)。
?
在過去的十年里,注意力機制在計算機視覺中發(fā)揮了越來越重要的作用。研究進展可大致分為四個階段。
?

?
第一階段從RAM開始,開創(chuàng)了將深度神經網(wǎng)絡與注意力機制相結合的工作。它能夠循環(huán)預測重要區(qū)域,并通過策略梯度以端到端的方式更新整個網(wǎng)絡。后來,各種相關論文都采用了類似的策略在視覺中使用注意力。在這一階段,遞歸神經網(wǎng)絡(RNN)是注意力機制的必要工具。
?
在第二階段,Jaderberg提出了STN,引入了一個子網(wǎng)來預測用于選擇輸入中重要區(qū)域的仿射轉化,明確預測判別輸入特性是第二階段的主要特征;DCNS也是其中代表性的網(wǎng)絡。
?
在第三階段,SENet 提出了一種隱式自適應預測潛在關鍵特征的信道注意力網(wǎng)絡。CBAM和ECANET是本階段的代表性工作。
?
最后一個階段是自注意力的時代。自我關注最早出現(xiàn)在Attention Is All You Need 那篇論文中,并迅速在自然語言處理領域取得了顯著的性能提升,隨后有研究人員將自注意力引入計算機視覺領域,并提出了一種在視頻理解和目標檢測方面取得巨大成功的新型non-local 網(wǎng)絡。Emanet、CCNet、Hamnet和Stand-Alone網(wǎng)絡這些工作提高了模型的速度、結果質量和通用性。
?

?
研究人員在文中還指出了未來注意力機制的六個可能研究方向:
?
1. 注意力的必要和充分條件
?
常見的注意力公式是必要條件,但并非充要條件。例如,GoogleNet符合這個公式,但并不屬于注意力機制。但目前研究領域還沒人關注注意力機制的充要條件,所以這個研究方向還有待探索,也能夠幫助我們對注意力機制的理解。

?
2. 通用的注意力塊(general attention block)
?
目前的研究工作都需要為每項不同的任務設計一個特別的注意力機制,這也要求研究人員在探索潛在的注意力方法方面需要耗費相當大的功夫。例如channel attention 是圖像分類的一個很好的選擇,而spatial attention則很適合于語義分割、目標檢測等密集的預測任務。channel attention主要關注于重點是什么(what to pay attention to),而spatial attention的關注重點是哪里(where to pay attention)。
根據(jù)這一觀察結果,是否可以有一個利用所有類型注意機制的一般性attention block?例如,軟選擇機制(branch attention)可以根據(jù)所執(zhí)行的特定任務在channel attention、spatial attention和temporal attention之間進行選擇。
?
3. 特性和可解釋性(Characterisation and interpretability)
?
注意力機制是由人類視覺系統(tǒng)驅動的,是朝著建立一個可預測的計算機視覺系統(tǒng)的目標邁出的一步。通常通過繪制注意力圖可以來理解基于注意力的模型,但這只能給人一種直觀的感覺,而非準確的理解。
但在安全性相關或對安全性很重視的應用領域,如醫(yī)療診斷和自動駕駛系統(tǒng),往往有更嚴格的要求。在這些領域需要更好地描述工作方法,包括故障模式。發(fā)展具有特征性(charaterisable)和可解釋性的注意力模型可以使它們適用更廣泛的應用領域。
?

?
4. 稀疏激活(sparse activation)
?
可視化一些注意力圖(attention map)后可以得到一些和ViT 一致的結論,即注意力機制可能會產生稀疏激活。這種現(xiàn)象帶來一個啟示是,稀疏激活可以在深度神經網(wǎng)絡中實現(xiàn)更強的性能。但值得注意的是,稀疏激活與人類認知相似,這也許能夠激勵我們探索哪種架構更可以模擬人類視覺系統(tǒng)。
?
5. 基于注意力的預訓練模型
?
大規(guī)模的基于注意力的預訓練模型在自然語言處理方面取得了巨大的成功。而最近如MoCoV3、DINO、BEiT和MAE已經證明基于注意力的模型也非常適合視覺任務。由于它們能夠適應不同的輸入,基于注意的模型可以處理不可見的物體,并且很自然地適合將預先訓練的權重轉移到各種任務中。所以應進一步探索預訓練模型和注意力模型的結合:訓練方法、模型結構、訓練前任務和數(shù)據(jù)規(guī)模都值得研究。
?
6. 優(yōu)化(Optimization)
?
SGD和Adam非常適合優(yōu)化卷積神經網(wǎng)絡。對于ViT,AdamW的運行效果更好。最近有研究人員通過使用一種新的優(yōu)化器,即銳度感知最小化器(sharpness-aware minimizer, SAM),顯著改進了ViT。顯然,注意力網(wǎng)絡和卷積神經網(wǎng)絡是不同的模型;不同的優(yōu)化方法對不同的模型可能效果更好。注意力模型的新優(yōu)化方法可能是一個值得研究的領域。
?
7. 部署(Deployment)
?
卷積神經網(wǎng)絡具有簡單、統(tǒng)一的結構,易于部署在各種硬件設備上。然而,在邊緣器件上部署復雜多樣的基于注意力的模型是一個難題。但實驗表明,基于注意力的模型比卷積神經網(wǎng)絡提供了更好的結果,因此值得嘗試找到簡單、高效和有效的基于注意力的模型,使得這些模型可以廣泛部署于各種設備上。
參考資料:
https://arxiv.org/abs/2111.07624

