清華&南開出品最新視覺注意力機制Attention綜述

極市導(dǎo)讀
?清華大學(xué)計圖團隊和南開大學(xué)程明明教授團隊、卡迪夫大學(xué)Ralph R. Martin教授合作,在ArXiv上發(fā)布關(guān)于計算機視覺中的注意力機制的綜述文章。該綜述系統(tǒng)地介紹了注意力機制在計算機視覺領(lǐng)域中相關(guān)工作?>>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿
清華計圖胡事民團隊的這篇注意力機制的綜述火了!
在上周的arXiv上,這是最熱的一篇論文:

推特以及GitHub上也有不低的熱度:

而這篇論文引用近200篇內(nèi)容,對計算機視覺領(lǐng)域中的各種注意力機制進行了全面回顧。
在大量調(diào)查之后,論文將注意力機制分為多個類別,GitHub還給出了各類別下提到內(nèi)容的PDF下載文件:

現(xiàn)在,就來一起看看這篇論文。
文章主要內(nèi)容
論文首先將基于注意力的模型在計算機視覺領(lǐng)域中的發(fā)展歷程大致歸為了四個階段:
將深度神經(jīng)網(wǎng)絡(luò)與注意力機制相結(jié)合,代表性方法為RAM
明確預(yù)測判別性輸入特征,代表性方法為STN
隱性且自適應(yīng)地預(yù)測潛在的關(guān)鍵特征,代表方法為SENet
自注意力機制

同時,注意力機制也被分為了通道注意、空間注意、時間注意、分支注意,以及兩個混合類別:

針對不同類別,研究團隊給出了其代表性方法和發(fā)展背景:
通道注意力(Channel Attention)
在深度神經(jīng)網(wǎng)絡(luò)中,不同特征圖的不同通道常代表不同對象。
而通道注意力作為一個對象選擇過程,可以自適應(yīng)地重新校準每個通道的權(quán)重,從而決定關(guān)注什么。
因此,按照類別和出版日期將代表性通道關(guān)注機制進行分類,應(yīng)用范圍有分類(Cls)、語義分割(SSeg)、實例分割(ISeg)、風(fēng)格轉(zhuǎn)換(ST)、動作識別(Action)。
其中,(A)代表Channel-wise product,(I)強調(diào)重要通道,(II)捕捉全局信息。

空間注意力(Spatial Attention)
空間注意力可以被看作是一種自適應(yīng)的空間區(qū)域選擇機制。
其應(yīng)用范圍比通道注意力多出了精細分類(FGCls)和圖像字幕(ICap)。

時間注意力(Temporal Attention)
時間注意力可以被看作是一種動態(tài)的時間選擇機制,決定了何時進行注意,因此通常用于視頻處理。

分支注意力(Branch Attention)
分支注意可以被看作是一種動態(tài)的分支選擇機制,通過多分支結(jié)構(gòu)決定去注意什么。

通道空間注意力(Channel & Spatial Attention)
通道和空間結(jié)合的注意力機制可以自適應(yīng)地選擇重要的對象和區(qū)域,由殘差注意力(Residual Attention)網(wǎng)絡(luò)開創(chuàng)了這一內(nèi)容。
在殘差注意力之后,為了有效利用全局信息,后來的工作又相繼引入全局平均池化(Global Average Pooling),引入自注意力機制等內(nèi)容。

時空注意力(Spatial & Temporal Attention)
時空注意力機制可以自適應(yīng)地選擇重要區(qū)域和關(guān)鍵幀。

最后,作者也提出了注意力機制在未來的一些研究方向:
探索注意力機制的必要和充分條件
是否可以有一個通用的注意塊,可以根據(jù)具體的任務(wù)在各類注意力機制之間進行選擇
開發(fā)可定性和可解釋的注意力模型
注意力機制可以產(chǎn)生稀疏的激活,這促使我們?nèi)ヌ剿髂姆N架構(gòu)可以更好地模擬人類的視覺系統(tǒng)
進一步探索基于注意力的預(yù)訓(xùn)練模型
為注意力模型研究新的優(yōu)化方法
找到簡單、高效、有效的基于注意力的模型,使其可以廣泛部署
關(guān)于作者
這篇論文來自清華大學(xué)計算機系胡事民團隊。
胡事民為清華大學(xué)計算機系教授,教育部長江學(xué)者特聘教授,曾經(jīng)和現(xiàn)任IEEE、Elsevier、Springer等多個期刊的主編、副主編和編委。同時,他也是清華“計圖”框架團隊的負責人,這是首個由中國高校開源的深度學(xué)習(xí)框架。

文章一作為胡事民教授的博士生國孟昊,現(xiàn)就讀于清華大學(xué)計算機系,也是清華計圖團隊的一員。

各類資源匯總鏈接:
https://github.com/MenghaoGuo/Awesome-Vision-Attentions
論文地址:
https://arXiv.org/abs/2111.07624
如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復(fù)“transformer”獲取最新Transformer綜述論文下載~

#?CV技術(shù)社群邀請函?#

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)
即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

