1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        AAAI 2021最佳論文《Informer》作者:Transformer 最新進(jìn)展

        共 6180字,需瀏覽 13分鐘

         ·

        2021-03-23 22:06

        ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺

        作者丨周號益,彭杰奇
        來源丨智源社區(qū)
        編輯丨極市平臺

        極市導(dǎo)讀

         

        本文從Self-Attention變體、更高效的模型架構(gòu)、更深入的分析和更多樣的應(yīng)用幾個方面對AAAI2021大會中的Transformer最新進(jìn)展進(jìn)行了介紹,覆蓋40余篇論文。 >>本周六,極市CVPR2021線下沙龍即將舉辦,三位CVPR2021論文作者齊聚深圳!【報告一:李鐸-Involution:通過反轉(zhuǎn)卷積的內(nèi)在性質(zhì)進(jìn)行視覺識別】。點(diǎn)擊藍(lán)字即可免費(fèi)報名,名額有限,先到先得!


        自2017年,Ashish Vaswani等人在《Attention Is All You Need》這篇文章種提出了Transformer模型后,BERT等工作極大地擴(kuò)展了該模型在NLP等任務(wù)上的影響力。隨之, 有關(guān)Transformer模型的改進(jìn)和應(yīng)用逐漸成為人工智能研究的一大熱門。

        回顧Transformer模型的起源,其最初作為有效順序語言建模的新方法提出,雖然只使用自注意力機(jī)制(Self-attention Mechanism)進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)建模,但它擁有更強(qiáng)的捕捉序列數(shù)據(jù)依賴的能力。此后得益于預(yù)訓(xùn)練模型的發(fā)展和普及,Transformer類模型極大地推動了自然語言處理的下游任務(wù)的發(fā)展。

        雖然獲得了廣泛的應(yīng)用,Transformer模型本身存在的內(nèi)存開銷和計算效率的瓶頸,也催生了大量改進(jìn)Transformer以減小開銷并提升效果的研究。

        與此同時,Transformer模型也不再僅限于自然語言處理領(lǐng)域的應(yīng)用,很多研究者將Transformer引入到推薦系統(tǒng)、時間序列預(yù)測、計算機(jī)視覺、圖神經(jīng)網(wǎng)絡(luò)以及多模態(tài)等領(lǐng)域,在多個領(lǐng)域呈現(xiàn)熱點(diǎn)研究的趨勢。

        在2月4日召開的AAAI 2021上同樣涌現(xiàn)了大量和Transformer相關(guān)的研究,本文約覆蓋40余篇論文,將從Self-Attention變體、更高效的模型架構(gòu)、更深入的分析和更多樣的應(yīng)用幾個方面對本次大會中的Transformer最新進(jìn)展進(jìn)行介紹。

        01 自注意力機(jī)制的變體

        自注意力機(jī)制是一種特殊的attention模型,簡單概括是一種自己學(xué)習(xí)自己的表征過程。特別地,自注意力的計算/內(nèi)存開銷是隨輸入/輸出的序列長度呈二次相關(guān)的,這導(dǎo)致大規(guī)模的Transformer模型必須使用大量計算資源,昂貴的訓(xùn)練和部署成本阻礙了模型的應(yīng)用;同時這也會限制Transformer模型對于長序列數(shù)據(jù)的處理能力。因此研究自注意力機(jī)制的變體,實(shí)現(xiàn)高效Transformer成為了一個重要的研究方向。

        Informer[1]基于自注意力機(jī)制中存在的查詢稀疏性(attention的長尾分布),選擇top-u進(jìn)行query-key對的部分計算,提出了ProbSparse Self-Attention替代標(biāo)準(zhǔn)的Self-Attention,將自注意力機(jī)制的內(nèi)存和計算開銷從減小到。

        Nystr?mformer[2]將Nystr?m方法應(yīng)用于自注意力機(jī)制的近似,利用landmark(作者稱之為Nystr?m) point來重構(gòu)Self-Attention中的Softmax注意力矩陣,從而避免的矩陣計算,得到了在內(nèi)存和時間開銷上復(fù)雜度為的近似。

        02 更高效的自注意力模型架構(gòu)

        除了對自注意力機(jī)制本身進(jìn)行改變,主動壓縮模型結(jié)構(gòu)并取得與原始網(wǎng)絡(luò)結(jié)構(gòu)相近的效果,這也是一種獲得高效的Transformer的重要手段。

        [3]基于Transformer decoder的數(shù)學(xué)推導(dǎo),證明了在適當(dāng)條件下壓縮Transformer的基本子層來簡化模型結(jié)構(gòu)并獲得更高的并行度是可行的,并提出了子層數(shù)量為1的Decoder的來壓縮Transformer,在提高推理速度的同時不降低性能。

        Informer[1]除了提出在時序問題下使用自注意力蒸餾機(jī)制,每層Encdoer都將輸入序列的長度減小一半,從而大大減小了Encoder內(nèi)存開銷和計算時間;同時提出在Decoder結(jié)構(gòu)中使用生成式結(jié)構(gòu),能夠一次生成全部預(yù)測序列,極大減小了預(yù)測解碼耗時。

        CP Transformer[4]通過類比在動態(tài)圖上形成hyperedge的方式,整合token的embedding來實(shí)現(xiàn)序列的壓縮,在音樂建模中使用更短的訓(xùn)練和推理時間生成了與Transformer-XL質(zhì)量相當(dāng)?shù)耐暾撉偾?/span>

        Faster Depth-Adaptive Transformer[5]提出了基于互信息和重建損失的兩種估計方法,提前估計所需深度,得到了一個相比原始Transformer速度快7倍,且效率與魯棒性相對其他深度自適應(yīng)方法均有提高的深度自適應(yīng)網(wǎng)絡(luò)。

        此外,GPKD[6]是一種基于組排列的知識蒸餾方法,能夠?qū)⑸疃萒ransformer模型壓縮為淺層模型,且性能犧牲較小,其性能大大優(yōu)于SKD方法。

        LRC-BERT[7]提出了一種基于對比學(xué)習(xí)的知識蒸餾方法,從角度距離的角度來擬合中間輸出,并在訓(xùn)練階段引入了基于梯度擾動的訓(xùn)練體系以提高模型魯棒性。

        03 對Transformer架構(gòu)更深入的分析

        伴隨Transformer的廣泛應(yīng)用,對于其內(nèi)部工作機(jī)理的研究以及對模型的攻擊和防護(hù)也更加關(guān)鍵。

        [8]提出了一種自注意力歸因方法,給出了Transformer內(nèi)部的信息交互的一種詮釋,利用歸因得分推導(dǎo)出交互樹,進(jìn)一步合理可視化自注意力機(jī)制;該方法能識別出重要的注意頭,形成了一種注意頭修剪方法;并且還可以用來構(gòu)造對抗觸發(fā)器來實(shí)現(xiàn)非目標(biāo)攻擊。

        Ashim Gupta等人[9]則研究了BERT家族中的大模型對于不連貫輸入的響應(yīng),定義了簡單的啟發(fā)式方法來構(gòu)造例子,使目前的模型都無法有效區(qū)分這些無效文本;同時這些輸入可以被顯式地加入訓(xùn)練,模型可以在不降低性能的情況下對此類攻擊具有魯棒性。 

        Madhura Pande等人[14]的研究提出了一個統(tǒng)一方法來分析Multi-head Self-Attention中各注意頭,通過篩選偏倚得分來獲得分頭功能作用,假設(shè)檢驗(yàn)確保了統(tǒng)計顯著性;作為一種新視角,作者同時還研究了任務(wù)微調(diào)對注意力角色的影響及關(guān)聯(lián)問題。

        04 將Transformer拓展到更多樣的應(yīng)用

        值得關(guān)注的是,Transformer模型相關(guān)的應(yīng)用已經(jīng)不局限于自然語言處理領(lǐng)域[18-25],在時序預(yù)測、圖網(wǎng)絡(luò)、計算機(jī)視覺以及多模態(tài)等領(lǐng)域,類Transformer模型也展現(xiàn)出了不俗的效果。

        Informer[1]的研究表明Transformer在時間序列(長序列預(yù)測)中擁有更加出色的建模能力。CNMT[10]利用OCR系統(tǒng)和多模態(tài)Transformer進(jìn)行TextCaps任務(wù)。

        而針對圖像字幕生成任務(wù),GET[11]設(shè)計了一種全局增強(qiáng)的Transformer來提取更全面的表示,其包括一個全局增強(qiáng)編碼器來捕捉全局特征和一個全局自適應(yīng)解碼器來指導(dǎo)字幕的生成,從而得到高質(zhì)量的字幕。

        DLCT[12]同樣是研究圖像字幕生成,這是一種雙層協(xié)同Transformer模型;其設(shè)計了綜合關(guān)系注意(CRA)和雙向自我注意(DWSA)的層次內(nèi)融合,合并了區(qū)域和網(wǎng)格的外觀和幾何特征;通過一種應(yīng)用局部約束交叉注意(LCCA)的幾何對齊圖實(shí)現(xiàn)特征增強(qiáng),解決了兩種特征直接融合引起的語義噪聲問題。

        針對視聽場景感知對話問題,STSGR[13]提出了一種新的層次圖表示學(xué)習(xí)和基于Transformer的推理框架,模型能夠產(chǎn)生對象、框架和視頻級別的表示,并被系統(tǒng)集成來產(chǎn)生視覺記憶;這些記憶則以輸入問題為條件,使用一個Shuffled Transformer,順序地融合到其他知識(如對話歷史等)的編碼中。

        圖注意力轉(zhuǎn)換編碼器GATE[15]提出利用Self-Attention機(jī)制,明確地融合結(jié)構(gòu)信息來學(xué)習(xí)不同句法距離的單詞之間的依賴關(guān)系,對細(xì)粒度句法結(jié)構(gòu)信息進(jìn)行建模,來生成結(jié)構(gòu)化的上下文表示;從而解決GCNs很難對具有長期依賴關(guān)系的單詞建模,讓依賴樹中沒有直接連接的元素得到了更健壯的表示。

        RpBERT[16]針對推文中與文本無關(guān)的圖像在多模態(tài)學(xué)習(xí)中的視覺注意力問題進(jìn)行了研究,提出了一種基于“文本-圖像”關(guān)系推理及傳播的多模態(tài)模型;模型通過文本圖像關(guān)系分類和下游NER的多重任務(wù)進(jìn)行訓(xùn)練,并在MNER數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。

        ActionBert[17]將Bert應(yīng)用到UI任務(wù)中,探索跟蹤用戶動作來構(gòu)建通用特征表示,以促進(jìn)用戶界面的理解;模型利用用戶交互追蹤中的視覺、語言和領(lǐng)域特定的特征來預(yù)先訓(xùn)練UI及其組件的一般特征表示,得到一個預(yù)先訓(xùn)練的用戶界面嵌入模型,并應(yīng)用到多個用戶界面理解任務(wù)中。

        ## 參考文獻(xiàn)

        [1] Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

        [2] Nystr?mformer: A Nystr?m-Based Algorithm for Approximating Self-Attention

        [3] An Efficient Transformer Decoder with Compressed Sub-layers

        [4] Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs

        [5] Faster Depth-Adaptive Transformers

        [6] Learning Light-Weight Translation Models from Deep Transformer

        [7] LRC-BERT: Latent-representation Contrastive Knowledge Distillation for Natural Language Understanding

        [8] Self-Attention Attribution: Interpreting Information Interactions Inside Transformer

        [9] BERT & Family Eat Word Salad: Experiments with Text Understanding

        [10] Confidence-aware Non-repetitive Multimodal Transformers for TextCaps

        [11] Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network

        [12] Dual-Level Collaborative Transformer for Image Captioning

        [13] Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers

        [14] The heads hypothesis: A unifying statistical approach towards understanding multi-headed attention in BERT

        [15] GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and Event Extraction

        [16] RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER

        [17] ActionBert: Leveraging User Actions for Semantic Understanding of User Interfaces

        [18] Contrastive Triple Extraction with Generative Transformer

        [19] LightXML: Transformer with Dynamic Negative Sampling for High-Performance Extreme Multi-label Text Classification

        [20] Future-Guided Incremental Transformer for Simultaneous Translation

        [21] Segatron: Segment-Aware Transformer for Language Modeling and Understanding

        [22] Paragraph-level Commonsense Transformers with Recurrent Memory

        [23] Context-Guided BERT for Targeted Aspect-Based Sentiment Analysis

        [24] IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization

        [25] DialogBERT: Discourse-Aware Response Generation via Learning to Recover and Rank Utterances



        推薦閱讀


        搞懂 Vision Transformer 原理和代碼,看這篇技術(shù)綜述就夠了(二)

        2021-01-24

        搞懂Vision Transformer 原理和代碼,看這篇技術(shù)綜述就夠了(三)

        2021-02-26

        搞懂 Vision Transformer 原理和代碼,看這篇技術(shù)綜述就夠了(四)

        2021-03-16


        # CV技術(shù)社群邀請函 #

        △長按添加極市小助手
        添加極市小助手微信(ID : cvmart2)

        備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)


        即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


        每月大咖直播分享、真實(shí)項(xiàng)目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


        △點(diǎn)擊卡片關(guān)注極市平臺,獲取最新CV干貨

        覺得有用麻煩給個在看啦~  
        瀏覽 78
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            东北操逼视频| 国产毛片一区| 欧美国产激情| 波多野结衣av在线观看窜天猴 | 国产精品无码专区AV免费播放 | 丰满欧美熟妇免费视频| 成人国产精品秘欧美高清| 日韩一级片免费看| 水蜜桃网| 国产18女人水真多免费看|