1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        谷歌聯(lián)手DeepMind提出Performer:用新方式重新思考注意力機制

        共 2921字,需瀏覽 6分鐘

         ·

        2020-10-28 03:07

        ? ? ? ?




        ??新智元報道??

        編輯:QJP

        【新智元導讀】谷歌、 DeepMind、艾倫圖靈研究院和劍橋大學的科學家們提出了「Performer」,一種線性擴展的人工智能模型架構,并在蛋白質(zhì)序列建模等任務中表現(xiàn)良好。它有潛力影響生物序列分析的研究,降低計算成本和計算復雜性,同時減少能源消耗和碳排放。

        Transformer 模型在很多不同的領域都取得了SOTA,包括自然語言,對話,圖像,甚至音樂。每個 Transformer 體系結(jié)構的核心模塊是 Attention 模塊,它為一個輸入序列中的所有位置對計算相似度score。
        ?
        然而,這種方法在輸入序列的長度較長時效果不佳,需要計算時間呈平方增長來產(chǎn)生所有相似性得分,以及存儲空間的平方增長來構造一個矩陣存儲這些score。
        ?
        對于需要長距離注意力的應用,目前已經(jīng)提出了幾種快速且更節(jié)省空間的方法,如內(nèi)存緩存技術,但是一種更常見的方法是依賴于稀疏注意力。
        ?
        稀疏注意力機制通過從一個序列而不是所有可能的Pair中計算經(jīng)過選擇的相似性得分來減少注意機制的計算時間和內(nèi)存需求,從而產(chǎn)生一個稀疏矩陣而不是一個完整的矩陣。
        ?
        這些稀疏條目可以通過優(yōu)化的方法找到、學習,甚至隨機化,如Sparse Transformers、Longformers、RoutingTransformers、Reformers和BigBird。
        ?? ?? ? ? ?
        由于稀疏矩陣也可以用圖形和邊來表示,稀疏化方法也受到圖神經(jīng)網(wǎng)絡文獻的推動,在圖注意網(wǎng)絡中列出了與注意力的具體關系。這種基于稀疏性的體系結(jié)構通常需要額外的層來隱式地產(chǎn)生完全的注意力機制。
        ?
        不幸的是,稀疏注意力的方法仍然會受到一些限制,如:
        ?
        (1)需要高效的稀疏矩陣乘法運算,但并非所有加速器都能使用;
        ?
        (2)通常不能為其表示能力提供嚴格的理論保證;
        ?
        (3)主要針對 Transformer 模型和生成式預訓練進行優(yōu)化;
        ?
        (4)它們通常堆疊更多的注意力層以補償稀疏表示,使其難以與其他預訓練模型一起使用,因此需要重新訓練和顯著的內(nèi)存消耗。
        ?
        除了這些缺點,稀疏注意力機制往往仍然不足以解決所有的正常注意力機制的問題,如指針網(wǎng)絡(Pointer Network)。同時也存在一些不能稀疏化的操作,比如常用的softmax操作,它使注意機制中的相似度得分歸一化,在工業(yè)規(guī)模的推薦系統(tǒng)中得到了廣泛的應用。
        ?
        為了解決這些問題,Google AI的研究人員引入了「Performer」,這是一個具有注意力線性擴展機制的Transformer架構,可以使模型在處理更長序列的同時實現(xiàn)更快的訓練,這是對于特定的圖像數(shù)據(jù)集如 ImageNet64和文本數(shù)據(jù)集如 PG-19所必需的。
        ?
        Performer使用了一個有效的(線性的)廣義注意力框架,它是一種允許基于不同的相似性度量(Kernel)的注意力機制。
        ?
        廣義注意力機制
        ?
        在原有的注意力機制中,query和key分別對應于矩陣的行和列,再進行相乘并通過softmax形成一個注意力矩陣,并存儲下來相似性score。
        ?
        請注意,在這種方法中,不能將query-key傳遞到非線性 softmax 操作之后再將其分解回原來的key和query,但是可以將注意力矩陣分解為原始query和key的隨機非線性函數(shù)的乘積,也就是所謂的隨機特征(random features),這樣就可以更有效地對相似性信息進行編碼。
        ???? ? ? ?
        FAVOR+: Fast Attention via Matrix Associativity
        ?
        上面描述的那種矩陣分解,使得可以使用線性而不是二次的復雜度來存儲隱式注意力矩陣,同時也可以通過這種分解得到一個線性時間的注意力機制。
        ?
        原有的注意力機制是將注意力矩陣乘以輸入的value值來得到最終結(jié)果,而注意力矩陣分解后,可以重新排列矩陣乘法來逼近常規(guī)注意機制的結(jié)果,而無需顯式構造二次的注意力矩陣。
        ???? ? ? ?
        上述分析與所謂的雙向注意力有關,即沒有過去和未來概念的「非因果注意力」。
        ?
        對于單向(因果)注意力,即Mask掉不參與輸入序列后面計算的其他token,只使用前面的token參與計算,只存儲運行矩陣計算的結(jié)果,而不是存儲一個顯式的下三角注意力矩陣。
        ?? ? ? ?

        性能
        ?
        我們首先對Performer的空間和時間復雜度進行基準測試,結(jié)果表明,注意力加速和內(nèi)存減少幾乎是最優(yōu)的,也就是說,結(jié)果非常接近于在模型中根本不使用注意力機制。
        ?? ? ? ?? ? ? ?
        研究人員又進一步展示了 Performer,使用無偏 softmax 逼近,向后兼容經(jīng)過一點微調(diào)的預訓練Transformer模型,可以通過提高推斷速度降低成本,而不需要完全重新訓練已有的模型。
        ?? ? ? ?? ? ? ?
        案例:蛋白質(zhì)序列建模
        ?
        蛋白質(zhì)是具有復雜三維結(jié)構和特定功能的大分子,對生命來說至關重要。與單詞一樣,蛋白質(zhì)被指定為線性序列,其中每個字符是20個氨基酸構建塊中的一個。
        ?
        將 Transformers 應用于大型未標記的蛋白質(zhì)序列產(chǎn)生的模型可用于對折疊的功能性大分子進行準確的預測。
        ?
        Performer-ReLU (使用基于 relu 的注意力,這是一個不同于 softmax 的廣義注意力)在蛋白質(zhì)序列數(shù)據(jù)建模方面有很強的表現(xiàn),而 Performer-Softmax 與 Transformer 的性能相匹配,正如理論所預測的結(jié)果那樣。
        ?? ?? ? ? ?
        下面,我們可視化一個蛋白質(zhì)Performer模型,使用基于 relu 的近似注意力機制進行訓練,使用 Performer 來估計氨基酸之間的相似性,從序列比對中分析進化替換模式得到的替換矩陣中恢復類似的結(jié)構。
        ?? ? ??? ? ? ?
        更一般地說,我們發(fā)現(xiàn)局部和全局注意力機制與用蛋白質(zhì)數(shù)據(jù)訓練的Transformer模型一致。Dense Attention的近似Performer有可能捕捉跨越多個蛋白質(zhì)序列的全局相互作用。
        ?? ? ??? ? ? ?
        作為概念的驗證,對長串聯(lián)蛋白質(zhì)序列進行模型訓練,會使得常規(guī) Transformer 模型的內(nèi)存過載,但 Performer模型的內(nèi)存不會過載,因為它的空間利用很高效。
        ?
        結(jié)論
        ?
        Google AI的這項工作有助于改進基于非稀疏的方法和基于Kernel的Transformer,這種方法也可以與其他技術互操作,研究人員甚至還將 FAVOR 與Reformer的代碼集成在一起。同時研究人員還提供了論文、 Performer的代碼和蛋白質(zhì)語言模型的代碼鏈接。
        ?
        Google AI的研究人員相信,他們對于Performer的研究開辟了一種關于Attention、Transformer架構甚至Kernel的全新的思維方式,對于進一步的改進有巨大的啟示作用。

        ?



        瀏覽 30
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            超碰色| 免费观看性生交大片3 | 欧美中文字慕电影在线观看 | 仓井空一区二区 | 波多野结衣作品在线 | 国产小情侣 | 国产黄色网页 | 骚货网 | 亚洲一区二区三区桃乃木香奈 | 性一交一乱一美A片麻豆网站 |