1. GPU底層優(yōu)化 | 如何讓Transformer在GPU上跑得更快?

        共 2318字,需瀏覽 5分鐘

         ·

        2021-02-11 03:58

        來源:計算機視覺研究院


        計算機視覺研究院專欄

        作者:Edison_G

        Transformer 對計算和存儲的高要求阻礙了其在 GPU 上的大規(guī)模部署。在本文中,來自快手異構(gòu)計算團隊的研究者分享了如何在 GPU 上實現(xiàn)基于 Transformer 架構(gòu)的 AI 模型的極限加速,介紹了算子融合重構(gòu)、混合精度量化、先進內(nèi)存管理、Input Padding 移除以及 GEMM 配置等優(yōu)化方法。




        圖 1:基于 Transformer 架構(gòu)的 NLP 模型規(guī)模


        圖 2:基于 Transformer 架構(gòu)的應(yīng)用


        圖 3:Transformer 模型的架構(gòu)


        圖 4:Beam Search Decoding (Decoder + Beam Search) 流程圖


        Transformer 家族模型

        根據(jù)具體模型架構(gòu)和應(yīng)用的不同,研究者將 Transformer 家族的模型分為四大類(如圖 5):

        圖 5:經(jīng)典的基于 Transformer 結(jié)構(gòu)的 AI 模型




        圖 6:Transformer 架構(gòu)中 Self-attention 和 Feedforward 模塊的 CUDA kernel 融合和重構(gòu),參見[14]


        圖 7:Transformer FP16 版本的幾個關(guān)鍵 CUDA kernel 采用的量化精度


        圖 8:Transformer CUDA 實現(xiàn)的內(nèi)存管理



        圖 9:輸入 Padding 移除的方案 - 通過引入 Offset Mask,移除 Padding 的 Sequence 和原始的 Sequence 可以互相轉(zhuǎn)換重建


        圖 10:通過對 CUDA Kernel 的分類判斷是否可以移除 Padding


        圖 11:Transformer GEMM 配置的優(yōu)化

        總結(jié)


        參考文獻

        [1] M. Luong et al, Effective Approaches to Attention-based Neural Machine Translation, arXiv:1508.04025v5 (2015).
        [2] A. Vaswani et al. Attention is all you need, Advances in neural information processing systems (2017).
        [3] J. Devlin et al. Bert: Pre-training of deep bidirectional transformers for language understanding, arXiv:1810.04805 (2018).
        [4] A. Radford et al. Language Models are Unsupervised Multitask Learners, 2019.
        [5] https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/
        [6] C. Raffe et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, arXiv:1910.10683v3 (2019).
        [7] T. Brown et al, Language Models are Few-Shot Learners, arXiv: 2005.14165v4 (2020).
        [8] N. Carion et al, End-to-End Object Detection with Transformers, arXiv: 2005.12872 (2020).
        [9] M. Chen et al, Generative Pretraining from Pixels, ICML (2020).
        [10] F. Yang et al, Learning Texture Transformer Network for Image Super-Resolution, CVPR (2020).
        [11] D. Zhang et al, Feature Pyramid Transformer, ECCV (2020).
        [12] Y. Zhao et al, The SpeechTransformer for Large-scale Mandarin Chinese Speech Recognition. ICASSP 2019.
        [13] A. Gulati et al, Conformer: Convolution-augmented Transformer for Speech Recognition, arXiv:2005.08100v1 (2020).
        [14] https://github.com/NVIDIA/DeepLearningExamples/tree/master/FasterTransformer

        ??THE END?


        推薦閱讀


        PyTorch深度學(xué)習(xí)技術(shù)生態(tài)


        麻省理工喊你來上課,深度學(xué)習(xí)課程,關(guān)鍵還是免費資源!


        如何看待Transformer在CV上的應(yīng)用前景,未來有可能替代CNN嗎?


        瀏覽 109
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. h文一女多男从小c到大 | 上海少妇和黑人老外做爰偷拍小说 | 一边摸一边吃奶一边透 | 丁香花在线电影小说 | 欧美精品成人免费 |