91在线播放国产,日日做夜夜爽毛片麻豆,欧美日韩日逼视频,天天干天天日天天操天天爽天天射天天 ,成人精品一二三区,涩黄视频,台湾无码中文网,迷人的大乳秘书

來源：計算機視覺研究院

計算機視覺研究院專欄

作者：Edison_G

Transformer 對計算和存儲的高要求阻礙了其在 GPU 上的大規(guī)模部署。在本文中，來自快手異構(gòu)計算團隊的研究者分享了如何在 GPU 上實現(xiàn)基于 Transformer 架構(gòu)的 AI 模型的極限加速，介紹了算子融合重構(gòu)、混合精度量化、先進內(nèi)存管理、Input Padding 移除以及 GEMM 配置等優(yōu)化方法。

圖 1：基于 Transformer 架構(gòu)的 NLP 模型規(guī)模

圖 2：基于 Transformer 架構(gòu)的應(yīng)用

圖 3：Transformer 模型的架構(gòu)

圖 4：Beam Search Decoding (Decoder + Beam Search) 流程圖

Transformer 家族模型

根據(jù)具體模型架構(gòu)和應(yīng)用的不同，研究者將 Transformer 家族的模型分為四大類（如圖 5）：

圖 5：經(jīng)典的基于 Transformer 結(jié)構(gòu)的 AI 模型

圖 6：Transformer 架構(gòu)中 Self-attention 和 Feedforward 模塊的 CUDA kernel 融合和重構(gòu)，參見[14]

圖 7：Transformer FP16 版本的幾個關(guān)鍵 CUDA kernel 采用的量化精度

圖 8：Transformer CUDA 實現(xiàn)的內(nèi)存管理

圖 9：輸入 Padding 移除的方案 - 通過引入 Offset Mask，移除 Padding 的 Sequence 和原始的 Sequence 可以互相轉(zhuǎn)換重建

圖 10：通過對 CUDA Kernel 的分類判斷是否可以移除 Padding

圖 11：Transformer GEMM 配置的優(yōu)化

總結(jié)

參考文獻

[1] M. Luong et al, Effective Approaches to Attention-based Neural Machine Translation, arXiv:1508.04025v5 (2015).

[2] A. Vaswani et al. Attention is all you need, Advances in neural information processing systems (2017).

[3] J. Devlin et al. Bert: Pre-training of deep bidirectional transformers for language understanding, arXiv:1810.04805 (2018).

[4] A. Radford et al. Language Models are Unsupervised Multitask Learners, 2019.

[5] https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/

[6] C. Raffe et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, arXiv:1910.10683v3 (2019).

[7] T. Brown et al, Language Models are Few-Shot Learners, arXiv: 2005.14165v4 (2020).

[8] N. Carion et al, End-to-End Object Detection with Transformers, arXiv: 2005.12872 (2020).

[9] M. Chen et al, Generative Pretraining from Pixels, ICML (2020).

[10] F. Yang et al, Learning Texture Transformer Network for Image Super-Resolution, CVPR (2020).

[11] D. Zhang et al, Feature Pyramid Transformer, ECCV (2020).

[12] Y. Zhao et al, The SpeechTransformer for Large-scale Mandarin Chinese Speech Recognition. ICASSP 2019.

[13] A. Gulati et al, Conformer: Convolution-augmented Transformer for Speech Recognition, arXiv:2005.08100v1 (2020).

[14] https://github.com/NVIDIA/DeepLearningExamples/tree/master/FasterTransformer

??THE END?

GPU底層優(yōu)化 | 如何讓Transformer在GPU上跑得更快？

GPU底層優(yōu)化 | 如何讓Transformer在GPU上跑得更快？