GPU底層優(yōu)化 | 如何讓Transformer在GPU上跑得更快?
來源:計算機視覺研究院

計算機視覺研究院專欄
作者:Edison_G
Transformer 對計算和存儲的高要求阻礙了其在 GPU 上的大規(guī)模部署。在本文中,來自快手異構(gòu)計算團隊的研究者分享了如何在 GPU 上實現(xiàn)基于 Transformer 架構(gòu)的 AI 模型的極限加速,介紹了算子融合重構(gòu)、混合精度量化、先進內(nèi)存管理、Input Padding 移除以及 GEMM 配置等優(yōu)化方法。



























??THE END?
推薦閱讀
PyTorch深度學(xué)習(xí)技術(shù)生態(tài)
麻省理工喊你來上課,深度學(xué)習(xí)課程,關(guān)鍵還是免費資源!
如何看待Transformer在CV上的應(yīng)用前景,未來有可能替代CNN嗎?



評論
圖片
表情
