1. 【KDD2024】基礎(chǔ)模型在AI加速器上的推理優(yōu)化

        共 1353字,需瀏覽 3分鐘

         ·

        2024-07-23 17:00

           
        來(lái)源:專知

        本文為論文介紹,建議閱讀5分鐘

        我們的教程提供了關(guān)于使用AI加速器進(jìn)行推理優(yōu)化的全面討論。


        強(qiáng)大的基礎(chǔ)模型,包括具有Transformer架構(gòu)的大型語(yǔ)言模型(LLMs),在各個(gè)行業(yè)引領(lǐng)了生成式人工智能的新紀(jì)元?;A(chǔ)模型的出現(xiàn)催生了大量新應(yīng)用,這些應(yīng)用涵蓋了問(wèn)答系統(tǒng)、客戶服務(wù)、圖像和視頻生成以及代碼補(bǔ)全等多個(gè)領(lǐng)域。然而,當(dāng)模型參數(shù)數(shù)量達(dá)到數(shù)千億時(shí),在現(xiàn)實(shí)場(chǎng)景中的部署會(huì)帶來(lái)高昂的推理成本和高延遲。因此,業(yè)界對(duì)使用AI加速器進(jìn)行成本效益高且快速推理的需求越來(lái)越高。為此,我們的教程提供了關(guān)于使用AI加速器進(jìn)行推理優(yōu)化的全面討論。
        首先,我們概述了基本的Transformer架構(gòu)和深度學(xué)習(xí)系統(tǒng)框架,然后深入探討了用于快速和內(nèi)存高效的注意力計(jì)算的系統(tǒng)優(yōu)化技術(shù),并討論了這些技術(shù)如何高效地在AI加速器上實(shí)現(xiàn)。接下來(lái),我們描述了快速Transformer推理的關(guān)鍵架構(gòu)元素。最后,我們?cè)谕槐尘跋聶z視了各種模型壓縮和快速解碼策略。



        關(guān)于我們

        數(shù)據(jù)派THU作為數(shù)據(jù)科學(xué)類公眾號(hào),背靠清華大學(xué)大數(shù)據(jù)研究中心,分享前沿?cái)?shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)創(chuàng)新研究動(dòng)態(tài)、持續(xù)傳播數(shù)據(jù)科學(xué)知識(shí),努力建設(shè)數(shù)據(jù)人才聚集平臺(tái)、打造中國(guó)大數(shù)據(jù)最強(qiáng)集團(tuán)軍。




        新浪微博:@數(shù)據(jù)派THU

        微信視頻號(hào):數(shù)據(jù)派THU

        今日頭條:數(shù)據(jù)派THU


        瀏覽 60
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 欧美一级 片内射视频播放 | 激情操| 亚洲无码伦理电影 | 亚洲在线成人视频 | 五月婷婷一区二区 |