1. K8S, AI 大模型推理優(yōu)化的新選擇!

        共 1656字,需瀏覽 4分鐘

         ·

        2024-04-11 04:17

        最近直播超級(jí)多, 預(yù)約 保你有收獲

        今晚直播: 大模型Agent應(yīng)用落地實(shí)戰(zhàn)

        1

        AI 大模型訓(xùn)練和推理

        Docker 容器和 Kubernetes 已經(jīng)成為越來(lái)越多 AI 應(yīng)用首選的運(yùn)行環(huán)境和平臺(tái)。一方面,Kubernetes 幫助用戶標(biāo)準(zhǔn)化異構(gòu)資源和運(yùn)行時(shí)環(huán)境、簡(jiǎn)化運(yùn)維流程;另一方面,AI 這種重度依賴 GPU 的場(chǎng)景可以利用 K8S 的彈性優(yōu)勢(shì)節(jié)省資源成本。在 AIGC/大模型的這波浪潮下,以 Kubernetes 上運(yùn)行 AI 應(yīng)用將變成一種事實(shí)標(biāo)準(zhǔn)。

        大模型訓(xùn)練和推理是企業(yè)重要應(yīng)用,但企業(yè)往往面臨著 GPU 管理復(fù)雜、資源利用率低,以及全生命周期管理中工程效率低下等挑戰(zhàn)。通過(guò)創(chuàng)建 kubernetes 集群,使用 KServe + vLLM 部署推理服務(wù)。適用于以下場(chǎng)景:

        • 大模型訓(xùn)練:基于 Kubernetes 集群微調(diào)開(kāi)源大模型,可以屏蔽底層資源和環(huán)境的復(fù)雜度,快速配置訓(xùn)練數(shù)據(jù)、提交訓(xùn)練任務(wù),并自動(dòng)運(yùn)行和保存訓(xùn)練結(jié)果。
        • 大模型推理:基于 Kubernetes 集群部署推理服務(wù),可以屏蔽底層資源和環(huán)境的復(fù)雜度,快速將微調(diào)后的大模型部署成推理服務(wù),將大模型應(yīng)用到實(shí)際業(yè)務(wù)場(chǎng)景中。
        • GPU 共享推理: 支持 GPU 共享調(diào)度能力和顯存隔離能力,可將多個(gè)推理服務(wù)部署在同一塊 GPU 卡上,提高 GPU 的利用率的同時(shí),也能保證推理服務(wù)的穩(wěn)定運(yùn)行。

        2

        vLLM 大模型推理加速器

        即使在高端 GPU 上,提供 LLM 模型的速度也可能出奇 慢,平均推理速度大約5秒,vLLM 是一種快速且易于使用的 LLM 推理引擎。它可以實(shí)現(xiàn)比 Huggingface Transformer 網(wǎng)絡(luò)結(jié)構(gòu)高 10 倍甚至至 20 倍的吞吐量。它支持連續(xù)批處理以提高吞吐量和 GPU 利用率, vLLM 支持分頁(yè)注意力以解決內(nèi)存瓶頸,在自回歸解碼過(guò)程中,所有注意力鍵值張量(KV 緩存)都保留在 GPU 內(nèi)存中以生成下一個(gè)令牌。

        db0c280e7876214d6766cf3a9fdc1d06.webp

        • vLLM 是一個(gè)快速且易于使用的 LLM 推理和服務(wù)庫(kù)。
        • vLLM 支持了并行取樣,如下所示:
        f6550965b1682fbfba99f75964bd9fbb.webp
        • vLLM 支持了對(duì)多個(gè)輸出進(jìn)行采樣,如下所示:
        83b3000d278d6eefc93a26ab2e568c42.webp

        3

        KServe 大模型推理平臺(tái)

        KServe 是一個(gè)與云無(wú)關(guān)的標(biāo)準(zhǔn)大模型推理平臺(tái),專為大模型應(yīng)用高度可擴(kuò)展而構(gòu)建,KServe 封裝了自動(dòng)擴(kuò)展、網(wǎng)絡(luò)、健康檢查和服務(wù)器配置的復(fù)雜性,為 大模型應(yīng)用部署帶來(lái)了 GPU 自動(dòng)擴(kuò)展、零擴(kuò)縮放和金絲雀發(fā)布等先進(jìn)的服務(wù)特性。它使得生產(chǎn)大模型應(yīng)用服務(wù)變得簡(jiǎn)單、可插拔,它提供了以下特性: 8d92f0990b094cff270cd288b5d4e62d.webp
        • 跨機(jī)器學(xué)習(xí)框架,提供高性能標(biāo)準(zhǔn)化推理協(xié)議。
        • 支持現(xiàn)代無(wú)服務(wù)器推理工作負(fù)載,具有基于請(qǐng)求在 CPU 和 GPU 的自動(dòng)縮放(包括縮放至零)。
        • 使用ModelMesh 支持 高可擴(kuò)展性、密度封裝和智能路由。
        •  簡(jiǎn)單且可插入的生產(chǎn)服務(wù): 用于推理、預(yù)/后處理、監(jiān)控和可解釋性。
        • 高級(jí)部署: 金絲雀部署、Pipeline、InferenceGraph。

        4

        領(lǐng)取《AI 大模型技術(shù)直播

        我們梳理了下 AI 大模型應(yīng)用開(kāi)發(fā)的知識(shí)圖譜,包括12項(xiàng)核心技能: 大模型內(nèi)核架構(gòu)、大模型開(kāi)發(fā) API、開(kāi)發(fā)框架、向量數(shù)據(jù)庫(kù)、AI 編程、AI Agent、緩存、算力、RAG、大模型微調(diào)、大模型預(yù)訓(xùn)練、LLMOps  等。

        3d83a09b0bbac399993366aa90e837ea.webp

        為了幫助同學(xué)們掌握 AI 大模型應(yīng)用開(kāi)發(fā)技能,我們準(zhǔn)備了一系列免費(fèi)直播干貨掃碼全部領(lǐng)取!

        END



        瀏覽 121
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 欧美久久黄色 | 国产精品免费久久久久影视 | 人妻无码一区二区 | 成人无码一区在线 | 成人无码电影在线播放 |