K8S, AI 大模型推理優(yōu)化的新選擇!
▼ 最近直播超級(jí)多, 預(yù)約 保你有收獲
今晚直播: 《 大模型Agent應(yīng)用落地實(shí)戰(zhàn) 》
— 1 —
AI 大模型訓(xùn)練和推理
Docker 容器和 Kubernetes 已經(jīng)成為越來(lái)越多 AI 應(yīng)用首選的運(yùn)行環(huán)境和平臺(tái)。一方面,Kubernetes 幫助用戶標(biāo)準(zhǔn)化異構(gòu)資源和運(yùn)行時(shí)環(huán)境、簡(jiǎn)化運(yùn)維流程;另一方面,AI 這種重度依賴 GPU 的場(chǎng)景可以利用 K8S 的彈性優(yōu)勢(shì)節(jié)省資源成本。在 AIGC/大模型的這波浪潮下,以 Kubernetes 上運(yùn)行 AI 應(yīng)用將變成一種事實(shí)標(biāo)準(zhǔn)。
大模型訓(xùn)練和推理是企業(yè)重要應(yīng)用,但企業(yè)往往面臨著 GPU 管理復(fù)雜、資源利用率低,以及全生命周期管理中工程效率低下等挑戰(zhàn)。通過(guò)創(chuàng)建 kubernetes 集群,使用 KServe + vLLM 部署推理服務(wù)。適用于以下場(chǎng)景:
- 大模型訓(xùn)練:基于 Kubernetes 集群微調(diào)開(kāi)源大模型,可以屏蔽底層資源和環(huán)境的復(fù)雜度,快速配置訓(xùn)練數(shù)據(jù)、提交訓(xùn)練任務(wù),并自動(dòng)運(yùn)行和保存訓(xùn)練結(jié)果。
- 大模型推理:基于 Kubernetes 集群部署推理服務(wù),可以屏蔽底層資源和環(huán)境的復(fù)雜度,快速將微調(diào)后的大模型部署成推理服務(wù),將大模型應(yīng)用到實(shí)際業(yè)務(wù)場(chǎng)景中。
- GPU 共享推理: 支持 GPU 共享調(diào)度能力和顯存隔離能力,可將多個(gè)推理服務(wù)部署在同一塊 GPU 卡上,提高 GPU 的利用率的同時(shí),也能保證推理服務(wù)的穩(wěn)定運(yùn)行。
— 2 —
vLLM 大模型推理加速器
即使在高端 GPU 上,提供 LLM 模型的速度也可能出奇 的慢,平均推理速度大約5秒,vLLM 是一種快速且易于使用的 LLM 推理引擎。它可以實(shí)現(xiàn)比 Huggingface Transformer 網(wǎng)絡(luò)結(jié)構(gòu)高 10 倍甚至至 20 倍的吞吐量。它支持連續(xù)批處理以提高吞吐量和 GPU 利用率, vLLM 支持分頁(yè)注意力以解決內(nèi)存瓶頸,在自回歸解碼過(guò)程中,所有注意力鍵值張量(KV 緩存)都保留在 GPU 內(nèi)存中以生成下一個(gè)令牌。 
- vLLM 是一個(gè)快速且易于使用的 LLM 推理和服務(wù)庫(kù)。
- vLLM 支持了并行取樣,如下所示:
- vLLM 支持了對(duì)多個(gè)輸出進(jìn)行采樣,如下所示:
— 3 —
KServe 大模型推理平臺(tái)
KServe 是一個(gè)與云無(wú)關(guān)的標(biāo)準(zhǔn)大模型推理平臺(tái),專為大模型應(yīng)用高度可擴(kuò)展而構(gòu)建,KServe 封裝了自動(dòng)擴(kuò)展、網(wǎng)絡(luò)、健康檢查和服務(wù)器配置的復(fù)雜性,為 大模型應(yīng)用部署帶來(lái)了 GPU 自動(dòng)擴(kuò)展、零擴(kuò)縮放和金絲雀發(fā)布等先進(jìn)的服務(wù)特性。它使得生產(chǎn)大模型應(yīng)用服務(wù)變得簡(jiǎn)單、可插拔,它提供了以下特性:
- 跨機(jī)器學(xué)習(xí)框架,提供高性能標(biāo)準(zhǔn)化推理協(xié)議。
- 支持現(xiàn)代無(wú)服務(wù)器推理工作負(fù)載,具有基于請(qǐng)求在 CPU 和 GPU 的自動(dòng)縮放(包括縮放至零)。
- 使用ModelMesh 支持 高可擴(kuò)展性、密度封裝和智能路由。
- 簡(jiǎn)單且可插入的生產(chǎn)服務(wù): 用于推理、預(yù)/后處理、監(jiān)控和可解釋性。
- 高級(jí)部署: 金絲雀部署、Pipeline、InferenceGraph。
—4 —
領(lǐng)取《AI 大模型技術(shù)直播》
我們梳理了下 AI 大模型應(yīng)用開(kāi)發(fā)的知識(shí)圖譜,包括12項(xiàng)核心技能: 大模型內(nèi)核架構(gòu)、大模型開(kāi)發(fā) API、開(kāi)發(fā)框架、向量數(shù)據(jù)庫(kù)、AI 編程、AI Agent、緩存、算力、RAG、大模型微調(diào)、大模型預(yù)訓(xùn)練、LLMOps 等。
END
評(píng)論
圖片
表情
