KubeDL基于 Kubernetes 的 AI 工作負(fù)載管理框架
KubeDL 是阿里開源的基于 Kubernetes 的 AI 工作負(fù)載管理框架,取自"Kubernetes-Deep-Learning"的縮寫;旨在使深度學(xué)習(xí)工作負(fù)載能夠更輕松、更高效地在 Kubernetes 上運(yùn)行。KubeDL 是一個(gè) CNCF Sandbox 項(xiàng)目。
其核心功能包括:
- 在將 ML 模型部署為推理服務(wù)之前自動(dòng)調(diào)整最佳容器級(jí)配置。- Morphling Github
- 用于在 CRD 中本地跟蹤模型歷史的模型沿襲和版本控制:何時(shí)使用哪些數(shù)據(jù)和哪些圖像訓(xùn)練模型、模型的每個(gè)版本、正在運(yùn)行的版本等。
- 啟用利用容器映像存儲(chǔ)和版本控制模型。每個(gè)模型版本都存儲(chǔ)為自己的圖像,以后可以使用 Serving 框架提供服務(wù)。
- 在單個(gè)統(tǒng)一控制器中支持推理框架和訓(xùn)練工作負(fù)載(Tensorflow、Pytorch、Mars等)。
評(píng)論
圖片
表情
