Omnia管理 HPC 和 AI 工作負(fù)載的工具
Omnia 由戴爾 HPC、英特爾和亞利桑那州立大學(xué)聯(lián)合開發(fā),能夠讓客戶更容易管理高性能計(jì)算、人工智能和數(shù)據(jù)分析工作負(fù)載。
Omnia 可以自動(dòng)下載和安裝開源軟件,如集群管理、應(yīng)用程序執(zhí)行、加速器驅(qū)動(dòng)程序、框架、應(yīng)用程序和平臺(tái),在運(yùn)行基于 RPM 的 Linux 操作系統(tǒng)的服務(wù)器上基于 Ansible playbook 部署 Slurm 和 Kubernetes。
Omnia 將從以下來源安裝軟件,其中包括:
- 標(biāo)準(zhǔn) CentOS 和 ELRepo 存儲(chǔ)庫;
- Helm 存儲(chǔ)庫;
- 源碼編譯;
- OpenHPC 存儲(chǔ)庫;
- OperatorHub;
軟件與硬件要求:
- 管理節(jié)點(diǎn)上安裝的操作系統(tǒng):CentOS 7.9 2009;
- Omnia 在裸機(jī)服務(wù)器上部署的操作系統(tǒng):CentOS 7.9 2009 Minimal Edition;
- Cobbler:2.8.5;
- Ansible AWX:15.0.0;
- Slurm 工作負(fù)載管理器:20.11.2;
- Kubernetes 控制器:1.16.7;
- Kubeflow:1;
- Prometheus:2.23.0;
- 支持的 PowerEdge servers:R640, R740, R7525, C4140, DSS8440, and C6420;
評(píng)論
圖片
表情
