腾讯云容器服务云原生AI组件 - MPI Operator

容器服务 TKE

简介/价格/文档

腾讯云容器服务云原生AI组件 - MPI Operator

文档简介：

简介： MPI-Operator 是 Kubeflow 社区开发，用于支持以 Horovod 为代表的数据并行分布式训练在 Kubernetes 集群上部署运行的组件。在部署完成之后，用户可以创建、查看、删除 MPIJob。

*此产品及展示信息均由腾讯云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

简介

MPI-Operator 是 Kubeflow 社区开发，用于支持以 Horovod 为代表的数据并行分布式训练在 Kubernetes 集群上部署运行的组件。

在部署完成之后，用户可以创建、查看、删除 MPIJob。

前置依赖

Kubernetes 集群（version >= 1.16）

部署

在通过 Helm 部署的过程中，所有的配置项都集中于 values.yaml。

以下是部分较为可能需要自定义的字段：

参数	描述	默认值
image.repository	MPI-Operator 镜像所在仓库	ccr.ccs.tencentyun.com/kubeflow-oteam/mpi-operator
image.tag	MPI-Operator 镜像的版本	"latest"
namespace.create	是否为 MPI-Operator 创建独立的命名空间	true
namespace.name	部署 MPI-Operator 的命名空间	"mpi-operator"

最佳实践

请参见运行弹性训练任务。

相似文档

腾讯云容器服务云原生AI组件 - Elastic Jupyter Operator
简介： elastic-jupyter-operator 是 Kubernetes 原生的弹性 Jupyter 服务。为用户按需提供弹性的 Jupyter Notebook 服务。elastic-jupyter-operator 提供以下特性： GPU 空闲时自动释放资源到 Kubernetes 集群。资源延迟申请，在使用时按需申请对应 CPU/内存/GPU 资源。多 Jupyter 共享资源池，提高资源利用率。
腾讯云容器服务云原生AI组件 - 运行 TF 训练任务
本文为您介绍如何运行 TF 训练任务。前提条件： AI 环境中已安装 TF Operator。 AI 环境中有 GPU 资源。操作步骤：以下操作指南参考 TF-Operator 官方提供的 PS/Worker 模式的分布式训练案例。
腾讯云容器服务云原生AI组件 - 运行 PyTorch 训练任务
本文为您介绍如何运行 PyTorch 训练任务。前提条件： AI 环境中已安装 PyTorch Operator。 AI 环境中有 GPU 资源。操作步骤：以下操作指南参考 PyTorch-Operator 官方提供的分布式训练案例。
腾讯云容器服务云原生AI组件 - 运行弹性训练任务
概述：传统分布式深度学习任务（例如 Tensorflow Job）在提交训练任务后，无法再动态调整 Worker 数量。但在某些场景下，需要弹性训练能力，例如，集群中存在一批算力需求波动大的高优任务（例如周期性波动的在线任务），集群的整体平均资源利用率较低，因为波谷期的资源未得到充分利用。这种场景下，可以在集群中运行弹性训练任务，充分利用集群闲置资源。
腾讯云容器服务实战教程 - 组建集群选型推荐
当您使用腾讯云容器服务 TKE 组建 Kubernetes 集群时，会面对多种配置选项，难以进行选择。本文介绍以下功能选型，进行对比并给出选型建议。您可参考本文，选择更适用于您业务的配置选型。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

简介

前置依赖

部署

最佳实践