上云无忧 > 文档中心 > 腾讯云容器服务 云原生AI组件 - 运行 TF 训练任务
容器服务 TKE
腾讯云容器服务 云原生AI组件 - 运行 TF 训练任务

文档简介:
本文为您介绍如何运行 TF 训练任务。 前提条件: AI 环境中已安装 TF Operator。 AI 环境中有 GPU 资源。 操作步骤: 以下操作指南参考 TF-Operator 官方提供的 PS/Worker 模式的 分布式训练案例。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠
本文为您介绍如何运行 TF 训练任务。

前提条件

AI 环境中已安装 TF Operator
AI 环境中有 GPU 资源。

操作步骤

以下操作指南参考 TF-Operator 官方提供的 PS/Worker 模式的 分布式训练案例

准备训练代码

本示例中使用 Kubeflow 官方提供的示例代码 dist_mnist.py

制作训练镜像

镜像的制作过程较简单,只需基于一个 TensorFlow 1.5.0 的官方镜像,并将代码复制到镜像内,并配置好 entrypoint 即可。
说明
如果不配置 entrypoint,也可以在提交 TFJob 时配置容器的启动命令。

任务提交

1. 准备一个 TFJob 的 YAML 文件,定义2个 PS 和4个 Worker。
注意:
用户需要用上传后的训练镜像地址替换 <训练镜像> 所在占位。
		
apiVersion: "kubeflow.org/v1"
kind: "TFJob"
metadata:
name: "dist-mnist-for-e2e-test"
spec:
tfReplicaSpecs:
PS:
replicas: 2
restartPolicy: Never
template:
spec:
containers:
- name: tensorflow
image: <训练镜像>
Worker:
replicas: 4
restartPolicy: Never
template:
spec:
containers:
- name: tensorflow
image: <训练镜像>
2. 执行以下命令,通过 kubectl 提交该 TFJob:
		
kubectl create -f ./tf_job_mnist.yaml
3. 执行以下命令,查看任务状态:
		
kubectl get tfjob dist-mnist-for-e2e-test -o yaml
kubectl get pods -l pytorch_job_name=pytorch-tcp-dist-mnist
相似文档
  • 本文为您介绍如何运行 PyTorch 训练任务。 前提条件: AI 环境中已安装 PyTorch Operator。 AI 环境中有 GPU 资源。 操作步骤: 以下操作指南参考 PyTorch-Operator 官方提供的分布式训练 案例。
  • 概述: 传统分布式深度学习任务(例如 Tensorflow Job)在提交训练任务后,无法再动态调整 Worker 数量。但在某些场景下,需要弹性训练能力,例如,集群中存在一批算力需求波动大的高优任务(例如周期性波动的在线任务),集群的整体平均资源利用率较低,因为波谷期的资源未得到充分利用。这种场景下,可以在集群中运行弹性训练任务,充分利用集群闲置资源。
  • 当您使用腾讯云容器服务 TKE 组建 Kubernetes 集群时,会面对多种配置选项,难以进行选择。本文介绍以下功能选型,进行对比并给出选型建议。您可参考本文,选择更适用于您业务的配置选型。
  • 概述: 容器服务 TKE 包含托管集群及独立部署集群。若使用托管集群,则无需关注容灾,托管集群的 Master 由容器服务 TKE 内部维护。若使用独立集群,则 Master 节点由用户自行管理维护。独立集群如需实现容灾,则首先应根据需求规划容灾方案,在创建集群时进行相应配置即可。本文介绍如何实现 TKE 独立集群 Master 的容灾,您可参考本文进行操作。
  • 操作场景: 当前集群开启内网访问后,容器服务 TKE 默认通过域名访问集群,您需要在访问机上配置 Host 来进行内网域名解析。如未配置对应的域名解析规则(Host),在访问机上访问对应集群(运行 kubectl get nodes)时将会报错 “no such host”,如下图所示:
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部