上云无忧 > 文档中心 > 百度智能云容器引擎服务 CCE Deep Learning Frameworks Operator 说明
容器引擎服务CCE
百度智能云容器引擎服务 CCE Deep Learning Frameworks Operator 说明

文档简介:
组件介绍: 主流深度学习框架 operator 组件,结合 CCE AI Job Scheduler,可实现直接在 CCE 上进行深度学习模型训练。 组件功能: 集成主流深度学习框架,提供开箱即用的深度学习任务提交能力,目前支持以下深度学习框架: 1、TensorFlow(TFJob) 2、PyTorch(PyTorchJob) 3、MXNet(MXJob) 4、PaddlePaddle(PaddleJob) 使用场景: 您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

组件介绍

主流深度学习框架 operator 组件,结合 CCE AI Job Scheduler,可实现直接在 CCE 上进行深度学习模型训练。

组件功能

集成主流深度学习框架,提供开箱即用的深度学习任务提交能力,目前支持以下深度学习框架:

1、TensorFlow(TFJob)

2、PyTorch(PyTorchJob)

3、MXNet(MXJob)

4、PaddlePaddle(PaddleJob)

使用场景

您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。

限制说明

  • 仅支持 v1.18 版本的 Kubernetes 集群。

安装组件

  1. 登录百度智能云官网,并进入管理控制台。
  2. 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
  3. 单击左侧导航栏中的 集群管理 > 集群列表 。
  4. 在集群列表页面中,单击目标集群名称进入集群管理页面。
  5. 在集群管理页面单击 组件管理 。
  6. 在组件管理列表中选择 CCE Deep Learning Frameworks Operator 组件单击“安装。
  7. 在组件配置页面中完成深度学习框架配置。

  • 框架:目前支持 TensorFlow、Pytorch、Mxnet、PaddlePaddle 四种深度学习框架。

注意:至少需要选择一个组件,支持多选。

    1. 点击“安装”按钮完成组件的安装。
相似文档
  • 组件介绍: RDMA 通信设备 device plugin。 组件功能: 在主机间通过高性能 RDMA 网络互联的场景下,提供容器间通过跨主机 RDMA 网络传输数据的能力。 使用场景: 跨主机高性能数据传输,GPUDirect RDMA 等。
  • 组件介绍: 任务调度组件,支持调度管理各种AI任务,结合 CCE Deep Leaning Frameworks Operator,可实现直接在 CCE 上进行深度学习模型训练。 组件功能: 支持丰富的调度策略和增强型的 Job 管理能力。 调度策略支持 spread 和 binpack 两种。
  • cce-dysched-extender 是 k8s 默认调度器的一个插件,利用 scheduler extender 机制向 kube-scheduler 注册 Filter、Prioritize 钩子,来干预默认调度器的调度行为。 节点的 metrics 数据来自 metrics-server 组件,在部署 cce-dysched-extender 之前需要确保集群中的 metrics-server 组件正常工作。
  • 基于Kubernetes场景下在线、离线作业混部管理组件,通过将作业进行混部,利用在线作业剩余空闲资源运行离线作业,提高集群资源利用率。 组件功能: cce-hybrid-scheduler: 离线任务调度器,根据sla配置及节点动态资源使用率调度离线作业;
  • CCE 提供基于原生 Kubernetes 的容器管理服务,为方便用户更好的使用 CCE,我们从集群、应用、问题排查三个方面,总结出来一些最佳实践的 checklist,强烈建议 CCE 用户在开始使用或服务上线前,能对照 checklist 过一遍,以帮忙您顺利的将服务迁移到 CCE 上,降低因为使用不当导致应用异常或需重建集群的风险。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部