上云无忧 > 文档中心 > 百度智能云容器引擎服务 CCE AI Job Scheduler 说明
容器引擎服务CCE
百度智能云容器引擎服务 CCE AI Job Scheduler 说明

文档简介:
组件介绍: 任务调度组件,支持调度管理各种AI任务,结合 CCE Deep Leaning Frameworks Operator,可实现直接在 CCE 上进行深度学习模型训练。 组件功能: 支持丰富的调度策略和增强型的 Job 管理能力。 调度策略支持 spread 和 binpack 两种。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

组件介绍

任务调度组件,支持调度管理各种AI任务,结合 CCE Deep Leaning Frameworks Operator,可实现直接在 CCE 上进行深度学习模型训练。

组件功能

  • 支持丰富的调度策略和增强型的 Job 管理能力。
  • 调度策略支持 spread 和 binpack 两种,binpack 表示多个 Pod 会优先集中共享使用同一 GPU 卡,适用于需要提高 GPU 资源利用率的场景,spread 表示多个 Pod 会尽量分散使用不同的 GPU 卡,使用于 GPU 高可用场景。

使用场景

您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。

限制说明

  • 仅支持 v1.18 版本的 Kubernetes 集群。

安装组件

  1. 登录百度智能云官网,并进入管理控制台。
  2. 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
  3. 单击左侧导航栏中的 集群管理 > 集群列表 。
  4. 在集群列表页面中,单击目标集群名称进入集群管理页面。
  5. 在集群管理页面单击 组件管理 。
  6. 在组件管理列表中选择 CCE AI Job Scheduler 组件单击“安装。
  7. 在组件配置页面中完成深度学习框架配置。

  • 资源调度:支持 binpack、spread 两种资源调度策略,binpack 表示多个 Pod 会优先集中共享使用同一 GPU 卡,spread 表示多个 Pod 会尽量分散使用不同的 GPU 卡。
  1. 点击“安装”按钮完成组件的安装。
相似文档
  • cce-dysched-extender 是 k8s 默认调度器的一个插件,利用 scheduler extender 机制向 kube-scheduler 注册 Filter、Prioritize 钩子,来干预默认调度器的调度行为。 节点的 metrics 数据来自 metrics-server 组件,在部署 cce-dysched-extender 之前需要确保集群中的 metrics-server 组件正常工作。
  • 基于Kubernetes场景下在线、离线作业混部管理组件,通过将作业进行混部,利用在线作业剩余空闲资源运行离线作业,提高集群资源利用率。 组件功能: cce-hybrid-scheduler: 离线任务调度器,根据sla配置及节点动态资源使用率调度离线作业;
  • CCE 提供基于原生 Kubernetes 的容器管理服务,为方便用户更好的使用 CCE,我们从集群、应用、问题排查三个方面,总结出来一些最佳实践的 checklist,强烈建议 CCE 用户在开始使用或服务上线前,能对照 checklist 过一遍,以帮忙您顺利的将服务迁移到 CCE 上,降低因为使用不当导致应用异常或需重建集群的风险。
  • 百度智能云容器引擎CCE基于Kubernetes+Docker构建的弹性高可用的容器集群服务,您可以轻松地在采购的集群上部署所需的业务应用。 本文将以经典的前端应用GuestBook为例,为您展示集群搭建、部署应用的全流程。让您能够使用百度智能云云容器引擎CCE,快速构建一个最简单的web应用。
  • 在一些场景中,用户需要让CCE集群中的节点和Pod具备访问公网的能力,如通过yum install等命令访问外部源地址下载安装软件、容器需要访问公网中的某些服务等等。 我们提供了以下两种方案,可以实现集群访问公网,用户可以根据具体需求自行选择。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部