组件介绍
任务调度组件,支持调度管理各种AI任务,结合 CCE Deep Leaning Frameworks Operator,可实现直接在 CCE 上进行深度学习模型训练。
组件功能
- 支持丰富的调度策略和增强型的 Job 管理能力。
- 调度策略支持 spread 和 binpack 两种,binpack 表示多个 Pod 会优先集中共享使用同一 GPU 卡,适用于需要提高 GPU 资源利用率的场景,spread 表示多个 Pod 会尽量分散使用不同的 GPU 卡,使用于 GPU 高可用场景。
使用场景
您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。
限制说明
- 仅支持 v1.18 版本的 Kubernetes 集群。
安装组件
- 登录百度智能云官网,并进入管理控制台。
- 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的 集群管理 > 集群列表 。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击 组件管理 。
- 在组件管理列表中选择 CCE AI Job Scheduler 组件单击“安装。
- 在组件配置页面中完成深度学习框架配置。
- 资源调度:支持 binpack、spread 两种资源调度策略,binpack 表示多个 Pod 会优先集中共享使用同一 GPU 卡,spread 表示多个 Pod 会尽量分散使用不同的 GPU 卡。
- 点击“安装”按钮完成组件的安装。