上云无忧 > 文档中心 > 百度智能云容器引擎服务 CCE 节点混部调度管理
容器引擎服务CCE
百度智能云容器引擎服务 CCE 节点混部调度管理

文档简介:
离线作业只能调度到开启混部调度的Worker节点上,本文介绍如何为节点设置混部调度。 背景信息: 容器引擎(CCE)支持通过节点组为节点组中的节点配置混部调度,节点组中的节点默认使用节点组的混部配置,您也可以为节点单独配置,单独配置的节点将不再使用节点组的混部配置,请知晓。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

离线作业只能调度到开启混部调度的Worker节点上,本文介绍如何为节点设置混部调度。

背景信息

容器引擎(CCE)支持通过节点组为节点组中的节点配置混部调度,节点组中的节点默认使用节点组的混部配置,您也可以为节点单独配置,单独配置的节点将不再使用节点组的混部配置,请知晓。

前提条件

  • 已成功创建集群。
  • 已安装CCE Hybrid Manager组件。

操作步骤

在节点上开启混部调度

  1. 登录容器引擎CCE控制台。
  2. 在左侧导航栏中选择集群列表
  3. 在“集群列表”页面单击目标集群。
  4. 在左侧导航栏中选择“节点管理 > Worker”。
  5. 在节点列表页面选择目标节点单击左侧操作中的混部调度设置

  1. 在“混部调度设置”弹出框中开启混部调度开关并配置相应水位线,如下图所示:

  1. 单击确定完成开启混部调度,该节点即可运行离线作业。

通过节点组开启混部调度

  1. 登录容器引擎CCE控制台。
  2. 在左侧导航栏中选择集群列表
  3. 在“集群列表”页面单击目标集群进入“集群管理”页面。
  4. 在左侧导航栏选择“节点管理 > 节点组”。

  1. 在“节点组”列表页面单击创建节点组
  2. 在“创建节点组”页面高级设置中开启混部调度开关并配置相应水位线,其他配置请参考节点组管理。
  3. 单击完成完成创建节点组,通过节点组扩容出来的节点默认开启混部调度。
相似文档
  • 您可以在集群中部署不同类型的离线作业,利用节点剩余可用资源运行更多的离线作业提高节点资源利用率。 支持的工作负载类型有Deploment、Statefulset、Job、CroJob,本文将介绍如何部署Deploment类型的离线作业。
  • 组件是百度智能云容器引擎 CCE 提供的扩展功能安装包,您可以根据您的业务需求选择安装所需的组件。您可以在此对组件进行安装、更新配置、卸载等操作。 组件类型: 目前组件支持云原生 AI 组件、混部组件,具体组件如下表所示:
  • 组件介绍: 一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。 组件功能: 拓扑分配:提供基于 GPU 拓扑分配功能,当用户分配超过1张 GPU 卡给 Pod 时,系统自动选择拓扑连接最快的方式分配 GPU 设备。
  • 组件介绍: 主流深度学习框架 operator 组件,结合 CCE AI Job Scheduler,可实现直接在 CCE 上进行深度学习模型训练。 组件功能: 集成主流深度学习框架,提供开箱即用的深度学习任务提交能力,目前支持以下深度学习框架: 1、TensorFlow(TFJob) 2、PyTorch(PyTorchJob) 3、MXNet(MXJob) 4、PaddlePaddle(PaddleJob) 使用场景: 您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。
  • 组件介绍: RDMA 通信设备 device plugin。 组件功能: 在主机间通过高性能 RDMA 网络互联的场景下,提供容器间通过跨主机 RDMA 网络传输数据的能力。 使用场景: 跨主机高性能数据传输,GPUDirect RDMA 等。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部