上云无忧 > 文档中心 > 百度智能云容器引擎服务 CCE 在离线混部概述
容器引擎服务CCE
百度智能云容器引擎服务 CCE 在离线混部概述

文档简介:
在离线混部基于百度智能云容器引擎(CCE)支持在线作业和离线作业同时部署在集群中,利用在线作业等剩余可用资源运行离线作业,同时提供资源隔离、节点水位线等方式保障在线作业正常运行,提高集群资源利用率。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

在离线混部概述

在离线混部基于百度智能云容器引擎(CCE)支持在线作业和离线作业同时部署在集群中,利用在线作业等剩余可用资源运行离线作业,同时提供资源隔离、节点水位线等方式保障在线作业正常运行,提高集群资源利用率。

当前该功能处于内测阶段,暂不对外开放。

使用流程

第一步(必选): 新建Kubernetes v1.16/v1.18/v1.20 版本的CCE集群;

第二步(必选): 安装CCE Hybrid Manager混部调度组件,详情请见CCE Hybrid Manager说明;

第三步(必选): 节点开启混部调度,详情请见节点混部调度管理;

第四步(必选): 提交离线作业,详情请见离线作业管理。

相似文档
  • 离线作业只能调度到开启混部调度的Worker节点上,本文介绍如何为节点设置混部调度。 背景信息: 容器引擎(CCE)支持通过节点组为节点组中的节点配置混部调度,节点组中的节点默认使用节点组的混部配置,您也可以为节点单独配置,单独配置的节点将不再使用节点组的混部配置,请知晓。
  • 您可以在集群中部署不同类型的离线作业,利用节点剩余可用资源运行更多的离线作业提高节点资源利用率。 支持的工作负载类型有Deploment、Statefulset、Job、CroJob,本文将介绍如何部署Deploment类型的离线作业。
  • 组件是百度智能云容器引擎 CCE 提供的扩展功能安装包,您可以根据您的业务需求选择安装所需的组件。您可以在此对组件进行安装、更新配置、卸载等操作。 组件类型: 目前组件支持云原生 AI 组件、混部组件,具体组件如下表所示:
  • 组件介绍: 一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。 组件功能: 拓扑分配:提供基于 GPU 拓扑分配功能,当用户分配超过1张 GPU 卡给 Pod 时,系统自动选择拓扑连接最快的方式分配 GPU 设备。
  • 组件介绍: 主流深度学习框架 operator 组件,结合 CCE AI Job Scheduler,可实现直接在 CCE 上进行深度学习模型训练。 组件功能: 集成主流深度学习框架,提供开箱即用的深度学习任务提交能力,目前支持以下深度学习框架: 1、TensorFlow(TFJob) 2、PyTorch(PyTorchJob) 3、MXNet(MXJob) 4、PaddlePaddle(PaddleJob) 使用场景: 您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部