上云无忧 > 文档中心 > 百度智能云容器引擎服务 CCE 离线作业管理
容器引擎服务CCE
百度智能云容器引擎服务 CCE 离线作业管理

文档简介:
您可以在集群中部署不同类型的离线作业,利用节点剩余可用资源运行更多的离线作业提高节点资源利用率。 支持的工作负载类型有Deploment、Statefulset、Job、CroJob,本文将介绍如何部署Deploment类型的离线作业。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

您可以在集群中部署不同类型的离线作业,利用节点剩余可用资源运行更多的离线作业提高节点资源利用率。

支持的工作负载类型有Deploment、Statefulset、Job、CroJob,本文将介绍如何部署Deploment类型的离线作业。

前提条件

  • 已安装CCE Hybrid Manager组件。

操作步骤

  1. 登录容器引擎CCE控制台。
  2. 在左侧导航栏中选择集群列表
  3. 在“集群列表”页面单击目标集群。
  4. 在左侧导航栏中选择“工作负载 > 无状态部署”。
  5. 在“无状态部署”列表页面单击新建无状态部署
  6. 在“创建工作负载”页面中选择“高级设置 > 混部配置”开启混部调度开关并完成相应配置,其他配置请参考Deploment管理,如下图所示:

说明:

  • 目前不支持配置在线作业,敬请期待。
  • 请确保Pod的QsS级别为Best-Effort,即全部容器均未设置Request和Limit,否则将无法调度。
  • 请务必为该工作负载添加hybrid-scheduler.cn.inf.baidu.com/request-cpu:1000m和hybrid-scheduler.cn.inf.baidu.com/request-memory:1024Mi注释(Annotation),否则将无法调度,其中注释值您可以根据实际情况配置,建议为工作负载中各个容器CPU Request和内存Request之和。
  1. 单击“完成”您可以在“无状态部署”页面查看提交的离线作业,如下图所示:

相似文档
  • 组件是百度智能云容器引擎 CCE 提供的扩展功能安装包,您可以根据您的业务需求选择安装所需的组件。您可以在此对组件进行安装、更新配置、卸载等操作。 组件类型: 目前组件支持云原生 AI 组件、混部组件,具体组件如下表所示:
  • 组件介绍: 一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。 组件功能: 拓扑分配:提供基于 GPU 拓扑分配功能,当用户分配超过1张 GPU 卡给 Pod 时,系统自动选择拓扑连接最快的方式分配 GPU 设备。
  • 组件介绍: 主流深度学习框架 operator 组件,结合 CCE AI Job Scheduler,可实现直接在 CCE 上进行深度学习模型训练。 组件功能: 集成主流深度学习框架,提供开箱即用的深度学习任务提交能力,目前支持以下深度学习框架: 1、TensorFlow(TFJob) 2、PyTorch(PyTorchJob) 3、MXNet(MXJob) 4、PaddlePaddle(PaddleJob) 使用场景: 您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。
  • 组件介绍: RDMA 通信设备 device plugin。 组件功能: 在主机间通过高性能 RDMA 网络互联的场景下,提供容器间通过跨主机 RDMA 网络传输数据的能力。 使用场景: 跨主机高性能数据传输,GPUDirect RDMA 等。
  • 组件介绍: 任务调度组件,支持调度管理各种AI任务,结合 CCE Deep Leaning Frameworks Operator,可实现直接在 CCE 上进行深度学习模型训练。 组件功能: 支持丰富的调度策略和增强型的 Job 管理能力。 调度策略支持 spread 和 binpack 两种。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部