上云无忧 > 文档中心 > 百度智能云容器引擎服务 CCE 组件概述
容器引擎服务CCE
百度智能云容器引擎服务 CCE 组件概述

文档简介:
组件是百度智能云容器引擎 CCE 提供的扩展功能安装包,您可以根据您的业务需求选择安装所需的组件。您可以在此对组件进行安装、更新配置、卸载等操作。 组件类型: 目前组件支持云原生 AI 组件、混部组件,具体组件如下表所示:
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

组件概述

组件是百度智能云容器引擎 CCE 提供的扩展功能安装包,您可以根据您的业务需求选择安装所需的组件。您可以在此对组件进行安装、更新配置、卸载等操作。

组件类型

目前组件支持云原生 AI 组件、混部组件,具体组件如下表所示:

组件名称 类型 组件介绍
CCE GPU Manager 云原生AI 一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。
CCE Deep Learning Frameworks Operator 云原生AI 主流深度学习框架 operator 组件,结合 CCE AI Job Scheduler,可实现直接在 CCE 上进行深度学习模型训练。
CCE RDMA Device Plugin 云原生AI RDMA 通信设备 device plugin。
CCE AI Job Scheduler 云原生AI 任务调度组件,支持调度管理各种AI任务,结合 CCE Deep Leaning Frameworks Operator,可实现直接在 CCE 上进行深度学习模型训练。
CCE Hybrid Manager 混部调度 基于Kubernetes场景下在线、离线作业混部管理组件,通过将作业进行混部,利用在线作业剩余空闲资源运行离线作业,提高集群资源利用率。
相似文档
  • 组件介绍: 一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。 组件功能: 拓扑分配:提供基于 GPU 拓扑分配功能,当用户分配超过1张 GPU 卡给 Pod 时,系统自动选择拓扑连接最快的方式分配 GPU 设备。
  • 组件介绍: 主流深度学习框架 operator 组件,结合 CCE AI Job Scheduler,可实现直接在 CCE 上进行深度学习模型训练。 组件功能: 集成主流深度学习框架,提供开箱即用的深度学习任务提交能力,目前支持以下深度学习框架: 1、TensorFlow(TFJob) 2、PyTorch(PyTorchJob) 3、MXNet(MXJob) 4、PaddlePaddle(PaddleJob) 使用场景: 您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。
  • 组件介绍: RDMA 通信设备 device plugin。 组件功能: 在主机间通过高性能 RDMA 网络互联的场景下,提供容器间通过跨主机 RDMA 网络传输数据的能力。 使用场景: 跨主机高性能数据传输,GPUDirect RDMA 等。
  • 组件介绍: 任务调度组件,支持调度管理各种AI任务,结合 CCE Deep Leaning Frameworks Operator,可实现直接在 CCE 上进行深度学习模型训练。 组件功能: 支持丰富的调度策略和增强型的 Job 管理能力。 调度策略支持 spread 和 binpack 两种。
  • cce-dysched-extender 是 k8s 默认调度器的一个插件,利用 scheduler extender 机制向 kube-scheduler 注册 Filter、Prioritize 钩子,来干预默认调度器的调度行为。 节点的 metrics 数据来自 metrics-server 组件,在部署 cce-dysched-extender 之前需要确保集群中的 metrics-server 组件正常工作。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部