上云无忧 > 文档中心 > 百度智能云容器引擎服务 CCE GPU独占和共享说明
容器引擎服务CCE
百度智能云容器引擎服务 CCE GPU独占和共享说明

文档简介:
若集群支持 GPU 算力和显存的共享与隔离,您可以在新建任务的时候,根据提交的 YMAL 来决定独占还是共享 GPU 资源。 为保证正常使用GPU资源,请正确指定GPU卡型号对应的资源名称,本文以使用GPU卡数量为例,若想指定GPU卡算力资源或显存资源,则在资源名称后加上“_core”或“_memory”即可。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

若集群支持 GPU 算力和显存的共享与隔离,您可以在新建任务的时候,根据提交的 YMAL 来决定独占还是共享 GPU 资源。

GPU卡型号对应资源名称

为保证正常使用GPU资源,请正确指定GPU卡型号对应的资源名称,本文以使用GPU卡数量为例,若想指定GPU卡算力资源或显存资源,则在资源名称后加上“_core”或“_memory”即可。

GPU卡型号 资源名称
Tesla V100-SXM2-16GB baidu.com/v100_16g_cgpu
Tesla V100-SXM2-32GB baidu.com/v100_32g_cgpu
Tesla T4 baidu.com/t4_16g_cgpu

资源描述

资源名称 类型 单位 说明
baidu.com/v100_32g_cgpu int64 1 GPU 卡数量,共享场景下请填 1
baidu.com/v100_32g_cgpu_core int64 1% GPU 卡算力,eg.100=单卡总算力 10=单卡算力的十分之一
baidu.com/v100_32g_cgpu_memory int64 GiB GPU 卡显存

资源申请

单卡独占示例

resources:
      requests:
        baidu.com/v100_32g_cgpu: 1 // 1卡
        cpu: "4"
        memory: 60Gi
      limits:
        baidu.com/v100_32g_cgpu: 1 // limit与request必须一致
        cpu: "4"
        memory: 60Gi

多卡独占示例:

resources:
      requests:
        baidu.com/v100_32g_cgpu: 2 // 2卡
        cpu: "4"
        memory: 60Gi
      limits:
        baidu.com/v100_32g_cgpu: 2 // limit与request必须一致
        cpu: "4"
        memory: 60Gi

单卡共享【不进行算力隔离,只有显存隔离】示例:

resources:
      requests:
        baidu.com/v100_32g_cgpu: 1 // 1卡
        baidu.com/v100_32g_cgpu_memory: 10 // 10GB
        cpu: "4"
        memory: 60Gi
      limits:
        baidu.com/v100_32g_cgpu: 1 // limit与request必须一致
        baidu.com/v100_32g_cgpu_memory: 10
        cpu: "4"
        memory: 60Gi

单卡共享【同时支持显存隔离和算力隔离】示例:

resources:
      requests:
        baidu.com/v100_32g_cgpu: 1 // 1卡
        baidu.com/v100_32g_cgpu_core: 50 // 50%, 0.5卡算力
        baidu.com/v100_32g_cgpu_memory: 10 // 10GB
        cpu: "4"
        memory: 60Gi
      limits:
        baidu.com/v100_32g_cgpu: 1 // limit与request必须一致
        baidu.com/v100_32g_cgpu_core: 50 // 
        baidu.com/v100_32g_cgpu_memory: 10
        cpu: "4"
        memory: 60Gi
相似文档
  • 在离线混部基于百度智能云容器引擎(CCE)支持在线作业和离线作业同时部署在集群中,利用在线作业等剩余可用资源运行离线作业,同时提供资源隔离、节点水位线等方式保障在线作业正常运行,提高集群资源利用率。
  • 离线作业只能调度到开启混部调度的Worker节点上,本文介绍如何为节点设置混部调度。 背景信息: 容器引擎(CCE)支持通过节点组为节点组中的节点配置混部调度,节点组中的节点默认使用节点组的混部配置,您也可以为节点单独配置,单独配置的节点将不再使用节点组的混部配置,请知晓。
  • 您可以在集群中部署不同类型的离线作业,利用节点剩余可用资源运行更多的离线作业提高节点资源利用率。 支持的工作负载类型有Deploment、Statefulset、Job、CroJob,本文将介绍如何部署Deploment类型的离线作业。
  • 组件是百度智能云容器引擎 CCE 提供的扩展功能安装包,您可以根据您的业务需求选择安装所需的组件。您可以在此对组件进行安装、更新配置、卸载等操作。 组件类型: 目前组件支持云原生 AI 组件、混部组件,具体组件如下表所示:
  • 组件介绍: 一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。 组件功能: 拓扑分配:提供基于 GPU 拓扑分配功能,当用户分配超过1张 GPU 卡给 Pod 时,系统自动选择拓扑连接最快的方式分配 GPU 设备。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部