若集群支持 GPU 算力和显存的共享与隔离,您可以在新建任务的时候,根据提交的 YMAL 来决定独占还是共享 GPU 资源。
GPU卡型号对应资源名称
为保证正常使用GPU资源,请正确指定GPU卡型号对应的资源名称,本文以使用GPU卡数量为例,若想指定GPU卡算力资源或显存资源,则在资源名称后加上“_core”或“_memory”即可。
GPU卡型号 | 资源名称 |
---|---|
Tesla V100-SXM2-16GB | baidu.com/v100_16g_cgpu |
Tesla V100-SXM2-32GB | baidu.com/v100_32g_cgpu |
Tesla T4 | baidu.com/t4_16g_cgpu |
资源描述
资源名称 | 类型 | 单位 | 说明 |
---|---|---|---|
baidu.com/v100_32g_cgpu | int64 | 1 | GPU 卡数量,共享场景下请填 1 |
baidu.com/v100_32g_cgpu_core | int64 | 1% | GPU 卡算力,eg.100=单卡总算力 10=单卡算力的十分之一 |
baidu.com/v100_32g_cgpu_memory | int64 | GiB | GPU 卡显存 |
资源申请
单卡独占示例
resources:
requests:
baidu.com/v100_32g_cgpu: 1 // 1卡
cpu: "4"
memory: 60Gi
limits:
baidu.com/v100_32g_cgpu: 1 // limit与request必须一致
cpu: "4"
memory: 60Gi
多卡独占示例:
resources:
requests:
baidu.com/v100_32g_cgpu: 2 // 2卡
cpu: "4"
memory: 60Gi
limits:
baidu.com/v100_32g_cgpu: 2 // limit与request必须一致
cpu: "4"
memory: 60Gi
单卡共享【不进行算力隔离,只有显存隔离】示例:
resources:
requests:
baidu.com/v100_32g_cgpu: 1 // 1卡
baidu.com/v100_32g_cgpu_memory: 10 // 10GB
cpu: "4"
memory: 60Gi
limits:
baidu.com/v100_32g_cgpu: 1 // limit与request必须一致
baidu.com/v100_32g_cgpu_memory: 10
cpu: "4"
memory: 60Gi
单卡共享【同时支持显存隔离和算力隔离】示例:
resources:
requests:
baidu.com/v100_32g_cgpu: 1 // 1卡
baidu.com/v100_32g_cgpu_core: 50 // 50%, 0.5卡算力
baidu.com/v100_32g_cgpu_memory: 10 // 10GB
cpu: "4"
memory: 60Gi
limits:
baidu.com/v100_32g_cgpu: 1 // limit与request必须一致
baidu.com/v100_32g_cgpu_core: 50 //
baidu.com/v100_32g_cgpu_memory: 10
cpu: "4"
memory: 60Gi