上云无忧 > 文档中心 > 腾讯云容器服务 TKE 标准集群 - 使用 qGPU 离在线混部
容器服务 TKE
腾讯云容器服务 TKE 标准集群 - 使用 qGPU 离在线混部

文档简介:
本文介绍如何使用 qGPU 离在线混部能力。 步骤1:前置准备。 1. 在使用 qGPU 及 qGPU 在离线混部之前,您需要拥有一个集群。若您没有集群,请参见 创建 TKE 集群。 2. 依次执行使用 qGPU 的 步骤1:安装 qGPU 调度组件、步骤2:开启集群 qGPU 共享 和 步骤3:准备 GPU 资源。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

步骤1:前置准备

1. 在使用 qGPU 及 qGPU 在离线混部之前,您需要拥有一个集群。若您没有集群,请参见 创建 TKE 集群
2. 依次执行使用 qGPU 的 步骤1:安装 qGPU 调度组件步骤2:开启集群 qGPU 共享步骤3:准备 GPU 资源

步骤2:重建组件

注意:
请确保完成下方重建动作后再调度应用到节点上,否则离在线混部功能无法正常工作。
如果您是先创建好了工作负载再创建节点,建议您在创建节点池时勾选封锁节点,完成下方重建步骤后再解除封锁,避免在重建过程中调度应用到节点上。
1. 节点创建完成后,需要重建节点上的 qgpu-manager 的 Pod 以及 qgpu-scheduler Pod 以使配置生效,命令如下:
		
$ kubectl delete pod qgpu-manager-6mcrk -n kube-system
$ kubectl delete po -n kube-system -l app=qgpu-scheduler
2. 查看节点是否有 qGPU 低优算力资源,执行 kubectl describe node命令,检查是否有如下资源:

步骤3:配置业务

离线 Pod
在线 Pod
普通 Pod
通过tke.cloud.tencent.com/app-class: offline标识是一个离线 Pod,通过tke.cloud.tencent.com/qgpu-core-greedy申请离线算力,需要注意的是,离线 Pod 不支持多卡,需要同时设置低优算力与显存:
低优算力:tke.cloud.tencent.com/qgpu-core-greedy,单位为百分比
显存:tke.cloud.tencent.com/qgpu-memory,单位为 GB
				
apiVersion: v1
kind: Pod
annotations:
tke.cloud.tencent.com/app-class: offline # 低优标识
spec:
containers:
- name: offline-container
resources:
requests:
tke.cloud.tencent.com/qgpu-core-greedy: xx # 离线算力
tke.cloud.tencent.com/qgpu-memory: xx
相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部