腾讯云容器服务 TKE 标准集群 - 使用 GPU 节点
文档简介:
操作场景:
如果您的业务需要进行深度学习、高性能计算等场景,您可以使用腾讯云容器服务支持 GPU 功能,通过该功能可以帮助您快速使用 GPU 容器。
创建 GPU 云服务器有以下多种方式:
新建 GPU 云服务器、
添加已有 GPU 云服务器、
新建 GPU 节点池。
操作场景
如果您的业务需要进行深度学习、高性能计算等场景,您可以使用腾讯云容器服务支持 GPU 功能,通过该功能可以帮助您快速使用 GPU 容器。
创建 GPU 云服务器有以下多种方式:
新建 GPU 云服务器
添加已有 GPU 云服务器
新建 GPU 节点池
使用限制
添加的节点需要选择 GPU 机型,可根据需求选择自动安装 GPU 驱动,详情可参见 新建 GPU 云服务器。
TKE 仅在集群 kubernetes 版本大于1.8.*时支持使用 GPU 调度。
默认情况下,容器之间不共享 GPU,每个容器可以请求一个或多个 GPU。无法请求 GPU 的一小部分。
当前独立集群的 Master 节点暂不支持设置为 GPU 机型。
操作步骤
新建 GPU 云服务器
具体操作请参考 新增节点。创建 GPU 机器过程中,请特别关注以下 GPU 的特殊参数:
机型
在 “选择机型” 页面,将 “Node机型” 中的 “机型” 设置为 GPU 机型。
GPU驱动、CUDA版本、CUDNN版本
设置机型后, 可以根据需求选择 GPU 驱动的版本、CUDA 版本、CUDNN 版本。如下图所示:


说明:
勾选“后台自动安装GPU驱动”,将在系统启动时进行自动安装,预计耗时15-25分钟。
支持的驱动版本由 OS 以及 GPU 机型共同决定,详情请参见 各实例支持的 GPU 驱动版本及安装方式。
如果您未勾选“后台自动安装GPU驱动”,为了保证 GPU 机型的正常使用,针对某些低版本 OS,将会为您默认安装 GPU 驱动,完整的默认驱动版本信息可参考下表:
OS名称
|
默认安装驱动版本
|
CentOS 7.6、Ubuntu 18、Tencent Linux2.4
|
450
|
Centos 7.2(不推荐)
|
384.111
|
Ubuntu 16(不推荐)
|
410.79
|
MIG
开启 MIG(Multi-Instance GPU)特性后,一颗 A100 GPU 将被划分为七个独立的 GPU 实例,帮助您在多个作业并行的场景下提高 GPU 利用率,详情可参见 NVIDIA 官网指南。
注意:
使用 MIG 功能,必须满足如下限制:
GPU 机型为 GT4。
在控制台上勾选了 “后台自动安装GPU驱动” 并且配置了 GPU 版本,CUDA 版本和 CUDNN 版本。
添加已有 GPU 云服务器
具体操作请参考 添加已有节点。添加过程中,请注意以下两点:
在 “选择节点” 页面,勾选已有的 GPU 节点。如下图所示:

