腾讯云高性能计算集群 - GPU 型实例安装 nvidia-fabricmanager 服务
文档简介:
操作背景:
HCCPNV4h 实例搭载了 A100 GPU 并支持 NvLink & NvSwitch,需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联。若您使用该实例,请参考本文安装 nvidia-fabricmanager 服务,否则可能无法正常使用 GPU 实例。
操作背景
HCCPNV4h 实例搭载了 A100 GPU 并支持 NvLink & NvSwitch,需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联。若您使用该实例,请参考本文安装 nvidia-fabricmanager 服务,否则可能无法正常使用 GPU 实例。
操作步骤
本文以驱动版本 470.103.01 为例,您可参考以下步骤进行安装,可根据实际情况需要替换version 后的驱动版本
安装 nvidia-fabricmanager 服务
1. 登录实例,详情请参见 使用标准登录方式登录 Linux 实例。
2. 不同操作系统版本安装方法不同,请您参考以下方式,执行对应命令进行安装。
version=470.103.01yum -y install yum-utilsyum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repoyum install -y nvidia-fabric-manager-${version}-1
version=470.103.01main_version=$(echo $version | awk -F '.' '{print $1}')apt-get updateaptget -y install nvidia-fabricmanager-${main_version}=${version}-*
version=470.103.01yum -y install yum-utilsyum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repoyum install -y nvidia-fabric-manager-${version}-1
启动 nvidia-fabricmanager 服务
依次执行以下命令,启动服务。
systemctl enable nvidia-fabricmanager
systemctl start nvidia-fabricmanager
查看 nvidia-fabricmanager 服务状态
执行以下命令,查看服务状态。
systemctl status nvidia-fabricmanager
若输出信息如下,则表示服务安装成功。
