腾讯云高性能计算集群 - GPU 型实例安装 nvidia-fabricmanager 服务

高性能计算集群

简介/价格/文档

腾讯云高性能计算集群 - GPU 型实例安装 nvidia-fabricmanager 服务

文档简介：

操作背景： HCCPNV4h 实例搭载了 A100 GPU 并支持 NvLink & NvSwitch，需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联。若您使用该实例，请参考本文安装 nvidia-fabricmanager 服务，否则可能无法正常使用 GPU 实例。

*此产品及展示信息均由腾讯云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

操作背景

HCCPNV4h 实例搭载了 A100 GPU 并支持 NvLink & NvSwitch，需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联。若您使用该实例，请参考本文安装 nvidia-fabricmanager 服务，否则可能无法正常使用 GPU 实例。

操作步骤

本文以驱动版本 470.103.01 为例，您可参考以下步骤进行安装，可根据实际情况需要替换version 后的驱动版本

安装 nvidia-fabricmanager 服务

1. 登录实例，详情请参见使用标准登录方式登录 Linux 实例。

2. 不同操作系统版本安装方法不同，请您参考以下方式，执行对应命令进行安装。

CentOS 7.x 镜像

Ubuntu 18.04 镜像

TencentOS 2.4 镜像

						
					version=470.103.01
				
					yum -y install yum-utils
				
					yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
				
					yum install -y nvidia-fabric-manager-${version}-1

						
					version=470.103.01
				
					main_version=$(echo $version | awk -F '.' '{print $1}')
				
					apt-get updateapt
				
					get -y install nvidia-fabricmanager-${main_version}=${version}-*

						
					version=470.103.01
				
					yum -y install yum-utils
				
					yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
				
					yum install -y nvidia-fabric-manager-${version}-1

启动 nvidia-fabricmanager 服务

依次执行以下命令，启动服务。

		
			systemctl enable nvidia-fabricmanager

		
			systemctl start nvidia-fabricmanager

查看 nvidia-fabricmanager 服务状态

执行以下命令，查看服务状态。

		
			systemctl status nvidia-fabricmanager

若输出信息如下，则表示服务安装成功。

相似文档

腾讯云高性能计算集群 - GPU 型实例安装 TCCL 说明
TCCL简介： TCCL（Tencent Collective Communication Library）是一款针对腾讯云星脉网络架构的高性能定制加速通信库。主要功能是依托星脉网络硬件架构，为 AI 大模型训练提供更高效的网络通信性能，同时具备网络故障快速感知与自愈的智能运维能力。
腾讯云高性能计算集群 - GPU 型实例安装 RDMA 毫秒级监控组件
功能简介：高性能计算集群具备在 RDMA 网络环境下实现毫秒级监控的能力，这使得您能够实时监测和分析瞬时的网络数据，帮助您深入分析网络流量模式，进行网络优化和性能提升，为业务提供有力支持。
腾讯云高性能计算集群 - TI-Deepspeed NLP 大模型训练概述
背景信息: 在当前人工智能趋势下，自然语言模型越大则提供的准确性越高。但由于成本、时间及代码无优化集成等问题，导致较大的模型难以训练。目前 GPT-3 的模型参数已经达到175B，模型参数的增长速度远超 GPU 显存的增长速度，数据并行和模型并行等传统优化方法在超大模型和过千亿参数面前也显现出了诸多瓶颈。
腾讯云高性能计算集群 - TI-Deepspeed NLP 大模型训练部署及实践
本文介绍在裸金属云服务器 HCCG5v 实例上训练 TI-Deepspeed 大模型的具体步骤。示例操作环境：本文中 TI-Deepspeed 大模型训练操作环境说明如下：硬件平台：8台 HCCG5v 实例高性能计算集群、操作系统版本：CentOS 7.6、 GPU 驱动版本：418.67、 CUDA 版本：10.1、文件存储 CFS：创建文件系统及挂载点。
腾讯云高性能计算集群常见问题QA
Q:什么是高性能计算集群？ A：高性能计算集群（Tencent Hyper Computing Cluster，THCC）以高性能云服务器为节点，通过 RDMA（Remote Direct Memory Access）互联，提供了高带宽和极低延迟的网络服务，大幅提升网络性能，能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

操作背景

操作步骤

安装 nvidia-fabricmanager 服务

启动 nvidia-fabricmanager 服务

查看 nvidia-fabricmanager 服务状态