上云无忧 > 文档中心 > 腾讯云高性能计算集群 - 管理集群
高性能计算集群
腾讯云高性能计算集群 - 管理集群

文档简介:
操作场景: 高性能计算集群用于实现高性能计算实例的 RDMA 网络隔离管理。 同集群内,实例 RDMA 网络互联互通。 跨集群间,实例 RDMA 网络相互隔离。 在创建高性能计算实例前,您需要首先创建高性能计算集群。后续在创建实例时通过选择已有的高性能计算集群,可实现集群内节点高速计算网络互通。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

操作场景

高性能计算集群用于实现高性能计算实例的 RDMA 网络隔离管理。
同集群内,实例 RDMA 网络互联互通。
跨集群间,实例 RDMA 网络相互隔离。
在创建高性能计算实例前,您需要首先创建高性能计算集群。后续在创建实例时通过选择已有的高性能计算集群,可实现集群内节点高速计算网络互通。
本文介绍高性能计算集群常见的相关操作,例如对集群的创建、修改、扩容、删除等,以下是具体操作步骤:

创建高性能计算集群

1. 登录 云服务器控制台,选择左侧导航栏中的高性能计算集群。
2. 高性能计算集群列表页面中,按需选择地域
3. 单击新建

4. 在弹出的创建集群窗口中,选择填写可用区集群名称集群描述信息。

5. 确认信息无误后,单击确定按钮,等待集群创建完成。

修改高性能计算集群信息

1. 登录 云服务器控制台,选择左侧导航栏中的高性能计算集群
2. 高性能计算集群页面,选择需要修改的集群名称或描述右侧的

,如下图所示。

3. 在弹出的修改名称修改描述窗口中,输入新的集群名称和集群描述,单击确定,完成操作。

扩容高性能计算集群

1. 登录 云服务器控制台,选择左侧导航栏中的高性能计算集群
2. 高性能计算集群页面,选择需要扩容的集群单击扩容,进入实例购买页

3. 参见 购买高性能计算实例 完成扩容操作。

删除高性能计算集群

说明:
若高性能计算集群已部署实例,则该集群无法删除。需销毁集群内全部实例后,才可删除集群。
1. 登录 云服务器控制台,选择左侧导航栏中的高性能计算集群。
2. 高性能计算集群页面,按需勾选一个或多个集群后,单击删除。

3. 在弹出的窗口中确认信息,单击确定,完成操作。
相似文档
  • 操作背景: HCCPNV4h 实例搭载了 A100 GPU 并支持 NvLink & NvSwitch,需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联。若您使用该实例,请参考本文安装 nvidia-fabricmanager 服务,否则可能无法正常使用 GPU 实例。
  • TCCL简介: TCCL(Tencent Collective Communication Library)是一款针对腾讯云星脉网络架构的高性能定制加速通信库。主要功能是依托星脉网络硬件架构,为 AI 大模型训练提供更高效的网络通信性能,同时具备网络故障快速感知与自愈的智能运维能力。
  • 功能简介: 高性能计算集群具备在 RDMA 网络环境下实现毫秒级监控的能力,这使得您能够实时监测和分析瞬时的网络数据,帮助您深入分析网络流量模式,进行网络优化和性能提升,为业务提供有力支持。
  • 背景信息: 在当前人工智能趋势下,自然语言模型越大则提供的准确性越高。但由于成本、时间及代码无优化集成等问题,导致较大的模型难以训练。目前 GPT-3 的模型参数已经达到175B,模型参数的增长速度远超 GPU 显存的增长速度,数据并行和模型并行等传统优化方法在超大模型和过千亿参数面前也显现出了诸多瓶颈。
  • 本文介绍在裸金属云服务器 HCCG5v 实例上训练 TI-Deepspeed 大模型的具体步骤。 示例操作环境: 本文中 TI-Deepspeed 大模型训练操作环境说明如下: 硬件平台:8台 HCCG5v 实例高性能计算集群、 操作系统版本:CentOS 7.6、 GPU 驱动版本:418.67、 CUDA 版本:10.1、 文件存储 CFS:创建文件系统及挂载点。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部