上云无忧 > 文档中心 > 如何购买腾讯云高性能计算集群实例?
高性能计算集群
如何购买腾讯云高性能计算集群实例?

文档简介:
高性能计算集群以高性能云服务器为节点,通过 RDMA(Remote Direct Memory Access)互联,提供了高带宽和极低延迟的网络服务,大幅提升网络性能,能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠
高性能计算集群以高性能云服务器为节点,通过 RDMA(Remote Direct Memory Access)互联,提供了高带宽和极低延迟的网络服务,大幅提升网络性能,能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。

购买须知

高性能计算集群实例与云服务器 购买页控制台 相同,您可前往云服务器购买页按需选购。您也可参见 自定义配置 Linux 云服务器,了解更多配置信息。
在购买腾讯云高性能计算集群实例前,请确保已了解 高性能计算集群,且已了解 实例规格计费模式
确保了解所选高性能计算实例所在地域,可售卖地域信息请参见 实例售卖地域

购买步骤

本文实例类型以标准型 HCCS5为例,指导您快速购买一台高性能计算集群实例:

步骤1:创建高性能计算集群

说明:
若您未购买过高性能计算实例,请参见本步骤创建高性能计算集群。若您已具备高性能计算实例,请您按需选择是否创建。
同集群下的实例 RDMA 网络相互连通,跨集群的实例 RDMA 网络相互隔离。
1. 登录 云服务器控制台,选择左侧导航栏中的高性能计算集群。
2. 高性能计算集群页面上方,选择地域,并单击新建。本文地域以选择上海为例,标准型 HCCS5 实例可售卖地域请参见 实例售卖地域
3. 在弹出的创建集群窗口中,按需选择可用区、输入集群名及描述,如下图所示:

4. 单击确定即可创建集群。

步骤2:进入购买页面

您可通过以下两种方式,进入购买页面开始选购实例:
选择左侧导航栏中的 实例,进入实例页面后单击新建
高性能计算集群页面中,单击集群所在行右侧的扩容。如下图所示:

步骤3:选择计费模式、网络、地域与机型

进入购买页后,选择计费模式、网络、地域及机型。本文配置以上海五区标准型 HCCS5为例,请您以购买页实际信息为准:
计费模式包年包月按量计费。详情请参见 计费模式
地域及可用区:可选择可用区以实例购买页为准,详情请参见 实例售卖地域
实例:本文以选择标准型 HCCS5为例,您可按需选择。

步骤4:选择镜像及高性能计算集群

1. 按需选择实例镜像。高性能计算实例支持四种镜像类型:公共镜像、自定义镜像、共享镜像及镜像市场部分经过兼容性验证的镜像。详情请参见 镜像概述。若您有特殊的镜像需求,请通过 在线客服 联系我们。
2. 按需选择加入的高性能计算集群,如下图所示:

注意:
GPU 型高性能计算实例必须具备相应的 GPU 驱动才能正常运行。您可通过以下2种方式安装相应驱动:
若选择公共镜像,部分实例支持勾选“后台自动安装 GPU 驱动”即可预装相应版本驱动,建议您选择该方式。该方式仅支持部分 Linux 公共镜像。
若选择公共镜像,则可在 GPU 型实例创建成功后,参见 安装 NVIDIA 驱动指引 手动安装相应驱动。

步骤5:选择存储

1. 选择高性能计算实例的存储。如下图所示:

主要参数信息如下:
系统盘及数据盘:类型和大小均可灵活选择(本地系统盘实例不支持调整存储容量)。
2. 设置完成后单击下一步:设置网络和主机

步骤6:设置网络、安全组与主机

1. 选择高性能计算实例的网络与带宽。如下图所示:

网络:选择现有私有网络或创建新私有网络。
公网 IP:若您的实例需外网访问能力,则需勾选,创建后即为实例分配公网 IP。
带宽计费模式:公网带宽,按固定带宽计费或按使用流量计费。
按带宽计费:选择固定带宽,超过本带宽时将丢包(适合网络波动较小的场景)。
按使用流量计费:按实际使用流量收费。可限制峰值带宽,当瞬时带宽超过限制值时将丢包(适合网络波动较大的场景)。
带宽值:实例公网带宽上限,请按需设置。
IPv6 地址:开通实例的 IPv6 地址。
2. 新建或选择已有安全组,控制端口的开放范围。如下图所示:

3. 设置高性能计算集群实例的登录密码或密钥。
4. 按需设置其他自定义配置。
5. 单击下一步:确认配置信息。

步骤7:确认配置信息

1. 请在确认配置信息步骤中核对以下内容。如下图所示:

确认实例规格、镜像选择、存储和公网配置选择以及安全组等配置项是否符合预期。
可选择或核对购买数量和购买时长。
相似文档
  • 操作场景: 高性能计算集群用于实现高性能计算实例的 RDMA 网络隔离管理。 同集群内,实例 RDMA 网络互联互通。 跨集群间,实例 RDMA 网络相互隔离。 在创建高性能计算实例前,您需要首先创建高性能计算集群。后续在创建实例时通过选择已有的高性能计算集群,可实现集群内节点高速计算网络互通。
  • 操作背景: HCCPNV4h 实例搭载了 A100 GPU 并支持 NvLink & NvSwitch,需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联。若您使用该实例,请参考本文安装 nvidia-fabricmanager 服务,否则可能无法正常使用 GPU 实例。
  • TCCL简介: TCCL(Tencent Collective Communication Library)是一款针对腾讯云星脉网络架构的高性能定制加速通信库。主要功能是依托星脉网络硬件架构,为 AI 大模型训练提供更高效的网络通信性能,同时具备网络故障快速感知与自愈的智能运维能力。
  • 功能简介: 高性能计算集群具备在 RDMA 网络环境下实现毫秒级监控的能力,这使得您能够实时监测和分析瞬时的网络数据,帮助您深入分析网络流量模式,进行网络优化和性能提升,为业务提供有力支持。
  • 背景信息: 在当前人工智能趋势下,自然语言模型越大则提供的准确性越高。但由于成本、时间及代码无优化集成等问题,导致较大的模型难以训练。目前 GPT-3 的模型参数已经达到175B,模型参数的增长速度远超 GPU 显存的增长速度,数据并行和模型并行等传统优化方法在超大模型和过千亿参数面前也显现出了诸多瓶颈。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部