腾讯云高性能计算平台 THPC - 自动伸缩最佳实践

高性能计算平台 THPC

简介/价格/文档

腾讯云高性能计算平台 THPC - 自动伸缩最佳实践

文档简介：

本文以使用 VASP 软件进行高性能计算介绍如何配置自动伸缩策略。背景信息：当您需要每天不定时提交作业，使用 THPC 集群几个小时进行大规模计算，然后释放节点，您可以针对不同的作业类型，配置不同的伸缩策略。配置伸缩策略后，系统可以根据实时负载自动增加或减少计算节点。可以帮您合理利用资源，减少使用成本。

*此产品及展示信息均由腾讯云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

本文以使用 VASP 软件进行高性能计算介绍如何配置自动伸缩策略。

背景信息

当您需要每天不定时提交作业，使用 THPC 集群几个小时进行大规模计算，然后释放节点，您可以针对不同的作业类型，配置不同的伸缩策略。配置伸缩策略后，系统可以根据实时负载自动增加或减少计算节点。可以帮您合理利用资源，减少使用成本。

前置条件

请依照准备工作中的指引获取 SecretId 和 SecretKey，并完成服务角色授权。

操作步骤

1. 安装最新版本的 TCCLI 命令工具，并进行初始化配置请参见 THPC 地域列表。

2. 使用 CreateCluster 接口创建一个有 1 个管控节点 0 个计算节点的 THPC 集群。

注意

需要把 AutoScalingType 设置为 THPC_AS，调用后续步骤的 SetAutoScalingConfiguration 接口才会生效。

Placement 为 TCCLI Region 地域对应可用区。

VirtualPrivateCloud 设置需要是集群同可用区的 VPC ID，子网 ID。

管控节点登录密码设置请参见 LoginSettings。

支持的基础镜像版本请参见镜像支持，或者可以基于基础镜像版本创建自定义镜像，传入自定义镜像 ID。

集群创建时如果您不指定挂载目录，将自动为您在 /opt 目录下创建并挂载 CFS，所有节点共享这一目录，您可以在这个目录下安装您业务需要的软件，本文默认您已在 /opt 目录下安装编译完成依赖的 Intel oneAPI 和 VASP 软件。

执行命令：

		
			tccli thpc CreateCluster --cli-input-json file://./test.json

test.json 文件参数配置可参见：

				
			{
		
			 "Placement": {
		
			 "Zone": "ap-chongqing-1"
		
			 },
		
			 "ManagerNodeCount": 1,
		
			 "ManagerNode": {
		
			 "InternetAccessible": {
		
			 "InternetMaxBandwidthOut": 10
		
			 },
		
			 "InstanceName": "ThpcTestSlurmManagerNode",
		
			 "InstanceType": "S5.MEDIUM4"
		
			 },
		
			 "SchedulerType": "SLURM",
		
			 "LoginSettings": {
		
			 "Password": "xxxxxxxx"
		
			 },
		
			 "ImageId": "img-l8og963d",
		
			 "VirtualPrivateCloud": {
		
			 "VpcId": "vpc-r9jw2jzv",
		
			 "SubnetId": "subnet-0v4eybey"
		
			 },
		
			 "AutoScalingType": "THPC_AS"
		
			}

提交请求并执行完毕后，您需要记录 ClusterId：

使用 ClusterId 查询集群状态：

		
			tccli thpc DescribeClusters --ClusterIds '["hpc-xxxxxxxx"]'

返回结果，其中：

ClusterStatus 为 RUNNING 状态表示集群创建完成，可以开始使用。

ClusterStatus 为 INITING 状态表示集群正在初始化中，需要等待直到为 RUNNING或者 INIT_FAILED 状态之一。

ClusterStatus 为 INIT_FAILED 状态表示集群创建失败，您可以使用 API Explorer 查看集群活动查看详细集群状态信息。

3. 使用 SetAutoScalingConfiguration 接口开启 THPC AS 功能。

				
			tccli thpc SetAutoScalingConfiguration --cli-input-json file://./SetAutoScalingConfiguration.json

				
			{
		
			 "ClusterId": "hpc-xxxxxxxx", 
		
			 "ExpansionBusyTime": 120, 
		
			 "ShrinkIdleTime": 120, 
		
			 "QueueConfigs": [{
		
			 "QueueName": "compute", 
		
			 "MinSize": 1, 
		
			 "MaxSize": 5, 
		
			 "EnableAutoExpansion": true, 
		
			 "EnableAutoShrink": true, 
		
			 "ExpansionNodeConfigs": [{
		
			 "Placement": {
		
			 "Zone": "ap-chongqing-1"
		
			 },
		
			 "VirtualPrivateCloud": {
		
			 "VpcId": "vpc-r9jw2jzv",
		
			 "SubnetId": "subnet-0v4eybey"
		
			 },
		
			 "InstanceType": "S6.4XLARGE32"
		
			 }, {
		
			 "Placement": {
		
			 "Zone": "ap-chongqing-1"
		
			 },
		
			 "VirtualPrivateCloud": {
		
			 "VpcId": "vpc-r9jw2jzv",
		
			 "SubnetId": "subnet-0v4eybey"
		
			 },
		
			 "InstanceType": "S6.2XLARGE32"
		
			 }]
		
			 }]
		
			}

以上 SetAutoScalingConfiguration.json 文件接口配置好集群自动扩缩容参数如下：

开启 Slurm 调度器 compute 队列的自动扩容能力，THPC 会根据扩容策略对连续等待超过120秒的作业进行自动扩容，并且弹性节点的最大值不超过5个。ExpansionBusyTime 参数取值最小值为120s。

开启 Slurm 调度器 compute 队列的自动缩容能力，THPC 会对连续空闲超过120s的节点进行自动缩容，并且弹性节点的最小值不小于1个。ShrinkIdleTime 取值最小值为0s。 compute 队列配置了两个扩容机型。

序号	机型	CPU
1	S6.4XLARGE32	16
2	S6.2XLARGE32	8

4. 登录管控节点提交 VASP 作业： submit.sh 脚本内容如下，脚本提交一个 vasp 作业，在一个节点上使用8个核运行：

				
			#!/bin/sh
		
			#SBATCH -p compute
		
			#SBATCH -o job.%j.out
		
			#SBATCH --nodes=2
		
			#SBATCH --ntasks-per-node=8
		
			#SBATCH -D /opt/graphene
		
			source /opt/intel/oneapi/setvars.sh
		
			/opt/intel/oneapi/mpi/2021.7.0/bin/mpirun -n 16 /opt/vasp.6.3.0/bin/vasp_std

提交作业前，集群没有任何节点存在：

提交作业：

		
			sbatch submit.sh

5. 集群扩容并执行作业，作业结束后缩容到0节点。提交作业之后，THPC 会根据扩容策略，扩容出最匹配的两个8核的 S6.2XLARGE32 实例。等待约4～8分钟后，节点加入集群并运行提交的作业。

说明

等待的时间主要包括作业连续等待时间 120 秒、创建实例的时间和节点创建完初始化并加入集群的时间。

任务执行完成之后,节点进入空闲（idle）状态：

等待2～3分钟之后，会进行自动缩容到最小节点数：

6. 使用完毕后，使用如下命令删除集群，关联的计算实例将会被销毁。 CFS 文件存储不会删除，如果您需要销毁，可前往 CFS 控制台。

		
			tccli thpc DeleteCluster --ClusterId hpc-xxxxxxxx

相似文档

腾讯云高性能计算平台 THPC 实践教程 - 第一性原理计算框架 CONQUEST 的安装与测试
CONQUEST 是什么？ CONQUEST 是一款基于局域轨道密度泛函理论的、能以出色的缩放比例进行大规模并行计算的第一性原理计算软件。它使用局部轨道来表示 Kohn-Sham 本征态或者密度矩阵。
腾讯云高性能计算平台 THPC 功能相关常见问题QA
Q：什么是高性能计算平台？ A：高性能计算平台（TencentCloud High Performance Computing，THPC）是全新推出的资源调度管理产品，集成 IaaS 资源，提供弹性、可靠及高性能的计算服务。可以帮助您高效地管理云上高性能计算资源，实现弹性使用云上高性能计算资源的需求。
腾讯云高性能计算平台 THPC 操作相关常见问题QA
Q：在集群中添加的新用户，如何在节点间进行同步？ A：创建集群的时候，指定参数：--AccountType NIS，NIS 的 server 端会安装在 manager 节点上，然后通过以下步骤可以进行 user 同步： 1. 在 manager 节点创建新用户。 2. 在 manager 节点，执行 make -C /var/yp 其他节点都可以感知到新添加的 user。
什么是腾讯云高性能计算集群？
高性能计算集群（Tencent Hyper Computing Cluster，THCC）以裸金属云服务器为节点，通过 RDMA（Remote Direct Memory Access）互联，提供了高带宽和极低延迟的网络服务，大幅提升网络性能，能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。
腾讯云高性能计算集群 - 产品动态
2023年8月：HCCPNV5 新机型发布，H800 GPU 型高性能计算集群实例上线邀测，搭配 3.2 Tbps 全新星脉网络，性能强大。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

背景信息

前置条件

操作步骤