上云无忧 > 文档中心 > 腾讯云高性能计算平台 THPC - 使用自定义镜像加速扩容
高性能计算平台 THPC
腾讯云高性能计算平台 THPC - 使用自定义镜像加速扩容

文档简介:
背景说明: 默认情况下,THPC 基于公共镜像进行扩容计算节点所需时间大概在3分钟到5分钟。如果您运行的任务对于扩容时间比较敏感,可以在扩容时选择预装 THPC 所需依赖包的自定义镜像,来加快 THPC 计算节点的扩容。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

背景说明

默认情况下,THPC 基于公共镜像进行扩容计算节点所需时间大概在3分钟到5分钟。如果您运行的任务对于扩容时间比较敏感,可以在扩容时选择预装 THPC 所需依赖包的自定义镜像,来加快 THPC 计算节点的扩容。
注意:
后续 THPC 对于集群依赖软件进行升级,可能导致通过自定义镜像加速扩容的节点无法兼容,新特性无法使用等问题。
由于会跳过软件安装,如果自定义镜像中不存在相关依赖包,而集群操作会跳过安装,导致通过此自定义镜像创建的节点操作失败。

操作步骤

步骤一:创建集群

通过 创建集群 接口创建您所需的集群,通过 查询集群列表 接口查询到集群为 RUNNING 状态后,节点上已经安装上了 THPC 所需的安装包。
您需要创建至少一台计算节点,为自定义镜像制作做环境准备。管控节点制作的自定义镜像不能用于计算节点的扩容。

步骤二:制作自定义镜像前准备

登录集群中的计算节点:
1. 创建 thpc_preinstalled.json 文件(必选)
在创建自定义镜像前,需要在 /root/目录下生成 thpc_preinstalled.json 文件。THPC 判断此文件存在,则会跳过扩容过程中所有的安装流程。
		
touch /root/thpc_preinstalled.json
2. 清理存储选项开机自挂载(建议)
THPC 在挂载存储选项流程中,会给计算节点注册上开机自挂载,如果该自定义镜像需要用于其他 THPC 集群使用,开机自挂载会导致此节点能够访问到预期之外的数据。
说明:
对于 CFS,开机自挂载信息在 /etc/fstab 文件中进行定义。文件中每条信息遵循格式:<file system> <mount point> <type> <options> <dump> <pass>。可以根据 mount point,本地挂载点来判断挂载的 CFS。建议将 /etc/fstab 中所有挂载的 CFS 信息进行删除。如果该自定义镜像需要用于其他 THPC 集群使用,强烈建议进行此步骤。
3. 清理集群免密信息(建议)
THPC 在初始化节点流程中,会为集群中所有节点配置 SSH 免密,如果该自定义镜像需要用于其他 THPC 集群,免密信息会导致其他集群的节点能够免密登录此集群的节点。您需要将 /root/.ssh/目录下所有的文件删除。

步骤三:安装软件到自定义镜像中(建议)

客户所需要的软件,可以提前安装到此计算节点上,后续据此计算节点制作的自定义镜像扩容的计算节点都会存在软件,不需要再进行安装。建议安装的软件包括 GPU 驱动、作业所需的运行环境等。

步骤四:制作自定义镜像(必选)

在 CVM 控制台,找到执行完上述步骤的计算节点实例,选择更多 > 制作镜像

填写镜像名称,单击制作镜像

等待大概5分钟左右,在自定义镜像界面可以找到对应自定义镜像信息。

当镜像状态为正常状态,即可将对应镜像的 image-id 用到手动扩容或者自动扩容
相似文档
  • 本文以使用 VASP 软件进行高性能计算介绍如何配置自动伸缩策略。 背景信息: 当您需要每天不定时提交作业,使用 THPC 集群几个小时进行大规模计算, 然后释放节点,您可以针对不同的作业类型,配置不同的伸缩策略。配置伸缩策略后,系统可以根据实时负载自动增加或减少计算节点。可以帮您合理利用资源,减少使用成本。
  • CONQUEST 是什么? CONQUEST 是一款基于局域轨道密度泛函理论的、能以出色的缩放比例进行大规模 并行计算 的第一性原理计算软件。它使用局部轨道来表示 Kohn-Sham 本征态或者密度矩阵。
  • Q:什么是高性能计算平台? A:高性能计算平台(TencentCloud High Performance Computing,THPC)是全新推出的资源调度管理产品,集成 IaaS 资源,提供弹性、可靠及高性能的计算服务。可以帮助您高效地管理云上高性能计算资源,实现弹性使用云上高性能计算资源的需求。
  • Q:在集群中添加的新用户,如何在节点间进行同步? A:创建集群的时候,指定参数:--AccountType NIS,NIS 的 server 端会安装在 manager 节点上,然后通过以下步骤可以进行 user 同步: 1. 在 manager 节点创建新用户。 2. 在 manager 节点,执行 make -C /var/yp 其他节点都可以感知到新添加的 user。
  • 高性能计算集群(Tencent Hyper Computing Cluster,THCC)以裸金属云服务器为节点,通过 RDMA(Remote Direct Memory Access)互联,提供了高带宽和极低延迟的网络服务,大幅提升网络性能,能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部