腾讯云高性能计算平台 THPC - 使用自定义镜像加速扩容
文档简介:
背景说明:
默认情况下,THPC 基于公共镜像进行扩容计算节点所需时间大概在3分钟到5分钟。如果您运行的任务对于扩容时间比较敏感,可以在扩容时选择预装 THPC 所需依赖包的自定义镜像,来加快 THPC 计算节点的扩容。
背景说明
默认情况下,THPC 基于公共镜像进行扩容计算节点所需时间大概在3分钟到5分钟。如果您运行的任务对于扩容时间比较敏感,可以在扩容时选择预装 THPC 所需依赖包的自定义镜像,来加快 THPC 计算节点的扩容。
注意:
后续 THPC 对于集群依赖软件进行升级,可能导致通过自定义镜像加速扩容的节点无法兼容,新特性无法使用等问题。
由于会跳过软件安装,如果自定义镜像中不存在相关依赖包,而集群操作会跳过安装,导致通过此自定义镜像创建的节点操作失败。
操作步骤
步骤一:创建集群
通过 创建集群 接口创建您所需的集群,通过 查询集群列表 接口查询到集群为 RUNNING 状态后,节点上已经安装上了 THPC 所需的安装包。
您需要创建至少一台计算节点,为自定义镜像制作做环境准备。管控节点制作的自定义镜像不能用于计算节点的扩容。
步骤二:制作自定义镜像前准备
登录集群中的计算节点:
1. 创建 thpc_preinstalled.json 文件(必选)
在创建自定义镜像前,需要在 /root/目录下生成 thpc_preinstalled.json 文件。THPC 判断此文件存在,则会跳过扩容过程中所有的安装流程。
touch /root/thpc_preinstalled.json
2. 清理存储选项开机自挂载(建议)
THPC 在挂载存储选项流程中,会给计算节点注册上开机自挂载,如果该自定义镜像需要用于其他 THPC 集群使用,开机自挂载会导致此节点能够访问到预期之外的数据。
说明:
对于 CFS,开机自挂载信息在 /etc/fstab 文件中进行定义。文件中每条信息遵循格式:<file system> <mount point> <type> <options> <dump> <pass>。可以根据 mount point,本地挂载点来判断挂载的 CFS。建议将 /etc/fstab 中所有挂载的 CFS 信息进行删除。如果该自定义镜像需要用于其他 THPC 集群使用,强烈建议进行此步骤。
3. 清理集群免密信息(建议)
THPC 在初始化节点流程中,会为集群中所有节点配置 SSH 免密,如果该自定义镜像需要用于其他 THPC 集群,免密信息会导致其他集群的节点能够免密登录此集群的节点。您需要将 /root/.ssh/目录下所有的文件删除。
步骤三:安装软件到自定义镜像中(建议)
客户所需要的软件,可以提前安装到此计算节点上,后续据此计算节点制作的自定义镜像扩容的计算节点都会存在软件,不需要再进行安装。建议安装的软件包括 GPU 驱动、作业所需的运行环境等。
步骤四:制作自定义镜像(必选)
在 CVM 控制台,找到执行完上述步骤的计算节点实例,选择更多 > 制作镜像。

填写镜像名称,单击制作镜像。

等待大概5分钟左右,在自定义镜像界面可以找到对应自定义镜像信息。

当镜像状态为正常状态,即可将对应镜像的 image-id 用到手动扩容或者自动扩容