上云无忧 > 文档中心 > 天翼云弹性高性能计算集群节点管理教程
弹性高性能计算
天翼云弹性高性能计算集群节点管理教程

文档简介:
弹性高性能计算E-HPC的管理控制台提供了E-HPC集群节点相关的节点查询、重启、重置、删除、停机等功能,以及调度器管理功能,如节点队列创建、迁移、删除。 前提条件: 若您尚未拥有E-HPC集群,请先创建E-HPC集群。 节点管理的具体操作步骤如下:
*产品来源:中国电信天翼云。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

节点管理


弹性高性能计算E-HPC的管理控制台提供了E-HPC集群节点相关的节点查询、重启、重置、删除、停机等功能,以及调度器管理功能,如节点队列创建、迁移、删除。

前提条件:

若您尚未拥有E-HPC集群,请先创建E-HPC集群。

节点管理的具体操作步骤如下:

1) 登录天翼云控制中心;

2) 在产品列表中选择“弹性高性能计算E-HPC”;

3) 进⼊E-HPC管理控制台,点选左侧栏的节点标签,进⼊如下界面:

 

4) 点击集群选择框旁边的下拉菜单,根据集群名称可选择节点所在的集群。

5) 在节点类型按钮旁边的下拉框选择节点类型(管控节点、登录节点、计算节点)。

a) 管控节点:调度软件的master节点。主要作用是运行调度器master服务,处理作业提交、管理调度等。

b) 计算节点:运行高性能计算作业的服务器,其配置决定了E-HPC集群总体性能。

c) 登录节点:E-HPC集群普通用户能够操作的唯⼀节点类型。用户可在登录节点上进行软件调试、编译和安装,作业提交等操作。

6) 完成以上节点所在集群以及节点类型选择后,用户可从节点信息表中找到需要调整的节点,点击节点ID进入节点的详情页。或者在右侧操作栏点击“启用”、“关闭”、“重启”或“重置”、“监控”或“删除”按钮,进行启用或关闭、重启节点、重置节点、删除节点等等操作;对于多个节点,可进行批量删除、续费的操作。

1、重启节点

点击重启按钮,在弹出界面确认是否重启节点。重启是指向节点上运⾏的操作系统(如CentOS)远程发送重启指令,由操作系统完成终止进程,系统重启等操作。相当于物理机按下Ctrl+Alt+Del触发的重启。

注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重启操作。当节点重启无法修复故障时可尝试重置节点。

 

2、重置节点

重置操作仅对计算节点生效。点击重置按钮,在确认弹窗中确认重置操作。重置节点代表:

1) 把当前节点恢复到刚创建ECS实例云服务器的初始状态。

2) 加入E-HPC集群。

注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重置操作。重置节点会导致整个集群重启,正在执行的任务信息可能会丢失,请谨慎操作。

 


3、删除节点

注意:仅按需计费的计算节点可从集群移除,管控节点和登录节点不可删除。且删除计算节点是目前集群缩容的唯⼀途径。若需增加计算节点,请参考集群扩容。

  • 单个节点删除:选择待删除的按需计费的计算节点,点击删除节点按钮,确认后节点将释放。

  • 批量节点删除:勾选需要删除的计算节点,点击界面上方批量删除按钮,确认后选中节点将被全部释放。

 

4、节点关闭和启用

已启用的节点指该计算节点可以用于运行计算任务,未启用的节点指该计算节点不能用于运行计算任务。仅计算节点可进行关闭和启用操作,管控节点和登录节点不可关闭和启用。

  • 节点关闭:选择要关闭的节点,然后点击关闭按钮(节点处在已启用状态,否则不可关闭),确认后选中的节点将被关闭,该节点的“启用状态”变为“未启用”。

  • 节点启用:选择要启用的节点,然后点击启用按钮(说明:节点已处在未启用状态,否则不可启用),确认后选中的节点将被启用,该节点的“启用状态”变为“已启用”。

 

相似文档
  • 弹性高性能计算E-HPC的管理控制台提供了E-HPC集群用户相关的新增用户、修改用户权限、重置用户密码和删除用户等功能。 1、创建用户 1) 登录天翼云控制中心; 2) 在产品列表中选择“弹性高性能计算E-HPC”; 3) 点选左侧栏的用户标签,进入用户列表页。
  • 弹性高性能计算E-HPC的管理控制台提供了作业相关的创建作业、挂起作业、恢复作业、查看作业状态等功能,用户可通过作业管理功能快速创建作业。 1) 登录天翼云控制中心; 2) 在产品列表中选择“弹性高性能计算E-HPC”; 3) 点击左侧“作业”,进入作业列表。并选择某个集群。
  • 注意:不支持使用root帐号进行任何作业提交,提交作业前请切换到普通用户。 您需要先通过ssh客户端远程登录到集群。使用bsub命令提交要批量执行的作业并为其分配唯一的数字作业ID。当满足作业、主机、队列和群集上的所有条件时,在满足作业所有要求的主机上运行作业。如果调度软件不能立即运行所有作业,调度软件的调度策略将确定分派顺序。作业将根据当前系统负载启动和挂起。
  • 1) 在E-HPC控制台点击左侧“作业”,进入作业列表。并选择某个集群。 上图,显示该集群中已完成、未完成、错误、挂起等状态的作业列表。 2) 点击作业名称,打开作业详情。可查看作业的基础信息,以及资源数据。
  • 处于“未完成”的作业可以挂起,挂起作业表示暂停执行作业。点击作业列表页右侧的“挂起”即可。 处于“挂起”状态的作业可以恢复,恢复作业表示作业将被继续执行。点击作业列表页右侧的“挂起”即可。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部