上云无忧 > 文档中心 > 天翼云弹性高性能计算集群命令行提交作业教程
弹性高性能计算
天翼云弹性高性能计算集群命令行提交作业教程

文档简介:
注意:不支持使用root帐号进行任何作业提交,提交作业前请切换到普通用户。 您需要先通过ssh客户端远程登录到集群。使用bsub命令提交要批量执行的作业并为其分配唯一的数字作业ID。当满足作业、主机、队列和群集上的所有条件时,在满足作业所有要求的主机上运行作业。如果调度软件不能立即运行所有作业,调度软件的调度策略将确定分派顺序。作业将根据当前系统负载启动和挂起。
*产品来源:中国电信天翼云。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

命令行提交作业


注意:不支持使用root帐号进行任何作业提交,提交作业前请切换到普通用户。

您需要先通过ssh客户端远程登录到集群。使用bsub命令提交要批量执行的作业并为其分配唯一的数字作业ID。当满足作业、主机、队列和群集上的所有条件时,在满足作业所有要求的主机上运行作业。如果调度软件不能立即运行所有作业,调度软件的调度策略将确定分派顺序。作业将根据当前系统负载启动和挂起。

bsub的基础用法:

-r 当作业所在的计算节点出现故障,自动在另一节点上重新执行运行作业,作业所持有的编号不变。

-x 作业会独占运行的节点,不允许其他作业在该节点上运行。

-b [[month:]day:]hour:minute

定时任务,作业在给定的时间后才会开始执行。

-c [hours:]minutes

限制作业能执行的总cpu时间。超过后作业会被终止。

-e err_file

指定存储错误的路径,作业的标准错误会被输出到该文件中。 

-E "pre_exec_command [arguments ...]"

使用预处理指令,为作业设置运行环境。

-f "local_file op [remote_file]" ...

该选项可以让本地(递交机)与远程(运行机)之间进行文件拷贝。通过op的不同选项,可以在不同时机以不同方向拷贝文件。

op:

> 在作业运行前将文件从本地拷贝到远程,覆盖原文件。

< 在作业完成后将文件从远程拷贝到本地,覆盖原文件。

<< 在作业完成后将文件从远程拼接到本地文件末尾。

><或<> 在作业运行前将本地文件拷贝到远程,完成后将文件从远程拷贝到本地,均采用覆盖方式。

-i input_file | -is input_file

指定存储输入的路径,作业的标准输入会被从该文件中读取。

-g job_group_name

为作业指定一个组。

-J job_name

为作业指定一个作业名称。

-m host_name

为作业指定运行机。

-M mem_limit

为作业设定最大内存空间,超过后作业会被终止。

-n min_proc[,max_proc]

为并行作业请求最小,最大占用处理器数量。若请求中设定的使用数量超过最大限制,作业将被退回。

-o out_file

指定存储输出的路径,作业的标准输出会被输出到该文件中。 

-P project_name

指定作业所属的项目。

-p process_limit

设定作业所能使用的最大处理器数量,超过限额作业将被终止。

-q "queue_name ..."

指定作业所属队列名称。

-R "res_req" [-R "res_req" ...]

为作业设定各种资源消耗的预期。需配合lsf.cluster.*及lsf.shared等配置文件使用。

-sp priority

设置作业的优先级。

-S stack_limit

设置作业每个进程可以使用的堆栈限制。

-t [[month:]day:]hour:minute

设置作业的最大运行时间。超过的作业将被终止。

-v swap_limit

设置作业可使用交换区大小。超过作业将被终止。

示例:

bsub sleep 200       

递交一个作业sleep及其参数200。

bsub -q short -o my_output_file "pwd; ls"

递交一个作业到队列“short”,设定标准输出到文件“my_output_file”的作业,作业内容为“pwd; ls”。

bsub -m "host1 host3 host8 host9" my_program

递交作业my_program使其在 host1,host3,host8,host9中选一个来运行。

bsub -b 20:00 -J my_job_name my_program

递交作业作业my_program,指定作业名my_job_name,使其在20:00定时开始运行。

相似文档
  • 1) 在E-HPC控制台点击左侧“作业”,进入作业列表。并选择某个集群。 上图,显示该集群中已完成、未完成、错误、挂起等状态的作业列表。 2) 点击作业名称,打开作业详情。可查看作业的基础信息,以及资源数据。
  • 处于“未完成”的作业可以挂起,挂起作业表示暂停执行作业。点击作业列表页右侧的“挂起”即可。 处于“挂起”状态的作业可以恢复,恢复作业表示作业将被继续执行。点击作业列表页右侧的“挂起”即可。
  • 处于“未完成”和“挂起”状态的作业可以杀掉,杀掉作业表示作业将删除、不再执行。点击作业列表页右侧的“杀掉”即可。
  • 所有状态的作业可以强制运行。点击作业列表页右侧的“强制运行”即可。注意,强制运行作业后仍有可能运行失败,请重新提交作业,或者提交工单保障。
  • 1) 登录天翼云控制中心; 2) 在产品列表中选择“弹性高性能计算E-HPC”; 3) 点击左侧“模板”,进入作业模板列表。点击“创建作业模板”,打开创建作业模板弹窗。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部