文档简介:
用户可将自己开发的程序提交到MRS中,执行程序并获取结果。本章节教您在未启用Kerberos认证的MRS分析集群页面如何提交一个新的作业。
用户创建作业前需要将本地数据上传至OBS系统用于计算分析。当然MRS也支持将OBS中的数据导入至HDFS中,并使用HDFS中的数据进行计算分析。数据完成处理和分析后,您可以将数据存储在HDFS中,也可以将集群中的数据导出至OBS系统。需要注意,HDFS和OBS也支持存储压缩格式的数据,目前支持存储bz2、gz压缩格式的数据。
1、登录MRS管理控制台。
2、选择“集群列表 > 现有集群”,选中一个运行中的集群并单击集群名,进入集群基本信息页面。
3、单击“作业管理”,进入“作业管理”页签。
4、在“作业”页签中单击“添加”,进入“添加作业”页面。作业配置信息如下表:
参数 |
参数说明 |
作业类型 |
支持的作业类型包括MapReduce、Spark、Spark Script、Hive Script、Spark SQL,请根据业务类型选择。 说明:只有创建集群时选择了Spark和Hive组件,并且集群处于运行中,才能新增Spark和Hive类型的作业。Spark Script作业只支持运行Spark SQL程序,Spark支持运行Spark Core、Spark SQL程序。 |
作业名称 |
作业名称,只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。参数不能为空。 建议不同的作业设置不同的名称。 |
执行程序路径 |
执行程序的Jar包地址。 说明:配置此参数时,单击“OBS”或者“HDFS”,单击“浏览”并选择文件目录,然后单击“确定”。 参数不能为空。 参数需要满足如下要求: 最多为1023字符,不能包含;|&>,<'$特殊字符,且不可为空或全空格。 执行程序路径可存储于HDFS或者OBS中,不同的文件系统对应的路径存在差异。 OBS:以“s3a://”开头。示例:s3a://wordcount/program/hadoop-mapreduce-examples-2.7.x.jar HDFS:以“/user”开头。 Spark Script需要以“.sql”结尾,MR和Spark需要以“.jar”结尾。sql、jar不区分大小写。 |
执行程序参数 |
程序执行的关键参数。 该参数由用户程序内的函数指定,MRS只负责参数的传入。 配置方法:包名.类名 最多为2047字符,不能包含;|&><'$特殊字符,可为空。 |
表格输入路径 |
数据输入地址。 说明:配置此参数时,单击“OBS”或者“HDFS”,单击“浏览”并选择文件目录,然后单击“确定”。 不同的文件系统对应的路径存在差异。 OBS:以“s3a://”开头。 HDFS:以“/user”开头。 最多为1023字符,不能包含;|&>,<'$特殊字符,可为空。 |
输出路径 |
数据输出地址。 说明:配置此参数时,单击“OBS”或者“HDFS”,单击“浏览”并选择文件目录,然后单击“确定”。 不同的文件系统对应的路径存在差异。 OBS:以“s3a://”开头。 HDFS:以“/user”开头。 最多为1023字符,不能包含;|&>,<'$特殊字符,可为空。 |
日志 |
作业日志存储地址,该日志信息记录作业运行状态。 说明:配置此参数时,单击“OBS”或者“HDFS”,单击“浏览”并选择文件目录,然后单击“确定”。 数据可存储于HDFS或者OBS中,不同的文件系统对应的路径存在差异。 OBS:以“s3a://”开头。 HDFS:以“/user”开头。 最多为1023字符,不能包含;|&>,<'$特殊字符,可为空。 |
5、 确认作业配置信息,单击“确定”,完成作业的新增。作业新增完成后,可对作业进行管理。
说明:默认每个集群最多支持运行中的作业数量为10。