上云无忧 > 文档中心 > 百度智能云MapReduce - 开发作业
百度智能云MapReduce - 开发作业

文档简介:
使用hadoop镜像的集群可添加的作业类型是:java,streaming。使用spark镜像的集群可添加作业类型:spark,java,streaming。集群中添加了应用后便可添加该应用的作业,即创建集群时添加了hive应用,则可创建hive作业,添加了pig应用,则可创建pig作业。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

使用hadoop镜像的集群可添加的作业类型是:java,streaming。使用spark镜像的集群可添加作业类型:spark,java,streaming。集群中添加了应用后便可添加该应用的作业,即创建集群时添加了hive应用,则可创建hive作业,添加了pig应用,则可创建pig作业。

创建作业的操作步骤如下:

  1. 在“产品服务>MapReduce>MapReduce-作业列表”页中,点击“创建作业”,进入创建作业页。
  2. 请在创建作业页选择作业类型并配置作业类型对应的参数。以下列举了Hive作业类型对应参数配置说明:

    Hive作业:

    • 作业名称:输入作业名称,长度不可超过255个字符。
    • bos脚本地址:BOS的脚本地址必须是一个有效的BOS路径,并且指向Hive脚本。
    • bos输入地址:这个地址必须已经存在,并且您有权限读取这个地址的文件。可在脚本中通过${INPUT}引用这个地址。
    • bos输出地址:写入的bucket之后的地址必须是不存在的,但您有权限对这个地址进行写操作,否则作业运行会失败。可在脚本中通过${OUTPUT}引用这个地址。
    • 失败后操作:选择作业运行失败后的操作:继续(作业执行失败后,继续执行下一个作业)和等待(作业执行失败后,查看作业运行的状态,并且取消后续作业)。
    • 应用程序参数:只接受两种参数类型,分别是--hiveconf key=value 和 --hivevar key=value。前一种参数是用来覆盖hive执行时的配置。后一种参数是用来声明自定义的变量,可以在脚本中通过${KEY}来引用。输入参数时,只需要输入参数本身字符串即可,用空格分隔,无需参数转义和url encode。
  3. 选择适配的集群。
  4. 点击“完成”,则作业创建完成。

  5. 当作业状态会由“等待中”更新为“运行中”状态,作业运行完毕后状态更新为“已完成”。
  6. (可选)只有等待中或运行中的作业可被取消,点击“取消作业”即可。
相似文档
  • 在“产品服务>MapReduce>MapReduce-作业列表”中,点击作业名称,可查看作业基本信息。 Hadoop将job分成若干个task进行处理,共有两种类型的task,分别为map task和reduce task。点击下拉尖括号,查看各task的任务处理情形。
  • Hadoop Streaming简介: 本文以分析Web日志统计每日请求量为例,介绍如何在百度智能云平台使用Hadoop Streaming。 在BMR集群中,您可以使用python、shell、C++等任何您熟悉的编程语言开发Hadoop Streaming作业。
  • Spark简介: 本文以分析Web日志统计每天的PV和UV为例,介绍如何在百度智能云平台使用Spark。 Spark是开源的大规模数据处理引擎。Spark的先进的DAG执行引擎支持周期性数据流和内存计算,在内存中的运算速度是MapReduce的100倍以上,在硬盘中的运算速度是MapReduce的10倍以上。
  • Hive简介: 本文以分析Web日志统计用户访问次数最多的前5个小时段为例,介绍如何在百度智能云平台使用Hive。MapReduce提供了两种使用Hive的方式: 通过Hue使用Hive,请参考Hue。 控制台中提交Hive作业。
  • HBase简介: 本文以分析Web日志统计每天的PV和UV为例,介绍如何在百度智能云平台使用HBase。 HBase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,能够利用HDFS的分布式处理模式和Hadoop的MapReduce程序模型。HBase融合key/value存储模式带来实时查询的能力,以及通过MapReduce进行离线处理或者批处理的能力。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部