百度智能云MapReduce - 开发作业

MapReduce

简介/价格/文档

百度智能云MapReduce - 开发作业

文档简介：

使用hadoop镜像的集群可添加的作业类型是：java，streaming。使用spark镜像的集群可添加作业类型：spark，java，streaming。集群中添加了应用后便可添加该应用的作业，即创建集群时添加了hive应用，则可创建hive作业，添加了pig应用，则可创建pig作业。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

创建作业的操作步骤如下：

在“产品服务>MapReduce>MapReduce-作业列表”页中，点击“创建作业”，进入创建作业页。
请在创建作业页选择作业类型并配置作业类型对应的参数。以下列举了Hive作业类型对应参数配置说明：

Hive作业：
- 作业名称：输入作业名称，长度不可超过255个字符。
- bos脚本地址：BOS的脚本地址必须是一个有效的BOS路径，并且指向Hive脚本。
- bos输入地址：这个地址必须已经存在，并且您有权限读取这个地址的文件。可在脚本中通过${INPUT}引用这个地址。
- bos输出地址：写入的bucket之后的地址必须是不存在的，但您有权限对这个地址进行写操作，否则作业运行会失败。可在脚本中通过${OUTPUT}引用这个地址。
- 失败后操作：选择作业运行失败后的操作：继续（作业执行失败后，继续执行下一个作业）和等待（作业执行失败后，查看作业运行的状态，并且取消后续作业）。
- 应用程序参数：只接受两种参数类型，分别是--hiveconf key=value 和 --hivevar key=value。前一种参数是用来覆盖hive执行时的配置。后一种参数是用来声明自定义的变量，可以在脚本中通过${KEY}来引用。输入参数时，只需要输入参数本身字符串即可，用空格分隔，无需参数转义和url encode。
选择适配的集群。
点击“完成”，则作业创建完成。
当作业状态会由“等待中”更新为“运行中”状态，作业运行完毕后状态更新为“已完成”。
（可选）只有等待中或运行中的作业可被取消，点击“取消作业”即可。

相似文档

百度智能云MapReduce - 查看结果
在“产品服务>MapReduce>MapReduce-作业列表”中，点击作业名称，可查看作业基本信息。 Hadoop将job分成若干个task进行处理，共有两种类型的task，分别为map task和reduce task。点击下拉尖括号，查看各task的任务处理情形。
百度智能云MapReduce开源组件介绍 - Hadoop Streaming
Hadoop Streaming简介：本文以分析Web日志统计每日请求量为例，介绍如何在百度智能云平台使用Hadoop Streaming。在BMR集群中，您可以使用python、shell、C++等任何您熟悉的编程语言开发Hadoop Streaming作业。
百度智能云MapReduce开源组件介绍 - Spark
Spark简介：本文以分析Web日志统计每天的PV和UV为例，介绍如何在百度智能云平台使用Spark。 Spark是开源的大规模数据处理引擎。Spark的先进的DAG执行引擎支持周期性数据流和内存计算，在内存中的运算速度是MapReduce的100倍以上，在硬盘中的运算速度是MapReduce的10倍以上。
百度智能云MapReduce开源组件介绍 - Hive
Hive简介：本文以分析Web日志统计用户访问次数最多的前5个小时段为例，介绍如何在百度智能云平台使用Hive。MapReduce提供了两种使用Hive的方式：通过Hue使用Hive，请参考Hue。控制台中提交Hive作业。
百度智能云MapReduce开源组件介绍 - HBase
HBase简介：本文以分析Web日志统计每天的PV和UV为例，介绍如何在百度智能云平台使用HBase。 HBase是运行在Hadoop上的NoSQL数据库，它是一个分布式的和可扩展的大数据仓库，能够利用HDFS的分布式处理模式和Hadoop的MapReduce程序模型。HBase融合key/value存储模式带来实时查询的能力，以及通过MapReduce进行离线处理或者批处理的能力。

文档中心

全民上云·上云补贴申领

免费试用（限企业）