百度智能云MapReduce - 数据准备

MapReduce

简介/价格/文档

百度智能云MapReduce - 数据准备

文档简介：

以准备Web日志数据为例，您可以直接使用百度智能云提供的样例数据，也可根据说明构造自己的输入数据：使用百度智能云提供的样例数据，路径如下：存储在“华北-北京”区域的样例数据路径为：bos://datamart-bj/web-log-10k/，仅华北区域的BMR集群可用。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

以准备Web日志数据为例，您可以直接使用百度智能云提供的样例数据，也可根据说明构造自己的输入数据：

使用百度智能云提供的样例数据，路径如下：
- 存储在“华北-北京”区域的样例数据路径为：bos://datamart-bj/web-log-10k/，仅华北区域的BMR集群可用。
- 存储在“华南-广州”区域的样例数据路径为：bos://datamart-gz/web-log-10k/，仅华南区域的BMR集群可用。
根据如下说明构造自己的输入数据，并上传到对象存储BOS（具体操作详见对象存储BOS入门指南）或您本地的HDFS中。

由Nginx产生的Web访问日志具备如下格式：
```
$remote_addr - [$time_local] "$request" $status $body_bytes_sent "$http_referer" 
```
例如：
```
10.81.78.220 - [04/Oct/2015:21:31:22 +0800] "GET /u2bmp.html?dm=37no6.com/003&ac=1510042131161237772&v=y88j6-1.0&
```

 "$http_cookie" $remote_user "$http_user_agent"       $request_time $host $msec

相似文档

百度智能云MapReduce - 开发作业
使用hadoop镜像的集群可添加的作业类型是：java，streaming。使用spark镜像的集群可添加作业类型：spark，java，streaming。集群中添加了应用后便可添加该应用的作业，即创建集群时添加了hive应用，则可创建hive作业，添加了pig应用，则可创建pig作业。
百度智能云MapReduce - 查看结果
在“产品服务>MapReduce>MapReduce-作业列表”中，点击作业名称，可查看作业基本信息。 Hadoop将job分成若干个task进行处理，共有两种类型的task，分别为map task和reduce task。点击下拉尖括号，查看各task的任务处理情形。
百度智能云MapReduce开源组件介绍 - Hadoop Streaming
Hadoop Streaming简介：本文以分析Web日志统计每日请求量为例，介绍如何在百度智能云平台使用Hadoop Streaming。在BMR集群中，您可以使用python、shell、C++等任何您熟悉的编程语言开发Hadoop Streaming作业。
百度智能云MapReduce开源组件介绍 - Spark
Spark简介：本文以分析Web日志统计每天的PV和UV为例，介绍如何在百度智能云平台使用Spark。 Spark是开源的大规模数据处理引擎。Spark的先进的DAG执行引擎支持周期性数据流和内存计算，在内存中的运算速度是MapReduce的100倍以上，在硬盘中的运算速度是MapReduce的10倍以上。
百度智能云MapReduce开源组件介绍 - Hive
Hive简介：本文以分析Web日志统计用户访问次数最多的前5个小时段为例，介绍如何在百度智能云平台使用Hive。MapReduce提供了两种使用Hive的方式：通过Hue使用Hive，请参考Hue。控制台中提交Hive作业。

文档中心

全民上云·上云补贴申领

免费试用（限企业）