百度智能云MapReduce - 数据准备
文档简介:
以准备Web日志数据为例,您可以直接使用百度智能云提供的样例数据,也可根据说明构造自己的输入数据:
使用百度智能云提供的样例数据,路径如下:
存储在“华北-北京”区域的样例数据路径为:bos://datamart-bj/web-log-10k/,仅华北区域的BMR集群可用。
以准备Web日志数据为例,您可以直接使用百度智能云提供的样例数据,也可根据说明构造自己的输入数据:
-
使用百度智能云提供的样例数据,路径如下:
- 存储在“华北-北京”区域的样例数据路径为:bos://datamart-bj/web-log-10k/,仅华北区域的BMR集群可用。
- 存储在“华南-广州”区域的样例数据路径为:bos://datamart-gz/web-log-10k/,仅华南区域的BMR集群可用。
-
根据如下说明构造自己的输入数据,并上传到对象存储BOS(具体操作详见对象存储BOS入门指南)或您本地的HDFS中。
由Nginx产生的Web访问日志具备如下格式:
$remote_addr - [$time_local] "$request" $status $body_bytes_sent "$http_referer"
例如:
10.81.78.220 - [04/Oct/2015:21:31:22 +0800] "GET /u2bmp.html?dm=37no6.com/003&ac=1510042131161237772&v=y88j6-1.0&
-
"$http_cookie" $remote_user "$http_user_agent" $request_time $host $msec