上云无忧 > 文档中心 > 百度智能云MapReduce - 数据准备
百度智能云MapReduce - 数据准备

文档简介:
以准备Web日志数据为例,您可以直接使用百度智能云提供的样例数据,也可根据说明构造自己的输入数据: 使用百度智能云提供的样例数据,路径如下: 存储在“华北-北京”区域的样例数据路径为:bos://datamart-bj/web-log-10k/,仅华北区域的BMR集群可用。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

以准备Web日志数据为例,您可以直接使用百度智能云提供的样例数据,也可根据说明构造自己的输入数据:

  • 使用百度智能云提供的样例数据,路径如下:

    • 存储在“华北-北京”区域的样例数据路径为:bos://datamart-bj/web-log-10k/,仅华北区域的BMR集群可用。
    • 存储在“华南-广州”区域的样例数据路径为:bos://datamart-gz/web-log-10k/,仅华南区域的BMR集群可用。
  • 根据如下说明构造自己的输入数据,并上传到对象存储BOS(具体操作详见对象存储BOS入门指南)或您本地的HDFS中。

    由Nginx产生的Web访问日志具备如下格式:

    $remote_addr - [$time_local] "$request" $status $body_bytes_sent "$http_referer" 

    例如:

    10.81.78.220 - [04/Oct/2015:21:31:22 +0800] "GET /u2bmp.html?dm=37no6.com/003&ac=1510042131161237772&v=y88j6-1.0&
  •  "$http_cookie" $remote_user "$http_user_agent"       $request_time $host $msec
相似文档
  • 使用hadoop镜像的集群可添加的作业类型是:java,streaming。使用spark镜像的集群可添加作业类型:spark,java,streaming。集群中添加了应用后便可添加该应用的作业,即创建集群时添加了hive应用,则可创建hive作业,添加了pig应用,则可创建pig作业。
  • 在“产品服务>MapReduce>MapReduce-作业列表”中,点击作业名称,可查看作业基本信息。 Hadoop将job分成若干个task进行处理,共有两种类型的task,分别为map task和reduce task。点击下拉尖括号,查看各task的任务处理情形。
  • Hadoop Streaming简介: 本文以分析Web日志统计每日请求量为例,介绍如何在百度智能云平台使用Hadoop Streaming。 在BMR集群中,您可以使用python、shell、C++等任何您熟悉的编程语言开发Hadoop Streaming作业。
  • Spark简介: 本文以分析Web日志统计每天的PV和UV为例,介绍如何在百度智能云平台使用Spark。 Spark是开源的大规模数据处理引擎。Spark的先进的DAG执行引擎支持周期性数据流和内存计算,在内存中的运算速度是MapReduce的100倍以上,在硬盘中的运算速度是MapReduce的10倍以上。
  • Hive简介: 本文以分析Web日志统计用户访问次数最多的前5个小时段为例,介绍如何在百度智能云平台使用Hive。MapReduce提供了两种使用Hive的方式: 通过Hue使用Hive,请参考Hue。 控制台中提交Hive作业。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部