上云无忧 > 文档中心 > 百度智能云数据工厂Pingo - 创建Spark作业访问BOS数据
数据工厂Pingo
百度智能云数据工厂Pingo - 创建Spark作业访问BOS数据

文档简介:
本示例以读取一个BOS中的TXT文件为例,介绍创建Spark作业并执行的过程。 将BOS数据挂载到文件管理。 进入“批量作业>创建新作业”,选择创建Spark作业,语言类型选择Scala,您也可以根据自己的习惯选择自己熟悉的语言,目前支持SQL、Scala、Python。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

本示例以读取一个BOS中的TXT文件为例,介绍创建Spark作业并执行的过程。

  1. 将BOS数据挂载到文件管理。

  2. 进入“批量作业>创建新作业”,选择创建Spark作业,语言类型选择Scala,您也可以根据自己的习惯选择自己熟悉的语言,目前支持SQL、Scala、Python。

    参考代码

    val rdd = sc.textFile("/zhangsansan/godfather.txt")
    val res = rdd.flatMap(_.split(" ")).map((_,1)).filter(!_._1.equals("")).reduceByKey(_+_).sortBy(_._2, false) 
    res.take(10).foreach(println)
  3. 调度规则可以是例行或者单次,按使用需求设定。

  4. 设定完成之后,点击完成。此时作业在等待执行中,可以更改调度或进行其他设置。

  5. 待到达设定的执行时间,作业会启动执行,并生成一个作业实例。

  6. 点击查看可以查看执行状态和日志信息。

相似文档
  • 对于基于Spark API编写的复杂Scala/Java/Python项目,可以将源代码打包然后直接在Pingo中调用。下面首先以Maven管理的Scala项目为例讲解。
  • 本例子通过分析Nginx访问日志,完成使用Pingo进行离线大数据处理典型场景的演示。 概览: 一条Nginx日志大约长这样: 192.168.1.123 - - [21/Apr/2019:20:53:09 +0800] "POST /pingo/sql/getQueryHistoryByIds HTTP/1.1" 200 1829 "http://bigdata.baidu.com/pingo/?eqt=qh&qiid=19807852&tab=u&ut=eq" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"
  • 主账号: 百度智能云账号(即主账号)是百度智能云资源的归属的主体,负责生成本企业组织下的子账号,并对子账号进行管理、授权等操作。如果您是服务的管理者,需要购买和管理集群资源并管理其他用户,请用主账号进行登录。
  • 多用户访问控制功能实现了多用户协同开发,Pingo的项目管理者(主账号即百度智能云账号)可以创建多个集群资源和多个IAM用户,为不同的IAM用户分配不同的资源环境和操作权限。适用于下列使用场景:
  • 点击实例列表的操作列进入Pingo。 进入到Pingo的Web服务页面,开始使用Pingo服务。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部