百度智能云数据工厂Pingo - 创建Spark作业访问BOS数据

数据工厂Pingo

简介/价格/文档

百度智能云数据工厂Pingo - 创建Spark作业访问BOS数据

文档简介：

本示例以读取一个BOS中的TXT文件为例，介绍创建Spark作业并执行的过程。将BOS数据挂载到文件管理。进入“批量作业>创建新作业”，选择创建Spark作业，语言类型选择Scala，您也可以根据自己的习惯选择自己熟悉的语言，目前支持SQL、Scala、Python。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

本示例以读取一个BOS中的TXT文件为例，介绍创建Spark作业并执行的过程。

将BOS数据挂载到文件管理。
进入“批量作业>创建新作业”，选择创建Spark作业，语言类型选择Scala，您也可以根据自己的习惯选择自己熟悉的语言，目前支持SQL、Scala、Python。

参考代码
```
val rdd = sc.textFile("/zhangsansan/godfather.txt")
val res = rdd.flatMap(_.split(" ")).map((_,1)).filter(!_._1.equals("")).reduceByKey(_+_).sortBy(_._2, false) 
res.take(10).foreach(println)
```
调度规则可以是例行或者单次，按使用需求设定。
设定完成之后，点击完成。此时作业在等待执行中，可以更改调度或进行其他设置。
待到达设定的执行时间，作业会启动执行，并生成一个作业实例。
点击查看可以查看执行状态和日志信息。

相似文档

百度智能云数据工厂Pingo - 运行代码包
对于基于Spark API编写的复杂Scala/Java/Python项目，可以将源代码打包然后直接在Pingo中调用。下面首先以Maven管理的Scala项目为例讲解。
百度智能云数据工厂Pingo - Nginx日志分析
本例子通过分析Nginx访问日志，完成使用Pingo进行离线大数据处理典型场景的演示。概览：一条Nginx日志大约长这样： 192.168.1.123 - - [21/Apr/2019:20:53:09 +0800] "POST /pingo/sql/getQueryHistoryByIds HTTP/1.1" 200 1829 "http://bigdata.baidu.com/pingo/?eqt=qh&qiid=19807852&tab=u&ut=eq" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"
百度智能云数据工厂Pingo使用教程 - 账号与权限
主账号：百度智能云账号（即主账号）是百度智能云资源的归属的主体，负责生成本企业组织下的子账号，并对子账号进行管理、授权等操作。如果您是服务的管理者，需要购买和管理集群资源并管理其他用户，请用主账号进行登录。
百度智能云数据工厂Pingo使用教程 - 多用户访问控制
多用户访问控制功能实现了多用户协同开发，Pingo的项目管理者（主账号即百度智能云账号）可以创建多个集群资源和多个IAM用户，为不同的IAM用户分配不同的资源环境和操作权限。适用于下列使用场景：
百度智能云数据工厂Pingo使用教程 - 开始使用Pingo
点击实例列表的操作列进入Pingo。进入到Pingo的Web服务页面，开始使用Pingo服务。

文档中心

全民上云·上云补贴申领

免费试用（限企业）