上云无忧 > 文档中心 > 百度智能云数据工厂Pingo - SQL查询BOS数据
数据工厂Pingo
百度智能云数据工厂Pingo - SQL查询BOS数据

文档简介:
挂载BOS数据文件: BOS 是百度对象存储的简称。关于如何开通和使用BOS,可以参考 这里。 开通BOS之后,创建bucket,将我们要查询的数据进行上传,在BOS中将数据data_survey上传,然后我们再用挂载的方式将数据接入。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

挂载BOS数据文件

  1. BOS 是百度对象存储的简称。关于如何开通和使用BOS,可以参考 这里。

    开通BOS之后,创建bucket,将我们要查询的数据进行上传,在BOS中将数据data_survey上传,然后我们再用挂载的方式将数据接入。

  2. 进入Pingo文件管理,点击挂载,填写bucket信息,进行文件挂载。我们在根目录(可以在有权限的任意目录)下进行挂载,挂载点填写/myfiles,类型为BOS,区域当前只支持北京区域,填写我们要挂载的bucket名称,路径可以填写bucket下的文件夹路径,如果不填,将会挂载bucket下所有的文件和文件夹,填写完AK/SK之后点击确定。详细填写帮助点击这里。

  3. 挂载确定之后,可以在myfiles文件夹下看到,已经将BOS的文件同步到文件管理,挂载成功。

创建映射表

  1. 进入数据管理-表管理页面,依次创建命名空间和数据库。 
  2. 选中当前数据库,点击右侧的新建数据表,在建表页面,选择映射表,并指定BOS文件的挂载路径/myfiles。 
  3. 然后点击下一步,输入建表语句然后点击确定。

    本示例建表语句如下 :

    CREATE TABLE data_bos_survey(
      age                tinyint comment '年龄',
      gender             string  comment '性别',
      education          string  comment '学历',
      city               string  comment '城市',
      income_permonth    string  comment '月收入',
      insu_expend        string  comment '保险支出占收入',
      insu_style         string  comment '保险类型',
      buy_willing        string  comment '购买保险意愿',
      buy_method         string  comment '购买方式',
      insu_company       string  comment '投保公司',
      key_side           string  comment '最看重的方面'
    ) PARTITIONED BY (dt string);
  4. 点击确定之后,可以在建表页面预览字段。确认无误之后,点击提交,建表完成。

  5. 创建成功后,可以从表管理的左侧导航树点击查看表的详细信息。

创建表分区

  1. 打开作业管理-交互分析,新建一个Spark-SQL Notebook。

  2. 执行SQL语句,在表data_bos_survey中创建分区dt=20191127,并且指定分区路径/myfiles。

执行SQL查询数据

  1. 打开Notebook,执行SQL查询语句,由查询结果可以看到,我们查询的分区dt=20191127成功关联了BOS数据,返回值为指定分区内的数据查询结果。

  2. 继续执行SQL查询语句,获取我们想要的查询结果。

相似文档
  • 本示例以读取一个BOS中的TXT文件为例,介绍创建Spark作业并执行的过程。 将BOS数据挂载到文件管理。 进入“批量作业>创建新作业”,选择创建Spark作业,语言类型选择Scala,您也可以根据自己的习惯选择自己熟悉的语言,目前支持SQL、Scala、Python。
  • 对于基于Spark API编写的复杂Scala/Java/Python项目,可以将源代码打包然后直接在Pingo中调用。下面首先以Maven管理的Scala项目为例讲解。
  • 本例子通过分析Nginx访问日志,完成使用Pingo进行离线大数据处理典型场景的演示。 概览: 一条Nginx日志大约长这样: 192.168.1.123 - - [21/Apr/2019:20:53:09 +0800] "POST /pingo/sql/getQueryHistoryByIds HTTP/1.1" 200 1829 "http://bigdata.baidu.com/pingo/?eqt=qh&qiid=19807852&tab=u&ut=eq" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"
  • 主账号: 百度智能云账号(即主账号)是百度智能云资源的归属的主体,负责生成本企业组织下的子账号,并对子账号进行管理、授权等操作。如果您是服务的管理者,需要购买和管理集群资源并管理其他用户,请用主账号进行登录。
  • 多用户访问控制功能实现了多用户协同开发,Pingo的项目管理者(主账号即百度智能云账号)可以创建多个集群资源和多个IAM用户,为不同的IAM用户分配不同的资源环境和操作权限。适用于下列使用场景:
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部