上云无忧 > 文档中心 > 百度智能云数据工厂Pingo - 查询本地上传数据
数据工厂Pingo
百度智能云数据工厂Pingo - 查询本地上传数据

文档简介:
本示例以创建一个data_survey表为例,介绍建表并上传数据。 创建表数据: 购买集群准备好资源环境之后,在集群列表点击进入Pingo,进入相应的Pingo系统,对应的环境是根据您购买的资源为您部署的Pingo环境,包括您独享的计算资源以及存储,并为您提供方便的Web操作界面,用于作业的创建与执行。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

本示例以创建一个data_survey表为例,介绍建表并上传数据。

创建表数据

  1. 购买集群准备好资源环境之后,在集群列表点击进入Pingo,进入相应的Pingo系统,对应的环境是根据您购买的资源为您部署的Pingo环境,包括您独享的计算资源以及存储,并为您提供方便的Web操作界面,用于作业的创建与执行。
  2. 进入表管理页面,先创建命名空间和数据库(也可以使用默认的数据库,直接创建数据表)。在左侧的新建下拉框中点击命名空间,在根目录下创建一个叫pingotestns的命名空间。 
  3. 选中当前命名空间,在右侧新建下拉框中选择数据库,在命名空间pingotestns中创建一个叫pingotestdb的数据库。

    注意:如果在左侧新建是创建是根目录下,要在某个特定的命名空间或数据库下面建表,需选中然后点击右侧的新建按钮操作。

    输入数据库名称,点击确认。

    创建数据库成功。

  4. 点击新建数据表,表的类型选择物理表,填写表名data_survey,文件格式和分隔符根据实际情况填写:

    点击下一步,进入表结构页面,可以在界面上逐行添加字段,也可以选择从SQL语句创建

    本示例建表语句如下 :

    CREATE TABLE data_survey( 
      age               tinyint comment '年龄', 
      gender            string  comment '性别', 
      education         string  comment '学历', 
      city              string  comment '城市', 
      income_permonth   string  comment '月收入', 
      insu_expend       string  comment '保险支出占收入', 
      insu_style        string  comment '保险类型', 
      buy_willing       string  comment '购买保险意愿', 
      buy_method        string  comment '购买方式', 
      insu_company      string  comment '投保公司', 
      key_side          string  comment '最看重的方面' 
    ) PARTITIONED BY (dt string);
  5. 点击确定之后,可以在建表页面预览字段。确认无误之后,点击提交,建表完成。

创建表分区

  1. 打开作业管理-交互分析,新建一个Spark-SQL Notebook。

  2. 依次键入查询语句,可以查看到所创建的数据库及表。

  3. 由于表创建了分区字段,数据需要在分区路径下,表和数据才可以自动关联。于是执行以下SQL语句,创建分区dt=20191020,无需指定分区路径,将会在表路径下自动创建分区。

上传数据文件

  1. 先进入表管理,选中表名,点击表数据的属性栏Location一栏进行查看,记住这个路径。

  2. 在表创建的时候,我们选择的表类型为物理表,物理表创建的时候,会在文件管理中的/pingo/warehouse自动创建该表的路径文件夹。

  3. 点击表名文件夹进入,可以看到,还有一个 dt=20191020文件夹,这是由我们创建的分区表生成的分区路径。

  4. 进入分区文件夹,在分区文件夹内点击上传按钮,将我们想要访问的文件数据进行上传。

    本地文件上传有以下限制:
    文件类型:支持.txt、.csv 格式
    文件大小:不超过10M
    文件名称不能包含特殊字符:比如空格, 问号

##执行SQL查询数据

  1. 回到交互分析,进入之前的Notebook,执行查询语句,可以看到表与我们上传的数据已经关联成功。

  2. 继续执行SQL查询语句,获取我们想要的查询结果。

相似文档
  • 挂载BOS数据文件: BOS 是百度对象存储的简称。关于如何开通和使用BOS,可以参考 这里。 开通BOS之后,创建bucket,将我们要查询的数据进行上传,在BOS中将数据data_survey上传,然后我们再用挂载的方式将数据接入。
  • 本示例以读取一个BOS中的TXT文件为例,介绍创建Spark作业并执行的过程。 将BOS数据挂载到文件管理。 进入“批量作业>创建新作业”,选择创建Spark作业,语言类型选择Scala,您也可以根据自己的习惯选择自己熟悉的语言,目前支持SQL、Scala、Python。
  • 对于基于Spark API编写的复杂Scala/Java/Python项目,可以将源代码打包然后直接在Pingo中调用。下面首先以Maven管理的Scala项目为例讲解。
  • 本例子通过分析Nginx访问日志,完成使用Pingo进行离线大数据处理典型场景的演示。 概览: 一条Nginx日志大约长这样: 192.168.1.123 - - [21/Apr/2019:20:53:09 +0800] "POST /pingo/sql/getQueryHistoryByIds HTTP/1.1" 200 1829 "http://bigdata.baidu.com/pingo/?eqt=qh&qiid=19807852&tab=u&ut=eq" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"
  • 主账号: 百度智能云账号(即主账号)是百度智能云资源的归属的主体,负责生成本企业组织下的子账号,并对子账号进行管理、授权等操作。如果您是服务的管理者,需要购买和管理集群资源并管理其他用户,请用主账号进行登录。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部