百度智能云数据工厂Pingo - 查询本地上传数据

数据工厂Pingo

简介/价格/文档

百度智能云数据工厂Pingo - 查询本地上传数据

文档简介：

本示例以创建一个data_survey表为例，介绍建表并上传数据。创建表数据：购买集群准备好资源环境之后，在集群列表点击进入Pingo，进入相应的Pingo系统，对应的环境是根据您购买的资源为您部署的Pingo环境，包括您独享的计算资源以及存储，并为您提供方便的Web操作界面，用于作业的创建与执行。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

本示例以创建一个data_survey表为例，介绍建表并上传数据。

创建表数据

购买集群准备好资源环境之后，在集群列表点击进入Pingo，进入相应的Pingo系统，对应的环境是根据您购买的资源为您部署的Pingo环境，包括您独享的计算资源以及存储，并为您提供方便的Web操作界面，用于作业的创建与执行。
进入表管理页面，先创建命名空间和数据库（也可以使用默认的数据库，直接创建数据表）。在左侧的新建下拉框中点击命名空间，在根目录下创建一个叫pingotestns的命名空间。
选中当前命名空间，在右侧新建下拉框中选择数据库，在命名空间pingotestns中创建一个叫pingotestdb的数据库。

注意：如果在左侧新建是创建是根目录下，要在某个特定的命名空间或数据库下面建表，需选中然后点击右侧的新建按钮操作。

输入数据库名称，点击确认。

创建数据库成功。

点击新建数据表，表的类型选择物理表，填写表名data_survey，文件格式和分隔符根据实际情况填写：

点击下一步，进入表结构页面，可以在界面上逐行添加字段，也可以选择从SQL语句创建

本示例建表语句如下：

CREATE TABLE data_survey( 
  age               tinyint comment '年龄', 
  gender            string  comment '性别', 
  education         string  comment '学历', 
  city              string  comment '城市', 
  income_permonth   string  comment '月收入', 
  insu_expend       string  comment '保险支出占收入', 
  insu_style        string  comment '保险类型', 
  buy_willing       string  comment '购买保险意愿', 
  buy_method        string  comment '购买方式', 
  insu_company      string  comment '投保公司', 
  key_side          string  comment '最看重的方面' 
) PARTITIONED BY (dt string);

点击确定之后，可以在建表页面预览字段。确认无误之后，点击提交，建表完成。

创建表分区

打开作业管理-交互分析，新建一个Spark-SQL Notebook。
依次键入查询语句，可以查看到所创建的数据库及表。
由于表创建了分区字段，数据需要在分区路径下，表和数据才可以自动关联。于是执行以下SQL语句，创建分区dt=20191020，无需指定分区路径，将会在表路径下自动创建分区。

上传数据文件

先进入表管理，选中表名，点击表数据的属性栏Location一栏进行查看，记住这个路径。
在表创建的时候，我们选择的表类型为物理表，物理表创建的时候，会在文件管理中的/pingo/warehouse自动创建该表的路径文件夹。
点击表名文件夹进入，可以看到，还有一个 dt=20191020文件夹，这是由我们创建的分区表生成的分区路径。
进入分区文件夹，在分区文件夹内点击上传按钮，将我们想要访问的文件数据进行上传。

本地文件上传有以下限制：
文件类型：支持.txt、.csv 格式
文件大小：不超过10M
文件名称不能包含特殊字符：比如空格, 问号

##执行SQL查询数据

回到交互分析，进入之前的Notebook，执行查询语句，可以看到表与我们上传的数据已经关联成功。
继续执行SQL查询语句，获取我们想要的查询结果。

相似文档

百度智能云数据工厂Pingo - SQL查询BOS数据
挂载BOS数据文件： BOS 是百度对象存储的简称。关于如何开通和使用BOS，可以参考这里。开通BOS之后，创建bucket，将我们要查询的数据进行上传，在BOS中将数据data_survey上传，然后我们再用挂载的方式将数据接入。
百度智能云数据工厂Pingo - 创建Spark作业访问BOS数据
本示例以读取一个BOS中的TXT文件为例，介绍创建Spark作业并执行的过程。将BOS数据挂载到文件管理。进入“批量作业>创建新作业”，选择创建Spark作业，语言类型选择Scala，您也可以根据自己的习惯选择自己熟悉的语言，目前支持SQL、Scala、Python。
百度智能云数据工厂Pingo - 运行代码包
对于基于Spark API编写的复杂Scala/Java/Python项目，可以将源代码打包然后直接在Pingo中调用。下面首先以Maven管理的Scala项目为例讲解。
百度智能云数据工厂Pingo - Nginx日志分析
本例子通过分析Nginx访问日志，完成使用Pingo进行离线大数据处理典型场景的演示。概览：一条Nginx日志大约长这样： 192.168.1.123 - - [21/Apr/2019:20:53:09 +0800] "POST /pingo/sql/getQueryHistoryByIds HTTP/1.1" 200 1829 "http://bigdata.baidu.com/pingo/?eqt=qh&qiid=19807852&tab=u&ut=eq" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"
百度智能云数据工厂Pingo使用教程 - 账号与权限
主账号：百度智能云账号（即主账号）是百度智能云资源的归属的主体，负责生成本企业组织下的子账号，并对子账号进行管理、授权等操作。如果您是服务的管理者，需要购买和管理集群资源并管理其他用户，请用主账号进行登录。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

创建表数据

创建表分区

上传数据文件