上云无忧 > 文档中心 > 百度智能云数据工厂Pingo使用教程 - 交互分析
数据工厂Pingo
百度智能云数据工厂Pingo使用教程 - 交互分析

文档简介:
交互分析概述: Pingo提供Notebook式的交互分析环境,基于开源的jupyter项目,进行了一系列优化、适配。具备以下特性: 用户隔离:使用普通账号启动jupyter hub,然后通过一个设置了SUID位的程序将每位用户都映射到不同的uid,实现了Linux账号级别的安全控制,并且比原生的sudo-spawner资源隔离方案更加安全、可扩展。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

交互分析概述

Pingo提供Notebook式的交互分析环境,基于开源的jupyter项目,进行了一系列优化、适配。具备以下特性:

  • 用户隔离:使用普通账号启动jupyter hub,然后通过一个设置了SUID位的程序将每位用户都映射到不同的uid,实现了Linux账号级别的安全控制,并且比原生的sudo-spawner资源隔离方案更加安全、可扩展。
  • SparkSQL内核:提供了可以直接写SparkSQL的内核。
  • SparkSQL和Dataframe混写:在通一个session里既可以写SparkSQL,也可以写dataframe。
  • 一键例行:可以将当前note中的代码直接提交到工作空间中,创建为例行任务。

Note文件

如上图,可以通过新建按钮新建一个文件,选中一个文件后会出现复制、例行、关闭、查看、编辑、删除等操作按钮。文件有是否运行的状态,运行中的文件,实际会对应一个后端的进程。另外我们会提供一些介绍基础用法的文件,都是以Introduce_Pingo_for_xxx的方式进行命名,用户直接参考实例进行操作即可。

文件操作

这里列一些基本的操作指导,详细的可以去浏览官方文档或者到搜索引擎进行查找。

点击上图中的蓝色方框,可以对当前文件进行重命名。In [3]后面的方块称为单元格,是执行命令的基本单元。将鼠标点击一个单元格后,可以点击菜单中的运行按钮来执行,或者使用快键键Ctrl+Enter,Shift+Enter可以在执行当前单元格的同时在下面新增一个单元格。

如下图,可以将当前选中的单元格的类型改为"标签",可以写markdown代码,生成这个文件中的说明文档等。改为markdown代码后执行一下当前单元格,就可以生成结果。修改的时候双击对应的markdown单元格即可进行编辑。

执行Spark

如Note文件中所述,新建一个SQL类型的文件,即可在新建的文件的单元格中执行SparkSQL,具体语法可以参考官方文档。新建文件类型选择为Spark或者PySpark则可分别执行Scala或者Python的Dataframe,具体写法也可以参考官方文档。对于已经非常熟悉SQL的用户,直接使用SparkSQL内核是非常推荐的方案。

同时,Note文件也支持在Note内使用其他类型的内核,在使用前添加%%spark或%%sql前缀即可(Note中每运行一种内核对应一个后端进程)。更多使用详情可通过执行%%help来查看(如下图)。

Pingo在Spark执行层也引入了很多扩展和优化。在SQL语法层面,我们支持了namespace,语法上的表现可以简单理解为允许在database的命名中包括".",另外我们支持了insert overwrite directory语法。

一键例行

当我们在Notebook中进行探索式查询,验证了查询的过程和结果,希望每天例行查询操作,则可以将Notebook中编写的代码一键例行至批量作业。在Note列表页面,勾选需要例行的Note文件,出现更多操作按钮之后,点击例行,在对话框中填写作业组和作业的名称之后,点击Routine进行提交。

提交之后,到批量作业中可以看到从Notebook一键例行生成的作业组。

从Notebook中直接生成的作业组往往不能直接例行,因为在SQL中查询通常指定的是具体的时间分区,为了能正常例行,需要通过设置宏的方式编辑作业,例如作业中如果是具体的日期,需要改为宏{DATE}。更多Spark作业时间宏。

然后再按照批量作业管理的方式设置调度周期、依赖作业等,提交之后就可以正常例行起来了。

相似文档
  • 管理计算资源: 点击计算资源按钮进入计算资源管理页面。 创建队列组: 队列组是用户整理自己的队列计算资源的聚合单位,通常建议一个产品线维护一个队列组即可,组内用户可以共享队列的权限。
  • 概述: 在Pingo中,永久性UDF不使用SQL语句创建,而是使用文件系统来管理。此管理方式,相比于使用SQL的方式由如下几个显著的优点: UDF的文件与元数据统一存储,不会出现已经在元数据系统中注册了UDF,但错误删除了对应资源的情况。
  • 概述: 数据交换和数据联合查询是大数据分析中比较常见的使用场景,跨产品、跨部门、跨公司的数据联合查询可以弥补彼此数据使用的缺少。但是联合查询也引来一个很关键的问题:数据安全问题。以往的数据安全是通过账号控制(包括权限账号和权限授权等),但这都存在安全泄露的风险,且权限一旦授予后,用户就可以直接获得明文数据,能够对数据做任意拷贝。
  • 传输管理: 传输管理主要解决什么问题? 传输支持哪些数据源? 支持从数据库到数据库之间的同步吗? 传输定期调度需要哪些前提条件?支持以哪种字段来做增量?
  • Q:传输管理主要解决什么问题? A:传输管理目前主要解决的是将用户数据库中的数据传输到Pingo的问题。 Q:传输支持哪些数据源? A:目前支持百度云RDS(MySQL、SQL Server、PostgrelSQL)的数据源,后续将陆续支持其它存储系统的数据源。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部