百度数据工厂Pingo有以下主要功能:
- ETL:支持SQL及Spark DataFrame API编写ETL程序,支持Java、Python、Scala编写的第三方或者本地代码。
- 任务调度:支持ETL工作流例行调度,支持按任意周期定时执行作业以及创建依赖作业触发自动执行。
- 外部数据访问:支持JDBC、ODBC、数据API的方式进行外部数据访问,支持从HDFS、BOS等直接读取数据进行计算。
- 交互式代码调试:提供Notebook进行交互式代码调试,允许用户在Notebook中直接书写SQL进行查询,支持写入多行SQL。
- 一键例行:Pingo提供了一键例行的功能,用户可以在Notebook中进行调试,调试OK后可直接通过一键例行功能提交到LS例行执行。
- 作业组管理:用户提交到LS的所有作业都由作业组管理模块处理,支持用户根据自己的权限来增删查改作业组。