上云无忧 > 文档中心 > 什么是百度智能云数据工厂Pingo?
数据工厂Pingo
什么是百度智能云数据工厂Pingo?

文档简介:
Pingo是基于Spark集成的批量和流式数据处理系统,以统一的接口支持流式、批量作业,提供交互式SQL分析和例行调度,让您更方便编写和提交ETL程序,高效执行大数据计算程序,让大数据处理变得如此简单。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

百度数据工厂Pingo是百度智能云上提供的集成的批量和流式数据处理系统,它在弹性计算资源管理和改进的数据访问管理层之上,运行优化的Spark计算引擎,提供SQL分析和DataFrame API,支持低延时的批量和流式数据加工和处理,对外提供REST Service任务执行接口。

相似文档
  • 2019-05:Pingo支持预付费计费方式,预付费情况下您可以按月预支付Pingo的使用费用,Pingo会根据您选择的实例机型配置和个数,计算出按月付费的套餐价格。通常,相同时长的预付费价格要远低于按需付费的价格。
  • 百度数据工厂Pingo有以下主要功能: ETL:支持SQL及Spark DataFrame API编写ETL程序,支持Java、Python、Scala编写的第三方或者本地代码。 任务调度:支持ETL工作流例行调度,支持按任意周期定时执行作业以及创建依赖作业触发自动执行。
  • 统一文件存储抽象: Pingo的文件管理系统PFS不仅为自身提供文件存储功能,还允许外部文件存储系统的接入,诸如BOS,S3等,均可接入到PFS。同时,PFS抽象了这些不同的外部存储系统,对内提供统一的文件访问接口。(目前暂时只支持BOS接入,后续将陆续支持其他文件系统接入。)
  • 数据仓库建设: 海量数据批量处理:企业数据进行整合与处理,对数据进行清洗、转换。 实时数据计算:对流式数据进行实时计算,低延迟输出计算结果。 数据查询分析:多表联合分析查询,即时返回查询结果。
  • 表管理: 命名空间(namespace):表管理对象中的最高级别节点,命名空间的子节点可以是命名空间或者数据库,不能是表。 数据库(database):表管理对象中的中间层级节点,数据库必须是命名空间的子节点,数据库的子节点只能是表。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部