上云无忧 > 文档中心 > 百度智能云数据工厂Pingo中表管理、文件管理、传输管理等概念详解
数据工厂Pingo
百度智能云数据工厂Pingo中表管理、文件管理、传输管理等概念详解

文档简介:
表管理: 命名空间(namespace):表管理对象中的最高级别节点,命名空间的子节点可以是命名空间或者数据库,不能是表。 数据库(database):表管理对象中的中间层级节点,数据库必须是命名空间的子节点,数据库的子节点只能是表。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

表管理

  • 命名空间(namespace):表管理对象中的最高级别节点,命名空间的子节点可以是命名空间或者数据库,不能是表。
  • 数据库(database):表管理对象中的中间层级节点,数据库必须是命名空间的子节点,数据库的子节点只能是表。
  • 表(table):表管理对象中的叶子节点,是一份结构化数据的描述。
  • 分片(partition):表中数据的切分方式,一个表可以包含多个分片,分片主要用于查询时的剪枝。
  • 切片(slice):切片是表中一段时间内的数据描述抽象。一个切片可以包含一个或多个分片。切片主要用于通知下游指定时间范围的数据准备就绪。
  • inputformat:向表中写数据时,引擎所使用的数据格式。
  • outputformat:从表中读数据时,引擎所认为的数据存储格式。
  • serdeinfo:对每一行数据所使用的序列化和反序列化格式。
  • 周期映射格式:分片字段与切片周期的映射关系

文件管理

Alluxio 是源自UC Berkeley AMPLab的研究项目Tachyon。在Pingo中,基于Alluxio实现了一个文件管理层服务PFS。使用Alluxio的挂载能力,PFS可以轻松对接各种分布式文件系统,比如HDFS、S3、BOS甚至Linux单机文件。

  • 挂载:类似于电脑可以挂载移动硬盘、通过samba挂载网络文件。文件管理系统PFS可以挂载常见的(分布式)文件系统,该文件系统将被挂载到一个指定的文件夹下,在PFS整个目录树的管理范围之内。
  • 基于继承的ACL权限:在PFS中不但支持了传统的Unix权限模型,我们还开发了一套新的ACL权限模型。就是子目录会自动继承父目录上的ACL权限,这样针对父目录赋权以后,就会自动获得所有子目录的权限。

传输管理

  • 数据源:指数据传输的来源,数据源定义了连接到实际数据库、文件系统等存储介质的一条路径,用于管理所传输数据的连接信息。
  • 传输任务:每个新建的传输我们称为一个传输任务(对应一个transid),在平台建的批量传输与在调度平台每次调度产生的任务都会产生一个这样的传输任务。
  • 传输节点:一个任务可以被切分成很多partition进行分片传输,每个传输分片在传输系统中我们成为一个节点(node),多个节点传输的结果汇总成最后的传输数据。

交互分析

  • 笔记(Note): 指的是交互分析的一个工作文档。
  • Notebook:指的是交互分析的一个运行环境,对应一个Note会有一个Notebook。
  • 服务(Kernel): 交互分析Notebook提供的服务类型,每个笔记创建时需要指定服务,直接写代码即可使用该服务
  • 代码块(Cell): 指的是笔记中的一个代码输入框,在代码块中直接写代码可以使用当前note的服务,也可以通过%%xxx方式添加其他服务的代码。
  • 队列(Queue): 指的是笔记运行时所在的Yarn队列,需要用户选择需要的队列来执行,切换队列后执行代码会重启Applicatio。

批量作业

  • 作业(job): 指一个静态的任务描述,比如一个Spark任务。
  • 作业实例(job instance): 执行单元,是一个作业在运行时的一个实例。
  • 作业组(graph): 一组逻辑上相互关联的作业,以及作业之间的依赖关系(DAG图),构成一个作业组。
  • 作业组实例(graph instance): 调度单元,是作业组在被触发后的生成的实例。作业组实例由作业实例以及作业实例之间的依赖关系组成。
  • 插件(plugin):可以描述一类作业的作业模板。创建新作业页面每个类型就是一个插件(通用类型除外),比如Spark插件,可以描述所有spark类型的作业。用户只需要初始化spark插件的模板数据,就可以形成一个spark类型的作业。
  • 包(package): 作业运行时所需要的环境(配置文件,依赖库,脚本文件,运行工具等)的管理单元,称之为包。
  • 包服务(package service): biglog提供的包服务用于管理用户作业所依赖的包,并在在作业实例运行时根据作业所依赖的包初始化运行环境。
相似文档
  • 计费项目: 在使用数据工厂Pingo时,只会收取实际产生的资源费用,Pingo配套的功能目前不收取任何额外费用,数据工厂Pingo所有的收费项目包含:
  • 预付费情况下,您可以按月预支付 Pingo 的使用费用,Pingo 会根据您选择的实例机型配置和个数,计算出按月付费的套餐价格。通常,相同时长的预付费价格要远低于按需付费的价格。 说明:购买前需保证账户无欠款。
  • 后付费即按使用量付费,在此模式下,您可以按使用时长支付Pingo的使用费用,可随时停止服务或释放资源便停止计费。 购买集群前需保证账户无欠款,且保证账户余额和可用代金券总和大于或等于100元。 计费公式: 费用 = (实例配置费用 + 计算节点单价 × 节点个数)× 使用时长
  • 本示例以创建一个data_survey表为例,介绍建表并上传数据。 创建表数据: 购买集群准备好资源环境之后,在集群列表点击进入Pingo,进入相应的Pingo系统,对应的环境是根据您购买的资源为您部署的Pingo环境,包括您独享的计算资源以及存储,并为您提供方便的Web操作界面,用于作业的创建与执行。
  • 挂载BOS数据文件: BOS 是百度对象存储的简称。关于如何开通和使用BOS,可以参考 这里。 开通BOS之后,创建bucket,将我们要查询的数据进行上传,在BOS中将数据data_survey上传,然后我们再用挂载的方式将数据接入。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部