上云无忧 > 文档中心 > 百度智能云数据工厂Pingo使用教程 - 传输管理
数据工厂Pingo
百度智能云数据工厂Pingo使用教程 - 传输管理

文档简介:
传输管理模块的功能主要是将结构化数据与非结构化数据传输到pingo大数据处理系统。 概念介绍: 数据源:指数据传输的来源; 传输任务:每个新建的传输我们称为一个传输任务(对应一个transid),在平台建的批量传输与在调度平台每次调度产生的任务都会产生一个这样的传输任务;
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

传输管理模块的功能主要是将结构化数据与非结构化数据传输到pingo大数据处理系统。

概念介绍

  • 数据源:指数据传输的来源;
  • 传输任务:每个新建的传输我们称为一个传输任务(对应一个transid),在平台建的批量传输与在调度平台每次调度产生的任务都会产生一个这样的传输任务;
  • 传输节点:一个任务可以被切分成很多partition进行分片传输,每个传输分片在传输系统中我们成为一个节点(node),多个节点传输的结果汇总成最后的传输数据。

新建数据源

在配置传输之前,我们需要配置一个传输的数据源,进入传输管理页面,选择数据源。

当前支持的数据源为百度RDS,包括MySQL、SQL Server、PostgreSQL。填写数据源的基本信息,连接需要传输的数据源。网络连接地址和端口均可从RDS的实例详情页面“网络连接”获取。填写完成之后,需要先进行连接性测试。

连接成功之后,点击创建则数据源在Pingo中创建完成,可在数据源列表查看已添加成功的数据源。

传输任务

新增传输任务

数据源连接完成之后,在“传输任务列表”中点击在“新建任务”开始创建传输任务。选择数据源和目标位置,数据源选择之前创建的数据源,数据目标选择Pingo的命名空间和数据库。

映射配置源表为数据源中的表数据,目标表为Pingo表管理中的表,在映射之前需要用户在表管理中先创建Schema一致或者字段数目相同的表格,以方便数据映射和传输;如果Schema一致,可以直接勾选“自动映射”,如果不同或者需要修改,则可以进行手动映射。

填写传输任务信息,并发数目可使传输任务最大限度的利用带宽,使传输更加高效;传输速度由用户自定义上线,最大值不超过带宽。如果是一次性传输任务,选择单次任务,任务将立即运行。

如果需要例行传输,则选择周期任务,设置传输任务例行的时间,传输任务将按照自定义的策略进行周期调度。周期任务支持全量和增量传输,要实现增量传输,必须在源表中有标示增量的字段,目前仅支持“Datetime”类型的字段。调度周期可按照分钟、小时、天、周、月等各种模版设置策略,也可通过提供Cron表达式的方式自定义更加灵活的传输任务调度策略。

任务设置完成之后,点击“提交”,则传输任务创建成功,可在传输任务列表查看传输任务状态。

传输任务列表

传输任务列表可以查看传输任务的状态或者对任务实例进行重试、删除等操作。

点击任务名称,进入任务详情。任务详情页可以查看任务的基本信息,实例状态和分片信息。对于单次任务,传输任务会生成一条传输实例。

如果是周期任务,传输任务会跟进设定的运行周期,产生多条传输实例。

传输节点列表为每一条传输实例根据数据量自动拆分的传输分片。只有所有分片100%成功传输,传输才算成功,如果分片没有成功可以进行重试。

传输完成之后,可以在表管理中查看目标表数据,并对传输完成的数据进行查询和使用。

相似文档
  • 批量作业管理的原型可以理解为Linux上的crontab,按照配置的调度规则自动触发任务的执行。在pingo中扩展了作业间的DAG依赖执行,重试机制,任务以及执行状态管理,以及自定义的任务扩展能力。
  • 交互分析概述: Pingo提供Notebook式的交互分析环境,基于开源的jupyter项目,进行了一系列优化、适配。具备以下特性: 用户隔离:使用普通账号启动jupyter hub,然后通过一个设置了SUID位的程序将每位用户都映射到不同的uid,实现了Linux账号级别的安全控制,并且比原生的sudo-spawner资源隔离方案更加安全、可扩展。
  • 管理计算资源: 点击计算资源按钮进入计算资源管理页面。 创建队列组: 队列组是用户整理自己的队列计算资源的聚合单位,通常建议一个产品线维护一个队列组即可,组内用户可以共享队列的权限。
  • 概述: 在Pingo中,永久性UDF不使用SQL语句创建,而是使用文件系统来管理。此管理方式,相比于使用SQL的方式由如下几个显著的优点: UDF的文件与元数据统一存储,不会出现已经在元数据系统中注册了UDF,但错误删除了对应资源的情况。
  • 概述: 数据交换和数据联合查询是大数据分析中比较常见的使用场景,跨产品、跨部门、跨公司的数据联合查询可以弥补彼此数据使用的缺少。但是联合查询也引来一个很关键的问题:数据安全问题。以往的数据安全是通过账号控制(包括权限账号和权限授权等),但这都存在安全泄露的风险,且权限一旦授予后,用户就可以直接获得明文数据,能够对数据做任意拷贝。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部