上云无忧 > 文档中心 > 百度数据仓库 Palo - 全量数据导出
百度数据仓库 Palo Doris版
百度数据仓库 Palo - 全量数据导出

文档简介:
全量数据导出(Export)是 PALO 提供的一种将数据导出的功能。 该功能可以将用户指定的表或分区的数据,以文本的格式,通过 Broker 进程导出到远端存储上,如 HDFS/BOS 等。 本文档主要介绍 Export 功能的基本使用方式。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

全量数据导出(Export)是 PALO 提供的一种将数据导出的功能。

该功能可以将用户指定的表或分区的数据,以文本的格式,通过 Broker 进程导出到远端存储上,如 HDFS/BOS 等。

本文档主要介绍 Export 功能的基本使用方式。

功能介绍

Export 功能是一个异步执行的作业。用户通过 Export 语句指定需要导出的表或者表中某些分区后,系统将生成分布式数据扫描计划,由多个 Compute Node 节点共同完成数据扫描读取的工作,并通过 Broker 进程写到远端存储上。

导出功能的最小粒度是表的分区。

目前的导出功能较为简单,仅支持对表进行全列导出,不支持对表中列进行映射、转换和过滤操作。

提交导出作业

通过如下语句提交一个导出作业

EXPORT TABLE example_tbl PARTITION(p1, p2) TO "bos://my_bucket/export/" WITH BROKER "bos"
 ( "bos_endpoint" = "http://bj.bcebos.com", "bos_accesskey" = "xxxxxxxxxxxxxxxxxxxxxxxxxx",
 "bos_secret_accesskey"="yyyyyyyyyyyyyyyyyyyy" );

该语句指定将 example_tbl 表的 p1,p2 两个分区导出到 BOS 的 bos://my_bucket/export/ 目录下。

导出命令的详细帮助,请参阅 EXPORT。

导出作业的执行

导出作业会生成多个查询计划,每个查询计划负责扫描一部分数据分片(Tablet)。

每个查询计划默认扫描 5 个 Tablet。即假设一共 100 个 Tablet,则会生成 20 个查询计划。

用户也可以在提交作业时,通过作业属性 tablet_num_per_task 指定这个数值。

一个作业的多个查询计划顺序执行。

一个查询计划扫描多个分片,将读取的数据以行的形式组织,每 1024 行为一个批次,调用 Broker 写入到远端存储上。

查询计划遇到错误会整体自动重试 3 次。如果一个查询计划重试 3 次依然失败,则整个作业失败。

导出文件的结构

导出作业会首先在指定的远端存储的路径中,建立一个名为 __doris_export_tmp_12345 的临时目录(其中 12345 为作业 id)。

导出的数据首先会写入这个临时目录。每个查询计划会生成一个文件,文件名示例:

export-data-c69fcf2b6db5420f-a96b94c1ff8bccef-1561453713822

其中 c69fcf2b6db5420f-a96b94c1ff8bccef 为查询计划的 ID。1561453713822 为文件生成的时间戳。

当所有数据都导出后,PALO 会将这些文件移动到用户指定的路径中。

查看作业进度

提交作业后,可以通过 SHOW EXPORT 命令查询导入作业状态。结果举例如下:

JobId: 14008 State: FINISHED
  Progress: 100% TaskInfo: {"partitions":["p1", "p2"],"exec mem limit":2147483648,"column separator":",","
line delimiter":"\n","tablet num":1,"broker":"hdfs","coord num":1,"db":"default_cluster:db1","tbl":"tbl3"}
      Path: bos://my_bucket/export/ CreateTime: 2019-06-25 17:08:24 StartTime: 2019-06-25 17:08:28 FinishTime: 
2019-06-25 17:08:34 Timeout: 3600 ErrorMsg: N/A

当作业状态为 FINISHED 时,即表示导出完成。

关于 SHOW EXPORT 的详细帮助,请参阅:SHOW EXPORT。

相似文档
  • PALO 支持通过 INSERT 命令直接将数据写入到 ODBC 外部表,作为数据导出的一种方式。 首先须通过 CREATE ODBC TABLE 名创建一个 ODBC 外部表。 之后可以通过如下命令将数据写入外部表: INSERT INTO extern_tbl VALUES(1, 2, 3); INSERT INTO extern_tbl SELECT * FROM other_tbl;
  • 本文档介绍如何使用 SELECT INTO OUTFILE 命令进行查询结果的导出操作。 功能介绍: SELECT INTO OUTFILE 语句可以将查询结果导出到文件中。 目前支持通过 Broker 进程导出到远端存储,如 HDFS,S3,BOS 上。或者直接导出到 Compute Node 所在节点的本地磁盘上(云上用户不支持)。
  • Sugar 是百度智能云推出的敏捷BI和数据可视化平台,组件丰富,开箱即用,无需SQL和任何编码。PALO完美兼容云可视化平台Sugar,PALO和Sugar配合,可以实现高性能的可视化图表分析及强大的交互分析。
  • Palo支持连接Navicat,您可以根据以下的指导步骤来连接您的数据库管理工具Navicat。 准备工作: 安装Navicat。 为Palo集群的Leader Node绑定EIP。 连接Palo。 新建连接,选择MySQL。 然后配置连接信息: 连接名:用户自定义即可。 IP地址:填写Palo的Leader Node绑定的EIP地址(LeaderNode协议公网地址)。 端口:填写MySQL协议连接目标的端口号,一般默认为9030。
  • Palo支持连接Tableau,您可以根据以下的指导步骤来连接您的Tableau。 准备工作: 安装Tableau。 为Palo集群的Leader Node绑定EIP。 连接Palo: 在任意位置新建文件:mysql.tdc,并在文件内,添加下述内容:
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部