百度数据仓库 Palo - 全量数据导出

百度数据仓库 Palo Doris版

简介/价格/文档

百度数据仓库 Palo - 全量数据导出

文档简介：

全量数据导出（Export）是 PALO 提供的一种将数据导出的功能。该功能可以将用户指定的表或分区的数据，以文本的格式，通过 Broker 进程导出到远端存储上，如 HDFS/BOS 等。本文档主要介绍 Export 功能的基本使用方式。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

全量数据导出（Export）是 PALO 提供的一种将数据导出的功能。

该功能可以将用户指定的表或分区的数据，以文本的格式，通过 Broker 进程导出到远端存储上，如 HDFS/BOS 等。

本文档主要介绍 Export 功能的基本使用方式。

功能介绍

Export 功能是一个异步执行的作业。用户通过 Export 语句指定需要导出的表或者表中某些分区后，系统将生成分布式数据扫描计划，由多个 Compute Node 节点共同完成数据扫描读取的工作，并通过 Broker 进程写到远端存储上。

导出功能的最小粒度是表的分区。

目前的导出功能较为简单，仅支持对表进行全列导出，不支持对表中列进行映射、转换和过滤操作。

提交导出作业

通过如下语句提交一个导出作业

EXPORT TABLE example_tbl PARTITION(p1, p2) TO "bos://my_bucket/export/" WITH BROKER "bos"

 ( "bos_endpoint" = "http://bj.bcebos.com", "bos_accesskey" = "xxxxxxxxxxxxxxxxxxxxxxxxxx",

 "bos_secret_accesskey"="yyyyyyyyyyyyyyyyyyyy" );

该语句指定将 example_tbl 表的 p1，p2 两个分区导出到 BOS 的 bos://my_bucket/export/ 目录下。

导出命令的详细帮助，请参阅 EXPORT。

导出作业的执行

导出作业会生成多个查询计划，每个查询计划负责扫描一部分数据分片（Tablet）。

每个查询计划默认扫描 5 个 Tablet。即假设一共 100 个 Tablet，则会生成 20 个查询计划。

用户也可以在提交作业时，通过作业属性 tablet_num_per_task 指定这个数值。

一个作业的多个查询计划顺序执行。

一个查询计划扫描多个分片，将读取的数据以行的形式组织，每 1024 行为一个批次，调用 Broker 写入到远端存储上。

查询计划遇到错误会整体自动重试 3 次。如果一个查询计划重试 3 次依然失败，则整个作业失败。

导出文件的结构

导出作业会首先在指定的远端存储的路径中，建立一个名为 __doris_export_tmp_12345 的临时目录（其中 12345 为作业 id）。

导出的数据首先会写入这个临时目录。每个查询计划会生成一个文件，文件名示例：

export-data-c69fcf2b6db5420f-a96b94c1ff8bccef-1561453713822

其中 c69fcf2b6db5420f-a96b94c1ff8bccef 为查询计划的 ID。1561453713822 为文件生成的时间戳。

当所有数据都导出后，PALO 会将这些文件移动到用户指定的路径中。

查看作业进度

提交作业后，可以通过 SHOW EXPORT 命令查询导入作业状态。结果举例如下：

JobId: 14008 State: FINISHED
  Progress: 100% TaskInfo: {"partitions":["p1", "p2"],"exec mem limit":2147483648,"column separator":",","

line delimiter":"\n","tablet num":1,"broker":"hdfs","coord num":1,"db":"default_cluster:db1","tbl":"tbl3"}
      Path: bos://my_bucket/export/ CreateTime: 2019-06-25 17:08:24 StartTime: 2019-06-25 17:08:28 FinishTime:

2019-06-25 17:08:34 Timeout: 3600 ErrorMsg: N/A

当作业状态为 FINISHED 时，即表示导出完成。

关于 SHOW EXPORT 的详细帮助，请参阅：SHOW EXPORT。

相似文档

百度数据仓库 Palo 导出数据到外部表
PALO 支持通过 INSERT 命令直接将数据写入到 ODBC 外部表，作为数据导出的一种方式。首先须通过 CREATE ODBC TABLE 名创建一个 ODBC 外部表。之后可以通过如下命令将数据写入外部表： INSERT INTO extern_tbl VALUES(1, 2, 3); INSERT INTO extern_tbl SELECT * FROM other_tbl;
百度数据仓库 Palo 导出查询结果集
本文档介绍如何使用 SELECT INTO OUTFILE 命令进行查询结果的导出操作。功能介绍： SELECT INTO OUTFILE 语句可以将查询结果导出到文件中。目前支持通过 Broker 进程导出到远端存储，如 HDFS，S3，BOS 上。或者直接导出到 Compute Node 所在节点的本地磁盘上（云上用户不支持）。
百度数据仓库 Palo BI工具接入 - Sugar
Sugar 是百度智能云推出的敏捷BI和数据可视化平台，组件丰富，开箱即用，无需SQL和任何编码。PALO完美兼容云可视化平台Sugar,PALO和Sugar配合，可以实现高性能的可视化图表分析及强大的交互分析。
百度数据仓库 Palo BI工具接入 - Navicat
Palo支持连接Navicat，您可以根据以下的指导步骤来连接您的数据库管理工具Navicat。准备工作：安装Navicat。为Palo集群的Leader Node绑定EIP。连接Palo。新建连接，选择MySQL。然后配置连接信息：连接名：用户自定义即可。 IP地址：填写Palo的Leader Node绑定的EIP地址（LeaderNode协议公网地址）。端口：填写MySQL协议连接目标的端口号，一般默认为9030。
百度数据仓库 Palo BI工具接入 - Tableau
Palo支持连接Tableau，您可以根据以下的指导步骤来连接您的Tableau。准备工作：安装Tableau。为Palo集群的Leader Node绑定EIP。连接Palo：在任意位置新建文件：mysql.tdc，并在文件内，添加下述内容：

文档中心

全民上云·上云补贴申领

免费试用（限企业）

功能介绍

提交导出作业

导出作业的执行

导出文件的结构

查看作业进度