上云无忧 > 文档中心 > 百度数据仓库 Palo 使用教程(高级篇)
百度数据仓库 Palo Doris版
百度数据仓库 Palo 使用教程(高级篇)

文档简介:
在本文档中,我们将罗列 PALO 一些常用的高级特性,帮助用户对 PALO 有一个更全面的了解。 部分特性的具体使用说明,我们会在单独的文档中介绍。 关系表和分区分桶: 在 PALO 中,用户数据是以二维关系表的方式存储的。并且基于 PALO 的 Shard-Nothing 分布式架构,一张表的数据会根据用户指定的分区和分桶方式,水平切分成多个数据分片(Tablet),存储在不同节点上。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

在本文档中,我们将罗列 PALO 一些常用的高级特性,帮助用户对 PALO 有一个更全面的了解。

部分特性的具体使用说明,我们会在单独的文档中介绍,

关系表和分区分桶

在 PALO 中,用户数据是以二维关系表的方式存储的。并且基于 PALO 的 Shard-Nothing 分布式架构,一张表的数据会根据用户指定的分区和分桶方式,水平切分成多个数据分片(Tablet),存储在不同节点上。

关于分区和分桶的具体介绍,可参阅 关系模型与数据划分 文档。

数据模型

PALO 的一大特点之一是同时支持快速的明细数据查询和聚合数据查询。用户可以在建表时指定表的数据模型,以适应不同的应用场景。

PALO 目前支持三种数据模型,分别是:1)Duplicate 明细模型。2)Aggregate 聚合模型。3)Unique 主键唯一模型。

关于这三种模型的具体介绍和使用建议,可参阅 数据模型 文档。

物化视图

物化视图是一种以空间换时间的数据分析加速技术。PALO 支持在基础表之上建立物化视图。比如可以在明细数据模型的表上建立基于部分列的聚合视图,这样可以同时满足对明细数据和聚合数据的快速查询。

同时,PALO 能够自动保证物化视图和基础表的数据一致性,并且在查询时自动匹配合适的物化视图,极大降低用户的数据维护成本,为用户提供一个一致且透明的查询加速体验。

关于物化视图的具体介绍,可参阅 [物化视图](TODO) 文档。

表结构变更

PALO 支持在线的表结构变更操作。这些操作包括增加、删除、重排列,修改列类型,添加、删除分区,重命名库、表、分区等。所有这些操作都不会影响当前正在执行的导入或查询操作,保证用户能够在生产环境中平滑的进行表结构的变更。

关于各种变更操作的具体说明,可参阅 [表结构变更](TODO)文档。

多种导入方式

在 基础使用指南 中,我们介绍了如何导入存储在 BOS 上的数据。PALO 本身还支持多种导入方式,如通过 HTTP 协议进行本地数据的导入,或者通过 Routine Load 功能订阅 Kafka 中的消息。也可以通过 INSERT 语句直接进行近实时的数据导入。

更多导入方式,可参阅 导入总览。

数据删除和更新

PALO 支持通过两种方式对已导入的数据进行删除。一种是通过 DELETE FROM 语句,指定 WHERE 条件对数据进行删除。这种方式比较通用,适合频率较低的定时删除任务。

另一种删除方式仅针对 Unique 主键唯一模型,通过导入数据的方式将需要删除的主键行数据进行导入。PALO 内部会通过删除标记位对数据进行最终的物理删除。这种删除方式适合以实时的方式对数据进行删除。

关于删除和更新操作的具体说明,可参阅 数据更新 相关文档。

相似文档
  • 本文档主要介绍 PALO 的建表和数据划分,以及建表操作中可能遇到的问题和解决方法。 基本概念: 在 PALO 中,数据都以关系表(Table)的形式进行逻辑上的描述。
  • 本文档主要从逻辑层面描述 DORIS 的数据模型以帮助用户更好的使用 DORIS 应对不同的业务场景。 基本概念: 在 DORIS 中,数据以表(Table)的形式进行逻辑上的描述。 一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。
  • 索引用于帮助快速过滤或查找数据。 目前 PALO 主要支持两类索引:内建的智能索引,包括前缀索引和ZoneMap索引。用户创建的二级索引,包括Bloom Filter索引和Bitmap倒排索引。
  • 支持的数据源: PALO 提供多种数据导入方案,可以针对不同的数据源进行选择。 数据导入总体说明: PALO 的数据导入实现有以下共性特征,这里分别介绍,以帮助大家更好的使用数据导入功能 原子性保证: PALO 的每一个导入作业,不论是使用 Broker Load 进行批量导入,还是使用 INSERT 语句进行单条导入,都是一个完整的事务操作。
  • Stream Load 用于将本地文件导入到 PALO 中。 不同于其他命令的提交方式,Stream Load 是通过 HTTP 协议与 PALO 进行连接交互的。 该方式中涉及 HOST:PORT 应为 HTTP 协议端口。 公有云用户必须使用 Compute Node(BE)的 HTTP 协议端口,默认为 8040。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部