上云无忧 > 文档中心 > 百度数据仓库 Palo 使用S3-SDK访问对象存储
百度数据仓库 Palo Doris版
百度数据仓库 Palo 使用S3-SDK访问对象存储

文档简介:
PALO 内置了 AWS S3 sdk,可以直接访问兼容 S3 API 的对象存储,如AWS S3,百度云对象存储 BOS,阿里云的 OOS 和腾讯云的 COS 等等。 通过 S3 sdk 访问对象存储可以不再依赖 Broker 组件。进一步降低 PALO 系统的运维复杂度。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

PALO 内置了 AWS S3 sdk,可以直接访问兼容 S3 API 的对象存储,如AWS S3,百度云对象存储 BOS,阿里云的 OOS 和腾讯云的 COS 等等。

通过 S3 sdk 访问对象存储可以不再依赖 Broker 组件。进一步降低 PALO 系统的运维复杂度。

使用 S3 SDK

任何通过 Broker 访问对象存储的操作,都可以用 S3 SDK 方式进行替换,这些操作包括:

  • 数据导入
  • 备份与恢复
  • 数据导出

本文我们针对不同云厂商的对象存储系统进行示例说明。

百度对象存储 BOS

我们以 Broker Load 数据导入为例:

LOAD LABEL db.label1 ( DATA INFILE("s3://my_bucket/test/example.txt") INTO TABLE my_table 
COLUMNS TERMINATED BY "," ) WITH S3 ( "AWS_ACCESS_KEY" = "xxxxxxxxxxxxxxxxx", "AWS_SECRET_KEY" = "
yyyyyyyyyyyyyyyy", "AWS_ENDPOINT" = "http://s3.bj.bcebos.com", "AWS_REGION" = "bj" )
 PROPERTIES( "exec_mem_limit" = "8589934592" );

导入语法和 Broker Load 几乎一致,区别在于:

  1. 导入文件路径

    导入文件路径需以 s3:// 开头,之后的 bucket 以及路径和 Broker Load 中一致。

  2. WITH 语句属性

    WITH 语句从 WITH BROKER broker_name 改为 WITH S3,并填写以下4个属性:

    • AWS_ACCESS_KEY/AWS_SECRET_KEY:对应 bos_accesskey 和 bos_secret_accesskey,可在百度智能云页面右上角点击 账户头像 -> 安全认证 获取。
    • AWS_ENDPOINT:对应 bos_endpoint,S3 兼容的服务域名在 这里 查看。
    • AWS_REGION:Bucket 所在地区,如 华北-北京 是 bj。一般显示在 bos_endpoint 中。

其他操作如备份恢复、导出等改动类似,都主要包括路径和 WITH 语句属性的对应修改。这里不再赘述。

AWS S3

访问 AWS S3 的语法和访问 BOS 的相同。这里仅说明以下属性的获取方式:

  • AWS_ACCESS_KEY/AWS_SECRET_KEY:可在 aws 网站右上角 个人账户名称->My Security Credentials 中创建。
  • AWS_ENDPOINT/AWS_REGION:可以在 这里 的 Amazon S3 Endpoints 章节获取 Region 和 Endpoint。

阿里云 OSS

访问 OSS 和访问 BOS 的相似:

LOAD LABEL db1.label1 ( DATA INFILE("s3://cmyrepo/load/1.txt") INTO TABLE `tbl1` COLUMNS TERMINATED BY "," )
 WITH S3 ( "AWS_ACCESS_KEY" = "LTAI5txxxxxxxxxxSvMDqf", "AWS_SECRET_KEY" = "ZhZ6ojxxxxxxxxxxxxKRvl0cIo5b", 
"AWS_ENDPOINT" = "http://oss-cn-beijing.aliyuncs.com", "AWS_REGION" = "oss-cn-beijing" );

这里说明以下属性的获取方式:

  • AWS_ACCESS_KEY/AWS_SECRET_KEY:可在 阿里云AccessKey管理 中创建和查看。
  • AWS_ENDPOINT/AWS_REGION:可以在 这里 获取。

腾讯云 COS

腾讯云COS暂不支持,以下示例待更新。

访问 COS 的语法和访问 BOS 的相同。

LOAD LABEL db.label1 ( DATA INFILE("s3://cmyrepo-12345678/1.txt") INTO TABLE tbl1 COLUMNS TERMINATED BY "," )
 WITH S3 ( "AWS_ACCESS_KEY" = "xxxxx", "AWS_SECRET_KEY" = "yyyyy", "AWS_ENDPOINT" = "cos.ap-beijing.myqcloud.com",
 "AWS_REGION" = "ap-beijing" ) PROPERTIES( "exec_mem_limit" = "8589934592" );

这里说明以下属性的获取方式:

  • AWS_ACCESS_KEY/AWS_SECRET_KEY:可在 腾讯云控制台 右侧 访问密钥->API密钥管理 出获取。其中 SecretId 对应 AWS_ACCESS_KEY,SecretKey 对应 AWS_SECRET_KEY。
  • AWS_ENDPOINT/AWS_REGION:可以在 这里 获取。

相似文档
  • 本文档主要介绍 PALO 的部分试验性质的功能。 这些试验功能默认都处于关闭状态,在功能成熟后会在之后的版本升级中默认开放。 Join Reorder: 在数据分析领域,SQL 查询优化器能够显著提高用户提交 SQL 的执行效率。而其中很重要的一部分就是对 SQL 中表的 Join 顺序的自动调整。Join 顺序的不同可能会导致 SQL 的执行效率有着天壤之别。
  • 目前 Palo 服务为用户提供了对集群停止与删除的能力。停止与删除的区别如下: 停止:仅仅将服务停止,服务占用的资源没有释放,类似于将本地的 MySQL 服务停止。所以在停止状态下仍然是计费的,服务停止后可以通过启动按钮将服务重新启动起来。服务启动后不需要重新导入数据。
  • 本文档主要介绍 Palo 的监控项与相关报警配置。 用户进入 Palo 集群详情页后,可以点击上方的 监控 标签进入监控页面。 Palo 根据节点类型的不同,展示不同的监控项。用户可以在 节点类型 中选择 Leader Node 或 Compute Node,在 监控对象 中勾选希望查看的实例(最多勾选10个),然后选择相关的监控项进行查看。
  • 本文档主要是对公有云主账号及相关子用户对 Palo 集群的操作权限的说明。 用户可在登录公有云后,在右上角的 多用户访问 中设置子用户及相关权限。 权限类型: 产品级权限: 产品级权限作用于公有云主账号下的所有 Palo 集群实例。
  • 当您忘记管理员用户(admin)的密码时,可以登录集群管理页面,点击 重置密码,进入密码修改页面,输入新的密码和验证码即可完成重置的工作。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部