上云无忧 > 文档中心 > 百度数据仓库 Palo 集群的监控与报警
百度数据仓库 Palo Doris版
百度数据仓库 Palo 集群的监控与报警

文档简介:
本文档主要介绍 Palo 的监控项与相关报警配置。 用户进入 Palo 集群详情页后,可以点击上方的 监控 标签进入监控页面。 Palo 根据节点类型的不同,展示不同的监控项。用户可以在 节点类型 中选择 Leader Node 或 Compute Node,在 监控对象 中勾选希望查看的实例(最多勾选10个),然后选择相关的监控项进行查看。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

本文档主要介绍 Palo 的监控项与相关报警配置。

用户进入 Palo 集群详情页后,可以点击上方的 监控 标签进入监控页面。

Palo 根据节点类型的不同,展示不同的监控项。用户可以在 节点类型 中选择 Leader Node 或 Compute Node,在 监控对象 中勾选希望查看的实例(最多勾选10个),然后选择相关的监控项进行查看。

监控指标说明

公共监控指标

Leader Node 和 Compute Node 都有以下公共的监控指标:

  1. CPU使用率

    以百分比显示CPU使用率,数值越高,表示CPU负载越高。

  2. 内存使用量

    以 GB 为单位显示内存使用量。

  3. 内存使用率

    以百分比显示内存使用率,数值越高,表示节点当前消耗内存越大。

  4. 磁盘空间使用量

    以 GB 为单位显示节点整体的磁盘使用量。

  5. 磁盘使用率

    以百分比显示节点整体的磁盘使用率。当前不支持显示单独某个磁盘的使用率。

  6. CPU Stolen

    以百分比显示 CPU stolen 的比率。该值高于 10%,则说明可能该节点的 CPU 资源可能被抢占严重。

Leader Node 独有监控指标

  1. 当前连接数

    显示当前通过 Mysql 端口连接到 Leader Node 的连接数。

  2. 当前元数据日志id

    显示当前 Leader Node 元数据同步的最新日志id。该监控项的具体数据没有意义,只需查看各个 Leader Node 的最新日志id保持同步即可。

  3. 每秒查询数

    显示每秒处理的查询量(QPS)。该数据仅统计通过 Mysql 协议连接并发起的查询请求数量。

  4. 每秒请求数

    显示每秒处理的请求量(RPS)。该数据仅统计通过 Mysql 协议连接并发起的请求数量。请求包括查询、DDL、DML 等所有请求。

  5. 每秒查询错误数

    显示每秒发生的错误查询的数量。该数据仅统计通过 Mysql 协议连接并发起的查询出现错误的数量。

  6. JVM Old 区使用率

    以百分比显示 JVM Old 区的使用率,数值越高,说明 JVM 内存使用量越高。

  7. JVM Young 区使用率

    以百分比显示 JVM Young 区的使用率。

Compute Node 独有监控指标

  1. 当前线程数

    显示 Compute Node 中,进程的线程数。

  2. 文件句柄数

    显示 Compute Node 中,进程所打开的文件句柄数。

  3. 写入速率

    以字节显示每秒的写入速率。这里统计的是通过导入命令,实际写入到 Palo 中的数据写入速率。

  4. 读取速率

    以字节显示每秒的读取速率。这里统计的是查询时产生的读取速率。

监控指标图例说明

以上图为例,显示了 Compute Node 的 CPU 使用率。多个 Compute Node 的监控指标会以不同颜色的线在图中显示。点击图例中对应的节点,则可以单独显示某一个节点的监控指标。监控页右上角还可以选择需要显示的时间段。

报警配置

当前我们只支持对 Leader Node 节点的监控指标进行报警配置。且当前需对各个 Leader Node 进行单独的报警配置。(Compute Node 报警配置以及按节点类型批量报警配置将在近期上线)

点击上图右侧的 报警详情 即可进入对应 Leader Node 的报警配置页面。

上图中的 绿// 分别表示当前已配置的各个报警项的状态。

点击 添加策略 开始添加一项报警策略。

以上图为例。上图中,我们配置了一个名为 cpu_alert 的报警策略。该策略设置为,当CPU使用率在10分钟内的平均值大于 70%,并且连续3次,则报警。报警方式是通过短信和邮件的形式通知报警对象。当指标恢复正常后,以邮件的形式通知报警对象。如果出现监控数据不足,则也会以邮件的形式通知报警对象。

设置完成报警策略后,如有触发报警,则会收到对应的通知,并且可以在 报警事件 中查看历史报警。

报警生效时间大约为 5 分钟。

Leader Node 报警策略实践

这里给出 Leader Node 的报警配置建议

  1. CPU 使用率

    按需。比如15分钟内的平均使用率大于90%,则报警。

  2. 磁盘空间使用率

    建议当磁盘空间使用率大于80%,则报警。此时可能需要清理数据,或扩容。

  3. 内存使用率

    按需。比如15分钟内的平均使用率大于80%,则报警。

  4. 当前连接数

    Palo 默认单一用户对单一 Leader Node 的连接上限是 100。假设有 3个 Palo 用户,则单一 Leader Node 的连接数超过300,则会拒绝连接。这里可以根据用户数量,配置合理的报警策略。

  5. 每秒查询数

    按需。根据业务使用设置合理的报警策略。

  6. 每秒请求数

    按需。根据业务使用设置合理的报警策略。

  7. 每秒查询错误数

    根据业务可容忍的数量设置。较为激进的情况,可以设置5分钟内求和大于0,则报警。

  8. JVM Old 区使用率

    建议设置当15分钟内,Old 区平均使用率大于75%,并连续2次后,报警。

  9. JVM Young 区使用率

    Young 区使用率没有实际报警意义。通常只需查看趋势即可。

相似文档
  • 本文档主要是对公有云主账号及相关子用户对 Palo 集群的操作权限的说明。 用户可在登录公有云后,在右上角的 多用户访问 中设置子用户及相关权限。 权限类型: 产品级权限: 产品级权限作用于公有云主账号下的所有 Palo 集群实例。
  • 当您忘记管理员用户(admin)的密码时,可以登录集群管理页面,点击 重置密码,进入密码修改页面,输入新的密码和验证码即可完成重置的工作。
  • 云平台支持对集群进行水平扩缩容,增加和删除集群节点。 一、水平扩容: 集群创建后,您可以在任何时间按需增加节点数量,从而拓宽集群规模,在集群详情页面,点击 集群伸缩 进入页面。
  • TINYINT数据类型: 长度: 长度为1个字节的有符号整型。 范围: [-128, 127]。 转换: PALO可以自动将该类型转换成更大的整型或者浮点类型。使用CAST()函数可以将其转换成CHAR。
  • PALO中的每种数据类型都会对应着一种该类型的Literal。用户可以在SQL语句中指定Literal,比如在select的list中,where从句中以及函数的参数中。 数字字面常量: 整型类型(TINYINT, SMALLINT, INT, 和BIGINT)的字面常量是一系列数字,这些数字前可以加些0。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部