腾讯云容器服务云原生 - 监控和告警配置

容器服务 TKE

简介/价格/文档

腾讯云容器服务云原生 - 监控和告警配置

文档简介：

概述：云原生 etcd 默认为您提供节点资源使用率、集群业务指标、实例级别指标、实例接口四个维度的监控指标数据，均支持设置告警，此外，如果您有自定义监控指标展示的需求，也支持使用 Prometheus 监控作为额外的监控服务，配置自定义的监控指标。

*此产品及展示信息均由腾讯云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

概述

云原生 etcd 默认为您提供节点资源使用率、集群业务指标、实例级别指标、实例接口四个维度的监控指标数据，均支持设置告警，此外，如果您有自定义监控指标展示的需求，也支持使用 Prometheus 监控作为额外的监控服务，配置自定义的监控指标。

前提条件

已创建 etcd 集群。

操作步骤

1. 登录云原生 etcd 控制台。

2. 进入 etcd 集群列表页面，在页面上方选择相关地域，在下方集群列表中找到您需要操作的 etcd 集群。

查看监控指标

可从实例列表页，单击对应集群

图标，进入实例详情页 > 实例监控。如下图所示：

指标释义

聚合方式：

1. 时长：监控图表中展示的数据所属时间范围。

2. 粒度：图表中每个数据点的聚合方式，原始数据默认为15s采集一次，控制台可选择按1分钟、5分钟聚合展示平均值。

3. 自动刷新：图表自动刷新的周期，支持按30s/5min/30min/1h自动刷新图表，默认关闭。

指标概览：

指标维度	指标名称	单位	指标说明
节点资源	CPU 用量占 request 百分比	百分比	节点当前 CPU 用量占用当前节点 Pod CPU request 值（用户创建实例时选择的 CPU 规格）的比例
节点资源	文件系统读取速率	MiBytes/s	节点数据盘读操作每秒数据量
节点资源	文件系统写入速率	MiBytes/s	节点数据盘写操作每秒数据量
节点资源	内存使用量占 request 百分比	百分比	节点内存当前用量占 Pod MEM request 值（用户创建实例时选择的内存规格）的比例
节点资源	内存使用总量	MiBytes	节点内存使用量
节点资源	网络接收速率	MiBytes	节点网卡数据接收速率
节点资源	网络发送速率	MiBytes	节点网卡数据发送速率
业务指标	数据库 key 数量	个	节点中 key 的数量，数据来源 etcd metrics，计算公式：etcd_debugging_mvcc_keys_total{job="$job"}
业务指标	数据库 MVCC 写入次数	次	节点中数据写入次数，计算公式：etcd_mvcc_put_total{job="$job"}
业务指标	数据库大小	MiBytes	节点中统计的数据库大小，计算公式：etcd_debugging_mvcc_db_total_size_in_bytes{job="$job"}
业务指标	共识提议 apply 速率	次/s	通常应该很小（即使在高负载下也只有几千个）。如果指标差异持续上升，则表明 etcd 服务器过载。可能是高耗查询导致的（如大范围查询或大型 txn 操作），计算公式：rate(etcd_server_proposals_applied_total{job="$job"}[5m])
业务指标	共识提议 commit 速率	次/s	通常会随着时间的推移而增加，单个 member 与 leader 之间持续较大的延迟表明该成员运行缓慢或不健康，计算公式：rate(etcd_server_proposals_committed_total{job="$job"}[5m])
业务指标	排队等待共识提议总量	个	该指标上升表示存在高客户端负载或成员无法提交提议，计算公式：etcd_server_proposals_pending{job="$job"}
业务指标	失败共识提议增长速率	次/s	该指标通常与两个问题有关：与 leader 选举相关的临时故障或由于集群中的仲裁损失而导致的较长时间故障，计算公式：ate(etcd_server_proposals_failed_total{job="$job"}[5m])
实例级指标	集群是否有 Leader	布尔值	如果没有 leader ，则实例不可用，计算公式：max(etcd_server_has_leader{job="$job"})
实例级指标	Leader 切换总次数	次	如果没有 leader ，频繁的 leader 变动会显着影响 etcd 的性能，可能是由于网络连接问题或 etcd 集群的负载过大，计算公式：max(etcd_server_leader_changes_seen_total{job="$job"})
实例接口监控	gRPC 调用速率	次/s	特定 method 操作的 grcp 调用速率，计算公式：sum(rate(grpc_server_handled_total{job="$job"}[1m])) by (job,grpc_method,instance)

配置告警规则

1. 在实例详情页 > 实例监控中单击配置告警。

2. 进入云监控新建告警策略页，选择对应的指标设置告警，详细告警设置指引可参见新建告警策略。

配置 Prometheus 监控

如果您需要更多维度的 etcd 指标展示与分析，可为实例关联 Prometheus 监控实例，通过 Grafana 配置更多自定义指标展示。云原生 etcd 支持将原生 etcd metric 输出到 Prometheus 监控服务。

说明

由于云原生 etcd 将为您创建默认的 Grafana Dashboard，因此 Prometheus 实例需开启 Grafana ，否则无法关联到云原生 etcd。

1. 在实例监控页中，单击配置 Prometheus 监控。

2. 在弹窗中为实例选择合适的 Prometheus 监控实例。

注意

默认 Dashboard 不允许修改，如果您有自定义修改的需求，可以复制默认 Dashboard 进行修改。

默认 Dashboard 示例图如下：

更多关于使用 Grafana 查看 Prometheus 监控，请参见 Grafana 可视化。

相似文档

腾讯云容器服务云原生 - 节点扩容和升降配
操作场景：本文将为您介绍如何在控制台为 etcd 集群进行节点扩容和升降配。说明：节点扩容（调整节点数量）不会影响业务的正常运行。节点升降配（调整节点规格）会触发滚动更新，建议选择业务低峰期操作。
腾讯云容器服务云原生 - 自动压缩管理
操作场景：集群运行过程中，对 etcd 键值的所有更新操作都将被记录。为防止集群性能下降或存储空间耗尽，云原生 etcd 支持通过自动压缩功能实现对数据的定时清理，目前支持周期性压缩和根据 revision 压缩两种压缩模式。本文将为您介绍如何在控制台为 etcd 集群设置数据自动压缩。
腾讯云容器服务云原生 - 快照管理
操作场景：云原生 etcd 支持自动和手动两种备份操作，每次备份的结果将以快照的方式展示在快照列表中。您可以通过快照将集群恢复到之前的某个状态。本文将为您介绍应如何管理 etcd 集群快照。
腾讯云容器服务云原生 - 数据同步
操作场景：本文将介绍如何在控制台将源 etcd 集群的数据同步至云原生 etcd 集群，以便进行统一管理。
腾讯云容器服务云原生 - 删除集群
云原生 etcd 集群禁止级联删除：在删除集群之前，请确保已移除集群中的所有存储数据。集群删除是不可逆操作，请谨慎操作！注意：在删除集群之前，建议您查看实例监控，确认是否还存在客户端业务调用。对于开启密码鉴权的集群，无法检测数据存储状态，因此不受级联删除的限制，请谨慎操作。

文档中心

全民上云·上云补贴申领

免费试用（限企业）