百度智能云容器引擎服务 CCE 配置报警规则

容器引擎服务CCE

简介/价格/文档

百度智能云容器引擎服务 CCE 配置报警规则

文档简介：

CCE 基于 Prometheus + Alertmanager 的方案为用户提供快速可视化的报警配置，用户可根据需求配置节点，应用等维度的报警规则，告警将以邮件或短信发送给指定用户或用户组。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

报警概述

CCE 基于 Prometheus + Alertmanager 的方案为用户提供快速可视化的报警配置，用户可根据需求配置节点，应用等维度的报警规则，告警将以邮件或短信发送给指定用户或用户组

前提条件

已通过 CCE 部署一个 Kubernetes 集群
已在容器监控页面部署容器监控核心服务 Prometheus (含 Alertmanager )

配置报警规则

规则配置分为两步：规则配置和全局配置

规则配置：报警规则配置，即什么情况下触发报警
全局配置：用于路由报警规则到不同的用户或用户组，即报警发给谁，什么样的报警频率

配置入口

进入 “产品服务>容器引擎 CCE”，点击左侧导航栏“监控日志>容器监控“，进入容器监控页；点击配置报警规则模块的配置或者组件列表中 Alertmanager 所在行的配置报警。

规则配置

进入“规则配置“ Tab 页，如下图：

规则列表页可以查看所有的报警规则，添加规则、删除或修改现有规则。

单击“新建报警规则“，弹出报警规则配置页面，如下图：

根据需求配置规则，参数解释如下：

规则名称：报警规则的名称，也是报警邮件中的标题
持续时间：只有当触发条件一段时间后才发送告警，单位为秒
表达式：填写合法的 promsql 语句，如 node_cpu >90 等。表达式语法可以参考：语法规则
报警描述：可以自定义报警描述，描述信息会在邮件正文中体现，详见语法参考，为空表示无特定描述
标签：可以对每条规则配置多个自定义标签，用于在全局配置中筛选路由，以匹配不同的报警收件人

配置完成后，点击“确认“提交即可

提醒：每次新建、修改、删除操作，都需要 60s 左右生效

全局配置

进入“全局配置“ Tab 页，如下图：

全局配置中可以查看或配置路由规则、聚合分组。

单击“新建路由规则“，弹出路由规则配置页面，如下图

路由规则：指当报警被触发后( FIRE 状态)，会匹配到的报警收件人、发送间隔等。

根据需求配置规则，参数解释如下：

匹配规则：对应每条报警规则中的标签，可以通过标签匹配多个报警规则，以同样的发送频率发送给同一组收件人
发送间隔：报警的发送间隔，单位为秒。
通知类型：目前支持邮件报警、短信报警
通知对象：可以勾选用户和用户组，用户分为普通子用户和消息接收人，两种类型都可以在多用户访问控制中认证手机号和邮箱地址，用户或组添加后，必须认证才能接到报警。

提醒：

为了报警的安全性考虑，单集群单用户每分钟的报警发送量不超过100封
如果未收到邮件或短信报警，可以先检查下是否设置了拦截规则，如短信屏蔽之类
老用户配置的特定邮箱报警仍然生效，如有问题请联系管理员

聚合分组

聚合分组决定了产生的告警怎么分组，分组条件一致的告警会合并为一组发送，当大型故障发生时（如网络故障），会导致报警条数过多，无法快速定位问题，分组可以达到降噪的效果。默认的聚合分组为报警名称（ alertname ），即默认不分组。用户可以根据需求添加或删除聚合分组。

单击“添加聚合分组“，在弹出的输入框中配置。

示例：

将某一类环境的所有应用异常告警做聚合，如果网络故障或者其他故障导致大批应用异常，那么所有告警会合并为一条告警发送。配置步骤：

在test环境中的所有应用异常告警规则配置中添加标签：env: test alert_type: app_down
在dev环境中的所有应用异常告警规则配置中添加标签：env: dev alert_type: app_down
添加聚合分组标签：env和alert_type

告警发送：

标签为 env=test 且 alerttype=app_down 的所有告警被聚合，即 test 环境中所有应用异常告警在一条信息发送。同理，dev 环境中所有应用异常告警在一条信息发送。

相似文档

百度智能云容器引擎服务 CCE 事件中心
K8S Events 可以通过 kubectl describe 进行查看，用户通过获取 K8S Events 能够及时的诊断集群或服务异常。K8S 默认只提供 1 小时的 Events 信息，用户可通过在 CCE 开启 Event 持久化，查询最长 7 天之内的数据。
百度智能云容器引擎服务 CCE 日志管理
CCE 日志管理功能帮助用户对 kubernetes 集群中的业务日志和容器日志进行管理。用户通过日志管理可以将集群中的日志输出到外部的 Elasticsearch 服务或者百度云自己的 BOS 存储中，从而对日志进行分析或者长期保存。
百度智能云容器引擎服务 CCE 集群服务画像
CCE 的服务画像可以查看集群内所有资源的特征和规范性，如镜像检查、应用检查、网络检查、安全检查，并给出对应的评分和详细内容，帮助用户更好的了解集群内服务状况。注意：服务画像的结果基于前一天的集群数据，且检查规则是一般判定标准，不一定适用于所有业务场景。
百度智能云容器引擎服务 CCE 集群异常事件报警
CCE 集群异常事件报警服务：当 CCE 集群中发生异常事件（如节点 NotReady）时，能够通过云上 BCM 服务实时向用户报警。如何使用？ (1) 打开百度云 console 主页。进入 CCE 服务，目标集群详情页。依次点击 "监控日志 => 事件中心"，打开右上角 "异常事件推送至BCM" 的开关。
百度智能云容器引擎服务 CCE 权限概述
注册百度智能云账号后，系统自动创建的超级管理员用户即为账号的主用户，默认拥有云账户的所有权限和管理所有云资源的权限。在多个人员共享资源和协作管理的场景下，为了保证账户和资源的安全，主用户可以创建子用户，实现不同子用户使用不同的用户名密码，以及拥有不同的云资源访问权限。

文档中心

全民上云·上云补贴申领

免费试用（限企业）