本文档为您介绍如何使用事件监控,实现当检测到异常事件时进行报警的功能。
背景信息
当 CNAP 平台或 Kubernetes 集群发生系统异常时,事件监控功能可以及时接收到您所关注的各类异常事件,并以邮件或短信的形式发出通知,方便您及时知晓事件发生并处理异常。
CNAP 事件监控功能不依赖任何第三方组件(如:Prometheus),所以您可以直接新建事件监控规则以监控平台或集群事件。
事件监控功能
您可以登录 CNAP 控制台,在左侧菜单栏中“运维中心”下点击“事件监控”进入事件监控规则功能界面。
事件监控功能页面中分为“事件规则”、“事件查询”、“报警记录”三个子界面,分别的功能为:
- 事件规则:实现对事件监控规则的增删改查
- 事件查询:实现查询指定工作空间、应用下所有部署组的当前及关键事件列表
- 报警记录:集中展示所有报警记录,每条报警记录由一段时间内,触发同一条报警规则的时间聚合而成
若您使用子用户登录系统,那么需要保证拥有针对您所关注的工作空间的查看或修改权限。
事件监控功能仅监控”关键事件“。关键事件表示在部署组的生命周期中较为重要的事件,主要为各类错误事件。您可以点击”应用托管“ -> "应用" -> 选择您想查看的应用 -> ”事件查询“ 中查看该应用下部署组中的事件。点击选择某部署组,选择”关键事件查看“,并点击确定事件范围后即可查询关键事件;或者在事件监控中的”事件查询“子页面查询。
管理事件监控规则
新建事件监控规则
进入“事件监控”功能页面,在“事件规则”子页面下点击“添加规则”即可创建事件监控规则。新建事件监控规则的界面如图:
主要的可配置项包括:
- 规则名称:支持大小写字母、数字、中文、- 字符,长度为2-63
- 生效时间:指示一天之中规则的生效时间范围,若起始事件大于终止时间,则表示生效至次日
-
事件类型:事件类型分为“事件模板”和“自定义”。CNAP 平台根据业务及集群运行过程中常见的异常事件为您提供了预设的事件监控关键字模板。关键字模板根据“事件来源”的不同展示不同的“事件名称”列表。“应用对象”、“操作符”、“关键字”则展示您选中的事件模板的具体内容
- 平台事件:表示异常事件的来源是 CNAP 平台本身。目前来源为平台事件的事件主要为水平弹性伸缩(HPA,Horizontal Pod Autoscaler)相关事件
- Kubernetes 事件:表示异常事件的来源是 Kubernetes 集群。事件名称包含了常见的集群出错场景,如:创建 Pod 失败、拉取镜像失败、Pod 存活探针检测失败等
-
应用对象、操作符及关键字:主要展示您所选中的事件规则模板的具体内容,当“事件类型”选择“自定义“时,用户可以根据自己的需要填写这三项及事件名称,用于监控预设模板未能覆盖到的异常事件。操作符支持:contains 及 =
- contains: 表示要求事件的 message 字段包含 关键字 即认为命中报警规则
- =:表示要求事件的 message 字段与 关键字 完全匹配才认为命中报警规则
- 应用范围:表示该事件监控规则在当前工作空间下的作用范围。应用范围以树形结构展示当前工作空间下的资源结构,当选择任意节点时,则表示将该规则应用到该节点的所有子节点。
-
触发方式:表示当检测到符合该规则的异常事件时是否立即触发报警,目前支持:立即触发和累计触发
- 立即触发:将检测到满足该报警规则的异常事件时,立即发起报警请求
- 累计触发:限制在某个时间段内,重复检测到该事件的次数满足一定条件后才发起报警请求。目前的条件操作符支持 >、>= 及 =
- 规则状态:标识是否启用该规则
- 发送间隔:标识该规则下的报警邮件及短信的发送间隔。CNAP 将按照该时间间隔将期间所有的报警请求汇聚为一条报警记录,并发出报警邮件或短信。
- 通知对象,支持五种通知对象:邮箱、手机号、子用户、消息接收人、消息接收组;
您可以点击【添加通知对象】添加新的子用户、消息接收人、消息接收组。子用户可以按下图配置手机和邮箱。
操作事件监控规则
在完成创建规则后,即可在规则列表查看所有事件监控规则:
点击规则名称可以在右侧边栏弹窗中速览规则详情,也可以在”状态“列中迅速启用/禁用规则。
点击”编辑规则“即可对该规则进行修改:
在”更多操作“的子菜单中可删除该规则:
当删除报警规则时,该规则对应的所有报警记录也将被删除。
事件查询
在 ”事件监控“ 的 ”事件查询“ 子页面,可以查看指定工作空间及应用下,所有部署组的当前及关键事件。此页面的查询结果与通过应用托管下的应用详情界面中的”事件查询“得到的数据一致。
报警记录
在 ”事件监控“ 的 ”报警记录“ 子页面,可以查看指定工作空间及时间范围内所有的报警记录。
在列表中展示了报警记录的主要信息,包括报警记录ID、报警规则名称、触发事件名称、类型及最新触发事件。点击”报警详情“即可在右侧边栏查看该报警记录的详细信息,其中除报警记录的主要信息外,也包含了相应报警规则的通知对象及触发规则的时间信息。
每条报警记录对应一封报警邮件或一条报警短信,邮件内容类似:
注意,当删除某条报警规则时,该规则对应的所有报警记录也将被同步删除。