当用户需要对某些指标进行重点监控并在异常情况下及时响应时,可在日常运维中通过对这些重点指标创建阈值规则。当指标值满足已设定的阈值条件时,系统会主动产生超限阈值,用户可在第一时间发现异常并进行处理。
默认最多可以创建1000个阈值规则。在“所有阈值”、“超限阈值”、“数据不足”和“正常”四个页面的任意一个页面中,均可用同样的方法创建阈值规则。以在“所有阈值”页面中创建阈值规则为例,操作步骤如下:
1. 单击【运维】【应用监控】;
2. 在左侧导航栏中选择【阈值规则】【所有阈值】;
3. (可选)在【所有阈值】页面中,确认是否选中【创建阈值规则并发送超限阈值】后的复选框;
1)若选中“创建阈值规则并发送超限阈值”后的复选框,当系统的“应用”命名空间中存在“instanceAvailableRate”指标,“节点”命名空间中存在“diskUsedRate”(仅限于文件系统中的diskUsedRate指标)或“nodeStatus”指标时,系统会自动为“instanceAvailableRate”、“diskUsedRate”或“nodeStatus”指标创建对应的默认阈值规则。默认阈值规则支持修改和删除操作。默认阈值规则的缺省设置请参见下表:
命名空间 |
指标 |
命名方式 |
阈值条件 |
统计周期 |
连续周期 |
统计方式 |
告警级别 |
应用 |
instanceAvailableRate |
命名空间-应用名称-指标 例如,CONTAINER-aos-apiserver-instanceAvailableRate |
instanceAvailableRate<100% |
1分钟 |
2 |
平均值 |
重要 |
节点 |
diskUsedRate |
命名空间-挂载点-节点名称-指标 例如,NODE-/var/log/audit-Global-Monitor01-diskUsedRate 说明:挂载点和节点名称之间的先后顺序可以调换,请以实际环境为准。 |
diskUsedRate≥90% |
1分钟 |
2 |
平均值 |
重要 |
节点 |
nodeStatus |
命名空间-节点名称-指标 例如,NODE-Global-Monitor01-nodeStatus |
nodeStatus≥1 |
1分钟 |
2 |
平均值 |
重要 |
2)若取消选中“创建阈值规则并发送超限阈值”后的复选框,系统不会实时创建默认阈值规则,同时不会删除已经创建的阈值规则;
4. 在【所有阈值】页面中,单击【添加阈值】;
5. 在【选择指标】页面中,选择一个关注的指标,指标的详细信息请参见6.1.9 应用监控指标总览;
6. 在【视图预览】区域框下面设置已选指标的统计方式、统计周期和时间范围,也可以通过执行步骤8.2设置已选指标的统计方式和统计周期;
7. 单击【下一步】;
8. 在【定义阈值】页面中,根据需要设置阈值规则的相关参数:
1)在【阈值设置】区域框下面,输入【阈值名称】和【阈值描述】并设置已选择指标的【阈值条件】、【连续周期】和【告警级别】;
2)(可选)在【阈值预览】区域框下面,设置已选指标的【统计方式】和【统计周期】;
9. 单击【确定】;
10. 后续处理:
1)可以搜索、修改和删除已创建的阈值规则;
2)可以通过如下操作查看超限阈值,并对该超限阈值进行分析和处理;
A、在左侧导航栏中选择【阈值规则】【超限阈值】;
B、单击超限阈值名称前的 ,查看其详细信息;
C、在超限阈值名称右侧【操作】列的【更多】中选择【历史记录】,查看其历史记录。