概述
平台的告警功能,可对平台上的集群、节点、计算组件进行告警。
为了提升系统的运维效率,平台将 global 集群和业务集群常见故障排查思路中用到的监控指标,设置为告警规则,分类汇总后形成了系统内置的告警策略。
除了内置的系统告警策略,平台还支持用户基于预置的监控指标、用户自定义监控指标、用户自定义的黑盒监控项,以及平台的日志、事件数据,为平台上的集群、节点、计算组件设置告警规则。当资源异常或达到预警状态时,即可自动触发告警。结合平台的通知功能,可进一步将告警信息主动推送给运维人员,提醒运维人员及时处理告警资源,确保平台上的业务顺畅运行。
为方便用户为平台上大量的资源设置告警,平台支持通过告警模板定制针对同类资源(集群、节点、计算组件)的标准化的告警配置,用户可基于已有模板快速为资源创建告警策略。
提示:平台在部署完成后,已经为平台内置的组件、集群、节点、平台证书等配置了告警策略,您可以 单击此处 下载内置告警策略附件。
告警类型
-
指标告警:平台根据客户需求,提炼出了满足大部分客户需求的常用监控指标。用户通过选择监控指标,并设置触发条件即可配置告警,当监控数据满足告警规则的触发条件时触发告警。
-
自定义告警:由客户按照自己公司的使用场景,添加企业专属的指标规则,在指标告警的基础上,更好的满足企业对于告警的高阶需求。
-
日志告警(仅计算组件):由指定时间范围内查询到的计算组件的特定日志内容(Error、Warning 等)条数触发的告警。
-
事件告警(仅计算组件):由指定时间范围内查询到的当前组件的事件 Reason(组件转换到当前状态的原因,例如:BackOff、Pulling、Failed 等)个数触发的告警。
-
黑盒告警(仅集群):由集群下已创建的黑盒监控项的监控数据触发的告警。
状态说明
-
告警状态
-
告警:基于告警规则的配置查询得到的数据,已满足规则的触发条件并触发告警。
-
等待中:基于告警规则的配置查询得到的监控数据,大于等于触发条件中的 告警阈值 ,但持续时间尚未满足触发条件,是触发告警前的临界状态。
例如:告警规则触发条件为CPU 使用率超过 80% 且持续 3 分钟
。系统首次发现 CPU 超过 80% 时,就会将规则标记为等待中
状态,之后不断评估,如果 3 分钟内 CPU 使用率都超过 80%,规则状态变为 告警;如果后续的任何一次评估中 CPU 使用率低于 80%,规则状态恢复为 正常。 -
正常:基于告警规则的配置查询得到的数据,未达到告警阈值。
-
-
静默状态
-
等待中(
):设置静默后,到静默开始之前的状态。处于该状态时,策略中规则触发告警时,会正常发送通知。
-
静默中(
):静默开始后直到静默到结束的状态,处于该状态时,策略中规则触发告警时,不会发送通知。
-
实时告警
平台通过实时告警,将当前发生告警的资源个数及详细的告警信息进行集中展示后,方便运维人员、管理员实时了解平台上整体业务的告警情况,及时排除故障因素,保障平台正常运行。
告警历史
为方便运维人员、管理员分析近期监控告警状况,进行历史问题追溯,平台支持查看一段时间内的告警历史记录,支持查看的范围为所有集群,支持查看的历史信息包括发生时间、告警规则、故障资源、通知方式、状态、通知对象等。
说明:告警历史的保留时间等同于事件的保留时间,可通过 更新日志存储组件的配置参数 修改。