首页 / 平台管理 / 运维中心 / 告警 / 概述

概述

平台的告警功能，可对平台上的集群、节点、计算组件进行告警。

为了提升系统的运维效率，平台将 global 集群和业务集群常见故障排查思路中用到的监控指标，设置为告警规则，分类汇总后形成了系统内置的告警策略。

除了内置的系统告警策略，平台还支持用户基于预置的监控指标、用户自定义监控指标、用户自定义的黑盒监控项，以及平台的日志、事件数据，为平台上的集群、节点、计算组件设置告警规则。当资源异常或达到预警状态时，即可自动触发告警。结合平台的通知功能，可进一步将告警信息主动推送给运维人员，提醒运维人员及时处理告警资源，确保平台上的业务顺畅运行。

为方便用户为平台上大量的资源设置告警，平台支持通过告警模板定制针对同类资源（集群、节点、计算组件）的标准化的告警配置，用户可基于已有模板快速为资源创建告警策略。

提示：平台在部署完成后，已经为平台内置的组件、集群、节点、平台证书等配置了告警策略，您可以 单击此处 下载内置告警策略附件。

告警类型

指标告警：平台根据客户需求，提炼出了满足大部分客户需求的常用监控指标。用户通过选择监控指标，并设置触发条件即可配置告警，当监控数据满足告警规则的触发条件时触发告警。
自定义告警：由客户按照自己公司的使用场景，添加企业专属的指标规则，在指标告警的基础上，更好的满足企业对于告警的高阶需求。
日志告警（仅计算组件）：由指定时间范围内查询到的计算组件的特定日志内容（Error、Warning 等）条数触发的告警。
事件告警（仅计算组件）：由指定时间范围内查询到的当前组件的事件 Reason（组件转换到当前状态的原因，例如：BackOff、Pulling、Failed 等）个数触发的告警。
黑盒告警（仅集群）：由集群下已创建的黑盒监控项的监控数据触发的告警。

状态说明

告警状态
- 告警：基于告警规则的配置查询得到的数据，已满足规则的触发条件并触发告警。
- 等待中：基于告警规则的配置查询得到的监控数据，大于等于触发条件中的 告警阈值 ，但持续时间尚未满足触发条件，是触发告警前的临界状态。
  例如：告警规则触发条件为 CPU 使用率超过 80% 且持续 3 分钟。系统首次发现 CPU 超过 80% 时，就会将规则标记为 等待中 状态，之后不断评估，如果 3 分钟内 CPU 使用率都超过 80%，规则状态变为告警；如果后续的任何一次评估中 CPU 使用率低于 80%，规则状态恢复为正常。
- 正常：基于告警规则的配置查询得到的数据，未达到告警阈值。
静默状态
- 等待中（）：设置静默后，到静默开始之前的状态。处于该状态时，策略中规则触发告警时，会正常发送通知。
- 静默中（）：静默开始后直到静默到结束的状态，处于该状态时，策略中规则触发告警时，不会发送通知。

实时告警

平台通过实时告警，将当前发生告警的资源个数及详细的告警信息进行集中展示后，方便运维人员、管理员实时了解平台上整体业务的告警情况，及时排除故障因素，保障平台正常运行。

告警历史

为方便运维人员、管理员分析近期监控告警状况，进行历史问题追溯，平台支持查看一段时间内的告警历史记录，支持查看的范围为所有集群，支持查看的历史信息包括发生时间、告警规则、故障资源、通知方式、状态、通知对象等。

说明：告警历史的保留时间等同于事件的保留时间，可通过更新日志存储组件的配置参数修改。