首页 / 平台管理 / 运维中心 / 告警 / 概述

概述

平台的告警功能,可对平台上的集群、节点、计算组件进行告警。

为了提升系统的运维效率,平台将 global 集群和业务集群常见故障排查思路中用到的监控指标,设置为告警规则,分类汇总后形成了系统内置的告警策略。

除了内置的系统告警策略,平台还支持用户基于预置的监控指标、用户自定义监控指标、用户自定义的黑盒监控项,以及平台的日志、事件数据,为平台上的集群、节点、计算组件设置告警规则。当资源异常或达到预警状态时,即可自动触发告警。结合平台的通知功能,可进一步将告警信息主动推送给运维人员,提醒运维人员及时处理告警资源,确保平台上的业务顺畅运行。

为方便用户为平台上大量的资源设置告警,平台支持通过告警模板定制针对同类资源(集群、节点、计算组件)的标准化的告警配置,用户可基于已有模板快速为资源创建告警策略。

提示:平台在部署完成后,已经为平台内置的组件、集群、节点、平台证书等配置了告警策略,您可以 单击此处 下载内置告警策略附件。

告警类型

状态说明

实时告警

平台通过实时告警,将当前发生告警的资源个数及详细的告警信息进行集中展示后,方便运维人员、管理员实时了解平台上整体业务的告警情况,及时排除故障因素,保障平台正常运行。

告警历史

为方便运维人员、管理员分析近期监控告警状况,进行历史问题追溯,平台支持查看一段时间内的告警历史记录,支持查看的范围为所有集群,支持查看的历史信息包括发生时间、告警规则、故障资源、通知方式、状态、通知对象等。

说明:告警历史的保留时间等同于事件的保留时间,可通过 更新日志存储组件的配置参数 修改。