首页 / 平台管理 / 存储管理 / 对象存储(Alpha) / 监控与告警

监控与告警

对象存储提供了开箱即用的监控指标采集和告警提醒能力,可从存储集群、存储服务等方面进行监控和告警,且支持配置通知策略。

直观呈现的监控数据可用于为运维巡检或性能调优提供决策支持,完善的告警和通知机制也将帮助保障存储系统的稳定运行。

监控

平台默认会收集对象存储的集群和存储服务状态。在 存储管理 > 对象存储监控 页签中,可查看指标的实时监控数据。

存储概览

监控存储的健康状态、存储服务状态、集群裸容量使用等,存储状态异常时可查看告警原因。

集群监控

监控存储集群的裸容量使用和读写速率。

Object 监控

监控 Object 的总访问请求次数和错误访问请求次数。

告警

平台默认启用了一批告警策略,一旦资源异常或监控数据达到预警状态,将自动触发告警。预置策略已能满足组件和集群状态告警、设备容量告警,以及用户数据告警等常见运维需求。

配置通知

为了能及时收到告警,建议您在运维中心设置通知策略:将告警信息以邮件、短信等方式发送给相关人员,提醒其采取必要的措施解决问题或避免故障发生。单击 可切换至运维中心完成操作,参考 创建告警策略

处理告警

下表为预置策略所用告警等级的含义,可作为您制定告警处理原则的参考。

告警等级 含义
灾难 告警规则对应的资源发生故障,导致平台业务中断、数据丢失,影响程度重大。
严重 告警规则对应的资源存在已知问题,可能导致平台功能故障,影响业务正常运行。
警告 告警规则对应的资源存在运行风险,如不及时处理,可能影响业务正常运行。

故障复盘

告警历史 中记录了所有曾经触发,当前已无须处理的告警。借助告警历史进行故障复盘时,为了能有效地达到经验总结目的,您可能需要回答以下问题。