首页 / 平台管理 / 运维中心 / 概览

概览

运维中心为平台管理员、运维管理员提供了监控、日志、事件、告警、通知等运维能力。

平台结合 Prometheus 监控和 Grafana 可视化面板,支持对平台管理的集群、节点、组件、自定义应用、Pod、容器等进行实时监控。

支持快捷设置集群、节点、计算组件层面的监控指标告警、日志告警(仅计算组件)、事件告警(仅计算组件),也可以根据实际需求自定义监控指标算法,增加需要的告警指标及规则。并可通过配置通知策略及时将告警信息发送给运维人员,以避免系统故障或及时处理故障,减少系统运维成本,保障系统的稳定性。

同时,平台全面集成 Kubernetes 事件,可以查看平台上所有的 Kubernetes 事件信息。支持查看平台上所有资源的日志信息,包括容器内标准输出的日志和容器内指定文件内记录的日志,能够帮助用户快速地排查和解决问题。

切换集群

监控面板、告警、事件属于集群级别资源,在使用这些功能之前,需要先切换至具体的集群,切换操作如图所示。