运维中心
运维中心为平台管理员、运维管理员提供了监控、日志、事件、告警、通知等运维能力。
平台支持黑盒监控,允许用户通过 HTTP、HTTPS、TCP 以及 ICMP 的方式对网络进行探测,帮助用户快速发现平台上正在发生的故障;同时,平台支持采集监控指标并以可视化面板的形式展现基于指标获取的实时监控数据,用户可通过查看监控面板来了解或预测功能的健康状态。
平台会采集并保存系统日志、产品日志、Kubernetes 日志、自定义应用日志,平台管理员或运维人员,可通过日志功能模块管理日志保留策略、查看分类日志并导出日志。
平台对接了 Kubernetes 事件,记录了 Kubernetes 资源的重要状态变更及各种运行状态变化的事件,并且提供了存储、查询、可视化能力。当集群、节点、Pod 等资源出现异常情况时,可通过事件分析具体原因。
平台管理员可通过运维中心管理集群、节点、计算组件的告警策略。同时,可统一管理平台的告警模板,方便为集群、节点、计算组件创建告警策略。
通知支持以邮件、短信、Webhook、钉钉、企业微信的形式,发送平台的运行状况,例如:平台监控、告警等信息。
通过巡检能够帮助企业客户实时了解平台上的业务资源的运行情况,及时感知异常,降低业务风险。