应用运维假想场景与辅助系统

运维人员假想的工作场景

维人员希望提前发现系统潜在问题,发现并定位潜在问题的步骤通常为:

  1. 判断系统可能会有问题需要运维提前介入处理

    a. 运维系统没法自动决策判断是否有问题,需要运维人员根据经验判断

    b. 运维人员希望有指标维度的监控面板:如cpu指标,列出当前所有节点的平均cpu,列出top 5 cpu,点进去可以查看所有节点cpu占用详情

    c. 有了指标面板之后,运维人员根据经验,将系统关键的指标面板放到自定义视图中集中查看,并设置阈值告警

    d. 这样运维人员每天就聚焦在自定义视图上查看是指标情况,有异常也能及时收到告警通知

    e. 通常运维人员关注的指标有:机器的cpu/内存/磁盘使用率,进程的cpu/内存/线程数/,关键接口的SLA(tp99、成功率),慢SQL查询,事务级接口时延(如登录就是一个事务级接口,登录接口实现会调用很多其他子接口)。

  2. 根据监控数据下钻分析具体问题

    a. 通过步骤1找到了问题点之后(如某关键接口时延突然增加),那么再通过监控+调用链,就能找到问题。

  3. 找到并修复问题

    a. 通过步骤2找到问题之后,运维人员会根据业务分析定位问题

  4. 通过监控面板查看监控指标发现异常监控指标、或通过告警通知根据监控指标判断系统可能有问题

应用运维全景