计算任务监控与稳定性治理

计算任务稳定性治理要关注作业失败、延迟、反压、Checkpoint、数据倾斜、资源利用率和 SLA 告警。

计算任务监控与稳定性治理

计算任务不是跑起来就结束。离线任务可能延迟,实时任务可能反压,Checkpoint 可能变慢,数据倾斜可能让 SLA 崩掉。

稳定性治理的目标,是让问题被及时发现、定位和恢复。

Rendering diagram...

离线任务监控

离线任务要看:

  • 开始时间。
  • 完成时间。
  • 运行时长。
  • 输入数据量。
  • 输出数据量。
  • 失败次数。
  • SLA 是否超时。

如果日常任务突然变慢,要检查输入数据量、Shuffle、资源和上游依赖。

实时任务监控

实时任务要看:

  • Kafka Lag。
  • 端到端延迟。
  • 吞吐。
  • 反压。
  • Checkpoint Duration。
  • Checkpoint Failure。
  • State Size。

其中 Checkpoint 失败和 Lag 持续增长要重点告警。

数据质量监控

计算成功不代表数据正确。

还要监控:

  • 行数波动。
  • 空值率。
  • 指标异常。
  • 重复数据。
  • 主键唯一性。
  • 上下游对账。

告警分级

不是所有异常都要半夜叫醒人。

可以按影响分级:核心实时链路高优先级,离线非核心报表低优先级;临时波动观察,持续超阈值告警。

小结

计算任务稳定性治理要覆盖运行状态、资源状态、数据质量和业务 SLA。真正成熟的数据平台,不只会跑任务,还能知道任务什么时候错了、慢了、算偏了。

参考链接