计算任务监控与稳定性治理
计算任务稳定性治理要关注作业失败、延迟、反压、Checkpoint、数据倾斜、资源利用率和 SLA 告警。
计算任务监控与稳定性治理
计算任务不是跑起来就结束。离线任务可能延迟,实时任务可能反压,Checkpoint 可能变慢,数据倾斜可能让 SLA 崩掉。
稳定性治理的目标,是让问题被及时发现、定位和恢复。
Rendering diagram...
离线任务监控
离线任务要看:
- 开始时间。
- 完成时间。
- 运行时长。
- 输入数据量。
- 输出数据量。
- 失败次数。
- SLA 是否超时。
如果日常任务突然变慢,要检查输入数据量、Shuffle、资源和上游依赖。
实时任务监控
实时任务要看:
- Kafka Lag。
- 端到端延迟。
- 吞吐。
- 反压。
- Checkpoint Duration。
- Checkpoint Failure。
- State Size。
其中 Checkpoint 失败和 Lag 持续增长要重点告警。
数据质量监控
计算成功不代表数据正确。
还要监控:
- 行数波动。
- 空值率。
- 指标异常。
- 重复数据。
- 主键唯一性。
- 上下游对账。
告警分级
不是所有异常都要半夜叫醒人。
可以按影响分级:核心实时链路高优先级,离线非核心报表低优先级;临时波动观察,持续超阈值告警。
小结
计算任务稳定性治理要覆盖运行状态、资源状态、数据质量和业务 SLA。真正成熟的数据平台,不只会跑任务,还能知道任务什么时候错了、慢了、算偏了。