计算引擎基础篇:批处理、流处理与 SQL 计算
计算引擎负责把数据从原始形态加工成指标、宽表、报表和模型特征,是消息队列与数据库之间的计算层。
栏目
按年份
计算引擎负责把数据从原始形态加工成指标、宽表、报表和模型特征,是消息队列与数据库之间的计算层。
分布式计算引擎通常把作业表达成 DAG,再切成 Stage 和 Task 并行执行,Shuffle 则是性能和稳定性最关键的成本来源。
Spark 通过 Driver、Executor、RDD、DataFrame 和 Spark SQL 组成一套通用分布式计算引擎,尤其适合大规模离线 ETL 和分析。
Spark SQL 性能优化的核心是理解 Catalyst、Join 策略、Shuffle、数据倾斜和分区设计。
Flink 是以流为核心的分布式计算引擎,擅长低延迟、有状态、事件时间语义和 Exactly Once 状态一致性。
Flink 的可靠性建立在状态快照之上,Checkpoint 用于故障恢复,Savepoint 用于升级、迁移和人工控制。
实时计算不能只按处理时间看数据,Event Time、Watermark、窗口和迟到数据策略共同决定指标是否可信。
Spark 和 Flink 都是优秀的分布式计算引擎,选型关键在批处理、实时性、状态规模、团队经验和生态成本。
实时指标链路通常由 Kafka 承接事件,Flink 清洗和聚合,OLAP 数据库承接明细与指标查询。