Spark 和 Flink 怎么选

Spark 和 Flink 经常被放在一起比较。它们都能做大规模分布式计算，也都支持 SQL、批处理和流处理。但从工程气质上看，两者仍然不同。

Rendering diagram...

Spark 更适合什么

Spark 更适合大规模离线 ETL、数据湖加工、批量特征工程、批处理 SQL 和机器学习批任务。

如果团队已有 Hive、Parquet、Iceberg、YARN/Kubernetes、Airflow 调度，Spark 往往很容易融入离线数仓体系。

Flink 更适合低延迟实时计算、有状态流处理、事件时间窗口、实时指标、实时风控和 CDC 同步。

如果作业要长期运行，持续处理 Kafka 数据，并且状态很大、延迟要求低，Flink 通常更自然。

很多公司会同时使用 Spark 和 Flink。Spark 负责离线校准和大批量 ETL，Flink 负责实时链路。

实时结果用于看趋势，离线结果用于权威报表，这是非常常见的组合。

Spark 和 Flink 的选择，不是“谁替代谁”。更合理的问题是：这个任务是批多还是流多，延迟要求多高，状态规模多大，团队更擅长维护哪套系统。