Spark 和 Flink 怎么选
Spark 和 Flink 都是优秀的分布式计算引擎,选型关键在批处理、实时性、状态规模、团队经验和生态成本。
栏目
按年份
Spark 和 Flink 都是优秀的分布式计算引擎,选型关键在批处理、实时性、状态规模、团队经验和生态成本。
实时指标链路通常由 Kafka 承接事件,Flink 清洗和聚合,OLAP 数据库承接明细与指标查询。
离线数仓通常用 Spark 执行 ETL,用 Hive Metastore 管理元数据,用 Iceberg 等表格式支持快照、Schema 演进和多引擎访问。
Trino 和 Presto 面向交互式 SQL 查询,通过 MPP 架构和 Connector 机制查询 Hive、Iceberg、MySQL、Kafka 等多种数据源。
流批一体试图用统一 API 和执行模型处理有界与无界数据,但工程上仍要面对延迟、状态、成本和口径一致性。
数据倾斜会让少数 Task 成为瓶颈,常见治理方式包括热 key 识别、加盐、两阶段聚合、广播 Join 和动态拆分。
计算引擎性能优化要围绕资源配置、并行度、Shuffle、状态大小、GC、反压和 Checkpoint 成本展开。
计算任务稳定性治理要关注作业失败、延迟、反压、Checkpoint、数据倾斜、资源利用率和 SLA 告警。
从 Seastar 的 shard 模型出发,梳理 seastar-log-engine 的写入、路由、查询、归档与恢复路径,说明这套日志引擎为什么会长成现在的样子。