ytblog | 技术博客

技术文章、实现记录与项目复盘。

栏目

全部 Go AI 调度 Seastar 存储数据库系统消息队列系统计算引擎系统 LLM 与 Agent 开发高级Agent应用 Linux性能调优 GitHub 趋势技术热点云原生与 Kubernetes

按年份

2026

第 1 篇

2026-05-174 min read

计算引擎基础篇：批处理、流处理与 SQL 计算

计算引擎负责把数据从原始形态加工成指标、宽表、报表和模型特征，是消息队列与数据库之间的计算层。

计算引擎 Spark Flink 批处理流处理

第 2 篇

2026-05-173 min read

DAG、Stage、Task、Shuffle：分布式计算的基本模型

分布式计算引擎通常把作业表达成 DAG，再切成 Stage 和 Task 并行执行，Shuffle 则是性能和稳定性最关键的成本来源。

计算引擎 DAG Stage Task Shuffle

第 3 篇

2026-05-173 min read

Spark 篇：为什么 Spark 适合大规模离线计算

Spark 通过 Driver、Executor、RDD、DataFrame 和 Spark SQL 组成一套通用分布式计算引擎，尤其适合大规模离线 ETL 和分析。

计算引擎 Spark RDD DataFrame Spark SQL

第 4 篇

2026-05-173 min read

Spark SQL 与 Shuffle 优化

Spark SQL 性能优化的核心是理解 Catalyst、Join 策略、Shuffle、数据倾斜和分区设计。

计算引擎 Spark SQL Shuffle Join 性能优化

第 5 篇

2026-05-172 min read

Flink 篇：为什么 Flink 适合实时流处理

Flink 是以流为核心的分布式计算引擎，擅长低延迟、有状态、事件时间语义和 Exactly Once 状态一致性。

计算引擎 Flink 流处理状态计算实时计算

第 6 篇

2026-05-173 min read

Flink 的状态管理、Checkpoint 与 Savepoint

Flink 的可靠性建立在状态快照之上，Checkpoint 用于故障恢复，Savepoint 用于升级、迁移和人工控制。

计算引擎 Flink State Checkpoint Savepoint

第 7 篇

2026-05-173 min read

Watermark 与窗口：实时计算如何处理乱序数据

实时计算不能只按处理时间看数据，Event Time、Watermark、窗口和迟到数据策略共同决定指标是否可信。

计算引擎 Flink Watermark 窗口实时计算

第 8 篇

2026-05-173 min read

Spark 和 Flink 怎么选

Spark 和 Flink 都是优秀的分布式计算引擎，选型关键在批处理、实时性、状态规模、团队经验和生态成本。

计算引擎 Spark Flink 选型

第 9 篇

2026-05-172 min read

Kafka + Flink + OLAP 的实时指标计算实践

实时指标链路通常由 Kafka 承接事件，Flink 清洗和聚合，OLAP 数据库承接明细与指标查询。

计算引擎 Kafka Flink OLAP 实时指标