ytblog | 技术博客

技术文章、实现记录与项目复盘。

栏目

全部 Go AI 调度 Seastar 存储数据库系统消息队列系统计算引擎系统 LLM 与 Agent 开发高级Agent应用 Linux性能调优 GitHub 趋势技术热点云原生与 Kubernetes

按年份

2026

第 8 篇

2026-05-173 min read

Spark 和 Flink 怎么选

Spark 和 Flink 都是优秀的分布式计算引擎，选型关键在批处理、实时性、状态规模、团队经验和生态成本。

计算引擎 Spark Flink 选型

第 9 篇

2026-05-172 min read

Kafka + Flink + OLAP 的实时指标计算实践

实时指标链路通常由 Kafka 承接事件，Flink 清洗和聚合，OLAP 数据库承接明细与指标查询。

计算引擎 Kafka Flink OLAP 实时指标

第 10 篇

2026-05-172 min read

离线数仓 ETL：Spark、Hive、Iceberg 如何协作

离线数仓通常用 Spark 执行 ETL，用 Hive Metastore 管理元数据，用 Iceberg 等表格式支持快照、Schema 演进和多引擎访问。

计算引擎 Spark Hive Iceberg 离线数仓

第 11 篇

2026-05-172 min read

Trino / Presto：交互式 SQL 查询引擎

Trino 和 Presto 面向交互式 SQL 查询，通过 MPP 架构和 Connector 机制查询 Hive、Iceberg、MySQL、Kafka 等多种数据源。

计算引擎 Trino Presto SQL MPP

第 12 篇

2026-05-173 min read

流批一体：是真统一，还是两套系统的抽象？

流批一体试图用统一 API 和执行模型处理有界与无界数据，但工程上仍要面对延迟、状态、成本和口径一致性。

计算引擎流批一体 Spark Flink Apache Beam

第 13 篇

2026-05-173 min read

数据倾斜治理：Spark 和 Flink 都绕不开的问题

数据倾斜会让少数 Task 成为瓶颈，常见治理方式包括热 key 识别、加盐、两阶段聚合、广播 Join 和动态拆分。

计算引擎数据倾斜 Spark Flink Shuffle

第 14 篇

2026-05-172 min read

计算引擎性能优化：资源、并行度、Shuffle 与状态

计算引擎性能优化要围绕资源配置、并行度、Shuffle、状态大小、GC、反压和 Checkpoint 成本展开。

计算引擎性能优化 Spark Flink 资源治理

第 15 篇

2026-05-173 min read

计算任务监控与稳定性治理

计算任务稳定性治理要关注作业失败、延迟、反压、Checkpoint、数据倾斜、资源利用率和 SLA 告警。

计算引擎监控稳定性 SLA Flink Spark

第 1 篇

2026-05-1510 min read

Seastar Log Engine 项目背景与整体设计

从 Seastar 的 shard 模型出发，梳理 seastar-log-engine 的写入、路由、查询、归档与恢复路径，说明这套日志引擎为什么会长成现在的样子。

Seastar Log Engine Architecture Background