ytblog | 技术博客

共 15 篇文章

2026-06-114 min read

flink-cdc: Flink CDC is a streaming data integration tool

深入分析 GitHub 趋势项目 flink-cdc，探讨其技术架构、应用场景和社区价值。

GitHub Flink Mysql Postgresql Cdc Kafka

2026-06-104 min read

flink-learning: flink learning blog. http://www.54tianzhisheng.cn/ 含 Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涉及 Flink Connec

深入分析 GitHub 趋势项目 flink-learning，探讨其技术架构、应用场景和社区价值。

GitHub Log Spark Clickhouse Kafka Flink

2026-06-094 min read

flink: Apache Flink

深入分析 GitHub 趋势项目 flink，探讨其技术架构、应用场景和社区价值。

GitHub Flink

第 5 篇

2026-05-1710 min read

Kafka + Flink + OLAP：一套实时分析架构是怎么跑起来的

实时分析架构的核心不是堆组件，而是把业务事件稳定地采集、缓冲、计算并写入适合查询的分析型数据库。

数据库系统实时分析 Kafka Flink OLAP

第 10 篇

2026-05-173 min read

Kafka + Flink 实时数据链路设计

Kafka + Flink 是实时数据链路里的经典组合，Kafka 负责承接数据流，Flink 负责清洗、窗口计算和状态处理。

消息队列 Kafka Flink 实时数据 OLAP

第 1 篇

2026-05-174 min read

计算引擎基础篇：批处理、流处理与 SQL 计算

计算引擎负责把数据从原始形态加工成指标、宽表、报表和模型特征，是消息队列与数据库之间的计算层。

计算引擎 Spark Flink 批处理流处理

第 5 篇

2026-05-172 min read

Flink 篇：为什么 Flink 适合实时流处理

Flink 是以流为核心的分布式计算引擎，擅长低延迟、有状态、事件时间语义和 Exactly Once 状态一致性。

计算引擎 Flink 流处理状态计算实时计算

第 6 篇

2026-05-173 min read

Flink 的状态管理、Checkpoint 与 Savepoint

Flink 的可靠性建立在状态快照之上，Checkpoint 用于故障恢复，Savepoint 用于升级、迁移和人工控制。

计算引擎 Flink State Checkpoint Savepoint

第 7 篇

2026-05-173 min read

Watermark 与窗口：实时计算如何处理乱序数据

实时计算不能只按处理时间看数据，Event Time、Watermark、窗口和迟到数据策略共同决定指标是否可信。

计算引擎 Flink Watermark 窗口实时计算

第 8 篇

2026-05-173 min read

Spark 和 Flink 怎么选

Spark 和 Flink 都是优秀的分布式计算引擎，选型关键在批处理、实时性、状态规模、团队经验和生态成本。

计算引擎 Spark Flink 选型

第 9 篇

2026-05-172 min read

Kafka + Flink + OLAP 的实时指标计算实践

实时指标链路通常由 Kafka 承接事件，Flink 清洗和聚合，OLAP 数据库承接明细与指标查询。

计算引擎 Kafka Flink OLAP 实时指标

第 12 篇

2026-05-173 min read

流批一体：是真统一，还是两套系统的抽象？

流批一体试图用统一 API 和执行模型处理有界与无界数据，但工程上仍要面对延迟、状态、成本和口径一致性。

计算引擎流批一体 Spark Flink Apache Beam

第 13 篇

2026-05-173 min read

数据倾斜治理：Spark 和 Flink 都绕不开的问题

数据倾斜会让少数 Task 成为瓶颈，常见治理方式包括热 key 识别、加盐、两阶段聚合、广播 Join 和动态拆分。

计算引擎数据倾斜 Spark Flink Shuffle

第 14 篇

2026-05-172 min read

计算引擎性能优化：资源、并行度、Shuffle 与状态

计算引擎性能优化要围绕资源配置、并行度、Shuffle、状态大小、GC、反压和 Checkpoint 成本展开。

计算引擎性能优化 Spark Flink 资源治理

第 15 篇

2026-05-173 min read

计算任务监控与稳定性治理

计算任务稳定性治理要关注作业失败、延迟、反压、Checkpoint、数据倾斜、资源利用率和 SLA 告警。

计算引擎监控稳定性 SLA Flink Spark