ytblog | 技术博客

共 15 篇文章

2026-07-114 min read

docker_practice: 最新Docker容器技术，从真实案例中学习最佳实践！| Learn and understand Docker&Container technologies, with real DevOps pra

深入分析 GitHub 趋势项目 docker_practice，探讨其技术架构、应用场景和社区价值。

GitHub Devops Linux Ai Log Spark

2026-07-054 min read

redash: Make Your Company Data Driven. Connect to any data source, easily visualize, dashboard and share you

深入分析 GitHub 趋势项目 redash，探讨其技术架构、应用场景和社区价值。

GitHub Postgresql Spark Python Mysql

2026-06-284 min read

data-engineering-zoomcamp: Data Engineering Zoomcamp is a free 9-week course on building production-ready data pipelines. The n

深入分析 GitHub 趋势项目 data-engineering-zoomcamp，探讨其技术架构、应用场景和社区价值。

GitHub Spark Engine Io Kafka

2026-06-285 min read

DSpark: Speculative decoding accelerates LLM inference [pdf]

来自 Hacker News 的热门技术内容深度分析。

Tech Spark Llm

2026-06-104 min read

flink-learning: flink learning blog. http://www.54tianzhisheng.cn/ 含 Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涉及 Flink Connec

深入分析 GitHub 趋势项目 flink-learning，探讨其技术架构、应用场景和社区价值。

GitHub Log Spark Clickhouse Kafka Flink

2026-06-094 min read

spark: Apache Spark - A unified analytics engine for large-scale data processing

深入分析 GitHub 趋势项目 spark，探讨其技术架构、应用场景和社区价值。

GitHub Spark Engine

第 2 篇

2026-05-206 min read

Apache Spark：大规模数据处理统一分析引擎深度解析

深入分析 Apache Spark 的核心架构、关键技术特性和最佳实践，探索其在大数据生态中的核心地位。

Spark BigData Distributed Computing

第 1 篇

2026-05-174 min read

计算引擎基础篇：批处理、流处理与 SQL 计算

计算引擎负责把数据从原始形态加工成指标、宽表、报表和模型特征，是消息队列与数据库之间的计算层。

计算引擎 Spark Flink 批处理流处理

第 3 篇

2026-05-173 min read

Spark 篇：为什么 Spark 适合大规模离线计算

Spark 通过 Driver、Executor、RDD、DataFrame 和 Spark SQL 组成一套通用分布式计算引擎，尤其适合大规模离线 ETL 和分析。

计算引擎 Spark RDD DataFrame Spark SQL

第 8 篇

2026-05-173 min read

Spark 和 Flink 怎么选

Spark 和 Flink 都是优秀的分布式计算引擎，选型关键在批处理、实时性、状态规模、团队经验和生态成本。

计算引擎 Spark Flink 选型

第 10 篇

2026-05-172 min read

离线数仓 ETL：Spark、Hive、Iceberg 如何协作

离线数仓通常用 Spark 执行 ETL，用 Hive Metastore 管理元数据，用 Iceberg 等表格式支持快照、Schema 演进和多引擎访问。

计算引擎 Spark Hive Iceberg 离线数仓

第 12 篇

2026-05-173 min read

流批一体：是真统一，还是两套系统的抽象？

流批一体试图用统一 API 和执行模型处理有界与无界数据，但工程上仍要面对延迟、状态、成本和口径一致性。

计算引擎流批一体 Spark Flink Apache Beam

第 13 篇

2026-05-173 min read

数据倾斜治理：Spark 和 Flink 都绕不开的问题

数据倾斜会让少数 Task 成为瓶颈，常见治理方式包括热 key 识别、加盐、两阶段聚合、广播 Join 和动态拆分。

计算引擎数据倾斜 Spark Flink Shuffle

第 14 篇

2026-05-172 min read

计算引擎性能优化：资源、并行度、Shuffle 与状态

计算引擎性能优化要围绕资源配置、并行度、Shuffle、状态大小、GC、反压和 Checkpoint 成本展开。

计算引擎性能优化 Spark Flink 资源治理

第 15 篇

2026-05-173 min read

计算任务监控与稳定性治理

计算任务稳定性治理要关注作业失败、延迟、反压、Checkpoint、数据倾斜、资源利用率和 SLA 告警。

计算引擎监控稳定性 SLA Flink Spark