- 个人学习知识库涉及到数据仓库建模、实时计算、大数据、Java、算法等。
- 在线文档
数据编排技术
配合官方文档和源码带从0到1学习hudi
- Paimon概览
- Paimon主键表
- Paimon非主键表
- Flink操作Paimon
- Spark操作Paimon
- Paimon Maintenance
- PaimonPrivileges
- Paimon实践
remote shuffle service
存储相关,包含rocksdb、Hbase、BookKeeper、Zookeeper等
广义上的Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等。
计算引擎相关,主要包含Flink、Spark等
- 主要包含对Flink文档阅读的总结和相关Flink源码的阅读,以及Flink新特性记录等等
- FlinkOverView
- CheckPoint机制
- TableSQLOverview
- DataStream API
- ProcessFunction API
- Data Source
- Table API
- Flink SQL
- Flink Hive
- Flink CEP
- Flink Function
- DataSource API
- FlinkCheckpoint源码分析
- FlinkChangelogCheckpoint
- FlinkSQL源码解析
- Flink内核源码分析
- Flink网络流控及反压
- TaskExecutor内存模型原理深入
- Flink窗口实现应用
- Flink运行环境源码解析
- FlinkTimerService机制分析
- StreamSource源解析
- Flink状态管理与检查点机制
- Flink内幕解析
主要包含Spark相关书籍读书笔记、Spark核心组件分析、Spark相关API实践以及Spark生产踩坑等。
数据采集框架,主要包含Binlog增量与SQL快照方式框架
消息中间件相关,主要包含大数据中使用比较多的Kafka和Pulsar
主要核心包含Kudu、Impala相关Olap引擎,生产实践及论文记录等。
图库相关
工具集相关,包含计算平台、sql语法Tree等
数据笔记相关