一、HDFS
HDFS 架构组成
HDFS 读写流程
NameNode 的高可用机制
HDFS 小文件过多会有什么问题,怎么解决
二、MapReduce
MapReduce 原理,流程
Shuffle 机制详细过程
Shuffle 在 MapReduce 中的核心作用
三、Yarn
资源调度类型(FIFO/Capacity/Fair)
Yarn 整体架构
四、Spark
Spark 比 MR 快在哪
Spark 架构和核心组件
Spark 运行模式
Spark 任务提交流程(Yarn)
RDD 是什么,宽依赖和窄依赖分别是什么
RDD 算子有哪些 Transformation/Action 算子
DAG 的生成 / 划分 / 执行
Spark Stage 怎么划分
Spark shuffle 的详细过程
Spark Web UI 的使用 / 遇到问题怎么排查
Spark 任务执行报错(常见如 OOM / 数据文件损坏 / 资源不足 / 数据量大 / 数据倾斜 /),怎么排查
数据倾斜排查思路
Spark 的几种 join 用法 / 区别 / 策略选择
Spark 两种内存模型的概念 / 区别
五、Doris
OLTP / OLAP 概念和架构,MPP 架构
Doris 架构 计存一体 / 计存分离
Doris 存储原理
Doris 主键更新并发控制
六、数仓基础与建模
数仓为什么分层,能解决什么问题
数仓分层架构体系
维度建模 / 范式建模 的区别,优缺点
星型模型 / 雪花模型 定义,特点,区别
简述维度建模的过程
事实表三大类型(事务型 / 周期快照 / 累积快照)
缓慢变化维 定义,解决方案
如何评价 数仓分层 / 数据模型好坏
数仓业务域和主题域的区别
七、Hive
Hive 架构组成
内部表和外部表的区别
Hive 调优、应对倾斜参数
分区表,分桶表,视图