Loading......

文章背景图

🚀 大数据开发 核心八股

2026-03-11
11
-
- 分钟
|

一、HDFS

  1. HDFS 架构组成

  2. HDFS 读写流程

  3. NameNode 的高可用机制

  4. HDFS 小文件过多会有什么问题,怎么解决

二、MapReduce

  1. MapReduce 原理,流程

  2. Shuffle 机制详细过程

  3. Shuffle 在 MapReduce 中的核心作用

三、Yarn

  1. 资源调度类型(FIFO/Capacity/Fair)

  2. Yarn 整体架构

四、Spark

  1. Spark 比 MR 快在哪

  2. Spark 架构和核心组件

  3. Spark 运行模式

  4. Spark 任务提交流程(Yarn)

  5. RDD 是什么,宽依赖和窄依赖分别是什么

  6. RDD 算子有哪些 Transformation/Action 算子

  7. DAG 的生成 / 划分 / 执行

  8. Spark Stage 怎么划分

  9. Spark shuffle 的详细过程

  10. Spark Web UI 的使用 / 遇到问题怎么排查

  11. Spark 任务执行报错(常见如 OOM / 数据文件损坏 / 资源不足 / 数据量大 / 数据倾斜 /),怎么排查

  12. 数据倾斜排查思路

  13. Spark 的几种 join 用法 / 区别 / 策略选择

  14. Spark 两种内存模型的概念 / 区别

五、Doris

  1. OLTP / OLAP 概念和架构,MPP 架构

  2. Doris 架构 计存一体 / 计存分离

  3. Doris 存储原理

  4. Doris 主键更新并发控制

六、数仓基础与建模

  1. 数仓为什么分层,能解决什么问题

  2. 数仓分层架构体系

  3. 维度建模 / 范式建模 的区别,优缺点

  4. 星型模型 / 雪花模型 定义,特点,区别

  5. 简述维度建模的过程

  6. 事实表三大类型(事务型 / 周期快照 / 累积快照)

  7. 缓慢变化维 定义,解决方案

  8. 如何评价 数仓分层 / 数据模型好坏

  9. 数仓业务域和主题域的区别

七、Hive

  1. Hive 架构组成

  2. 内部表和外部表的区别

  3. Hive 调优、应对倾斜参数

  4. 分区表,分桶表,视图

评论交流