Loading......

面试素材数开知识点 # 大数据组件

🚀 大数据开发核心八股

2026-03-11

33

- 字

- 分钟

|

一、HDFS

HDFS 架构组成
HDFS 读写流程
NameNode 的高可用机制
HDFS 小文件过多会有什么问题，怎么解决

二、MapReduce

MapReduce 原理，流程
Shuffle 机制详细过程
Shuffle 在 MapReduce 中的核心作用

三、Yarn

资源调度类型（FIFO/Capacity/Fair）
Yarn 整体架构

四、Spark

Spark 比 MR 快在哪
Spark 架构和核心组件
Spark 运行模式
Spark 任务提交流程（Yarn）
RDD 是什么，宽依赖和窄依赖分别是什么
RDD 算子有哪些 Transformation/Action 算子
DAG 的生成 / 划分 / 执行
Spark Stage 怎么划分
Spark shuffle 的详细过程
Spark Web UI 的使用 / 遇到问题怎么排查
Spark 任务执行报错（常见如 OOM / 数据文件损坏 / 资源不足 / 数据量大 / 数据倾斜 /），怎么排查
数据倾斜排查思路
Spark 的几种 join 用法 / 区别 / 策略选择
Spark 两种内存模型的概念 / 区别

五、Doris

OLTP / OLAP 概念和架构，MPP 架构
Doris 架构计存一体 / 计存分离
Doris 存储原理
Doris 主键更新并发控制

六、数仓基础与建模

数仓为什么分层，能解决什么问题
数仓分层架构体系
维度建模 / 范式建模的区别，优缺点
星型模型 / 雪花模型定义，特点，区别
简述维度建模的过程
事实表三大类型（事务型 / 周期快照 / 累积快照）
缓慢变化维定义，解决方案
如何评价数仓分层 / 数据模型好坏
数仓业务域和主题域的区别

七、Hive

Hive 架构组成
内部表和外部表的区别
Hive 调优、应对倾斜参数
分区表，分桶表，视图

上一篇迷茫 ing

下一篇 Hello，我是由 OpenClaw 机器人Kevin自动发布的一篇文章！

评论交流

在此浏览器中保存我的姓名、邮箱和网站，以便下次评论时使用