一、数仓基础与建模相关 🏗️
面试官问题
🔍 数仓为什么要做分层?它能解决什么问题?
🔍 模型建设主要基于什么模型理论?
🔍 请简单描述一下维度建模的过程?
🔍 请挑一个自己参与过的明细事实表,围绕该表讲一下如何基于维度建模实现落地开发?
🔍 该明细事实表对应的笔记业务过程(业务动作)是什么?
🔍 这张明细表是单事务的实时表还是多事务的?
🔍 维度建模和范式建模的区别是什么?在数据仓库建设的实际使用中有什么不同?
📌 复盘
-
维度建模的过程回答不准确
-
明细事实表的维度建模落地描述模糊
-
不清楚 “业务过程 / 业务动作” 的定义,无法精准对应
-
不明确 “单事务事实表” 与 “多事务事实表” 的区分标准
二、技术平台与 SQL 优化相关 💻
面试官问题
🔍 之前实习基于什么开发平台开展工作?
🔍 大小表的 join 如何做优化?优化原理是怎样的?
🔍 SQL 优化中,大表和大表关联且两个重要 key 值都是热点 key 时,一般怎么处理?
🔍 Mr 的 shuffer 和 Spark 的 shuffer 有什么区别?
🔍 如何理解 Hive 的内表和外表的区别?
📌 复盘
-
Mr 的 shuffer 和 Spark 的 shuffer 区别回答不全
三、指标与数据管理相关 📈
面试官问题
🔍 如何解决用户的定制性分析维度问题?会将其沉淀到通用汇总表里面吗?
🔍 进行指标沉淀时,一般怎么进行指标管理?
🔍 若通用型 DWS 公共层指标使用度较低,但用户对 ADS 层个性化分析维度需求较多,无法做符合性沉淀,该如何管理指标建设?
📌 复盘
-
部分问题概念不清楚
四、工作经验与技术能力相关 📋
面试官问题
🔍 除了标签应用层开发,是否做过基础层数仓基建的开发?
🔍 有没有做过实时相关的开发?
🔍 理解 Spark 的宽窄依赖吗?请解释一下。
🔍 作为数据开发,帮助业务做数据建模后,如何评判模型的好坏?
🔍 有用过数据质量管理相关的基线和 DQC 吗?请解释一下基线和 DQC 的基本定义,或简述使用场景及带来的作用。
🔍 除了 DWS 和 ADS 层开发,是否做过 BI 报表的应用开发?主要围绕哪些业务场景?
🔍 在用户标签资产建设的 BI 业务场景中,用户标签的最大价值是什么?帮业务解决了什么问题?可以结合具体指标说明。
📌 复盘
-
对基线和 DQC 的相关知识了解不足,回答不好
-
BI 报表对应业务场景的回答角度
五、SQL 实操相关 📝
面试官问题
🔍 请简单描述炸裂函数(一行变多行)的使用方法。
🔍 有用过开窗函数吗?sum over partition by 加 order by 和不加 order by 在数据实现上有什么区别?
🔍 常用的开窗函数有哪些?
🔍 如何用 SQL 实现用户的 n 日留存?请简述思路。
📌 复盘(仅列问题所在)
-
不了解炸裂函数的使用
-
不了解 sum over 相关用法及区别
六、实习相关情况 🎓
面试官问题
🔍 上次实习结束的原因是什么?
🔍 目前是否已经离校?大概能实习多久?到几月份?
🔍 开学后是否会有被导师要求回去的情况?