Loading......

文章背景图

🎯 海亮集团 数开实习面经

2026-01-15
20
-
- 分钟

一、数仓基础与建模相关 🏗️

面试官问题

🔍 数仓为什么要做分层?它能解决什么问题?

🔍 模型建设主要基于什么模型理论?

🔍 请简单描述一下维度建模的过程?

🔍 请挑一个自己参与过的明细事实表,围绕该表讲一下如何基于维度建模实现落地开发?

🔍 该明细事实表对应的笔记业务过程(业务动作)是什么?

🔍 这张明细表是单事务的实时表还是多事务的?

🔍 维度建模和范式建模的区别是什么?在数据仓库建设的实际使用中有什么不同?

📌 复盘

  • 维度建模的过程回答不准确

  • 明细事实表的维度建模落地描述模糊

  • 不清楚 “业务过程 / 业务动作” 的定义,无法精准对应

  • 不明确 “单事务事实表” 与 “多事务事实表” 的区分标准

二、技术平台与 SQL 优化相关 💻

面试官问题

🔍 之前实习基于什么开发平台开展工作?

🔍 大小表的 join 如何做优化?优化原理是怎样的?

🔍 SQL 优化中,大表和大表关联且两个重要 key 值都是热点 key 时,一般怎么处理?

🔍 Mr 的 shuffer 和 Spark 的 shuffer 有什么区别?

🔍 如何理解 Hive 的内表和外表的区别?

📌 复盘

  • Mr 的 shuffer 和 Spark 的 shuffer 区别回答不全

三、指标与数据管理相关 📈

面试官问题

🔍 如何解决用户的定制性分析维度问题?会将其沉淀到通用汇总表里面吗?

🔍 进行指标沉淀时,一般怎么进行指标管理?

🔍 若通用型 DWS 公共层指标使用度较低,但用户对 ADS 层个性化分析维度需求较多,无法做符合性沉淀,该如何管理指标建设?

📌 复盘

  • 部分问题概念不清楚

四、工作经验与技术能力相关 📋

面试官问题

🔍 除了标签应用层开发,是否做过基础层数仓基建的开发?

🔍 有没有做过实时相关的开发?

🔍 理解 Spark 的宽窄依赖吗?请解释一下。

🔍 作为数据开发,帮助业务做数据建模后,如何评判模型的好坏?

🔍 有用过数据质量管理相关的基线和 DQC 吗?请解释一下基线和 DQC 的基本定义,或简述使用场景及带来的作用。

🔍 除了 DWS 和 ADS 层开发,是否做过 BI 报表的应用开发?主要围绕哪些业务场景?

🔍 在用户标签资产建设的 BI 业务场景中,用户标签的最大价值是什么?帮业务解决了什么问题?可以结合具体指标说明。

📌 复盘

  • 对基线和 DQC 的相关知识了解不足,回答不好

  • BI 报表对应业务场景的回答角度

五、SQL 实操相关 📝

面试官问题

🔍 请简单描述炸裂函数(一行变多行)的使用方法。

🔍 有用过开窗函数吗?sum over partition by 加 order by 和不加 order by 在数据实现上有什么区别?

🔍 常用的开窗函数有哪些?

🔍 如何用 SQL 实现用户的 n 日留存?请简述思路。

📌 复盘(仅列问题所在)

  • 不了解炸裂函数的使用

  • 不了解 sum over 相关用法及区别

六、实习相关情况 🎓

面试官问题

🔍 上次实习结束的原因是什么?

🔍 目前是否已经离校?大概能实习多久?到几月份?

🔍 开学后是否会有被导师要求回去的情况?

评论交流