面试素材 # 实习面经

🎯 海亮集团数开实习面经

rawley

2026-01-15

- 字

- 分钟

一、数仓基础与建模相关 🏗️

面试官问题

🔍 数仓为什么要做分层？它能解决什么问题？

🔍 模型建设主要基于什么模型理论？

🔍 请简单描述一下维度建模的过程？

🔍 请挑一个自己参与过的明细事实表，围绕该表讲一下如何基于维度建模实现落地开发？

🔍 该明细事实表对应的笔记业务过程（业务动作）是什么？

🔍 这张明细表是单事务的实时表还是多事务的？

🔍 维度建模和范式建模的区别是什么？在数据仓库建设的实际使用中有什么不同？

📌 复盘

维度建模的过程回答不准确
明细事实表的维度建模落地描述模糊
不清楚 “业务过程 / 业务动作” 的定义，无法精准对应
不明确 “单事务事实表” 与 “多事务事实表” 的区分标准

二、技术平台与 SQL 优化相关 💻

面试官问题

🔍 之前实习基于什么开发平台开展工作？

🔍 大小表的 join 如何做优化？优化原理是怎样的？

🔍 SQL 优化中，大表和大表关联且两个重要 key 值都是热点 key 时，一般怎么处理？

🔍 Mr 的 shuffer 和 Spark 的 shuffer 有什么区别？

🔍 如何理解 Hive 的内表和外表的区别？

📌 复盘

Mr 的 shuffer 和 Spark 的 shuffer 区别回答不全

三、指标与数据管理相关 📈

面试官问题

🔍 如何解决用户的定制性分析维度问题？会将其沉淀到通用汇总表里面吗？

🔍 进行指标沉淀时，一般怎么进行指标管理？

🔍 若通用型 DWS 公共层指标使用度较低，但用户对 ADS 层个性化分析维度需求较多，无法做符合性沉淀，该如何管理指标建设？

📌 复盘

部分问题概念不清楚

四、工作经验与技术能力相关 📋

面试官问题

🔍 除了标签应用层开发，是否做过基础层数仓基建的开发？

🔍 有没有做过实时相关的开发？

🔍 理解 Spark 的宽窄依赖吗？请解释一下。

🔍 作为数据开发，帮助业务做数据建模后，如何评判模型的好坏？

🔍 有用过数据质量管理相关的基线和 DQC 吗？请解释一下基线和 DQC 的基本定义，或简述使用场景及带来的作用。

🔍 除了 DWS 和 ADS 层开发，是否做过 BI 报表的应用开发？主要围绕哪些业务场景？

🔍 在用户标签资产建设的 BI 业务场景中，用户标签的最大价值是什么？帮业务解决了什么问题？可以结合具体指标说明。

📌 复盘

对基线和 DQC 的相关知识了解不足，回答不好
BI 报表对应业务场景的回答角度

五、SQL 实操相关 📝

面试官问题

🔍 请简单描述炸裂函数（一行变多行）的使用方法。

🔍 有用过开窗函数吗？sum over partition by 加 order by 和不加 order by 在数据实现上有什么区别？

🔍 常用的开窗函数有哪些？

🔍 如何用 SQL 实现用户的 n 日留存？请简述思路。

📌 复盘（仅列问题所在）

不了解炸裂函数的使用
不了解 sum over 相关用法及区别

六、实习相关情况 🎓

面试官问题

🔍 上次实习结束的原因是什么？

🔍 目前是否已经离校？大概能实习多久？到几月份？

🔍 开学后是否会有被导师要求回去的情况？

上一篇 📝 字节数开面试八股复盘

下一篇 🗃️ 数据研发实习 Day 1

评论交流

在此浏览器中保存我的姓名、邮箱和网站，以便下次评论时使用