1. 自我背景概述
-
应届硕士毕业
-
在星球练习时长:1.5 年
-
5 段大厂实习经历:数据分析 → 数据开发
-
秋招 Offer:字节、蚂蚁、快手、小红书、美团、虾皮、滴滴(SP~SSP)
2. 实习筛选的核心考察点(3 大方面)
2.1 垂直经验(最重要)
大厂日常实习筛选逻辑:希望你能“即插即用”承担部分基础工作,因此是否具备“垂直经验”极其关键。
🎯 主要指两个方面:
-
垂直实习经验
-
数据分析 / 数据科学 / 数据运营相关经验可作为强背书。
-
证明你:
-
熟悉真实数仓 / 数据平台环境
-
会写复杂 SQL
-
能使用 BI、开发平台、探索平台等。
-
-
-
垂直项目经验(优先级 > 实习)
-
能体现你理解业务 → 数仓建模 → 数据加工 → 指标构建 → 分析洞察的完整链路。
-
证明你对“数开岗位”有实际认知,而不是空谈理论。
-
2.2 技术素养
🎯 数仓基础理解
-
Star/Snowflake 模型原理
-
数仓分层架构(ODS → DWD → DWS → ADS 等)
-
数据模型设计思路
🎯 大数据技术栈
-
Spark、Hive、Flume、Kafka、Flink
-
Spark 执行流程、宽窄依赖
-
数据倾斜解决方案
🎯 基础 CS 能力
-
408 基础:进程线程、网络三次握手
-
MySQL 索引、事务、存储引擎
-
基础算法:链表、二叉树、排序、连续登录、留存、窗口函数题等
2.3 软实力(常被忽略但实际权重很高)
-
沟通表达是否清晰
-
逻辑性是否强
-
是否对岗位有意愿
-
是否能保证稳定的实习时长
-
介绍项目能不能说人话、说透、说清楚
3. 实习面试准备(核心:八股 + 项目)
3.1 第一轮面试(MT 面 → 最关键)
1)SQL(核心中的核心)
-
必考窗口函数
-
留存、连续登录、活跃、最大在线人数
-
LeetCode SQL 顶 50
-
群内 SQL 题 + 看板指标计算
-
手撕 SQL → 必考但难度不高,关键是熟练度
2)数仓建模基础
需要能解释清楚:
-
星型 / 雪花模型差异
-
为什么要分层
-
每一层的职责是什么
-
最好结合自己的项目(面试官更爱听实战)
3)大数据八股
-
数据倾斜
-
Shuffle 原理
-
Spark 执行流程
-
Hive 与 Spark 的区别
-
Flink/Spark Streaming 简单理解
4)项目深问
-
简历上每一行都必须吃透
-
需要:
-
说清你的职责
-
说清数据流向
-
说清分层设计
-
说清为什么这么设计
-
说清你解决了哪种问题
-
3.2 第二轮面试(LD 面,偏项目和全局性)
🎯 考查点更偏“数据架构理解”
-
对整个需求的上下游有无全链路理解
-
是否不仅完成任务,还能思考“为什么这么建模”
-
是否能从应用层 → 公共层 → 数仓整体维度结构进行讲解
🎯 项目深挖方向
-
你设计了哪些公共维表 / 指标?
-
有什么复用性?
-
公共层、数据集市、应用层的划分依据是什么?
-
质量保障怎么做?(DQC、血缘校验、监控)
🎯 意愿与实习可用性
-
对岗位的理解是否准确
-
是否愿意长期投入
-
实习时长是否稳定
4. 实习期间的成长关键点
4.1 了解并掌握团队平台体系
你需要能理解每个平台的作用与使用场景,例如:
-
数据探索平台(Presto/Impala 查询加速)
-
数据地图(查表、查血缘)
-
开发平台(任务发布、调度、SQL 开发)
-
数据质量平台(DQC、跨表比对)
-
数据集(OLAP 模型,给业务分析)
💡 理解平台能帮助你建立“数据链路全景图”。
4.2 熟悉团队内数仓架构(核心技能)
每做一个需求,你都应顺带梳理:
-
涉及的模型有哪些?
-
为什么这么设计?
-
各层表如何流转?
-
有哪些维度 / 指标?
-
有没有复用机会?
掌握团队的数据资产 → 才能像正式员工一样工作。
4.3 学习团队专项工作(成为团队未来可培养对象)
常见专项:
-
架构重构与优化
-
存储 / 计算成本优化
-
数据质量体系建设
-
新技术落地(如 Paimon、流批一体)
-
自动化建设(Data Agent、自助式数据平台)
4.4 离职前准备(非常重要)
-
至少提前 2 周写好新简历
-
把项目从“我做了什么” → “我解决了什么问题”
-
在权限还在的时候多补数据、补血缘图、补思考
-
离职前可以用新简历试面几次,查漏洞
4.5 最重要的一句话:干就完了
不要过度顾虑背景、担忧面评、焦虑八股。
—— 把项目吃透,把基本功练稳,多投多面!