1. 自我背景概述
应届硕士毕业
在星球练习时长:1.5 年
5 段大厂实习经历:数据分析 → 数据开发
秋招 Offer:字节、蚂蚁、快手、小红书、美团、虾皮、滴滴(SP~SSP)
2. 实习筛选的核心考察点(3 大方面)
2.1 垂直经验(最重要)
大厂日常实习筛选逻辑:希望你能“即插即用”承担部分基础工作,因此是否具备“垂直经验”极其关键。
🎯 主要指两个方面:
垂直实习经验
数据分析 / 数据科学 / 数据运营相关经验可作为强背书。
证明你:
熟悉真实数仓 / 数据平台环境
会写复杂 SQL
能使用 BI、开发平台、探索平台等。
垂直项目经验(优先级 > 实习)
能体现你理解业务 → 数仓建模 → 数据加工 → 指标构建 → 分析洞察的完整链路。
证明你对“数开岗位”有实际认知,而不是空谈理论。
2.2 技术素养
🎯 数仓基础理解
Star/Snowflake 模型原理
数仓分层架构(ODS → DWD → DWS → ADS 等)
数据模型设计思路
🎯 大数据技术栈
Spark、Hive、Flume、Kafka、Flink
Spark 执行流程、宽窄依赖
数据倾斜解决方案
🎯 基础 CS 能力
408 基础:进程线程、网络三次握手
MySQL 索引、事务、存储引擎
基础算法:链表、二叉树、排序、连续登录、留存、窗口函数题等
2.3 软实力(常被忽略但实际权重很高)
沟通表达是否清晰
逻辑性是否强
是否对岗位有意愿
是否能保证稳定的实习时长
介绍项目能不能说人话、说透、说清楚
3. 实习面试准备(核心:八股 + 项目)
3.1 第一轮面试(MT 面 → 最关键)
1)SQL(核心中的核心)
必考窗口函数
留存、连续登录、活跃、最大在线人数
LeetCode SQL 顶 50
群内 SQL 题 + 看板指标计算
手撕 SQL → 必考但难度不高,关键是熟练度
2)数仓建模基础
需要能解释清楚:
星型 / 雪花模型差异
为什么要分层
每一层的职责是什么
最好结合自己的项目(面试官更爱听实战)
3)大数据八股
数据倾斜
Shuffle 原理
Spark 执行流程
Hive 与 Spark 的区别
Flink/Spark Streaming 简单理解
4)项目深问
简历上每一行都必须吃透
需要:
说清你的职责
说清数据流向
说清分层设计
说清为什么这么设计
说清你解决了哪种问题
3.2 第二轮面试(LD 面,偏项目和全局性)
🎯 考查点更偏“数据架构理解”
对整个需求的上下游有无全链路理解
是否不仅完成任务,还能思考“为什么这么建模”
是否能从应用层 → 公共层 → 数仓整体维度结构进行讲解
🎯 项目深挖方向
你设计了哪些公共维表 / 指标?
有什么复用性?
公共层、数据集市、应用层的划分依据是什么?
质量保障怎么做?(DQC、血缘校验、监控)
🎯 意愿与实习可用性
对岗位的理解是否准确
是否愿意长期投入
实习时长是否稳定
4. 实习期间的成长关键点
4.1 了解并掌握团队平台体系
你需要能理解每个平台的作用与使用场景,例如:
数据探索平台(Presto/Impala 查询加速)
数据地图(查表、查血缘)
开发平台(任务发布、调度、SQL 开发)
数据质量平台(DQC、跨表比对)
数据集(OLAP 模型,给业务分析)
💡 理解平台能帮助你建立“数据链路全景图”。
4.2 熟悉团队内数仓架构(核心技能)
每做一个需求,你都应顺带梳理:
涉及的模型有哪些?
为什么这么设计?
各层表如何流转?
有哪些维度 / 指标?
有没有复用机会?
掌握团队的数据资产 → 才能像正式员工一样工作。
4.3 学习团队专项工作(成为团队未来可培养对象)
常见专项:
架构重构与优化
存储 / 计算成本优化
数据质量体系建设
新技术落地(如 Paimon、流批一体)
自动化建设(Data Agent、自助式数据平台)
4.4 离职前准备(非常重要)
至少提前 2 周写好新简历
把项目从“我做了什么” → “我解决了什么问题”
在权限还在的时候多补数据、补血缘图、补思考
离职前可以用新简历试面几次,查漏洞
4.5 最重要的一句话:干就完了
不要过度顾虑背景、担忧面评、焦虑八股。
—— 把项目吃透,把基本功练稳,多投多面!