Loading......

文章背景图

📝 字节跳动 大数据开发实习生 面试经历整理

2026-01-11
24
-
- 分钟

内推投递|商业产品与技术 👨💻

📅 面试基本信息

  • 面试部门:商业产品与技术

  • 面试时间:12 月 26 日

  • 面试时长:50 分钟

🌟 面试核心内容

1. 自我介绍 🗣️

2. 项目深挖 🔍

3. 技术核心问题 🧠

  • 数据倾斜相关:什么是数据倾斜?项目中是否遇到过?如何解决的?

  • 项目中数据流转过程:需清晰梳理从数据采集、清洗、处理到存储、应用的完整链路,说明各环节使用的技术工具

  • 数仓分层意义:为什么要进行数仓分层?常见的数仓分层有哪些?各层的作用是什么?

  • Spark Shuffle:什么是 Spark Shuffle?Shuffle 过程中可能遇到的问题及优化方案?

  • Hive 核心概念:

    • 内部表与外部表的区别?适用场景分别是什么?

    • 分区表的作用?如何创建和使用分区表?

    • 分桶表的原理与优势?与分区表的区别?

    • 视图的定义与作用?视图的类型及使用注意事项?

4. 手撕编程题 💻

  • 题目一:有序数组求目标值出现次数

  • 题目二:用户连续登陆天数,开始时间,结束时间


简历被捞|泛TikTok数据平台搜索 🌍

📅 面试基本信息

  • 面试部门:泛 TikTok 数据平台搜索

  • 面试时间:1 月 9 日

  • 面试时长:60 分钟

🌟 面试核心内容

1. 个人情况与实习相关 📋

  • 你现在是本科还是研究生呀?

  • 大三阶段大概能来实习多久?

  • 现在还在继续实习吗?

  • 没有继续实习的原因是什么?

  • 你实习了大概多久呀?

2. 项目与业务相关 📊

  • 你在实习过程中遇到的比较大的挑战或难题是什么?怎么解决的?

  • 一般提需求的业务方是哪些角色的同学?偏运营、产品还是研发?

  • 工作中如何判断各任务的优先级?若多个需求都比较急,怎么解决冲突?

  • 笔记社区业务的整体核心指标大概是什么?

  • 笔记社区项目是否有完整的指标体系(核心指标、过程驱动指标)?数仓建设给业务带来了哪些分析能力?

  • 业务整体的核心目标是什么?基于目标拆解的驱动指标有哪些?数据能力给业务带来了哪些价值?

  • 标签画像的建设以及指标的梳理和开发中,你主要负责或参与的是哪些内容?

  • 可以列举 350 个标签中一些最重要的标签吗?

3. 技术实操题 💻

  • 题目一:最大连续登录天数

  • 题目二:日期(date)、销售额(sales)(单日可能多条记录)计算近 7 天的移动平均销售额

4. 技术基础知识 🧠

  • 数据倾斜是什么?怎么发现?有哪些解决方案?

  • 在实习过程中,遇到 Spark 任务执行报错(比如 OOM),怎么排查和处理?

  • 如果 Spark 任务报 OOM,具体能优化什么?有什么加参数的方式能解决吗?

  • 常见的排序算法有哪些?

  • 你知道服务器怎么连接 MySQL 吗?

  • 用 Python 做数据分析或处理时,常用的核心库有哪些?

  • 能用 Pyspark 写一个简单的数据处理分析 Demo 吗?或者口述大概要做哪些事、具体怎么做?

  • 你对 ClickHouse 或 ES 等其他数据存储有了解吗?

  • ClickHouse 和 Hive 表的一些区别是什么?

  • 知道 ClickHouse 查询为什么会快吗?

评论交流