内推投递|商业产品与技术 👨💻
📅 面试基本信息
-
面试部门:商业产品与技术
-
面试时间:12 月 26 日
-
面试时长:50 分钟
🌟 面试核心内容
1. 自我介绍 🗣️
2. 项目深挖 🔍
3. 技术核心问题 🧠
-
数据倾斜相关:什么是数据倾斜?项目中是否遇到过?如何解决的?
-
项目中数据流转过程:需清晰梳理从数据采集、清洗、处理到存储、应用的完整链路,说明各环节使用的技术工具
-
数仓分层意义:为什么要进行数仓分层?常见的数仓分层有哪些?各层的作用是什么?
-
Spark Shuffle:什么是 Spark Shuffle?Shuffle 过程中可能遇到的问题及优化方案?
-
Hive 核心概念:
-
内部表与外部表的区别?适用场景分别是什么?
-
分区表的作用?如何创建和使用分区表?
-
分桶表的原理与优势?与分区表的区别?
-
视图的定义与作用?视图的类型及使用注意事项?
-
4. 手撕编程题 💻
-
题目一:有序数组求目标值出现次数
-
题目二:用户连续登陆天数,开始时间,结束时间
简历被捞|泛TikTok数据平台搜索 🌍
📅 面试基本信息
-
面试部门:泛 TikTok 数据平台搜索
-
面试时间:1 月 9 日
-
面试时长:60 分钟
🌟 面试核心内容
1. 个人情况与实习相关 📋
-
你现在是本科还是研究生呀?
-
大三阶段大概能来实习多久?
-
现在还在继续实习吗?
-
没有继续实习的原因是什么?
-
你实习了大概多久呀?
2. 项目与业务相关 📊
-
你在实习过程中遇到的比较大的挑战或难题是什么?怎么解决的?
-
一般提需求的业务方是哪些角色的同学?偏运营、产品还是研发?
-
工作中如何判断各任务的优先级?若多个需求都比较急,怎么解决冲突?
-
笔记社区业务的整体核心指标大概是什么?
-
笔记社区项目是否有完整的指标体系(核心指标、过程驱动指标)?数仓建设给业务带来了哪些分析能力?
-
业务整体的核心目标是什么?基于目标拆解的驱动指标有哪些?数据能力给业务带来了哪些价值?
-
标签画像的建设以及指标的梳理和开发中,你主要负责或参与的是哪些内容?
-
可以列举 350 个标签中一些最重要的标签吗?
3. 技术实操题 💻
-
题目一:最大连续登录天数
-
题目二:日期(date)、销售额(sales)(单日可能多条记录)计算近 7 天的移动平均销售额
4. 技术基础知识 🧠
-
数据倾斜是什么?怎么发现?有哪些解决方案?
-
在实习过程中,遇到 Spark 任务执行报错(比如 OOM),怎么排查和处理?
-
如果 Spark 任务报 OOM,具体能优化什么?有什么加参数的方式能解决吗?
-
常见的排序算法有哪些?
-
你知道服务器怎么连接 MySQL 吗?
-
用 Python 做数据分析或处理时,常用的核心库有哪些?
-
能用 Pyspark 写一个简单的数据处理分析 Demo 吗?或者口述大概要做哪些事、具体怎么做?
-
你对 ClickHouse 或 ES 等其他数据存储有了解吗?
-
ClickHouse 和 Hive 表的一些区别是什么?
-
知道 ClickHouse 查询为什么会快吗?