03-11 面试素材 大数据组件 🚀 大数据开发 核心八股 文章梳理大数据核心知识体系:涵盖 HDFS 架构与读写、HA及小文件治理;MapReduce 原理与 Shuffle;Yarn 调度与架构;Spark 组件、RDD/DAG、Stage/Shuffle、调优排错与数据倾斜、Join 策略;Doris 架构与存储;数仓分层建模;Hive 架构与优化。 11 0 0
12-14 数开知识点 面试问答 📝 用户标签画像体系 文章围绕用户标签画像体系展开:解释标签的概念、七大分类与五种属性类型,并说明标签与指标的组合逻辑。进一步介绍标签加工流程、宽表建设与管理方式,以及画像生成与应用场景,强调合规采集与精准运营价值。 18 0 0
12-01 数开知识点 Doris 📘 Doris 存储体系与关键技术 本文梳理 Doris 核心底层机制:Segment V2 存储分层与文件格式(数据区/索引区/Footer)、多类索引加速查询;介绍正交 Bitmap 通过分桶并行实现高效去重;并解析 Unique Key+Sequence Column 解决并发更新覆盖与防回退问题。 10 0 0
11-30 数开知识点 Doris 🌟 Doris 基础 文章系统梳理 OLTP 与 OLAP 的定位差异:OLTP 侧重事务一致性与高并发写入,OLAP 面向海量数据分析。进一步介绍 MOLAP/ROLAP/HTAP 三种路线、MPP 并行架构与主流引擎对比,并总结企业从离线数仓到实时数仓再到湖仓一体+AI 的演进趋势。 16 0 0
11-26 数开知识点 大数据组件 ⭐ MySQL 本文总结 MySQL 表设计要点:数值/字符串/时间类型选型原则(金额用 DECIMAL、时间用 DATETIME、字段尽量小);索引类型与 B+Tree/哈希特性、联合索引最左前缀与前缀索引;utf8mb4 与排序规则推荐;三范式与反范式、命名字段规范、分库分表与生产禁忌,并给出订单系统建表示例。 9 0 0
11-26 数开知识点 Spark ✨Spark 内存模型 文章围绕 Spark Executor 端 JVM 内存展开,介绍堆内/堆外内存作用与内存不足带来的 GC、spill、OOM 风险;对比 1.6 前静态内存(固定比例、易浪费)与 1.6+ 统一内存(动态共享、可互借)机制,并给出常用资源配置与调优参数建议。 14 0 0
11-26 数开知识点 Spark 🔗 Spark 的几种 Join 机制 文章梳理 Spark 在大数据场景下的 5 种 Join 策略:Broadcast Hash、Shuffle Hash、Sort Merge(默认)、Cartesian、Broadcast Nested Loop,并说明 Catalyst 会按数据量、Join 条件与排序情况自动选型及其优缺点与适用场景。 9 0 0
11-26 数开知识点 Spark 🔥 Spark Shuffle 文章系统讲解 Spark Shuffle:其本质是跨节点按 key 重分布并伴随排序、分组与合并,触发宽依赖并决定 Stage 划分。梳理 Hash→Sort→Tungsten 演进,说明读写流程、常见瓶颈(IO/网络/GC/倾斜)及优化手段(预聚合、分区与内存调优等)。 16 0 0
11-25 数开知识点 Spark 🚀 Spark 任务提交流程 梳理 Spark 核心组件与职责,讲清运行模式差异:Driver 位置决定 Client/Cluster;并概述 Standalone 与 YARN(cluster)提交流程及 Master URL 参数。 27 0 0
11-25 数开知识点 Spark 🧠 Spark 计算模型详解(RDD & 算子 & DAG) 本文系统梳理 Spark RDD 核心:不可变分区、血缘与惰性执行;窄/宽依赖与 Stage 划分;Shuffle 全流程及优化;序列化与统一内存;广播变量、累加器、checkpoint 容错;并给出性能调优清单与示例速记。 13 0 0
11-25 数开知识点 Spark 🚀 Spark 基础知识 介绍 Spark 的基本概念与性能优势(内存计算、DAG、Shuffle),并概览 Driver/Executor 架构及生态组件与运行模式。 15 0 0