📊 数据质量 & 数仓业务价值 场景题 文章梳理数据质量长期跟踪体系:从问题盘点、规则管理、DWD明细与ADS汇总建模,到看板展示与监控闭环;并总结数仓对业务的四大价值:增长分析、质量稳定、查数提效与成本优化。 面试素材 #面试问答 2025-12-02 13 0
🚨 数据倾斜调优 面试题 数据倾斜是 Hive/Spark shuffle 的性能杀手,会导致任务卡顿、超时或 OOM。文章从参数配置、Map/Reduce 阶段实操入手,给出 Map Join、AQE、自适应分区、随机打散、拆分大 Key、替代 distinct 及小文件治理等优化方案。 面试素材 #数据倾斜 2025-12-02 19 0
📚 数仓建模 面试场景题 梳理数仓分层核心:以空间换时间,ODS接入、DWD清洗明细、DWM维度退化轻汇总、DWS统一口径聚合、ADS画像应用,并总结建模五要素、开发流程与分层评价维度。 面试素材 #数据建模 2025-12-02 16 0
📘 Doris 存储体系与关键技术 本文梳理 Doris 核心底层机制:Segment V2 存储分层与文件格式(数据区/索引区/Footer)、多类索引加速查询;介绍正交 Bitmap 通过分桶并行实现高效去重;并解析 Unique Key+Sequence Column 解决并发更新覆盖与防回退问题。 数开知识点 #Doris 2025-12-01 10 0
📘 Doris 架构详解 本文概览 Apache Doris 架构与演进:3.0 前 FE/BE 存算一体,FE 负责 SQL 与元数据(Paxos+WAL+Checkpoint),BE 负责列存与向量化执行;3.0 起引入云原生存算分离三层架构,支持对象存储与多租户弹性扩缩容,并解析 Segment、前缀索引及三种数据模型。 数开知识点 #Doris 2025-11-30 15 0
🌟 Doris 基础 文章系统梳理 OLTP 与 OLAP 的定位差异:OLTP 侧重事务一致性与高并发写入,OLAP 面向海量数据分析。进一步介绍 MOLAP/ROLAP/HTAP 三种路线、MPP 并行架构与主流引擎对比,并总结企业从离线数仓到实时数仓再到湖仓一体+AI 的演进趋势。 数开知识点 #Doris 2025-11-30 17 0
⭐ MySQL 本文总结 MySQL 表设计要点:数值/字符串/时间类型选型原则(金额用 DECIMAL、时间用 DATETIME、字段尽量小);索引类型与 B+Tree/哈希特性、联合索引最左前缀与前缀索引;utf8mb4 与排序规则推荐;三范式与反范式、命名字段规范、分库分表与生产禁忌,并给出订单系统建表示例。 数开知识点 #大数据组件 2025-11-26 10 0
✨Spark 内存模型 文章围绕 Spark Executor 端 JVM 内存展开,介绍堆内/堆外内存作用与内存不足带来的 GC、spill、OOM 风险;对比 1.6 前静态内存(固定比例、易浪费)与 1.6+ 统一内存(动态共享、可互借)机制,并给出常用资源配置与调优参数建议。 数开知识点 #Spark 2025-11-26 16 0
🔗 Spark 的几种 Join 机制 文章梳理 Spark 在大数据场景下的 5 种 Join 策略:Broadcast Hash、Shuffle Hash、Sort Merge(默认)、Cartesian、Broadcast Nested Loop,并说明 Catalyst 会按数据量、Join 条件与排序情况自动选型及其优缺点与适用场景。 数开知识点 #Spark 2025-11-26 10 0
🔥 Spark Shuffle 文章系统讲解 Spark Shuffle:其本质是跨节点按 key 重分布并伴随排序、分组与合并,触发宽依赖并决定 Stage 划分。梳理 Hash→Sort→Tungsten 演进,说明读写流程、常见瓶颈(IO/网络/GC/倾斜)及优化手段(预聚合、分区与内存调优等)。 数开知识点 #Spark 2025-11-26 16 0