12-08 面试素材 数据治理 ✨ 数据表合规治理 文章围绕数仓数据表“难用、难找、不规范”痛点,系统讲解合规治理:从问题根因与ROI评估出发,提出制定标准、下线废表、公共指标下沉、治理ODS穿透、烟囱表重构五步法,并给出看板考核、长期维护机制与求职量化写法。 13 0 0
12-08 面试素材 数据治理 📌 数据质量 数据质量是数仓生命线。文章从成因与痛点出发,提出上线/变更规范、代码审核、探查比对、DQC监控、基线SLA与问题闭环,推动上下游协同,实现可靠交付。 8 0 0
12-08 面试素材 面试问答 🎯 数仓开发流程场景题 本文汇总数仓面试4类高频场景题:2天交付报表、多需求冲突协调、跨行业快速上手、0-1搭建数仓;提供矛盾拆解、分步落地、并行协作、DQC校验及面试金句。 12 0 0
12-06 面试素材 面试问答 📚 数仓开发流程详解 本文围绕数仓开发全链路展开:先厘清上下游与对接角色,再按“需求调研→数据域划分→总线矩阵→指标定义→模型设计→开发上线”拆解流程,并给出数据质量校验、DQC监控、倾斜治理等避坑点与面试表达技巧。 22 0 0
12-06 面试素材 数据治理 📁 HDFS 小文件治理 本文聚焦 HDFS 小文件痛点,系统梳理小文件定义、成因与对 NameNode、调度和存储的影响;给出 Spark3 AQE 自动合并、控制 Reduce、源头合并及存量/增量治理方案,并总结生产避坑与常见答疑。 16 0 0
12-04 面试素材 数据建模 🏗️ 维度建模理论 文章系统梳理 Kimball 维度建模:维度+事实、总线架构与一致性维度/事实;对比范式建模及三范式;讲解星型/雪花/星座模型;结合 ODS→ADS 分层与四步流程,并介绍事实表类型与 SCD 处理方案。 22 0 0
12-02 面试素材 面试问答 📊 数据质量 & 数仓业务价值 场景题 文章梳理数据质量长期跟踪体系:从问题盘点、规则管理、DWD明细与ADS汇总建模,到看板展示与监控闭环;并总结数仓对业务的四大价值:增长分析、质量稳定、查数提效与成本优化。 13 0 0
12-02 面试素材 数据倾斜 🚨 数据倾斜调优 面试题 数据倾斜是 Hive/Spark shuffle 的性能杀手,会导致任务卡顿、超时或 OOM。文章从参数配置、Map/Reduce 阶段实操入手,给出 Map Join、AQE、自适应分区、随机打散、拆分大 Key、替代 distinct 及小文件治理等优化方案。 18 0 0
12-02 面试素材 数据建模 📚 数仓建模 面试场景题 梳理数仓分层核心:以空间换时间,ODS接入、DWD清洗明细、DWM维度退化轻汇总、DWS统一口径聚合、ADS画像应用,并总结建模五要素、开发流程与分层评价维度。 16 0 0
12-01 数开知识点 Doris 📘 Doris 存储体系与关键技术 本文梳理 Doris 核心底层机制:Segment V2 存储分层与文件格式(数据区/索引区/Footer)、多类索引加速查询;介绍正交 Bitmap 通过分桶并行实现高效去重;并解析 Unique Key+Sequence Column 解决并发更新覆盖与防回退问题。 10 0 0
11-30 数开知识点 Doris 🌟 Doris 基础 文章系统梳理 OLTP 与 OLAP 的定位差异:OLTP 侧重事务一致性与高并发写入,OLAP 面向海量数据分析。进一步介绍 MOLAP/ROLAP/HTAP 三种路线、MPP 并行架构与主流引擎对比,并总结企业从离线数仓到实时数仓再到湖仓一体+AI 的演进趋势。 16 0 0