🚀 Spark 任务提交流程 梳理 Spark 核心组件与职责,讲清运行模式差异:Driver 位置决定 Client/Cluster;并概述 Standalone 与 YARN(cluster)提交流程及 Master URL 参数。 数开知识点 #Spark 2025-11-25 27 0
🧠 Spark 计算模型详解(RDD & 算子 & DAG) 本文系统梳理 Spark RDD 核心:不可变分区、血缘与惰性执行;窄/宽依赖与 Stage 划分;Shuffle 全流程及优化;序列化与统一内存;广播变量、累加器、checkpoint 容错;并给出性能调优清单与示例速记。 数开知识点 #Spark 2025-11-25 13 0
🚀 Spark 基础知识 介绍 Spark 的基本概念与性能优势(内存计算、DAG、Shuffle),并概览 Driver/Executor 架构及生态组件与运行模式。 数开知识点 #Spark 2025-11-25 15 0
📚 大数据存储格式详解:TextFile / ORC / Parquet 本文对比 TextFile、ORC、Parquet 三种数据存储格式:指出 TextFile 行式存储压缩率低、无法列裁剪与优化;详解 ORC/Parquet 的列式结构、索引与过滤机制及适用生态;并介绍通过排序+分发重排提升压缩率与查询性能的实践建议。 数开知识点 #Hadoop 2025-11-24 6 0
📘 YARN 资源调度与核心架构 文章梳理YARN资源调度与执行机制:对比FIFO、Capacity、Fair三类调度器的特点与适用场景;解析YARN主从架构中RM、NM、AM、Container职责;说明作业提交到容器执行的全流程,并补充数据本地化与MR运行过程。 数开知识点 #Hadoop 2025-11-24 14 0
✨ MapReduce 原理与机制 本文概述 Hadoop MapReduce:基于分治思想,将批处理拆为 Map→Shuffle→Reduce 并行执行,具备容错、调度与分片能力;解析 WordCount、InputSplit 与 Shuffle(落盘/排序/拉取)细节及性能瓶颈,并介绍压缩优化策略。 数开知识点 #Hadoop 2025-11-24 16 0
NameNode 的 高可用(High Availability)机制详解 本文介绍 HDFS NameNode 的 HA 机制:Hadoop1.x 单点故障影响全局,Hadoop2.x 采用 Active/Standby 架构并由 ZKFC 自动切换提升可用性。元数据由 Fsimage+EditLog 组成,Standby 定期 Checkpoint 合并;生产常用 QJM+JournalNode 保证一致性。 数开知识点 #Hadoop 2025-11-23 14 0
⭐ 群友分享找实习经验 文章结合作者多段大厂实习与秋招收获,总结数开/数据岗实习筛选三要素:垂直经验、技术素养与软实力;面试重点在SQL、数仓建模、大数据八股与项目深挖;实习期需熟悉平台与架构、参与专项并提前整理成果,行动为先。 实习经历💻 #实习面经 2025-11-23 26 0
📘 Hive SQL 数据表操作笔记(CREATE / DROP / ALTER) 本文整理 Hive SQL 表管理常用 DDL:建表与字段类型、分区(单/多级)及其作用、TBLPROPERTIES 配置表/分区生命周期、CTAS 临时表与视图、DROP 删除表/分区、ALTER 改表名/字段/注释/生命周期,并给出命名、统一 pt 分区等最佳实践。 数开知识点 #SQL 2025-11-23 16 0
📘 企业级 Hive 调优指南(Hive on MR) 本文介绍 Hive on MR 的性能调优思路:集群层面优化 YARN 的内存、CPU及容器分配上下限;作业层面按 SQL 调整 Map/Reduce 资源;并结合 Explain 执行计划分析 Stage 与算子树,定位扫描、Join、聚合等瓶颈。 数开知识点 #Hive 2025-11-19 9 0