11-26 数开知识点 Spark ✨Spark 内存模型 文章围绕 Spark Executor 端 JVM 内存展开,介绍堆内/堆外内存作用与内存不足带来的 GC、spill、OOM 风险;对比 1.6 前静态内存(固定比例、易浪费)与 1.6+ 统一内存(动态共享、可互借)机制,并给出常用资源配置与调优参数建议。 16 0 0
11-26 数开知识点 Spark 🔗 Spark 的几种 Join 机制 文章梳理 Spark 在大数据场景下的 5 种 Join 策略:Broadcast Hash、Shuffle Hash、Sort Merge(默认)、Cartesian、Broadcast Nested Loop,并说明 Catalyst 会按数据量、Join 条件与排序情况自动选型及其优缺点与适用场景。 9 0 0
11-26 数开知识点 Spark 🔥 Spark Shuffle 文章系统讲解 Spark Shuffle:其本质是跨节点按 key 重分布并伴随排序、分组与合并,触发宽依赖并决定 Stage 划分。梳理 Hash→Sort→Tungsten 演进,说明读写流程、常见瓶颈(IO/网络/GC/倾斜)及优化手段(预聚合、分区与内存调优等)。 16 0 0
11-25 数开知识点 Spark 🚀 Spark 任务提交流程 梳理 Spark 核心组件与职责,讲清运行模式差异:Driver 位置决定 Client/Cluster;并概述 Standalone 与 YARN(cluster)提交流程及 Master URL 参数。 27 0 0
11-25 数开知识点 Spark 🧠 Spark 计算模型详解(RDD & 算子 & DAG) 本文系统梳理 Spark RDD 核心:不可变分区、血缘与惰性执行;窄/宽依赖与 Stage 划分;Shuffle 全流程及优化;序列化与统一内存;广播变量、累加器、checkpoint 容错;并给出性能调优清单与示例速记。 13 0 0
11-25 数开知识点 Spark 🚀 Spark 基础知识 介绍 Spark 的基本概念与性能优势(内存计算、DAG、Shuffle),并概览 Driver/Executor 架构及生态组件与运行模式。 15 0 0
11-10 数开知识点 Spark ⚡ Spark Core & SQL 核心知识 本文梳理 Spark 常见部署模式(Local、Standalone、YARN、Mesos)与 spark-submit 提交流程,重点解析 Driver/Executor 架构、YARN client/cluster 差异;介绍 RDD Lineage 容错、宽窄依赖及 Stage/Task 划分,并汇总常用算子与性能调优要点。 19 0 0