11-26 数开知识点 大数据组件 ⭐ MySQL 本文总结 MySQL 表设计要点:数值/字符串/时间类型选型原则(金额用 DECIMAL、时间用 DATETIME、字段尽量小);索引类型与 B+Tree/哈希特性、联合索引最左前缀与前缀索引;utf8mb4 与排序规则推荐;三范式与反范式、命名字段规范、分库分表与生产禁忌,并给出订单系统建表示例。 9 0 0
11-26 数开知识点 Spark ✨Spark 内存模型 文章围绕 Spark Executor 端 JVM 内存展开,介绍堆内/堆外内存作用与内存不足带来的 GC、spill、OOM 风险;对比 1.6 前静态内存(固定比例、易浪费)与 1.6+ 统一内存(动态共享、可互借)机制,并给出常用资源配置与调优参数建议。 14 0 0
11-26 数开知识点 Spark 🔗 Spark 的几种 Join 机制 文章梳理 Spark 在大数据场景下的 5 种 Join 策略:Broadcast Hash、Shuffle Hash、Sort Merge(默认)、Cartesian、Broadcast Nested Loop,并说明 Catalyst 会按数据量、Join 条件与排序情况自动选型及其优缺点与适用场景。 9 0 0
11-26 数开知识点 Spark 🔥 Spark Shuffle 文章系统讲解 Spark Shuffle:其本质是跨节点按 key 重分布并伴随排序、分组与合并,触发宽依赖并决定 Stage 划分。梳理 Hash→Sort→Tungsten 演进,说明读写流程、常见瓶颈(IO/网络/GC/倾斜)及优化手段(预聚合、分区与内存调优等)。 16 0 0
11-25 数开知识点 Spark 🚀 Spark 任务提交流程 梳理 Spark 核心组件与职责,讲清运行模式差异:Driver 位置决定 Client/Cluster;并概述 Standalone 与 YARN(cluster)提交流程及 Master URL 参数。 27 0 0
11-25 数开知识点 Spark 🧠 Spark 计算模型详解(RDD & 算子 & DAG) 本文系统梳理 Spark RDD 核心:不可变分区、血缘与惰性执行;窄/宽依赖与 Stage 划分;Shuffle 全流程及优化;序列化与统一内存;广播变量、累加器、checkpoint 容错;并给出性能调优清单与示例速记。 13 0 0
11-25 数开知识点 Spark 🚀 Spark 基础知识 介绍 Spark 的基本概念与性能优势(内存计算、DAG、Shuffle),并概览 Driver/Executor 架构及生态组件与运行模式。 15 0 0
11-24 数开知识点 Hadoop 📚 大数据存储格式详解:TextFile / ORC / Parquet 本文对比 TextFile、ORC、Parquet 三种数据存储格式:指出 TextFile 行式存储压缩率低、无法列裁剪与优化;详解 ORC/Parquet 的列式结构、索引与过滤机制及适用生态;并介绍通过排序+分发重排提升压缩率与查询性能的实践建议。 6 0 0
11-24 数开知识点 Hadoop 📘 YARN 资源调度与核心架构 文章梳理YARN资源调度与执行机制:对比FIFO、Capacity、Fair三类调度器的特点与适用场景;解析YARN主从架构中RM、NM、AM、Container职责;说明作业提交到容器执行的全流程,并补充数据本地化与MR运行过程。 12 0 0
11-24 数开知识点 Hadoop ✨ MapReduce 原理与机制 本文概述 Hadoop MapReduce:基于分治思想,将批处理拆为 Map→Shuffle→Reduce 并行执行,具备容错、调度与分片能力;解析 WordCount、InputSplit 与 Shuffle(落盘/排序/拉取)细节及性能瓶颈,并介绍压缩优化策略。 16 0 0
11-23 数开知识点 Hadoop NameNode 的 高可用(High Availability)机制详解 本文介绍 HDFS NameNode 的 HA 机制:Hadoop1.x 单点故障影响全局,Hadoop2.x 采用 Active/Standby 架构并由 ZKFC 自动切换提升可用性。元数据由 Fsimage+EditLog 组成,Standby 定期 Checkpoint 合并;生产常用 QJM+JournalNode 保证一致性。 12 0 0
11-23 实习经历💻 实习面经 ⭐ 群友分享找实习经验 文章结合作者多段大厂实习与秋招收获,总结数开/数据岗实习筛选三要素:垂直经验、技术素养与软实力;面试重点在SQL、数仓建模、大数据八股与项目深挖;实习期需熟悉平台与架构、参与专项并提前整理成果,行动为先。 25 0 0