11-25 数开知识点 Spark 🚀 Spark 任务提交流程 梳理 Spark 核心组件与职责,讲清运行模式差异:Driver 位置决定 Client/Cluster;并概述 Standalone 与 YARN(cluster)提交流程及 Master URL 参数。 41 0 0
11-25 数开知识点 Spark 🧠 Spark 计算模型详解(RDD & 算子 & DAG) 本文系统梳理 Spark RDD 核心:不可变分区、血缘与惰性执行;窄/宽依赖与 Stage 划分;Shuffle 全流程及优化;序列化与统一内存;广播变量、累加器、checkpoint 容错;并给出性能调优清单与示例速记。 32 0 0
11-25 数开知识点 Spark 🚀 Spark 基础知识 介绍 Spark 的基本概念与性能优势(内存计算、DAG、Shuffle),并概览 Driver/Executor 架构及生态组件与运行模式。 32 0 0
11-24 数开知识点 Hadoop 📚 大数据存储格式详解:TextFile / ORC / Parquet 本文对比 TextFile、ORC、Parquet 三种数据存储格式:指出 TextFile 行式存储压缩率低、无法列裁剪与优化;详解 ORC/Parquet 的列式结构、索引与过滤机制及适用生态;并介绍通过排序+分发重排提升压缩率与查询性能的实践建议。 22 0 0
11-24 数开知识点 Hadoop 📘 YARN 资源调度与核心架构 文章梳理YARN资源调度与执行机制:对比FIFO、Capacity、Fair三类调度器的特点与适用场景;解析YARN主从架构中RM、NM、AM、Container职责;说明作业提交到容器执行的全流程,并补充数据本地化与MR运行过程。 29 0 0
11-24 数开知识点 Hadoop ✨ MapReduce 原理与机制 本文概述 Hadoop MapReduce:基于分治思想,将批处理拆为 Map→Shuffle→Reduce 并行执行,具备容错、调度与分片能力;解析 WordCount、InputSplit 与 Shuffle(落盘/排序/拉取)细节及性能瓶颈,并介绍压缩优化策略。 35 1 0
11-23 数开知识点 Hadoop NameNode 的 高可用(High Availability)机制详解 本文介绍 HDFS NameNode 的 HA 机制:Hadoop1.x 单点故障影响全局,Hadoop2.x 采用 Active/Standby 架构并由 ZKFC 自动切换提升可用性。元数据由 Fsimage+EditLog 组成,Standby 定期 Checkpoint 合并;生产常用 QJM+JournalNode 保证一致性。 39 0 0
11-23 实习经历💻 实习面经 ⭐ 群友分享找实习经验 文章结合作者多段大厂实习与秋招收获,总结数开/数据岗实习筛选三要素:垂直经验、技术素养与软实力;面试重点在SQL、数仓建模、大数据八股与项目深挖;实习期需熟悉平台与架构、参与专项并提前整理成果,行动为先。 41 0 0
11-23 数开知识点 SQL 📘 Hive SQL 数据表操作笔记(CREATE / DROP / ALTER) 本文整理 Hive SQL 表管理常用 DDL:建表与字段类型、分区(单/多级)及其作用、TBLPROPERTIES 配置表/分区生命周期、CTAS 临时表与视图、DROP 删除表/分区、ALTER 改表名/字段/注释/生命周期,并给出命名、统一 pt 分区等最佳实践。 35 0 0
11-19 数开知识点 Hive 📘 企业级 Hive 调优指南(Hive on MR) 本文介绍 Hive on MR 的性能调优思路:集群层面优化 YARN 的内存、CPU及容器分配上下限;作业层面按 SQL 调整 Map/Reduce 资源;并结合 Explain 执行计划分析 Stage 与算子树,定位扫描、Join、聚合等瓶颈。 30 0 0
11-19 数开知识点 Hive 📘 Hive 文件格式与压缩机制详解 文章介绍 Hive 常见存储格式 TextFile、ORC、Parquet 等对性能与压缩的影响,重点对比行式/列式存储,说明 ORC 更适合 Hive、Parquet 兼容多引擎,并给出文件级与 MR 过程压缩配置建议。 26 0 0
11-17 记录生活✍️ 日常record✍️ 字节 数仓实习生 作者一周没好好学习,刷Boss直聘发现字节懂车帝数仓实习重新开放,心动却被JD要求压得焦虑。回想上次面试顺利拿offer,如今找下一段实习压力倍增,担心准备不充分,决定近期调整状态。 17 0 0