11-24 数开知识点 Hadoop 📚 大数据存储格式详解:TextFile / ORC / Parquet 本文对比 TextFile、ORC、Parquet 三种数据存储格式:指出 TextFile 行式存储压缩率低、无法列裁剪与优化;详解 ORC/Parquet 的列式结构、索引与过滤机制及适用生态;并介绍通过排序+分发重排提升压缩率与查询性能的实践建议。 6 0 0
11-24 数开知识点 Hadoop 📘 YARN 资源调度与核心架构 文章梳理YARN资源调度与执行机制:对比FIFO、Capacity、Fair三类调度器的特点与适用场景;解析YARN主从架构中RM、NM、AM、Container职责;说明作业提交到容器执行的全流程,并补充数据本地化与MR运行过程。 13 0 0
11-24 数开知识点 Hadoop ✨ MapReduce 原理与机制 本文概述 Hadoop MapReduce:基于分治思想,将批处理拆为 Map→Shuffle→Reduce 并行执行,具备容错、调度与分片能力;解析 WordCount、InputSplit 与 Shuffle(落盘/排序/拉取)细节及性能瓶颈,并介绍压缩优化策略。 16 0 0
11-23 数开知识点 Hadoop NameNode 的 高可用(High Availability)机制详解 本文介绍 HDFS NameNode 的 HA 机制:Hadoop1.x 单点故障影响全局,Hadoop2.x 采用 Active/Standby 架构并由 ZKFC 自动切换提升可用性。元数据由 Fsimage+EditLog 组成,Standby 定期 Checkpoint 合并;生产常用 QJM+JournalNode 保证一致性。 13 0 0
10-27 数开知识点 Hadoop Shuffle 优化 YARN 工作机制 本文梳理 Hadoop MapReduce Shuffle 全流程(Map 溢写排序/合并、Reduce 拉取归并聚合),并给出缓冲区、Combiner、并行拉取与压缩等优化点;同时介绍 YARN 组件与调度器、多队列优势、Benchmark 测试,以及宕机、数据倾斜与资源分配问题的排查方案。 17 0 0
10-27 数开知识点 Hadoop HDFS_读写流程笔记 本文梳理 Hadoop/HDFS 常用端口与核心配置文件作用,详解 HDFS 文件写入(副本分配、管道传输与确认)和读取(就近访问、故障切换)流程,并总结小文件问题危害及 HAR、合并输入、JVM 重用等优化策略与面试要点。 28 1 0