11-24 数开知识点 Hadoop 📚 大数据存储格式详解:TextFile / ORC / Parquet 本文对比 TextFile、ORC、Parquet 三种数据存储格式:指出 TextFile 行式存储压缩率低、无法列裁剪与优化;详解 ORC/Parquet 的列式结构、索引与过滤机制及适用生态;并介绍通过排序+分发重排提升压缩率与查询性能的实践建议。 6 0 0
11-24 数开知识点 Hadoop 📘 YARN 资源调度与核心架构 文章梳理YARN资源调度与执行机制:对比FIFO、Capacity、Fair三类调度器的特点与适用场景;解析YARN主从架构中RM、NM、AM、Container职责;说明作业提交到容器执行的全流程,并补充数据本地化与MR运行过程。 13 0 0
11-24 数开知识点 Hadoop ✨ MapReduce 原理与机制 本文概述 Hadoop MapReduce:基于分治思想,将批处理拆为 Map→Shuffle→Reduce 并行执行,具备容错、调度与分片能力;解析 WordCount、InputSplit 与 Shuffle(落盘/排序/拉取)细节及性能瓶颈,并介绍压缩优化策略。 16 0 0
11-23 数开知识点 Hadoop NameNode 的 高可用(High Availability)机制详解 本文介绍 HDFS NameNode 的 HA 机制:Hadoop1.x 单点故障影响全局,Hadoop2.x 采用 Active/Standby 架构并由 ZKFC 自动切换提升可用性。元数据由 Fsimage+EditLog 组成,Standby 定期 Checkpoint 合并;生产常用 QJM+JournalNode 保证一致性。 13 0 0
11-23 数开知识点 SQL 📘 Hive SQL 数据表操作笔记(CREATE / DROP / ALTER) 本文整理 Hive SQL 表管理常用 DDL:建表与字段类型、分区(单/多级)及其作用、TBLPROPERTIES 配置表/分区生命周期、CTAS 临时表与视图、DROP 删除表/分区、ALTER 改表名/字段/注释/生命周期,并给出命名、统一 pt 分区等最佳实践。 16 0 0
11-19 数开知识点 Hive 📘 企业级 Hive 调优指南(Hive on MR) 本文介绍 Hive on MR 的性能调优思路:集群层面优化 YARN 的内存、CPU及容器分配上下限;作业层面按 SQL 调整 Map/Reduce 资源;并结合 Explain 执行计划分析 Stage 与算子树,定位扫描、Join、聚合等瓶颈。 9 0 0
11-19 数开知识点 Hive 📘 Hive 文件格式与压缩机制详解 文章介绍 Hive 常见存储格式 TextFile、ORC、Parquet 等对性能与压缩的影响,重点对比行式/列式存储,说明 ORC 更适合 Hive、Parquet 兼容多引擎,并给出文件级与 MR 过程压缩配置建议。 6 0 0
11-10 数开知识点 Spark ⚡ Spark Core & SQL 核心知识 本文梳理 Spark 常见部署模式(Local、Standalone、YARN、Mesos)与 spark-submit 提交流程,重点解析 Driver/Executor 架构、YARN client/cluster 差异;介绍 RDD Lineage 容错、宽窄依赖及 Stage/Task 划分,并汇总常用算子与性能调优要点。 19 0 0
11-10 数开知识点 Hive 🐝 Hive 知识体系与高频面试要点 本文梳理 Hive 核心知识:架构与执行引擎、与传统数据库差异;内部/外部表及四种 By;常用函数与 UDF/UDTF、窗口函数;MapJoin、分区列存、小文件与数据倾斜优化;字段分隔符、Tez 优点、元数据备份及 UNION 区别。 38 0 0
11-06 数开知识点 大数据组件 🚀 Kafka 架构与核心机制详解 概述Kafka架构组件与ZK职责,给出集群机器/磁盘/分区估算公式,介绍副本、ISR与acks可靠性,压测瓶颈与参数调优,含监控、清理策略及顺序性要点。 17 0 0
11-06 数开知识点 大数据组件 🌀 Flume 核心原理与组件详解 本文介绍 Flume 日志采集架构:Source/Channel/Sink 三组件与 Put/Take 事务保障“至少一次”传输。重点解析 TaildirSource 断点续传与重复处理,比较 File/Memory/Kafka Channel 选型,说明 HDFS Sink 滚动写入、拦截器与通道选择器,并给出监控与性能优化建议。 12 0 0
10-27 数开知识点 Hadoop Shuffle 优化 YARN 工作机制 本文梳理 Hadoop MapReduce Shuffle 全流程(Map 溢写排序/合并、Reduce 拉取归并聚合),并给出缓冲区、Combiner、并行拉取与压缩等优化点;同时介绍 YARN 组件与调度器、多队列优势、Benchmark 测试,以及宕机、数据倾斜与资源分配问题的排查方案。 17 0 0