数开知识点 - Rawley

Loading......

全部实习经历💻 7 记录生活✍️ 30 情感自洽❤️‍🩹 5 笔面算法🧐 17 实用工具🔧 3 项目实战🖨️ 17 面试素材 32 27暑期实习刷题 3 知识常识 4 AI Agent 2 Flink 24 ☁️云音乐 2

📚 大数据存储格式详解：TextFile / ORC / Parquet 的封面

数开知识点

Hadoop

📚 大数据存储格式详解：TextFile / ORC / Parquet

本文对比 TextFile、ORC、Parquet 三种数据存储格式：指出 TextFile 行式存储压缩率低、无法列裁剪与优化；详解 ORC/Parquet 的列式结构、索引与过滤机制及适用生态；并介绍通过排序+分发重排提升压缩率与查询性能的实践建议。

6

0

0

📘 YARN 资源调度与核心架构的封面

数开知识点

Hadoop

📘 YARN 资源调度与核心架构

文章梳理YARN资源调度与执行机制：对比FIFO、Capacity、Fair三类调度器的特点与适用场景；解析YARN主从架构中RM、NM、AM、Container职责；说明作业提交到容器执行的全流程，并补充数据本地化与MR运行过程。

13

0

0

✨ MapReduce 原理与机制的封面

数开知识点

Hadoop

✨ MapReduce 原理与机制

本文概述 Hadoop MapReduce：基于分治思想，将批处理拆为 Map→Shuffle→Reduce 并行执行，具备容错、调度与分片能力；解析 WordCount、InputSplit 与 Shuffle（落盘/排序/拉取）细节及性能瓶颈，并介绍压缩优化策略。

16

0

0

NameNode 的高可用（High Availability）机制详解的封面

数开知识点

Hadoop

NameNode 的高可用（High Availability）机制详解

本文介绍 HDFS NameNode 的 HA 机制：Hadoop1.x 单点故障影响全局，Hadoop2.x 采用 Active/Standby 架构并由 ZKFC 自动切换提升可用性。元数据由 Fsimage+EditLog 组成，Standby 定期 Checkpoint 合并；生产常用 QJM+JournalNode 保证一致性。

13

0

0

📘 Hive SQL 数据表操作笔记（CREATE / DROP / ALTER）的封面

数开知识点

SQL

📘 Hive SQL 数据表操作笔记（CREATE / DROP / ALTER）

本文整理 Hive SQL 表管理常用 DDL：建表与字段类型、分区（单/多级）及其作用、TBLPROPERTIES 配置表/分区生命周期、CTAS 临时表与视图、DROP 删除表/分区、ALTER 改表名/字段/注释/生命周期，并给出命名、统一 pt 分区等最佳实践。

16

0

0

📘 企业级 Hive 调优指南（Hive on MR）的封面

数开知识点

Hive

📘 企业级 Hive 调优指南（Hive on MR）

本文介绍 Hive on MR 的性能调优思路：集群层面优化 YARN 的内存、CPU及容器分配上下限；作业层面按 SQL 调整 Map/Reduce 资源；并结合 Explain 执行计划分析 Stage 与算子树，定位扫描、Join、聚合等瓶颈。

9

0

0

📘 Hive 文件格式与压缩机制详解的封面

数开知识点

Hive

📘 Hive 文件格式与压缩机制详解

文章介绍 Hive 常见存储格式 TextFile、ORC、Parquet 等对性能与压缩的影响，重点对比行式/列式存储，说明 ORC 更适合 Hive、Parquet 兼容多引擎，并给出文件级与 MR 过程压缩配置建议。

6

0

0

⚡ Spark Core & SQL 核心知识的封面

数开知识点

Spark

⚡ Spark Core & SQL 核心知识

本文梳理 Spark 常见部署模式（Local、Standalone、YARN、Mesos）与 spark-submit 提交流程，重点解析 Driver/Executor 架构、YARN client/cluster 差异；介绍 RDD Lineage 容错、宽窄依赖及 Stage/Task 划分，并汇总常用算子与性能调优要点。

19

0

0

🐝 Hive 知识体系与高频面试要点的封面

数开知识点

Hive

🐝 Hive 知识体系与高频面试要点

本文梳理 Hive 核心知识：架构与执行引擎、与传统数据库差异；内部/外部表及四种 By；常用函数与 UDF/UDTF、窗口函数；MapJoin、分区列存、小文件与数据倾斜优化；字段分隔符、Tez 优点、元数据备份及 UNION 区别。

38

0

0

🚀 Kafka 架构与核心机制详解的封面

数开知识点

大数据组件

🚀 Kafka 架构与核心机制详解

概述Kafka架构组件与ZK职责，给出集群机器/磁盘/分区估算公式，介绍副本、ISR与acks可靠性，压测瓶颈与参数调优，含监控、清理策略及顺序性要点。

17

0

0

🌀 Flume 核心原理与组件详解的封面

数开知识点

大数据组件

🌀 Flume 核心原理与组件详解

本文介绍 Flume 日志采集架构：Source/Channel/Sink 三组件与 Put/Take 事务保障“至少一次”传输。重点解析 TaildirSource 断点续传与重复处理，比较 File/Memory/Kafka Channel 选型，说明 HDFS Sink 滚动写入、拦截器与通道选择器，并给出监控与性能优化建议。

12

0

0

Shuffle 优化 YARN 工作机制的封面

数开知识点

Hadoop

Shuffle 优化 YARN 工作机制

本文梳理 Hadoop MapReduce Shuffle 全流程（Map 溢写排序/合并、Reduce 拉取归并聚合），并给出缓冲区、Combiner、并行拉取与压缩等优化点；同时介绍 YARN 组件与调度器、多队列优势、Benchmark 测试，以及宕机、数据倾斜与资源分配问题的排查方案。

17

0

0

2 / 3