Loading......

Hadoop

浏览该标签下的所有文章

全部 # 大模型数据资产/指标问答助手 5 # LangChain 6 # 大模型工作流数仓 6 # 灵茶山艾府-基础算法精讲 8 # 实时项目 4 # 游戏分享 2 # 思绪随笔 1 # 音乐分享🎵 2 # Flink 时间语义&窗口 6 # Flink 算子 2 # DataStream API 2 # Flink基础 20 # 大数据组件 4 # 汽车天地 2 # AI Agent 8 # 数码产品 3 # 回忆录 4 # 人资数仓 9 # 刷题打卡 1 # 标签资产建设 8 # 核心指标大盘 6 # 面试问答 8 # 数据治理 8 # 数据倾斜 2 # 数据建模 2 # Doris 3 # 实习面经 15 # SQL 3 # Spark 7 # Hive 4 # 人物偶像 1 # 日常record✍️ 24 # 吐吐槽🙃 5 # 电商数仓🧰 5 # 力扣Hot100🔥 8 # 意料之外🫨 2

📚 大数据存储格式详解：TextFile / ORC / Parquet 的封面

数开知识点

Hadoop

📚 大数据存储格式详解：TextFile / ORC / Parquet

本文对比 TextFile、ORC、Parquet 三种数据存储格式：指出 TextFile 行式存储压缩率低、无法列裁剪与优化；详解 ORC/Parquet 的列式结构、索引与过滤机制及适用生态；并介绍通过排序+分发重排提升压缩率与查询性能的实践建议。

26

0

0

📘 YARN 资源调度与核心架构的封面

数开知识点

Hadoop

📘 YARN 资源调度与核心架构

文章梳理YARN资源调度与执行机制：对比FIFO、Capacity、Fair三类调度器的特点与适用场景；解析YARN主从架构中RM、NM、AM、Container职责；说明作业提交到容器执行的全流程，并补充数据本地化与MR运行过程。

71

0

0

✨ MapReduce 原理与机制的封面

数开知识点

Hadoop

✨ MapReduce 原理与机制

本文概述 Hadoop MapReduce：基于分治思想，将批处理拆为 Map→Shuffle→Reduce 并行执行，具备容错、调度与分片能力；解析 WordCount、InputSplit 与 Shuffle（落盘/排序/拉取）细节及性能瓶颈，并介绍压缩优化策略。

63

1

0

NameNode 的高可用（High Availability）机制详解的封面

数开知识点

Hadoop

NameNode 的高可用（High Availability）机制详解

本文介绍 HDFS NameNode 的 HA 机制：Hadoop1.x 单点故障影响全局，Hadoop2.x 采用 Active/Standby 架构并由 ZKFC 自动切换提升可用性。元数据由 Fsimage+EditLog 组成，Standby 定期 Checkpoint 合并；生产常用 QJM+JournalNode 保证一致性。

66

0

0

Shuffle 优化 YARN 工作机制的封面

数开知识点

Hadoop

Shuffle 优化 YARN 工作机制

本文梳理 Hadoop MapReduce Shuffle 全流程（Map 溢写排序/合并、Reduce 拉取归并聚合），并给出缓冲区、Combiner、并行拉取与压缩等优化点；同时介绍 YARN 组件与调度器、多队列优势、Benchmark 测试，以及宕机、数据倾斜与资源分配问题的排查方案。

51

0

0

HDFS_读写流程笔记的封面

数开知识点

Hadoop

HDFS_读写流程笔记

本文梳理 Hadoop/HDFS 常用端口与核心配置文件作用，详解 HDFS 文件写入（副本分配、管道传输与确认）和读取（就近访问、故障切换）流程，并总结小文件问题危害及 HAR、合并输入、JVM 重用等优化策略与面试要点。

64

1

0