03-11 面试素材 大数据组件 🚀 大数据开发 核心八股 文章梳理大数据核心知识体系:涵盖 HDFS 架构与读写、HA及小文件治理;MapReduce 原理与 Shuffle;Yarn 调度与架构;Spark 组件、RDD/DAG、Stage/Shuffle、调优排错与数据倾斜、Join 策略;Doris 架构与存储;数仓分层建模;Hive 架构与优化。 21 0 0
11-26 数开知识点 大数据组件 ⭐ MySQL 本文总结 MySQL 表设计要点:数值/字符串/时间类型选型原则(金额用 DECIMAL、时间用 DATETIME、字段尽量小);索引类型与 B+Tree/哈希特性、联合索引最左前缀与前缀索引;utf8mb4 与排序规则推荐;三范式与反范式、命名字段规范、分库分表与生产禁忌,并给出订单系统建表示例。 13 0 0
11-06 数开知识点 大数据组件 🚀 Kafka 架构与核心机制详解 概述Kafka架构组件与ZK职责,给出集群机器/磁盘/分区估算公式,介绍副本、ISR与acks可靠性,压测瓶颈与参数调优,含监控、清理策略及顺序性要点。 23 0 0
11-06 数开知识点 大数据组件 🌀 Flume 核心原理与组件详解 本文介绍 Flume 日志采集架构:Source/Channel/Sink 三组件与 Put/Take 事务保障“至少一次”传输。重点解析 TaildirSource 断点续传与重复处理,比较 File/Memory/Kafka Channel 选型,说明 HDFS Sink 滚动写入、拦截器与通道选择器,并给出监控与性能优化建议。 17 0 0