Loading......

标签

浏览所有文章标签

全部 # 大模型数据资产/指标问答助手 5 # LangChain 6 # 大模型工作流数仓 6 # 灵茶山艾府-基础算法精讲 8 # 实时项目 4 # 游戏分享 2 # 思绪随笔 1 # 音乐分享🎵 2 # Flink 时间语义&窗口 6 # Flink 算子 2 # DataStream API 2 # Flink基础 20 # 大数据组件 4 # 汽车天地 2 # AI Agent 8 # 数码产品 3 # 回忆录 4 # 人资数仓 9 # 刷题打卡 1 # 标签资产建设 8 # 核心指标大盘 6 # 面试问答 8 # 数据治理 8 # 数据倾斜 2 # 数据建模 2 # Doris 3 # 实习面经 15 # SQL 3 # Spark 7 # Hive 4 # 人物偶像 1 # Hadoop 6 # 日常record✍️ 24 # 吐吐槽🙃 5 # 电商数仓🧰 5 # 力扣Hot100🔥 8 # 意料之外🫨 2

📘 Doris 架构详解的封面

数开知识点

Doris

📘 Doris 架构详解

本文概览 Apache Doris 架构与演进：3.0 前 FE/BE 存算一体，FE 负责 SQL 与元数据（Paxos+WAL+Checkpoint），BE 负责列存与向量化执行；3.0 起引入云原生存算分离三层架构，支持对象存储与多租户弹性扩缩容，并解析 Segment、前缀索引及三种数据模型。

165

0

0

🌟 Doris 基础的封面

数开知识点

Doris

🌟 Doris 基础

文章系统梳理 OLTP 与 OLAP 的定位差异：OLTP 侧重事务一致性与高并发写入，OLAP 面向海量数据分析。进一步介绍 MOLAP/ROLAP/HTAP 三种路线、MPP 并行架构与主流引擎对比，并总结企业从离线数仓到实时数仓再到湖仓一体+AI 的演进趋势。

55

0

0

⭐ MySQL 的封面

数开知识点

大数据组件

⭐ MySQL

本文总结 MySQL 表设计要点：数值/字符串/时间类型选型原则（金额用 DECIMAL、时间用 DATETIME、字段尽量小）；索引类型与 B+Tree/哈希特性、联合索引最左前缀与前缀索引；utf8mb4 与排序规则推荐；三范式与反范式、命名字段规范、分库分表与生产禁忌，并给出订单系统建表示例。

33

0

0

✨Spark 内存模型的封面

数开知识点

Spark

✨Spark 内存模型

文章围绕 Spark Executor 端 JVM 内存展开，介绍堆内/堆外内存作用与内存不足带来的 GC、spill、OOM 风险；对比 1.6 前静态内存（固定比例、易浪费）与 1.6+ 统一内存（动态共享、可互借）机制，并给出常用资源配置与调优参数建议。

61

0

0

🔗 Spark 的几种 Join 机制的封面

数开知识点

Spark

🔗 Spark 的几种 Join 机制

文章梳理 Spark 在大数据场景下的 5 种 Join 策略：Broadcast Hash、Shuffle Hash、Sort Merge（默认）、Cartesian、Broadcast Nested Loop，并说明 Catalyst 会按数据量、Join 条件与排序情况自动选型及其优缺点与适用场景。

76

0

0

🔥 Spark Shuffle 的封面

数开知识点

Spark

🔥 Spark Shuffle

文章系统讲解 Spark Shuffle：其本质是跨节点按 key 重分布并伴随排序、分组与合并，触发宽依赖并决定 Stage 划分。梳理 Hash→Sort→Tungsten 演进，说明读写流程、常见瓶颈（IO/网络/GC/倾斜）及优化手段（预聚合、分区与内存调优等）。

55

0

0

🚀 Spark 任务提交流程的封面

数开知识点

Spark

🚀 Spark 任务提交流程

梳理 Spark 核心组件与职责，讲清运行模式差异：Driver 位置决定 Client/Cluster；并概述 Standalone 与 YARN（cluster）提交流程及 Master URL 参数。

62

0

0

🧠 Spark 计算模型详解（RDD & 算子 & DAG）的封面

数开知识点

Spark

🧠 Spark 计算模型详解（RDD & 算子 & DAG）

本文系统梳理 Spark RDD 核心：不可变分区、血缘与惰性执行；窄/宽依赖与 Stage 划分；Shuffle 全流程及优化；序列化与统一内存；广播变量、累加器、checkpoint 容错；并给出性能调优清单与示例速记。

60

0

0

🚀 Spark 基础知识的封面

数开知识点

Spark

🚀 Spark 基础知识

介绍 Spark 的基本概念与性能优势（内存计算、DAG、Shuffle），并概览 Driver/Executor 架构及生态组件与运行模式。

52

0

0

📚 大数据存储格式详解：TextFile / ORC / Parquet 的封面

数开知识点

Hadoop

📚 大数据存储格式详解：TextFile / ORC / Parquet

本文对比 TextFile、ORC、Parquet 三种数据存储格式：指出 TextFile 行式存储压缩率低、无法列裁剪与优化；详解 ORC/Parquet 的列式结构、索引与过滤机制及适用生态；并介绍通过排序+分发重排提升压缩率与查询性能的实践建议。

26

0

0

📘 YARN 资源调度与核心架构的封面

数开知识点

Hadoop

📘 YARN 资源调度与核心架构

文章梳理YARN资源调度与执行机制：对比FIFO、Capacity、Fair三类调度器的特点与适用场景；解析YARN主从架构中RM、NM、AM、Container职责；说明作业提交到容器执行的全流程，并补充数据本地化与MR运行过程。

71

0

0

✨ MapReduce 原理与机制的封面

数开知识点

Hadoop

✨ MapReduce 原理与机制

本文概述 Hadoop MapReduce：基于分治思想，将批处理拆为 Map→Shuffle→Reduce 并行执行，具备容错、调度与分片能力；解析 WordCount、InputSplit 与 Shuffle（落盘/排序/拉取）细节及性能瓶颈，并介绍压缩优化策略。

63

1

0

9 / 13