数开知识点 - Rawley

Loading......

全部实习经历💻 7 记录生活✍️ 30 情感自洽❤️‍🩹 5 笔面算法🧐 16 实用工具🔧 3 项目实战🖨️ 16 面试素材 32 27暑期实习刷题 3 知识常识 4 AI Agent 2 Flink 24 ☁️云音乐 2

🚀 大数据开发核心八股的封面

面试素材

大数据组件

🚀 大数据开发核心八股

文章梳理大数据核心知识体系：涵盖 HDFS 架构与读写、HA及小文件治理；MapReduce 原理与 Shuffle；Yarn 调度与架构；Spark 组件、RDD/DAG、Stage/Shuffle、调优排错与数据倾斜、Join 策略；Doris 架构与存储；数仓分层建模；Hive 架构与优化。

11

0

0

📝 用户标签画像体系的封面

数开知识点

面试问答

📝 用户标签画像体系

文章围绕用户标签画像体系展开：解释标签的概念、七大分类与五种属性类型，并说明标签与指标的组合逻辑。进一步介绍标签加工流程、宽表建设与管理方式，以及画像生成与应用场景，强调合规采集与精准运营价值。

18

0

0

📘 Doris 存储体系与关键技术的封面

数开知识点

Doris

📘 Doris 存储体系与关键技术

本文梳理 Doris 核心底层机制：Segment V2 存储分层与文件格式（数据区/索引区/Footer）、多类索引加速查询；介绍正交 Bitmap 通过分桶并行实现高效去重；并解析 Unique Key+Sequence Column 解决并发更新覆盖与防回退问题。

10

0

0

📘 Doris 架构详解的封面

数开知识点

Doris

📘 Doris 架构详解

14

0

0

🌟 Doris 基础的封面

数开知识点

Doris

🌟 Doris 基础

文章系统梳理 OLTP 与 OLAP 的定位差异：OLTP 侧重事务一致性与高并发写入，OLAP 面向海量数据分析。进一步介绍 MOLAP/ROLAP/HTAP 三种路线、MPP 并行架构与主流引擎对比，并总结企业从离线数仓到实时数仓再到湖仓一体+AI 的演进趋势。

16

0

0

⭐ MySQL 的封面

数开知识点

大数据组件

⭐ MySQL

本文总结 MySQL 表设计要点：数值/字符串/时间类型选型原则（金额用 DECIMAL、时间用 DATETIME、字段尽量小）；索引类型与 B+Tree/哈希特性、联合索引最左前缀与前缀索引；utf8mb4 与排序规则推荐；三范式与反范式、命名字段规范、分库分表与生产禁忌，并给出订单系统建表示例。

9

0

0

✨Spark 内存模型的封面

数开知识点

Spark

✨Spark 内存模型

文章围绕 Spark Executor 端 JVM 内存展开，介绍堆内/堆外内存作用与内存不足带来的 GC、spill、OOM 风险；对比 1.6 前静态内存（固定比例、易浪费）与 1.6+ 统一内存（动态共享、可互借）机制，并给出常用资源配置与调优参数建议。

14

0

0

🔗 Spark 的几种 Join 机制的封面

数开知识点

Spark

🔗 Spark 的几种 Join 机制

文章梳理 Spark 在大数据场景下的 5 种 Join 策略：Broadcast Hash、Shuffle Hash、Sort Merge（默认）、Cartesian、Broadcast Nested Loop，并说明 Catalyst 会按数据量、Join 条件与排序情况自动选型及其优缺点与适用场景。

9

0

0

🔥 Spark Shuffle 的封面

数开知识点

Spark

🔥 Spark Shuffle

文章系统讲解 Spark Shuffle：其本质是跨节点按 key 重分布并伴随排序、分组与合并，触发宽依赖并决定 Stage 划分。梳理 Hash→Sort→Tungsten 演进，说明读写流程、常见瓶颈（IO/网络/GC/倾斜）及优化手段（预聚合、分区与内存调优等）。

16

0

0

🚀 Spark 任务提交流程的封面

数开知识点

Spark

🚀 Spark 任务提交流程

梳理 Spark 核心组件与职责，讲清运行模式差异：Driver 位置决定 Client/Cluster；并概述 Standalone 与 YARN（cluster）提交流程及 Master URL 参数。

27

0

0

🧠 Spark 计算模型详解（RDD & 算子 & DAG）的封面

数开知识点

Spark

🧠 Spark 计算模型详解（RDD & 算子 & DAG）

本文系统梳理 Spark RDD 核心：不可变分区、血缘与惰性执行；窄/宽依赖与 Stage 划分；Shuffle 全流程及优化；序列化与统一内存；广播变量、累加器、checkpoint 容错；并给出性能调优清单与示例速记。

13

0

0

🚀 Spark 基础知识的封面

数开知识点

Spark

🚀 Spark 基础知识

介绍 Spark 的基本概念与性能优势（内存计算、DAG、Shuffle），并概览 Driver/Executor 架构及生态组件与运行模式。

15

0

0

1 / 3