11-06 数开知识点 大数据组件 🌀 Flume 核心原理与组件详解 本文介绍 Flume 日志采集架构:Source/Channel/Sink 三组件与 Put/Take 事务保障“至少一次”传输。重点解析 TaildirSource 断点续传与重复处理,比较 File/Memory/Kafka Channel 选型,说明 HDFS Sink 滚动写入、拦截器与通道选择器,并给出监控与性能优化建议。 12 0 0
11-05 记录生活✍️ 日常record✍️ 求职online系统升级 V2.0→V3.0 电商数仓项目已接近收尾但尚未完成,作者提前更新简历,整理1段实习经历与3个项目经历;项目完结后将全面复盘并准备面试八股,为后续投递数据开发实习打基础。 11 0 0
11-05 项目实战🖨️ 电商数仓🧰 DolphinScheduler 简介与入门 Apache DolphinScheduler 是分布式可扩展的可视化 DAG 工作流调度平台,支持多任务类型与监控告警。介绍其核心架构(Master/Worker/ZK/API/UI)、三种部署模式(单机/伪集群/集群)及安全中心配置要点(租户、用户、队列、告警、环境、令牌)。 19 0 0
11-02 记录生活✍️ 日常record✍️ 随便写写 作者五天未更新,也没认真学习,更多时间用于打球和刷抖音,导致时间碎片化。11月已至,项目遇阻停滞、动力不足,但仍希望提升效率推进进度,争取12月初完成找数开实习的阶段性准备。 15 0 0
10-28 项目实战🖨️ 电商数仓🧰 🌏 电商数仓项目全链路架构详解 文章从全局视角梳理数据全链路体系:数据由端与业务系统产生,经 DataX/Maxwell/Flume+Kafka 采集汇聚至 HDFS,再以 Hive 构建 ODS-DWD-DM-ADS 分层数仓,最终同步至 MySQL 并用 BI 可视化,实现数据闭环与业务价值输出。 47 0 0
10-27 数开知识点 Hadoop Shuffle 优化 YARN 工作机制 本文梳理 Hadoop MapReduce Shuffle 全流程(Map 溢写排序/合并、Reduce 拉取归并聚合),并给出缓冲区、Combiner、并行拉取与压缩等优化点;同时介绍 YARN 组件与调度器、多队列优势、Benchmark 测试,以及宕机、数据倾斜与资源分配问题的排查方案。 16 0 0
10-27 数开知识点 Hadoop HDFS_读写流程笔记 本文梳理 Hadoop/HDFS 常用端口与核心配置文件作用,详解 HDFS 文件写入(副本分配、管道传输与确认)和读取(就近访问、故障切换)流程,并总结小文件问题危害及 HAR、合并输入、JVM 重用等优化策略与面试要点。 28 1 0
10-24 项目实战🖨️ 电商数仓🧰 📘 数据仓库建模与维度建模笔记 笔记梳理数据仓库建模意义,比较 Inmon 的 ER 与 Kimball 维度模型;详解事务/周期快照/累积快照三类事实表及可加性;总结维度表设计、星型/雪花模型,以及慢变维快照与拉链表处理。 24 0 0
10-21 记录生活✍️ 吐吐槽🙃 蠢蠢蠢 帮老师修电脑时发现系统和 Office 未激活,准备重装却屡次失败,还折腾着去激活系统。排查半天才发现安装界面漏勾选关键选项,勾上后立刻正常安装,白白浪费了一个半小时。 15 0 0