📕 项目简介
本项目旨在构建一个 用户行为与业务数据采集平台,并基于此进行 数据仓库的维度建模,以支持电商核心主题分析及近 100 个报表指标 的统计。
系统支持 即席查询与数据可视化展示,为用户提供 便捷的数据分析与查询接口。
👩🏻💻 技术架构
Hadoop + Hive + Spark + DataX + Maxwell + Kafka + Zookeeper
🧩 项目主要内容
一、数据仓库规划与设计
-
🔍 进行 需求与数据调研,明确业务主题与数据范围。
-
🧱 参与 数据仓库分层设计(ODS → DWD → DWS → ADS)。
-
🗂️ 明确 数据域划分,拆解业务指标需求。
-
🧭 构建 业务总线矩阵,指导后续维度建模与 ETL 开发。
二、数据采集与传输优化
🥯 平台搭建
-
构建 用户行为数据与业务数据采集平台,实现多源数据接入。
🥯 零点漂移问题解决
-
编写 Flume 拦截器,修复 Kafka 数据消费至 HDFS 存储时的时间零点漂移问题。
🥯 消峰解耦
-
利用 Kafka 消息队列 实现 Flume 与 HDFS 的解耦,平衡采集与存储速度差异,实现数据消峰。
三、数据存储与建模
🥯 DWD 层事实表
-
根据业务场景设计 周期快照表 与 累计快照表,
优化事务型事实表在存量型指标和多事务关联统计下的性能。
🥯 DIM 层维度表
-
采用 星型模型(Star Schema) 设计 DIM 层,
明确相关维度及属性,生成丰富的维度信息。
🥯 数据同步
-
首日建立 全量表(手动),
后续通过 脚本实现每日增量同步,保证数据时效性与一致性。
四、数据管理与性能优化
🥯 处理缓慢变化维(SCD)
-
采用 拉链表技术(Slowly Changing Dimension Type 2)保存维度历史状态。
🥯 数据倾斜处理
-
通过 局部聚合(Local Aggregation) 方法优化倾斜 Key 处理。
🥯 存储与查询优化
-
结合 分区 + 分桶 策略,采用 ORC 存储格式,显著提升查询性能。
五、数据服务与可视化
🥯 即席查询工具集成
-
提供 即席查询(Ad-hoc Query) 功能,支持随机指标分析。
🥯 数据可视化
-
利用 Apache Superset 构建可视化报表,直观展示核心指标与趋势。
🥯 用户数据接口
-
提供统一的 数据查询与分析接口,方便业务人员快速获取所需指标。
✅ 项目成果:
-
构建稳定高效的数据采集与分析平台。
-
实现从数据源到可视化展示的全链路数据治理。
-
支撑多维度指标分析与实时业务决策。