11-23 数开知识点 SQL 📘 Hive SQL 数据表操作笔记(CREATE / DROP / ALTER) 本文整理 Hive SQL 表管理常用 DDL:建表与字段类型、分区(单/多级)及其作用、TBLPROPERTIES 配置表/分区生命周期、CTAS 临时表与视图、DROP 删除表/分区、ALTER 改表名/字段/注释/生命周期,并给出命名、统一 pt 分区等最佳实践。 14 0 0
11-19 数开知识点 Hive 📘 企业级 Hive 调优指南(Hive on MR) 本文介绍 Hive on MR 的性能调优思路:集群层面优化 YARN 的内存、CPU及容器分配上下限;作业层面按 SQL 调整 Map/Reduce 资源;并结合 Explain 执行计划分析 Stage 与算子树,定位扫描、Join、聚合等瓶颈。 9 0 0
11-19 数开知识点 Hive 📘 Hive 文件格式与压缩机制详解 文章介绍 Hive 常见存储格式 TextFile、ORC、Parquet 等对性能与压缩的影响,重点对比行式/列式存储,说明 ORC 更适合 Hive、Parquet 兼容多引擎,并给出文件级与 MR 过程压缩配置建议。 6 0 0
11-17 记录生活✍️ 日常record✍️ 字节 数仓实习生 作者一周没好好学习,刷Boss直聘发现字节懂车帝数仓实习重新开放,心动却被JD要求压得焦虑。回想上次面试顺利拿offer,如今找下一段实习压力倍增,担心准备不充分,决定近期调整状态。 15 0 0
11-10 情感自洽❤️🩹 日常record✍️ 街喧嚣 人过往 且记曾相识 不为少年留 文章回忆重温《造梦西游3》时,思绪回到14、15年夏天:和发小趁午休偷玩4399小游戏,挤在邻居电脑前分工操作,单纯而幸福。如今已成年各奔东西,即便有时间设备,童年玩伴却不在身旁。 12 0 0
11-10 笔面算法🧐 力扣Hot100🔥 算法刷题 pause 作者因对算法题兴趣不大且大厂实习多偏重手撕SQL,决定暂缓刷题。近期已基本完成数仓项目,接下来主攻八股与SQL;算法计划明年上半年为冲刺大厂暑期再集中刷Hot100。 15 0 0
11-10 数开知识点 Spark ⚡ Spark Core & SQL 核心知识 本文梳理 Spark 常见部署模式(Local、Standalone、YARN、Mesos)与 spark-submit 提交流程,重点解析 Driver/Executor 架构、YARN client/cluster 差异;介绍 RDD Lineage 容错、宽窄依赖及 Stage/Task 划分,并汇总常用算子与性能调优要点。 18 0 0
11-10 数开知识点 Hive 🐝 Hive 知识体系与高频面试要点 本文梳理 Hive 核心知识:架构与执行引擎、与传统数据库差异;内部/外部表及四种 By;常用函数与 UDF/UDTF、窗口函数;MapJoin、分区列存、小文件与数据倾斜优化;字段分隔符、Tez 优点、元数据备份及 UNION 区别。 38 0 0
11-07 记录生活✍️ 人物偶像 步枪手最长的河 MOUZ迎来17岁天才,预瞄精准;NiKo转投Falcons,枪法艺术与荣誉等身,仍惦记波士顿与斯德哥尔摩的遗憾,愿他最终圆Major冠军梦。 17 0 0
11-06 数开知识点 大数据组件 🚀 Kafka 架构与核心机制详解 概述Kafka架构组件与ZK职责,给出集群机器/磁盘/分区估算公式,介绍副本、ISR与acks可靠性,压测瓶颈与参数调优,含监控、清理策略及顺序性要点。 17 0 0