Flink # Flink基础

Flink SQL 基础知识

rawley

2026-04-21

- 字

- 分钟

基于 Flink 1.15 版本

1. Flink SQL 概述

1.1 离线计算 vs 实时计算

Flink SQL 最大的亮点是可以支持实时数据计算，不像之前接触的 Hive SQL 只能算离线数据。这个能力能大大简化企业里实时分析的工作。

离线计算这边，输入表 clicks 里的数据是静态的，不会变。SQL 语句执行一次算完就结束，输出表里的结果也就固定了。

实时计算那边，输入表 clicks 里的数据是实时产生的，每来一条新数据，SQL 就会重新跑一遍，输出表的结果也跟着更新。输入输出都是 "活" 的。

简单说就是数据来源不一样，离线是一次性到齐，实时是源源不断来。实时场景下，输出表会跟着输入变化而实时更新。

1.2 动态表是什么

动态表是 Flink SQL 能做流处理的核心概念。简单理解就是：一张数据会变的表就是动态表。没有动态表，Flink SQL 就没法处理流式数据。

实时数据流过来，在这个流上定义一张表，如果数据还在不断追加变化，这张表就是动态表。

2. SQL 解析引擎

2.1 Apache Calcite 是什么

Flink SQL 的解析引擎用的是 Apache Calcite，这是一个开源的 SQL 解析工具，专门用来做语法解析这块的事情。它不管存储、不管计算，就是帮你把 SQL 语句变成可以执行的代码。

Calcite 会把 SQL 语句解析成一棵树（AST 抽象语法树），然后对这棵树进行各种操作，最终把 SQL 里的计算逻辑转成具体的 Flink 代码。

2.2 主流解析引擎对比

解析引擎	解析能力	优化能力	代表框架
Apache Calcite	✅ 有	✅ 有	Flink SQL、Hive SQL
ANTLR	✅ 有	❌ 无	Spark SQL（Catalyst 做优化）

Calcite 功能更完整，不仅能解析还能做优化，ANTLR 就只是单纯的解析器。

2.3 Calcite 的执行过程

Calcite 处理 SQL 大致分四步：

步骤	名称	做了什么
1	Parser	用 Java CC 把 SQL 解析成未经校验的 AST（也叫 SQL Node），这棵树还没验证对不对
2	Validate	校验 AST 是否合法，比如查一下语句里引用的字段、表是否存在，函数有没有写对。校验通过后会生成 RelNode
3	Optimize	对逻辑计划进行优化，基于规则（RBO）或者基于代价（CBO），最终得到物理计划。这步其实是可选的，但现在的解析器基本都会走这一步
4	Execute	把物理计划转成具体平台能跑的代码

2.4 Flink SQL 完整的执行流程

SQL 语句
  ↓ SQL Parser（解析成 AST）
  ↓ SQL Validate（结合元数据校验合法性）
  ↓ Logical Plan（转成逻辑计划）
  ↓ Optimized Logical Plan（Calcite 规则 + Flink 定制规则优化）
  ↓ Flink Physical Plan（转成 Flink 物理计划）
  ↓ Flink Execution Plan（生成算子代码）
  ↓ 执行

3. DDL 建表语句

Flink SQL 里 DDL 主要就是创建表、修改表、删除表，实际工作中最常用的就是创建表。

3.1 需要哪些依赖

依赖	作用
Flink SQL 本身的包	核心
File System Connector	操作 HDFS 文件
Hadoop 相关依赖	HDFS 支持
Flink JSON 依赖	数据源是 JSON 格式时需要

用之前一定注意看 Flink 的版本，不同小版本之间 Connector 的参数写法可能不一样。官方文档版本和代码里引入的包版本必须保持一致。

3.2 创建执行环境

需要用 StreamTableEnvironment.create() 来创建环境，同时指定是批处理还是流处理模式。

val env = StreamExecutionEnvironment.getExecutionEnvironment
val tableEnv = StreamTableEnvironment.create(env)

3.3 建表基本语法

CREATE TABLE 表名 (
  字段名 字段类型,
  ...
) WITH (
  'connector' = 'xxx',
  ...
)

3.4 一个完整例子：File System 读数据，Print 输出

这个组合在测试环境里很常用，数据从 HDFS 文件里读，结果直接打印到控制台，方便验证逻辑对不对。

先建一个输入表，指定好文件路径和格式：

CREATE TABLE file_source (
  name STRING,
  age INT
) WITH (
  'connector' = 'filesystem',
  'path' = 'hdfs://namenode:9000/path/to/data.json',
  'format' = 'json',
  'json.fail-on-missing-field' = 'true',
  'json.ignore-parse-errors' = 'false'
)

再建一个输出表，用 print 把结果打印出来：

CREATE TABLE print_sink (
  age INT,
  cnt BIGINT
) WITH (
  'connector' = 'print'
)

然后写业务逻辑，统计每个年龄有多少人：

INSERT INTO print_sink
SELECT age, COUNT(*) AS cnt
FROM file_source
GROUP BY age

3.5 容易踩的坑

问题	原因
表找不到	Flink SQL 表名区分大小写，定义小写用的时候也得小写
列类型不匹配	聚合函数 COUNT 的返回类型是 BIGINT，建输出表别写成 INT
HDFS 文件读不到	路径要写全路径
结果一直更新不停	流处理模式下分组聚合会持续触发计算，这是正常行为
批处理结果和流处理不一样	两者执行逻辑本来就不同，批处理只返回最终结果

4. 表类型

4.1 总的分类

表类型	说明	典型场景
静态表	数据不随时间实时变化	批处理模式下的 File System 表
动态表	数据随时间实时变化	流处理模式下的 Kafka、File System 表
版本表	有主键 + 事件时间的动态表，能记录历史	双流 join 校验场景
时态表函数	访问动态表历史数据，只支持仅追加表	双流 join 场景

4.2 静态表

静态表里的数据不会随时间实时变化，一般就是批处理模式下定义的表。比如用 File System 在批处理模式建的表就是静态的。

要注意的是静态表的数据也可能变化，比如按天、按小时新增数据进去，但这种变化是离线的、可预期的，不是实时的。

4.3 动态表

动态表正好相反，数据会随时间实时变化。流处理模式下用 Kafka 或者 File System 创建的表都是动态表。

动态表是 Flink SQL 能做流处理的关键，没有它就没有流式计算。

4.4 版本表

版本表是 Flink 1.12 引入的概念（之前的 1.11 版本叫时态表，只有 Blink 引擎支持）。它本质上是带有主键和事件时间属性的动态表，能够记录每个键的历史值。

这个概念和 Hive 里的拉链表很像，都是用来记录数据变化历史的。有了版本表，可以查询某个时间点的历史数据。

建版本表的时候需要两步：先用 PRIMARY KEY 定义主键，然后用 WATERMARK 定义事件时间字段。版本表主要用在双流 join 校验的场景。

4.5 时态表函数

时态表函数也是用来访问历史数据的，但它是针对普通动态表（不是版本表）的。只能用在只追加类型的动态表上，而且不能用 SQL DDL 建，必须通过 Table API 写代码来注册。主要场景也是双流 join。

5. 连续查询

5.1 什么是连续查询

这个概念是相对于 "一次查询" 来说的。

离线场景下，对静态表跑 SQL，计算完就结束了，不会再跑第二次，这是 "一次查询"。

实时场景下，对动态表跑 SQL，只要动态表里有新数据进来，计算就会再次触发，数据不断来，计算就不断触发，这种多次执行的查询就叫 "连续查询"。

说白了就是：动态表数据一变，SQL 就重新算一遍，输入输出都是动态表。

5.2 连续查询的执行过程

实时数据流进 Flink 做 SQL 计算，整体分三步：

步骤	操作
1	实时数据流 → 动态输入表（基于数据流定义一张表）
2	动态输入表 → 连续查询执行 → 动态输出表（查询会用 State 存中间结果）
3	动态输出表 → 数据流输出

5.3 案例一：普通分组聚合

场景就是按 name 分组统计出现次数。

第一批数据进来：tom 出现一次，输出 tom 1；jack 出现一次，输出 jack 1。
第二批数据进来：tom 又出现了，此时 tom 已经出现过，所以更新之前的统计结果为 tom 2，jack 不变。
再进来 jessica，就输出 jessica 1。

这种情况下输出表里有新增也有更新，因为同一个人又出现了。

5.4 案例二：滚动窗口聚合

场景是按小时滚动的窗口，每小时做一次分组聚合。

SELECT name,
       TUMBLE_START(event_time, INTERVAL '1' HOUR) AS window_start,
       COUNT(*) AS cnt
FROM clicks
GROUP BY name, TUMBLE(event_time, INTERVAL '1' HOUR)

特点是因为时间只会往前走，不同时间窗口的结果互不重叠，所以输出表里的数据全都是新增，不会有更新。这种也叫纯追加流。

5.5 Change Log 是什么

连续查询的输出其实可以理解成一种 Change Log 数据流，类似 MySQL 的 binlog，里面记录了数据的变更操作。

操作	标识	含义
新增	`+I`	Insert，插入新数据
更新前	`-U`	Update Before，回撤旧数据
更新后	`+U`	Update After，写入新数据
删除	`-D`	Delete，删除数据

6. 数据类型

Flink SQL 支持三类数据类型：基础类型、复合类型、自定义类型。实际工作中基础类型和复合类型完全够用，自定义类型基本用不上。

6.1 基础类型

字符串：直接用 STRING。

二进制：BINARY、VARBINARY。

数值：

类型	说明
`INT` / `BIGINT`	整数，取值范围和 Java 里的一样
`FLOAT`	单精度浮点
`DOUBLE`	双精度浮点
`DECIMAL(p, s)`	金融相关（比如商品价格），p 是总位数，s 是小数位数，精度更高

布尔：BOOLEAN

空值：NULL

日期时间（这块内容多，容易混淆）：

类型	说明	示例
`DATE`	年月日，不带时区	2026-04-21
`TIME`	时分秒，不带时区	15:30:00
`TIMESTAMP`	年月日时分秒，不带时区，秒后面默认精确到 6 位，一般设 3 位就够了	2026-04-21 15:30:00.123
`TIMESTAMP_LTZ`	带本地时区的年月日时分秒，生产最推荐用	2026-04-21 15:30:00.123
`INTERVAL`	时间间隔，用来给时间做加减偏移	—

关于 TIMESTAMP 和 TIMESTAMP_LTZ 的区别：

TIMESTAMP 不带时区，如果你没设过时区，默认会用 UTC，比中国时间（UTC+8）少 8 个小时。TIMESTAMP_LTZ 会读本地时区，建议直接用这个。

在代码里可以手动设置时区：

tableEnv.getConfig.setLocalTimeZone(TimeZone.getTimeZone("Asia/Shanghai"))

Interval 的用法：给时间做偏移，比如加减几天、几个月、几个小时。

用法	示例
加 1 秒	`SELECT order_time + INTERVAL '1' SECOND FROM orders`
加 1 分钟	`SELECT order_time + INTERVAL '1' MINUTE FROM orders`
加 1 天 2 小时	`SELECT order_time + INTERVAL '1 2' DAY TO HOUR FROM orders`
加 2 小时 30 分钟	`SELECT order_time + INTERVAL '2:30' HOUR TO MINUTE FROM orders`

6.2 复合类型

类型	类似	说明
`ARRAY`	Java 数组	数组
`MAP<K, V>`	Java Map	键值对
`MULTISET`	Java List	允许重复元素的集合
`ROW`	Java 自定义对象	行对象

这些在 Hive 里用得很多，Flink 里用法也差不多，后面遇到具体场景再说。

7. 动态表输出编码

动态输出表要转成数据流输出去，需要对表里的数据变更行为做编码。Flink SQL 支持三种编码方式，对应三种不同的数据流。

数据流	说明	Insert	Update	Delete	需要主键
Append Only	纯追加流	✅	❌	❌	否
Retract	回撤流	✅	✅（两条）	✅	否
Upsert	插入更新流	✅	✅（一条）	✅	是

7.1 Append Only 流（纯追加流）

只有新增操作，没有更新和删除。适用场景是时间窗口聚合、或者不涉及分组的普通实时 ETL。

7.2 Retract 流（回撤流）

包含新增、更新、删除三种操作。更新的时候比较特殊，会发两条数据：先发一条 -U（Update Before）把旧数据撤回，再发一条 +U（Update After）把新数据加进去。

所以每次更新实际上是两步操作。如果下游还要接着处理这个数据流，必须正确处理 -U 和 +U，否则数据会乱掉。

实际场景里，做分组聚合的时候，因为同一个 key 可能出现多次，结果需要更新，就会产生 Retract 流。

标识	含义
`+I`	新增
`-U`	更新前（撤回旧数据）
`+U`	更新后（写入新数据）
`-D`	删除

7.3 Upsert 流（插入更新流）

Upsert 流也是包含新增、更新、删除，但更新的时候只发一条数据，直接用新数据覆盖旧数据，不需要先撤回再加。比 Retract 流效率高。

使用 Upsert 流的前提是表里必须定义主键。

7.4 三种流怎么选

场景	推荐数据流
时间窗口聚合、不涉及分组	Append Only
分组聚合、有更新	Retract 或 Upsert
分组聚合、有主键、更新频繁	Upsert（效率更高）

7.5 实际用的时候注意什么

如果 SQL 里用的是时间窗口聚合或者没有分组操作，输出是 Append Only 流，用普通的 Connector 就行。

如果 SQL 里用了分组聚合，会产生更新操作，需要 Retract 或 Upsert 流，写入 Kafka 的时候要选 upsert-kafka 的 Connector，普通 kafka Connector 不支持。

如果要接自己的第三方存储系统，就得自己解析数据流里的这些标识（+I、-U、+U、-D），然后按需写到自己的存储里。

8. 日期时间函数

8.1 常用函数

函数	说明
`CURRENT_DATE`	当前日期
`CURRENT_TIME` / `LOCALTIME`	当前时间（时分秒）
`CURRENT_TIMESTAMP` / `LOCALTIMESTAMP`	当前时间戳（年月日时分秒毫秒，带时区）
`NOW()`	当前时间戳，效果和 TIMESTAMP 一样
`CURRENT_ROW_TIMESTAMP()`	当前行时间戳
`CURRENT_PROCTIME()`	处理时间（程序处理到这个数据的时间）

这些都是跟时区挂钩的，设置了东八区就返回北京时间。

8.2 日期格式化

如果觉得时间戳里毫秒位数太多不想要，可以用 DATE_FORMAT 来格式化：

SELECT DATE_FORMAT(order_time, 'yyyy-MM-dd HH:mm:ss') FROM orders

8.3 CURRENT_TIMESTAMP 和 CURRENT_ROW_TIMESTAMP 的区别

场景	CURRENT_TIMESTAMP	CURRENT_ROW_TIMESTAMP
流处理模式	每条数据各自有独立时间戳	每条数据各自有独立时间戳（相同）
批处理模式	查询开始时取一次时间，这批数据都用这个时间	每条数据各自有独立时间戳

8.4 时区一定要设

建议在代码里手动把时区设成东八区：

tableEnv.getConfig.setLocalTimeZone(TimeZone.getTimeZone("Asia/Shanghai"))

不设的话，程序会读机器本身的时区，可能会拿到 UTC 时间，比北京少 8 小时，容易出 bug。

附录

常用 Connector

Connector	用途
filesystem	读写本地或 HDFS 文件
kafka	Kafka 数据源或目的地
upsert-kafka	支持 Upsert 操作的 Kafka
print	打印到控制台，测试用
datagen	自动生成测试数据

DataGen 生成测试数据的技巧

datagen 很适合在本地跑流处理测试用。如果要测试分组聚合的更新逻辑，需要让某个字段产生重复数据，可以限制它的取值范围：

CREATE TABLE orders (
  order_id BIGINT,
  price DECIMAL(10, 2),
  order_time TIMESTAMP
) WITH (
  'connector' = 'datagen',
  'rows-per-second' = '1',
  'order_id.gen-kind' = 'sequence',
  'order_id.gen.min' = '100',
  'order_id.gen.max' = '105'
)

这样 order_id 会在 100 到 105 之间循环生成，方便测试重复 key 触发的更新场景。

常见错误

错误	解决办法
列类型不匹配	特别是 COUNT 返回的是 BIGINT，别写成 INT
表找不到	一般是大小写不对，或者表还没建
时区差 8 小时	记得设 Asia/Shanghai
Upsert 主键不能为空	用 Upsert 流的时候，主键字段要加 NOT NULL 约束

上一篇算法 - 链表删除专项

下一篇没有了

评论交流

在此浏览器中保存我的姓名、邮箱和网站，以便下次评论时使用