窗口函数的语法和用法¶
Snowflake 支持大量称为 窗口函数 的分析 SQL 函数。每个函数的详细信息记录在单独的参考页面上。本部分的目的是提供适用于部分或全部窗口函数的一般参考信息,包括 OVER 子句的主要组件的详细语法:
PARTITION BY 子句
ORDER BY 子句
窗口框架语法
不熟悉窗口函数的用户可能需要阅读 使用窗口函数分析数据 中的概念讲解材料。
语法¶
其中:
其中:
参数¶
OVER( [ windowDefinition ] )指定函数用作窗口函数,并指定函数的运行窗口。OVER 子句必须包含括号,但可以为空,具体取决于相关函数的要求。空白 OVER 子句没有分区和隐含的默认窗口框架。
PARTITION BY expr1例如,按产品、城市或年份将行分组到分区。输入行按分区分组,然后在每个分区上计算函数。PARTITION BY 子句可选;您可以将一组行作为单个分区进行分析。
ORDER BY expr2对每个分区内的行进行排序,如果未指定分区,则对整组行进行排序。此 ORDER BY 子句与 ORDER BY 子句不同,后者控制查询的最终结果中返回的所有行的顺序。尽管 ORDER BY 子句对于某些窗口函数来说是可选的,但对于其他窗口函数来说是必需的。例如,RANK 和 NTILE 等排名窗口函数要求其输入数据采用有意义的顺序。
关于 ASC/DESC(升序/降序)顺序和 NULL 处理,窗口函数的 ORDER BY 子句遵循的规则类似于查询中主要 ORDER BY 子句的规则。有关详细信息,请参阅 ORDER BY。
备注
窗口函数的 ORDER BY 子句不支持使用序数位置,例如
OVER (PARTITION BY 1 ORDER BY 2)。在这种情况下,2解释为常量2;它不引用查询中的第二列。不同的函数以不同的方式处理 ORDER BY 子句:
某些窗口函数需要 ORDER BY 子句。
某些窗口函数禁止 ORDER BY 子句。
某些窗口函数使用 ORDER BY 子句(如果存在),但不需要该子句。
某些窗口函数将隐式窗口框架应用于 ORDER BY 子句。(有关更多信息,请参阅 窗口框架的使用注意事项。)
{ ROWS | RANGE }指定窗口框架的类型或模式,定义物理行数 (ROWS) 或一组逻辑计算的行 (RANGE)。请参阅 基于范围的窗口框架与基于行的窗口框架。
这两种类型的框架都使用隐式命名边界或显式偏移值来指定起点和终点。使用关键字 CURRENT ROW、UNBOUNDED PRECEDING 和 UNBOUNDED FOLLOWING 定义命名边界。使用数字或间隔(
n PRECEDING或n FOLLOWING)定义显式偏移。
{ RANGE BETWEEN n PRECEDING | n FOLLOWING }指定采用显式偏移的基于范围的窗口框架。
采用显式偏移的 RANGE BETWEEN 窗口框架必须只有一个 ORDER BY 表达式。该表达式支持以下数据类型:
DATE、TIMESTAMP、TIMESTAMP_LTZ、TIMESTAMP_NTZ (DATETIME)、TIMESTAMP_TZ
NUMBER,包括 INT、FLOAT 等
使用这种类型的窗口框架时,不支持 TIME 和其他 Snowflake 数据类型。对于其他窗口框架,可以在 ORDER BY 表达式中使用其他数据类型,例如 VARCHAR。
对于 RANGE BETWEEN 窗口框架,n 必须是无符号常量(正数值,包括 0)或正 INTERVAL 常量:
如果
expr2是数值数据类型,则n必须是无符号常量。如果
expr2是 TIMESTAMP 数据类型,则n必须是 INTERVAL 常量。例如:INTERVAL '12 hours'或INTERVAL '3 days'。如果
expr2是 DATE 数据类型,则n可以是无符号常量或 INTERVAL 常量,但框架的开始和结束必须为n值使用相同的数据类型。
当 ORDER BY 表达式为升序 (ASC) 时,语法
n FOLLOWING表示“值大于(或晚于)*x* 的行”,n PRECEDING表示“值小于(或早于)*x* 的行”,其中 x 是当前行的 ORDER BY 值。当 ORDER BY 表达式为降序 (DESC) 时,情况正好相反。(偏移0 PRECEDING和0 FOLLOWING等于 CURRENT ROW。)
RANGE BETWEEN 限制¶
以下窗口函数子集支持采用显式偏移的 RANGE BETWEEN 语法:
STDDEV、STDDEV_SAMP、:doc:`/sql-reference/functions/stddev_pop`(以及别名)
VARIANCE、VARIANCE_SAMP、:doc:`/sql-reference/functions/variance_pop`(以及别名)
此外,请注意:
这些函数的 DISTINCT 版本不支持此语法。
当 COUNT 窗口函数使用此语法时,以下限制适用。
仅支持一个输入实参。
不支持
COUNT(table.*)通配符查询。例如,您不能指定:
您不能指定会导致框架开始和结束位置逻辑反转的框架。例如,以下框架返回错误,因为框架的结束行在开始行之前:
当 ORDER BY 表达式包含 NULL 值时的 RANGE BETWEEN 行为¶
当使用 RANGE BETWEEN 窗口框架并且 ORDER BY 列包含 NULL 值时,请注意以下行为:
当 ORDER BY 子句指定 NULLS FIRST 时,ORDER BY 列中带 NULL 的行包含在 UNBOUNDED PRECEDING 框架中。
当 ORDER BY 子句指定 NULLS LAST 时,ORDER BY 列中带 NULL 的行包含在 UNBOUNDED FOLLOWING 框架中。
仅当当前行的 ORDER BY 值为 NULL 时,ORDER BY 列中带 NULL 的行才会包含在显式偏移框架边界中。
窗口框架的使用注意事项¶
所有窗口函数都支持窗口框架。但是,对窗口框架语法的支持因函数而异。如果未指定窗口框架,则默认值取决于以下函数:
对于排名函数(例如 FIRST_VALUE、LAST_VALUE、NTH_VALUE),默认为整个窗口:
请注意,这种行为 不符合 ANSI 标准。
备注
为清晰起见,Snowflake 建议避免使用隐式窗口框架。如果查询使用窗口框架,请定义显式窗口框架。
窗口框架要求窗口中的数据按已知顺序排列。因此,在窗口框架语法中,OVER 子句内的 ORDER BY 子句是 必需 的,但 ORDER BY 子句通常是可选的。
示例¶
本部分包含示例,展示了如何以不同方式使用窗口函数。有关其他示例,请参阅 使用窗口函数分析数据 和各个函数的页面。
介绍性示例¶
假设您是某连锁店的所有者。以下查询会显示每家商店产生的利润在连锁店总利润中所占的百分比。查询使用 RATIO_TO_REPORT 函数,该函数从当前行中获取一个值 (net_profit),并将其除以所有其他行中相应值的总和:
创建并加载表:
查询表:
起始位置未限定的窗口框架¶
创建表并使用以下值填充表:
运行一个使用起始位置未限定的窗口框架的查询,然后显示输出。返回每个分区中每行的累积 COUNT、SUM、AVG、MIN 和 MAX 值:
使用默认窗口框架返回与上述查询相同的结果(即 ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW):
带显式偏移的窗口框架¶
创建表并使用以下值填充表:
返回在当前行(含)之前、之后的滑动窗口中两列(数字和字符串)的 MIN 函数结果:
返回在当前行(含)之前、之后的滑动窗口中两列(数字和字符串)的 MAX 函数结果:
返回包含当前行之前、之后和当前行的滑动窗口中的数字列的总和:
排名函数示例¶
以下示例演示了如何根据每位销售人员的销售总额(以美元为单位)对销售人员进行排名。OVER 子句中的 ORDER BY 子句按降序(从高到低)对总额进行排序。查询会计算每个销售人员相对于所有其他销售人员的排名。
创建表并插入数据:
现在,查询数据:
输出不一定按排名排序。要显示按排名排序的结果,请为查询本身指定 ORDER BY 子句(窗口函数的 ORDER BY 子句之外),如下所示:
前面的示例有 两个 ORDER BY 子句:
一个控制排名的顺序。
一个控制输出的顺序。
这些子句是独立的。例如,您可以按总销售额对排名进行排序(如上所示),但按销售人员的姓氏对输出行进行排序:
采用显式数字偏移的 RANGE BETWEEN 示例¶
以下示例使用带显式数字偏移的 RANGE BETWEEN 语法。要运行此示例,请遵循以下说明:创建并加载 menu_items 表。有关使用 INTERVAL 偏移的类似示例,请参阅 使用窗口聚合进行滚动计算。
以下查询计算餐车提供的菜单项目类别的平均商品销售成本。窗口函数不划分结果;因此,在基于范围的框架的前提下,在整个结果集中计算平均值。
框架的边界是当前行中的商品价值成本加 2(例如,第一行 = 0.50 + 2.00)。当行在此两美元范围内时,它们才有资格加入框架。
例如,第一行的 avg_cogs 值为 1.1833。计算方法是,介于 0.50 和 2.50 之间的所有 menu_cogs_usd 值的和除以这些行的计数:
(0.50 + 0.65 + 0.75 + 0.50 + 1.00 + 1.25 + 2.50 + 1.25 + 2.25) / 9 = 1.18333
倒数第二行的 avg_cogs 值为 2.93750。计算方法是:介于 2.25 和 4.25 之间的所有 menu_cogs_usd 值的和除以这些行的计数:
(2.25 + 2.50 + 3.00 + 4.00) / 4 = 2.93750
最后一行为 avg_cogs 和 menu_cogs_usd 返回 4.0。这个结果是准确的,因为只有这一行属于框架;4.0 是整个结果中的最大 menu_cogs_usd 值,所以它变成了单行框架。它没有“跟随”行。
请注意,此查询有窗口函数的 ORDER BY 子句和查询最终结果的 ORDER BY 子句。最终的 ORDER BY 输出不影响窗口函数结果的计算。用于计算函数的有序结果集是最终查询不显示的中间结果集。
ORDER BY 子句中具有 NULL 值的 RANGE BETWEEN 示例¶
nulls 表包含五行,两行在 c1 列中有 NULL 值。创建并加载表,如下所示:
当指定 NULLS LAST ,并且窗口框架使用显式偏移时,仅当当前行的 ORDER BY 值为 NULL 时,框架才会包含 c1 中带 NULL 的行。当行 3 为当前行时,以下查询返回和 50。框架不包含以下 NULL 行。
当指定 NULLS LAST,而窗口框架使用 UNBOUNDED FOLLOWING 时,框架包含 c1 中带 NULL 的行。当行 120 为当前行时,以下查询返回和 3。框架包含以下两个 NULL 行。
创建并加载 heavy_weather 表¶
要创建 heavy_weather 表并插入行(在一些窗口函数 示例 中使用),请运行此脚本。