- 类别:
TOP_INSIGHTS (SNOWFLAKE.ML)¶
在数据集中找到最重要的维度,从这些维度构建片段,然后检测这些片段中哪些对指标有影响。
TOP_INSIGHTS 非常适合从具有大量维度的数据集中提取根本原因。此外,还支持连续维度,而无需将其预处理为分类维度,并能在结果中指出具有负面条件的维度(例如,“区域不是北美”)。
语法¶
SNOWFLAKE.ML.TOP_INSIGHTS(
<categorical_dimensions>, <continuous_dimensions>,
<metric>, <label> )
实参¶
categorical_dimensions
OBJECT 包含维度名称和关联的分类列之间的 1:1 映射。该值可以来自单个列,也可以派生自列的简单组合。
continuous_dimensions
OBJECT 包含维度名称和关联的连续列之间的 1:1 映射。该值可以来自单个列,也可以派生自列的简单组合。连续维度的值不得为 NULL。
metric
表示正在调查的目标指标的 FLOAT 列。此值必须严格为非负值。该值可以来自单个列,也可以派生自列的简单组合。
label
区分控制数据和测试数据的 BOOLEAN 列。
TRUE
表示测试数据,FALSE
表示控制数据。该值可以来自单个列,也可以派生自列的简单组合(例如,日期比较)。
输出¶
该函数返回以下列:
列名称 |
数据类型 |
描述 |
---|---|---|
|
定义算法的段或见解的字符串 ARRAY。 例如: [
"not country = canada",
"length_of_vertical <= 4.5",
"vertical = finance"
]
|
|
|
控制期间特定段中的指标总值。 |
|
|
测试期间特定段中的指标总值。 |
|
|
基于跨周期的总体指标变化, |
|
|
与同一时期的总体指标相比,特定段中的指标在不同时间段内的变化情况的量化:
|
|
|
控制期间所有段中的指标总值。 |
|
|
测试期间指标的预期值,基于 |
|
|
控制期间所有段中的指标总值。 |
|
|
测试期间所有段中的指标总值。 |
|
|
所有段的控制期和测试期之间的增长率,定义为 |
|
|
指示测试数据中特定段是否为新段。 |
|
|
指示测试数据中是否缺少特定段。 |
使用说明¶
指标必须为非负值。
输入数据必须仅限于测试数据或控制数据。
运行时随维度数量和基数的改变而改变。
当分类维度的基数超过 5 时,其基数会自动减少。