类别:

表函数

TOP_INSIGHTS (SNOWFLAKE.ML)

在数据集中找到最重要的维度,从这些维度构建片段,然后检测这些片段中哪些对指标有影响。

TOP_INSIGHTS 非常适合从具有大量维度的数据集中提取根本原因。此外,还支持连续维度,而无需将其预处理为分类维度,并能在结果中指出具有负面条件的维度(例如,“区域不是北美”)。

语法

SNOWFLAKE.ML.TOP_INSIGHTS(
  <categorical_dimensions>, <continuous_dimensions>,
  <metric>, <label> )
Copy

实参

categorical_dimensions

OBJECT 包含维度名称和关联的分类列之间的 1:1 映射。该值可以来自单个列,也可以派生自列的简单组合。

continuous_dimensions

OBJECT 包含维度名称和关联的连续列之间的 1:1 映射。该值可以来自单个列,也可以派生自列的简单组合。连续维度的值不得为 NULL。

metric

表示正在调查的目标指标的 FLOAT 列。此值必须严格为非负值。该值可以来自单个列,也可以派生自列的简单组合。

label

区分控制数据和测试数据的 BOOLEAN 列。TRUE 表示测试数据,FALSE 表示控制数据。该值可以来自单个列,也可以派生自列的简单组合(例如,日期比较)。

输出

该函数返回以下列:

列名称

数据类型

描述

contributor

ARRAY

定义算法的段或见解的字符串 ARRAY。

例如:

[
  "not country = canada",
  "length_of_vertical <= 4.5",
  "vertical = finance"
]
Copy

metric_control

FLOAT

控制期间特定段中的指标总值。

metric_test

FLOAT

测试期间特定段中的指标总值。

surprise

FLOAT

基于跨周期的总体指标变化,metric_test 超出其预期值的金额。

relative_change

FLOAT

与同一时期的总体指标相比,特定段中的指标在不同时间段内的变化情况的量化:

  • 高于 1.0 的相对变化意味着该段在不同时间段内的增长速度高于总体指标,从而推动了增长。

  • 低于 1.0 的相对变化意味着该段的增长速度低于总体指标,从而导致下降。

growth_rate

FLOAT

控制期间所有段中的指标总值。

expected_metric_test

FLOAT

测试期间指标的预期值,基于 overall_metric_controloverall_metric_test 之间的关系。

overall_metric_control

FLOAT

控制期间所有段中的指标总值。

overall_metric_test

FLOAT

测试期间所有段中的指标总值。

overall_growth_rate

FLOAT

所有段的控制期和测试期之间的增长率,定义为 overall_metric_test 除以 overall_metric_control

new_in_test

BOOLEAN

指示测试数据中特定段是否为新段。

missing_in_test

BOOLEAN

指示测试数据中是否缺少特定段。

使用说明

  • 指标必须为非负值。

  • 输入数据必须仅限于测试数据或控制数据。

  • 运行时随维度数量和基数的改变而改变。

  • 当分类维度的基数超过 5 时,其基数会自动减少。

示例

请参阅 Contribution Explorer 示例

语言: 中文