类别:

聚合函数 (相似度估算)、 窗口函数

APPROXIMATE_JACCARD_INDEX

根据输入的 MinHash 状态返回其相似度(Jaccard 指数)的估计值。有关 Jaccard 指数和相关函数 MINHASH 的更多信息,请参阅 估计两个或多个集合的相似度

APPROXIMATE_SIMILARITY 的别名

语法

APPROXIMATE_JACCARD_INDEX( [ DISTINCT ] <expr> [ , ... ] )

APPROXIMATE_JACCARD_INDEX(*)
Copy

实参

expr

表达式应该是 MINHASH 函数调用返回的一个或多个 MinHash 状态。换言之,表达式必须是 MinHash 状态信息,而不是您需要其近似相似度的列或表达式。(下面的示例有助于说明这一点。)

有关 MinHash 状态的更多信息,请参阅 估计两个或多个集合的相似度

返回

介于 0.0 和 1.0(含)之间的浮点数,其中 1.0 表示集相同,0.0 表示集没有重叠。

使用说明

  • DISTINCT 可以作为实参包含在内,但不起作用。

  • 输入 MinHash 状态必须具有长度相等的 MinHash 数组。

  • 输入 MinHash 状态的数组长度是近似值的质量指标。

    函数 MINHASH 中使用的 k 的值越大,近似值就越准确。但是,此值对相似度估算的计算时间具有线性影响。

示例

USE SCHEMA snowflake_sample_data.tpch_sf1;

SELECT APPROXIMATE_JACCARD_INDEX(mh) FROM
    (
      (SELECT MINHASH(100, C5) mh FROM orders WHERE c2 <= 50000)
         UNION
      (SELECT MINHASH(100, C5) mh FROM orders WHERE C2 > 50000)
    );

+-------------------------------+
| APPROXIMATE_JACCARD_INDEX(MH) |
|-------------------------------|
|                          0.97 |
+-------------------------------+
Copy
语言: 中文