类别：: :doc:`/sql-reference/functions-aggregation`（相似性估算）、:doc:`窗口函数 </sql-reference/functions-window-syntax>`（相似性估算）

MINHASH¶

返回 MinHash 状态，此状态包含一个大小为 k 的数组，该数组的构造方式为：向输入行应用 k 个不同哈希函数，并保留每个哈希函数的最小值。然后，可以将此 MinHash 状态输入到 APPROXIMATE_SIMILARITY 函数中，以估计与一个或多个其他 MinHash 状态的相似性。

有关 MinHash 状态的更多信息，请参阅估计两个或多个集合的相似度。

另请参阅：: MINHASH_COMBINE

语法¶

聚合函数

MINHASH( <k> , [ DISTINCT ] expr+ )

MINHASH( <k> , * )

窗口函数

MINHASH( <k> , [ DISTINCT ] expr+ ) OVER ( [ PARTITION BY <expr1> ] )

MINHASH( <k> , * ) OVER ( [ PARTITION BY <expr1> ] )

有关 OVER 子句的详细信息，请参阅窗口函数的语法和用法。

实参¶

k: 要创建的哈希函数的数量。该值越大，近似值越准确；但是，此值对使用 APPROXIMATE_SIMILARITY 相似性估算的计算时间具有线性影响。建议值为 100。最大值为 1024。
expr: 一个或多个表达式（通常是列名），用于确定要哈希的值。
*: 对输入行中的所有列进行哈希处理。

使用说明¶

此函数可用作聚合函数或窗口函数。
DISTINCT 可以作为实参包含在内，但不起作用。

示例¶

USE SCHEMA snowflake_sample_data.tpch_sf1;

SELECT MINHASH(5, *) FROM orders;

+----------------------+
| MINHASH(5, *)        |
|----------------------|
| {                    |
|   "state": [         |
|     78678383574307,  |
|     586952033158539, |
|     525995912623966, |
|     508991839383217, |
|     492677003405678  |
|   ],                 |
|   "type": "minhash", |
|   "version": 1       |
| }                    |
+----------------------+

Here is a more extensive example, showing the three related functions MINHASH, MINHASH_COMBINE and APPROXIMATE_SIMILARITY. This example creates 3 tables (ta, tb, and tc), two of which (ta and tb) are similar, and two of which (ta and tc) are completely dissimilar.

创建并使用以下值填充表：

CREATE TABLE ta (i INTEGER);
CREATE TABLE tb (i INTEGER);
CREATE TABLE tc (i INTEGER);

INSERT INTO ta (i) VALUES (1), (2), (3), (4), (5), (6), (7), (8), (9), (10);
INSERT INTO tb (i) VALUES (1), (2), (3), (4), (5), (6), (7), (8), (9), (11);
INSERT INTO tc (i) VALUES (-1), (-20), (-300), (-4000);

计算初始数据集的 minhash 信息：

CREATE TABLE minhash_a_1 (mh) AS SELECT MINHASH(100, i) FROM ta;
CREATE TABLE minhash_b (mh) AS SELECT MINHASH(100, i) FROM tb;
CREATE TABLE minhash_c (mh) AS SELECT MINHASH(100, i) FROM tc;

向其中一个表添加更多数据：

INSERT INTO ta (i) VALUES (12);

Demonstrate the MINHASH_COMBINE function:

CREATE TABLE minhash_a_2 (mh) AS SELECT MINHASH(100, i) FROM ta WHERE i > 10;

CREATE TABLE minhash_a (mh) AS
  SELECT MINHASH_COMBINE(mh)
    FROM (
      (SELECT mh FROM minhash_a_1)
      UNION ALL
      (SELECT mh FROM minhash_a_2)
    );

This query shows the approximate similarity of the two similar tables (ta and tb):

SELECT APPROXIMATE_SIMILARITY(mh)
  FROM (
    (SELECT mh FROM minhash_a)
    UNION ALL
    (SELECT mh FROM minhash_b)
  );

+-----------------------------+
| APPROXIMATE_SIMILARITY (MH) |
|-----------------------------|
|                        0.75 |
+-----------------------------+

This query shows the approximate similarity of the two very different tables (ta and tc):

SELECT APPROXIMATE_SIMILARITY(mh)
  FROM (
    (SELECT mh FROM minhash_a)
    UNION ALL
    (SELECT mh FROM minhash_c)
  );

+-----------------------------+
| APPROXIMATE_SIMILARITY (MH) |
|-----------------------------|
|                           0 |
+-----------------------------+