自定义敏感数据分类

本主题提供有关使用自定义分类器以扩展敏感数据分类功能的信息。

概述

Snowflake 在 SNOWFLAKE.DATA_PRIVACY 架构中提供 CUSTOM_CLASSIFIER ,使数据工程师能够根据自己的数据知识扩展其数据分类能力。创建该类的实例后,可以对该实例调用一个方法来定义自己的语义类别、指定隐私类别,并指定正则表达式以匹配列值模式,同时可以匹配列名。

通过创建和使用自定义分类实例,您可以:

  • 加速数据分类工作。

  • 为包含敏感数据的列定义行业和领域特定的标签。

  • 利用 Snowflake 更好地控制您为跟踪 PII 数据而做的工作。

注意事项

请选择一个与您正在分类的数据大小相匹配的仓库。有关更多信息,请参阅 对敏感数据进行手动分类的成本

关于自定义分类算法

Data Classification 算法相比,Snowflake 使用的算法在自定义分类中是独一无二的。采用不同的分类算法的原因是为了确保根据您选择的数据分类方式获得稳定的结果。

自定义分类算法使用 评分规则 来确定推荐哪个语义类别系统标签,以及建议使用哪些语义类别标签(如果有)作为替代方案。评分逻辑会评估您添加到实例中的正则表达式,您可以通过对实例调用 custom_classifier!ADD_REGEX 方法来指定这些正则表达式。

评分规则使用的默认阈值为 0.8,等同于推荐标签应具备的高置信度。样本中 80% 的数据必须与您添加到实例中的正则表达式相匹配。该算法将列的分数与阈值进行比较,并推荐一个与以下情况之一相对应的标签:

您可以对实例调用 custom_classifier!ADD_REGEX 方法,来指定自定义分类实例的阈值。

备注

两个自定义分类器的分数可能会相同。在这种情况下,可通过评估以下内容来解决分数相同的问题:

  • 各自自定义类别之间的匹配百分比。

  • 自定义类别名称之间的字母顺序。

在这种情况下,获胜类别将成为推荐类别,其余类别将成为备选类别。

下表汇总了评分算法和推荐标签:

提供的名称匹配器

值匹配 >= 阈值

名称匹配

建议

True

True

True

自定义类别

False

True

Snowflake 类别

True

False

Snowflake 类别

False

False

Snowflake 类别

False

True

不适用

自定义类别

False

不适用

Snowflake 类别

复制和克隆

  • 复制数据库时,也将复制 CUSTOM_CLASSIFIER 类的实例。

  • 克隆包含实例的架构时,也将克隆 CUSTOM_CLASSIFIER 类的实例。

语言: 中文