为敏感数据创建自定义类别

如果没有能够检测您特定领域敏感数据的 原生语义类别,您可以为您的敏感数据创建一个自定义类别。

通过定义自定义分类器来实现自定义语义类别。自定义分类器具有以下属性:

  • 识别数据类型的自定义语义类别;例如 medical_codeemployee_id

  • Snowflake 算法用于检测您的敏感数据的正则表达式。

  • 预定义的隐私类别之一。

工作原理

Snowflake 在 SNOWFLAKE.DATA_PRIVACY 架构中提供 CUSTOM_CLASSIFIER ,使数据工程师能够根据自己的数据知识扩展其数据分类能力。创建该类的实例后,您可以调用该实例上的方法来定义您的自定义语义类别、指定隐私类别,并指定用于匹配列值模式(同时可选匹配列名)的正则表达式。

重要

敏感数据分类存储的是自定义分类器的定义,而不是引用。如果更改自定义分类器,必须使用 SET_CUSTOM_CLASSIFIERS 方法将分类配置文件更新为新的定义。

有关使用 CUSTOM_CLASSIFIER 类创建和使用自定义分类器的示例,请参阅 示例

注意事项

选择一个与您正在分类的数据大小相匹配的仓库:

  • 无需担心处理时间:超小型仓库。

  • 表中最多有 100 列:小型仓库。

  • 表中有 101 到 300 列:中型仓库。

  • 表中有超过 300 列:大型仓库。

自定义类别的阈值

用于对自定义类别进行分类的算法使用 评分规则 来评估自定义分类器的正则表达式,以确定要推荐哪个语义类别。

评分规则使用的默认阈值为 0.8,这相当于在推荐类别方面具有很高的置信度。样本中 80% 的数据必须与您添加到实例中的正则表达式匹配。算法会将列的分数与阈值进行比较,并推荐对应于以下各项之一的类别:

  • 非国际系统标签

  • 国际系统标签

  • 自定义分类器标签

您可以对实例调用 custom_classifier!ADD_REGEX 方法,来指定自定义分类实例的阈值。

备注

两个自定义分类器的分数可能会相同。在这种情况下,可通过评估以下内容来解决分数相同的问题:

  • 各自自定义类别之间的匹配百分比。

  • 自定义类别名称之间的字母顺序。

在这种情况下,获胜类别将成为推荐类别,其余类别将成为备选类别。

下表汇总了评分算法和推荐标签:

提供的名称匹配器

值匹配 >= 阈值

名称匹配

建议

True

True

True

自定义类别

False

True

Snowflake 类别

True

False

Snowflake 类别

False

False

Snowflake 类别

False

True

不适用

自定义类别

False

不适用

Snowflake 类别

复制和克隆

  • 复制数据库时,也将复制 CUSTOM_CLASSIFIER 类的实例。

  • 克隆包含实例的架构时,也将克隆 CUSTOM_CLASSIFIER 类的实例。