Snowflake Data Clean Room:来自 Azure Blob 存储的外部数据

Snowflake Data Clean Room 中分析的数据可以是 Snowflake 的原生数据,也可以位于外部云提供商存储中,或者两者兼而有之。连接器 允许协作者从 Clean Room 访问来自云提供商的外部数据。

Snowflake 使用以下策略在 Clean Room 中提供外部数据:

  • 如果协作者有 Snowflake 账户,则连接器通过身份验证后,来自外部云存储的数据将立即在 Snowflake 账户中物化。

  • 如果协作者不是 Snowflake 客户,并且使用 托管账户 加入 Clean Room,则连接器使用 Snowflake 外部表 来提供数据。只有与外部表相关的元数据存储在 Snowflake 中。

本主题介绍如何使用连接器,以便 Clean Room 分析人员可以访问来自 Azure Blob 存储的外部数据。

重要

第三方连接器不由 Snowflake 提供,并可能受附加条款的约束。 提供这些集成是为了方便您的使用,但您必须对从这些集成发送或接收的任何内容负责。

连接到 Azure Blob 存储

要允许 Clean Room 协作者访问来自 Azure Blob 存储的数据,请执行以下步骤:

  1. 在 Azure 中,获取 Blob 存储的标识符

  2. 在 Clean Room 环境中,创建连接器

  3. 使用 Clean Room 环境启动 为连接器授予权限 的过程,然后在 Microsoft 中完成该过程。

  4. 在 Clean Room 环境中,利用 Azure 对连接器进行身份验证

以下各部分将更详细地讨论这些步骤。

获取与 Blob 存储相关联的标识符

Clean Room 连接器需要与 Azure Blob 存储相关联的租户 ID,以及唯一标识 Clean Room 需要访问的 Blob 存储的 URL。创建连接器前,必须从 Azure 获取这两个标识符。

备注

Microsoft 已将 Azure AD 更名为 Microsoft Entra ID。

要获取在 Azure Blob 存储和 Microsoft Entra ID 之间建立信任关系的租户 ID,请执行以下步骤:

  1. 登录 Microsoft Azure 门户。

  2. 从主页仪表板中选择 Microsoft Entra ID » Properties

  3. 找到 Tenant ID 字段并选择复制图标。创建连接器 时,您将使用此标识符。

要获取唯一标识 Blob 存储的 URL,请执行以下步骤:

  1. 登录 Microsoft Azure 门户。

  2. 从主页仪表板中选择 Storage Accounts

  3. 在存储账户中导航,直到在列表中看到 Blob 存储文件夹。该文件夹必须包含您想在 Clean Room 中包含的数据。

  4. 在列表中找到 Blob 存储文件夹,然后选择 ... More 菜单 » Copy URL创建连接器 时,您将使用此标识符。

创建连接器并复制服务主体标识符

现在,您可以在 Clean Room 环境中创建连接器。创建连接器后,需要复制与 Clean Room 环境相关联的 Azure 服务主体的标识符。

要在 Clean Room 环境中创建连接器,请执行以下步骤:

  1. 导航到 登录页面

  2. 输入电子邮件地址,然后选择 Continue

  3. 输入密码。

  4. 如果您与多个 Clean Room 环境相关联,请选择要使用的 Snowflake 账户。

  5. 在左侧导航栏中,选择 Connectors,然后展开 Microsoft Azure 部分。

  6. Tenant ID 字段中,输入您在 上一步 中复制的租户 ID。

  7. Path URL 字段中,输入您在 上一步 中复制的 Blob 存储的 URL,然后在 URL 中将 https:// 替换为 azure://

  8. 选择 Create

  9. 使用复制图标复制现在与 Clean Room 环境相关联的 Azure service principal 的标识符,并将其保存以备下一个任务使用。Azure 使用服务主体来授予对应用程序的访问权限。

为连接器授予权限

Clean Room 需要权限才能访问 Azure Blob 存储中的外部数据。授予这些权限的过程在 Clean Room 环境中开始,在 Microsoft 结束。

要为连接器授予权限,请执行以下步骤:

  1. 在 Clean Room 环境中,选择 Connectors 并展开 Microsoft Azure 部分。如果您已退出 Clean Room,请参阅 登录 Web 应用程序

  2. 选择 Consent URL。此时会出现一个 Microsoft 对话框。

  3. 在 Microsoft 对话框中,确保选中 Consent on behalf of your organization,然后选择 Accept

    Microsoft 会向与 Clean Room 环境相关联的 Azure 服务主体授予您租户内的 Blob 存储的访问令牌。

  4. 在新的浏览器窗口中,登录 Microsoft Azure 门户。

  5. 从主页仪表板中选择 Storage Accounts

  6. 选择包含 Blob 存储的存储账户。

  7. 选择 Access Control (IAM)

  8. 选择 Add role assignment

  9. 选择 Storage Blob Data Reader 以向 Azure service principal 授予只读访问权,然后选择 Next

  10. Members 选项卡上,选择 + Select members

  11. 搜索与 Clean Room 环境相关联的服务主体。您在 上一步 中复制了其标识符。

    小技巧

    Microsoft 可能需要一个多小时才能为 Clean Room 环境创建服务主体。如果在列表中找不到服务主体,请等待 1-2 小时,然后再次尝试完成此步骤。

  12. 选择 Review + assign

对连接器进行身份验证

现在,您可以对连接器进行身份验证,以确保它可以访问 Azure Blob 存储。要对连接器进行身份验证,请执行以下步骤:

  1. 在 Clean Room 环境中,选择 Connectors 并展开 Microsoft Azure 部分。如果您已退出 Clean Room,请参阅 登录 Web 应用程序

  2. 选择要连接的 Blob 存储,然后选择 Authenticate

移除在 AWS 上访问外部数据的权限

要从 Clean Room 环境中移除对 Azure Blob 存储的访问权限,请执行以下步骤:

  1. 导航到 登录页面

  2. 输入电子邮件地址,然后选择 Continue

  3. 输入密码。

  4. 如果您与多个 Clean Room 环境相关联,请选择要使用的 Snowflake 账户。

  5. 在左侧导航栏中,选择 Connectors 并展开 Microsoft Azure 部分。

  6. 找到当前连接的 Blob 存储,然后选择垃圾桶图标。

语言: 中文