设置 Openflow Connector for Microsoft Dataverse¶
备注
使用该连接器需遵守 连接器条款。
本主题介绍 Openflow Connector for Microsoft Dataverse 的设置步骤。
先决条件¶
确保您已 设置 Openflow。
获取凭据¶
作为 Microsoft Dataverse 管理员,请执行以下步骤:
确保您有 Dataverse 环境可供使用,并且您可以通过 https://admin.powerplatform.microsoft.com/ (https://admin.powerplatform.microsoft.com/) 访问该环境。
确保您在 portal.azure.com 中注册了一个应用程序。该应用程序必须能够访问我们的 Dataverse 环境可用的租户。
在该应用程序中生成并存储 ClientID 和客户端密钥。
前往 Power Apps 管理中心,将您的 Dataverse 环境配置为可通过之前注册的应用程序进行访问。为此,请转到 Settings » Users & permissions » 应用程序用户。必须添加以前创建的应用程序,并授予其从 Microsoft Dataverse 读取数据所需的权限。
从 https://admin.powerplatform.microsoft.com/ (https://admin.powerplatform.microsoft.com/) 复制并保存所选 Dataverse 环境的环境 URL。
设置 Snowflake 账户¶
作为 Snowflake 账户管理员,执行以下任务:
- 创建一个类型为 SERVICE 的 Snowflake 用户。
创建数据库和架构来存储复制的数据,并通过授予 USAGE 和 CREATETABLE 权限,为服务用户设置在目标架构中创建表的权限。
CREATE DATABASE <destination_database>; CREATE SCHEMA <destination_database>.<destination_schema>; CREATE USER <openflow_user> TYPE=SERVICE COMMENT='Service user for automated access of Openflow'; CREATE ROLE <openflow_role>; GRANT ROLE <openflow_role> TO USER <openflow_user>; GRANT USAGE ON DATABASE <destination_database> TO ROLE <openflow_role>; GRANT USAGE ON SCHEMA <destination_database>.<destination_schema> TO ROLE <openflow_role>; GRANT CREATE TABLE ON SCHEMA <destination_database>.<destination_schema> TO ROLE <openflow_role>; CREATE WAREHOUSE <openflow_warehouse> WITH WAREHOUSE_SIZE = 'SMALL' AUTO_SUSPEND = 300 AUTO_RESUME = TRUE; GRANT USAGE, OPERATE ON WAREHOUSE <openflow_warehouse> TO ROLE <openflow_role>;
创建安全密钥对(公钥和私钥)。将用户的私钥存储在文件中,以提供给连接器的配置。将公钥分配给 Snowflake 服务用户:
ALTER USER <openflow_user> SET RSA_PUBLIC_KEY = 'thekey';
有关更多信息,请参阅 密钥对。
Snowflake 强烈建议执行此步骤。配置 Openflow 支持的密钥管理器(例如 AWS、Azure 和 Hashicorp),并将公钥和私钥存储在密钥存储库中。
备注
如果您出于任何原因不希望使用密钥管理器,则您有责任根据组织的安全策略保护用于密钥对身份验证的公钥和私钥文件。
配置密钥管理器后,确定如何对其进行身份验证。在 AWS 中,建议您使用与 Openflow 关联的 EC2 实例角色,因为这样就无需保留其他密钥。
在 Openflow 中,从右上角的汉堡菜单中配置与此密钥管理器关联的参数提供商。导航到 Controller Settings » Parameter Provider,然后提取您的参数值。
此时,可以使用关联的参数路径引用所有凭据,无需在 Openflow 中保留敏感值。
如果任何其他 Snowflake 用户需要访问连接器引入的原始文档和表(例如,在 Snowflake 中进行自定义处理),则授予这些用户在步骤 1 中创建的角色。
指定一个仓库供连接器使用。将仓库的 USAGE 权限授予之前创建的角色。从最小的仓库规模开始,然后根据要复制的表数量和传输的数据量来测试规模。相较于扩大仓库规模,采用 多集群仓库 通常能更有效地应对海量表数量的扩展需求。
设置连接器¶
作为数据工程师,执行以下任务以安装和配置连接器:
安装连接器¶
导航到 Openflow“Overview”页面。在 Featured connectors 部分中,选择 View more connectors。
在 Openflow 连接器页面上,找到连接器并选择 Add to runtime。
在 Select runtime 对话框中,从 Available runtimes 下拉列表中选择您的运行时。
选择 Add。
备注
在安装连接器之前,请确保在 Snowflake 中为连接器创建了数据库和架构,用于存储引入的数据。
使用您的 Snowflake 账户凭据对部署进行身份验证,并在系统提示时选择 Allow,以允许运行时应用程序访问您的 Snowflake 账户。连接器安装过程需要几分钟才能完成。
使用您的 Snowflake 账户凭据进行运行时身份验证。
此时将显示 Openflow 画布,其中添加了连接器进程组。
配置连接器¶
右键点击导入的进程组并选择 Parameters。
按照 流参数 中所述填充所需的参数值。
流参数¶
本节介绍您可以根据以下参数上下文配置的流参数:
Dataverse 源参数:用于与 Dataverse 建立连接。
Dataverse 目标参数:用于与 Snowflake 建立连接。
Dataverse 引入参数:用于定义从 Dataverse 下载的数据的配置。
Dataverse 源参数¶
参数 |
描述 |
---|---|
源 Dataverse 环境 URL |
用于提取数据的源系统的主要标识符。URL 表示存在 Dataverse 表的命名空间。它还允许您为 OAuth 创建范围参数。 |
源 Microsoft Azure 租户 ID |
Microsoft 租户 ID 允许您创建 OAuth URLs。 |
源 OAuth 客户端 ID |
|
源 OAuth 客户端密钥 |
Microsoft Dataverse Web API <https://learn.microsoft.com/en-us/power-apps/developer/data-platform/webapi/overview> `_ 使用 OAuth 身份验证来保护访问,连接器使用客户端凭据流。要了解客户端密钥以及如何在 Microsoft Entra 中找到它,请参阅 `证书与密钥 (https://learn.microsoft.com/en-us/azure/healthcare-apis/register-application#certificates--secrets)。 |
Dataverse 目标参数¶
参数 |
描述 |
---|---|
目标数据库 |
用于永久保存数据的数据库。它必须已经存在于 Snowflake 中 |
目标架构 |
用于永久保存数据的架构。它必须已经存在于 Snowflake 中 |
Snowflake 账户标识符 |
Snowflake 账户名称格式为 [organization-name]-[account-name],数据永久保存在其中 |
Snowflake 身份验证策略 |
对 Snowflake 进行身份验证的策略。可能的值:SNOWFLAKE_SESSION_TOKEN – 当我们在 SPCS 上运行流时;KEY_PAIR – 当我们想使用私钥设置访问权限时 |
Snowflake 私钥 |
用于身份验证的 RSA 私钥。RSA 密钥必须按照 PKCS8 标准进行格式化,并具有标准的 PEM 头尾标记。请注意,必须定义 Snowflake 私钥文件或 Snowflake 私钥 |
Snowflake 私钥文件 |
该文件包含用于对 Snowflake 进行身份验证的 RSA 私钥,该私钥根据 PKCS8 标准进行格式化,并具有标准的 PEM 头尾标记。头标记行以 |
Snowflake 私钥密码 |
与 Snowflake 私钥文件关联的密码 |
Snowflake 角色 |
查询执行期间使用的 Snowflake 角色 |
Snowflake 用户名 |
用于连接到 Snowflake 实例的用户名 |
Snowflake 仓库 |
用于运行查询的 Snowflake 仓库 |
Dataverse 引入参数¶
参数 |
描述 |
---|---|
计划间隔 |
必须根据计划触发正在提取待引入表列表的处理器。间隔由用户提供。 |
源表筛选策略 |
筛选要引入的表的策略。可以是 REGEXP 和 LIST 之一。 |
源表筛选器值 |
表筛选器的值。当源表筛选策略设置为 REGEXP 时,这是匹配选定表的正则表达式。如果提供 LIST,则它是一个以逗号分隔的表名列表。 |
运行流¶
右键点击“飞机”图标并选择 Enable all Controller Services。
右键点击导入的进程组并选择 Start。连接器开始数据引入。