关于 Openflow Connector for Excel

备注

使用该连接器需遵守 连接器条款

本主题介绍 Openflow Connector for Excel 的基本概念、工作流程和限制。

将 AWS S3 实例或 Microsoft SharePoint 站点与 Snowflake Openflow Connector for Excel 连接起来,定期引入 Microsoft Excel 文件,并将引入的数据存储在 Snowflake 表中。

该连接器支持引入以下内容:

  • 所有 Excel 电子表格

  • 指定 Excel 电子表格

  • Excel 工作簿中的指定数据范围

连接器仅执行截断和加载引入。这意味着每次in如文件时,Snowflake 中的现有数据都会被文件中的新数据完全替换。

如果您希望实现以下功能,可以使用此连接器:

  • 将数据从 Microsoft Excel 电子表格加载到 Snowflake 表中以进行报告和分析

  • 将 SharePoint 内 Excel 电子表格中的数据加载到 Snowflake 表中以进行报告和分析

工作流程

根据您的数据源不同,连接器的工作流如下所示:

用于连接 AWS S3 实例的工作流

  1. AWS 管理员执行以下任务:

    1. 在其 AWS 账户中创建 IAM 用户和凭据。

    2. 记下 S3 实例所在的 AWS 区域,例如 us-west-2。

    3. 确定要引入的文件。

  2. Snowflake 账户管理员需执行以下任务:

    1. 在 Snowflake 中设置所需的数据库和架构名称。

    2. 指定连接器要使用的仓库。

    3. 配置连接器使用的 Snowflake 用户及该用户的角色。

  3. 数据工程师执行以下任务:

    1. 将连接器定义文件下载并导入到 Snowflake Openflow 画布中。

    2. 配置连接器参数:

      1. 提供 AWS 凭据。

      2. 提供 Snowflake 用户凭据和配置。

      3. 通过提供筛选器来定义要引入的对象的标准。

    3. 在 Openflow 工作区中启动流程。执行后,该流程将执行以下操作:

      1. 从 S3 存储桶下载指定文件。

      2. 提取相关数据。

      3. 在 Snowflake 数据库中创建已配置的目标表。

      4. 将处理后的数据加载到指定 Snowflake 表中。

用于连接 Microsoft SharePoint 站点的工作流

  1. SharePoint 管理员执行以下任务:

    1. 创建新的 Microsoft Entra 应用程序 (https://learn.microsoft.com/en-us/entra/identity-platform/quickstart-register-app)。

    2. 配置 SharePoint 以启用 OAuth 身份验证。

    3. 确定要引入的文件。

  2. Snowflake 账户管理员需执行以下任务:

    1. 在 Snowflake 中设置所需的数据库和架构名称。

    2. 指定连接器要使用的仓库。

    3. 配置连接器使用的 Snowflake 用户及该用户的角色。

  3. 数据工程师执行以下任务:

    1. 将连接器定义文件下载并导入到 Snowflake Openflow 画布中。

    2. 配置连接器参数:

      1. 提供 SharePoint 凭据。

      2. 提供 Snowflake 用户凭据和配置。

      3. 通过提供筛选器来定义要引入的对象的标准。

    3. 在 Openflow 工作区中启动流程。执行后,该流程将执行以下操作:

      1. 从 SharePoint 站点下载指定文件。

      2. 提取相关数据。

      3. 在 Snowflake 数据库中创建已配置的目标表。

      4. 将处理后的数据加载到指定 Snowflake 表中。

限制

  • 目前仅支持 .xlsx 文件(Office 2007 及更高版本)。不支持以下文件类型:

    • .xls 文件(Office 97 到 Office 2003 版本)

    • .xlsm 文件(启用宏的工作簿)

    • .xlsb 文件(二进制工作簿)

  • 较大的 .xlsx 文件可能会导致 Openflow 运行时过载,或者导致影响其他连接器流的问题。由于内存限制,文件大小(假设连接器可以使用所有节点资源)不应大于:

    • 2 MB,针对 Small 运行时节点。

    • 10 MB,针对 Medium 运行时节点。

    • 20 MB,针对 Large 运行时节点。

  • 对于在同一列中混合多种数据类型(例如数字和字符串)的列:

    • 这些值在 Snowflake 表中保存为 VARIANTs

    • 目前,使用前 10 行推断出引入的数据的架构(即列的数据类型)。如果前 10 行类型相同,则可能无法正确地将该列识别为混合类型。

  • 如果要引入整个电子表格,不指定任何范围,则从单元格 A1 开始的第一行必须为标题行,并且必须包含列名。

后续步骤

设置 Openflow Connector for Excel

语言: 中文