关于 Openflow Connector for Kinesis

备注

使用该连接器需遵守 连接器条款

本主题介绍 Openflow Connector for Kinesis 的基本概念、工作流程和限制。

您可以使用 Amazon Kinesis Data Streams (https://docs.aws.amazon.com/streams/latest/dev/introduction.html) 实时收集和处理大量数据流记录。制作者持续不断地将数据推送到 Kinesis Data Streams,而使用者则实时处理这些数据。

Kinesis 数据流由一组 分片 (https://docs.aws.amazon.com/streams/latest/dev/key-concepts.html#shard) 组成。每个分片都有一系列数据记录。数据记录是存储在 Kinesis 数据流中的数据单位。数据记录由序列号、分区键和数据 blob 组成,数据 blob 是一段不可变的字节序列。

Openflow Connector for Kinesis 从 Kinesis 数据流中读取数据,并使用 Snowpipe Streaming 将其写入 Snowflake 表。

如果您希望实现以下功能,可以使用此连接器:

  • 将来自 Amazon Kinesis Data Streams 的实时事件引入 Snowflake,实现近实时分析

工作流程

  1. AWS 管理员 执行以下任务:

    1. 为连接器创建凭证,以连接 Kinesis Stream 及其关联的 DynamoDB。

    2. 设置包含 KCL 使用者应用程序 <https://docs.aws.amazon.com/streams/latest/dev/kcl-iam-permissions.html (https://docs.aws.amazon.com/streams/latest/dev/kcl-iam-permissions.html)>`_ 所需的 `IAM 权限中所列权限的 IAM 策略。

    3. 记录流名称和应用程序名称,并将其提供给您的 Snowflake 账户管理员。在运行时中设置连接器时,这些是必需的。

  2. Snowflake 账户管理员 执行以下任务:

    1. 将连接器定义文件下载并导入到 Snowflake Openflow 画布中。

    2. 按如下方式配置连接器:

      1. 提供 AWS 和 Snowflake 凭据和设置。

      2. 提供 Kinesis 流名称。

      3. 在 Snowflake 账户中设置数据库和架构名称。

      4. 自定义其他参数。

    3. 在 Openflow 画布中运行连接器。执行后,连接器将执行以下操作:

      1. 创建用于存储 Kinesis Stream 检查点的 DynamoDB 表。

      2. 提取流数据。

      3. 如果至少从流中接收到一条记录,则在 Snowflake 数据库中创建已配置的目标表。

      4. 将处理后的数据加载到指定的 Snowflake 表中。

  3. 业务用户 可以对从 Kinesis 下载到目标表的数据执行操作。

限制

  • 仅支持单个流。

  • 不支持增强型扇出模式。

  • 如果未设置 Kinesis Stream To Table Map 参数,那么:

    • 表名称必须与其保存的数据流精确匹配。

    • 表名称必须采用大写格式。

  • 如果设置了 Kinesis Stream To Table Map 参数,则表名称必须与映射中指定的表名称相匹配。表名称必须是有效的 Snowflake 无引号标识符。有关有效表名称的信息,请参阅 标识符要求

  • 对于 Iceberg Tables,创建的表需要反映消息模型。如果消息与模型不匹配,则连接器将失效。

  • 仅支持 JSON 和 AVRO 消息格式。

  • 仅支持 Confluent 架构注册表。

  • 仅支持 Amazon IAM 身份验证。

  • 如果向表中插入数据失败,则连接器会尝试连接三次,然后再将数据路由到故障输出。

后续步骤

设置 Openflow Connector for Kinesis

语言: 中文