使用云消息传递自动进行连续数据加载

自动数据加载利用云存储的事件通知来告知 Snowpipe 要加载的新数据文件已到达。Snowpipe 将文件复制到队列中,然后根据指定管道对象中定义的参数,以连续的无服务器形式将文件从队列加载到目标表中。

备注

  • 自动化的 Snowpipe 使用事件通知来确定新文件何时到达受监控的云存储和做好了加载准备。通知会识别云存储事件,并包含文件名列表。它们 包括文件中的实际数据。

  • 当管道暂停时,为管道接收的事件消息将进入有限的保留期。默认期限为 14 天。如果管道暂停时间超过 14 天,则被视为过时。

    管道暂停时收到的事件通知仅保留有限的时间(14 天)。当每个通知的保留期结束时,Snowflake 会安排从内部元数据中删除通知。如果管道稍后恢复,Snowpipe 可能会尽力处理超过 14 天的通知。Snowflake 不能保证这些较旧的通知得到处理。

    有关恢复过时管道的信息,请参阅 管理 Snowpipe

下表显示了支持哪些云存储服务使用云存储事件通知自动将数据加载到 Snowflake 账户,具体取决于托管您账户的 云平台

Snowflake 账户主机

Amazon S3

Google Cloud Storage

Microsoft Azure Blob 存储

Microsoft Data Lake Storage Gen2

Microsoft Azure General-purpose v2

Amazon Web Services

Google Cloud Platform

Microsoft Azure

重要

Snowflake 建议您为 Snowpipe 启用云事件筛选,以降低成本、事件噪音和延迟。有关为每个云提供商配置事件筛选的更多信息,请参阅以下页面:

  • 使用对象键名称筛选配置事件通知 – Amazon S3 (https://docs.aws.amazon.com/AmazonS3/latest/userguide/notification-how-to-filtering.html#notification-how-to-filtering-examples-invalid)

  • 了解事件网格订阅的事件筛选 – Azure (https://docs.microsoft.com/en-us/azure/event-grid/event-filtering)

  • 筛选消息 – Google Pub/Sub (https://cloud.google.com/pubsub/docs/filtering)

后续主题:

语言: 中文