Snowpipe Streaming：高性能架构¶

Snowpipe Streaming 的高性能架构专为数据密集型的现代组织打造，能够实现近实时见解。这种下一代架构显著提高了实时引入 Snowflake 的吞吐量、效率和灵活性。

有关经典架构的信息，请参阅 Snowpipe Streaming – 经典架构。有关经典 SDK 和高性能 SDK 之间的区别，请参阅经典 SDK 和高性能 SDK 的比较。

主要功能¶

吞吐量和延迟：
- 高吞吐量：每张表支持高达 10 GB/s 的引入速度。
- 近实时见解：实现端到端引入，查询延迟在 5 到 10 秒内。
计费：
- 简单、透明、基于吞吐量的计费。有关更多信息，请参阅 Snowpark Streaming 高性能架构：了解您的成本。
灵活引入：
- Java SDK and Python SDK: Utilize the new snowpipe-streaming SDK, with a Rust-based client core for improved client-side performance and lower resource usage.
- REST API：提供直接引入路径，简化轻量级工作负载、IoT 设备数据和边缘部署的集成。
备注

我们建议您使用 snowpipe-streaming SDK 作为主要和默认选项。REST API 未针对高吞吐量场景进行优化。
数据优化处理：
- 传输中的数据转换：支持在引入期间使用 PIPE 对象内的 COPY 命令语法清理和重塑数据。
- 增强的通道可见性：主要通过 Snowsight 中的通道历史视图和新增的 GET_CHANNEL_STATUS API 增强对引入状态的了解。

此架构推荐用于：

该架构继承了 Snowpipe Streaming Classic 中的核心概念（如通道和偏移令牌），同时引入了一个核心组件：PIPE 对象。

PIPE 对象是一个在 Snowflake 中具有名称的对象，用作所有流式引入数据的入口点和定义层。它提供以下功能：

Snowpipe Streaming 可以在引入期间对动态数据进行群集，从而提高目标表的查询性能。在提交数据之前，此功能直接在引入期间对数据进行排序。以这种方式对数据进行排序可以优化组织方式，加快查询速度。

要利用预群集，必须为您的目标表定义群集密钥。然后，在创建或替换 Snowpipe Streaming 管道时，您可以通过在 COPY INTO 语句中将将参数 CLUSTER_AT_INGEST_TIME 设置为 TRUE，来启用此功能。

有关更多信息，请参阅 CLUSTER_AT_INGEST_TIME。此功能仅在高性能架构上可用。

对于熟悉经典架构的用户，高性能架构引入了以下更改：

新的 SDK 和 APIs：需要使用新的 snowpipe-streaming SDK（Java SDK 和 REST API），因此迁移时必须更新客户端代码。
PIPE 对象要求：所有数据引入、配置（如转换）和架构定义均通过服务器端 PIPE 对象进行管理，这与 Classic 架构中以客户端配置为主的方式不同。
通道关联：客户端应用程序针对特定 PIPE 对象打开通道，而非直接基于目标表。
架构验证：由原先主要在客户端 (Classic SDK) 执行的架构验证，转为 Snowflake 在服务端基于 PIPE 对象执行。
迁移要求：需要修改客户端应用程序代码以适配新 SDK，并在 Snowflake 中定义 PIPE 对象。

Snowpipe ON_ERROR 选项：STREAMING Snowpipe ON_ERROR 选项仅支持 CONTINUE。
支持的架构（Rust 核心）：Arm64 Mac、Windows、Arm64-linux 和 X86_64-linux。
Linux 要求：如果您在 Linux 上使用 SDK，则您的系统需要安装至少 2.28 版本的 glibc 库。
部署环境：仅支持 AWS 部署。
聚类表（引入）：虽然可以将聚类表作为目标表，但在引入过程中不会执行聚类操作。
复制：不支持副本。
ALTER PIPE SET PIPE_EXECUTION_PAUSED = true：虽然 openChannel 在暂停时会失败，但引入可能不会立即停止。
授权角色：默认角色用于授权。计划在未来提供指定其他角色的功能。
时区：SDK 会自动使用 UTC。用户无法更改此设置。
空负载限制：SDK 和 REST API 不支持提交包含空负载的行集。提交的内容必须包含至少一行数据才能成功引入。
错误消息可见性：虽然可以通过通道状态响应查看错误消息，但这些信息不会显示在新的通道历史视图中。