Snowflake Connector for Spark¶
Snowflake Connector for Spark(简称为“Spark Connector”)将 Snowflake 引入 Apache Spark 生态系统,使 Spark 能够从 Snowflake 读取数据并向其写入数据。从 Spark 的角度来看,Snowflake 与其他 Spark 数据源(PostgreSQL、HDFS、S3 等)是相似的。
备注
As an alternative to using Spark, consider writing your code to use Snowpark API instead. Snowpark allows you to perform all of your work within Snowflake (rather than in a separate Spark compute cluster). Snowpark also supports pushdown of all operations, including Snowflake UDFs. However, when you want to enforce row and column policies on Iceberg tables, use the Snowflake Spark Connector. For more information, see 从 Apache Spark™ 查询 Apache Iceberg™ 表时强制执行数据保护策略.
Snowflake 支持 Spark 连接器的多个版本:
Spark Connector 2.x:Spark 版本 3.2、3.3 和 3.4。
每个版本的 Spark 各有一个专用 Snowflake 连接器版本。请根据您的 Spark 版本,使用正确的连接器版本。
Spark Connector 3.x:Spark 版本 3.2、3.3、3.4 和 3.5。
每个 Spark Connector 3 包都支持大多数版本的 Spark。
连接器作为 Spark 插件运行,并以 Spark 包 (spark-snowflake) 的形式提供。
对从 Spark 访问的 Apache Iceberg 表执行数据保护策略¶
Snowflake 支持通过 Snowflake Horizon 目录从 Apache Spark™ 查询的 Apache Iceberg 表上强制执行行访问和数据掩码策略。要启用此强制执行,必须安装 Spark Connector 3.1.6 或更高版本。Spark Connector 将 Spark 连接到 Snowflake,以评估 Iceberg 表上配置的策略。有关更多信息,请参阅 从 Apache Spark™ 查询 Apache Iceberg™ 表时强制执行数据保护策略。
后续主题: