使用 Snowpark Submit 运行 Spark 批处理工作负载

您可以直接在 Snowflake 的基础设施上以非交互式异步方式运行 Spark 工作负载,同时使用熟悉的 Spark 语义。有了 Snowpark Submit,您可以使用简单的 CLI 界面提交可用于生产的 Spark 应用程序,例如 ETL 管道和计划的数据转换。这样,您无需专用 Spark 集群,即可维护现有的 Spark 开发工作流程。

例如,您可以打包 PySpark ETL 脚本,然后使用 Snowpark Submit CLI 将脚本作为批处理作业在 Snowpark Container Services 容器上运行。此方法允许您使用 Apache Airflow 或 CI/CD 工具自动化夜间数据管道。您的 Spark 代码以集群模式在 Snowpark Container Services 上运行,通过内置的依赖项和资源管理实现无缝扩展。

有关正在使用的 Snowpark Submit 示例,请参阅 Snowpark Submit 示例

Snowpark Submit 使用 Snowpark Connect for Spark 在 Snowflake 上运行 Spark 工作负载。有关 Snowpark Connect for Spark 的更多信息,请参阅 使用 Snowpark Connect for Spark 在 Snowflake 上运行 Spark 工作负载

Snowpark Submit 提供以下优势:

  • 无需外部 Spark 设置即可在 Snowflake 管理的基础设施上以集群模式运行

  • 工作流程集成,支持通过 CI/CD 管道、Apache Airflow 或基于 cron 的调度实现自动化

  • 支持 Python,支持跨语言重用现有的 Spark 应用程序

  • 依赖项管理,支持打包外部 Python 模块或 JARs

备注

snowpark-submit 支持的功能与 spark-submit 大致相同。但是,由于在 Snowflake 上运行 Spark 工作负载时不需要某些功能,因此省略了这些功能。

开始使用 Snowpark Submit

要开始使用 Snowpark Submit,请按照以下步骤操作:

  1. 按照 安装 Snowpark Submit 中的步骤安装 Snowpark Submit。

  2. 研究 Snowpark Submit 示例

  3. 通过 Snowpark Submit 参考 了解如何使用 Snowpark Submit。

语言: 中文