从 Snowflake 笔记本运行 Spark 工作负载

您可以通过 Snowflake 笔记本以交互方式运行 Spark 工作负载,而无需管理 Spark 集群。工作负载会在 Snowflake 基础设施上运行。

要使用 Snowflake 笔记本作为客户端,来开发在 Snowflake 上运行的 Spark 工作负载,请执行以下操作:

  1. 启动 Snowflake 笔记本。

  2. 在笔记本中启动 Spark 会话。

  3. 编写 PySpark 代码来加载、转换和分析数据,例如筛选高价值客户订单或汇总收入。

使用在仓库上运行的 Snowflake 笔记本

有关 Snowflake 笔记本的更多信息,请参阅 创建笔记本

  1. 完成以下步骤,创建 Snowflake 笔记本:

    1. 登录 Snowsight。

    2. 在导航菜单中,选择 + Create » Notebook » New Notebook

    3. Create notebook 对话框中,输入新笔记本的名称、数据库和架构。

      有关更多信息,请参阅 创建笔记本

    4. 对于 Runtime,选择 Run on warehouse

    5. 对于 Runtime version,选择 Snowflake Warehouse Runtime 2.0

      选择 2.0 版本时,请确保您拥有所需的依赖项支持,包括 Python 3.10。有关更多信息,请参阅 笔记本运行时

    6. 对于 Query warehouseNotebook warehouse,选择用于运行查询代码以及内核和 Python 代码的仓库,如 创建笔记本 中所述。

    7. 选择 Create

    8. 在您创建的笔记本中,确保 Packages 下列出了以下包,以支持笔记本中的代码:

      • Python 3.10 或更高版本

      • snowflake-dataframe-processor,最新版本

        如果您需要添加这些包,请按以下步骤操作:

        1. Anaconda Packages 下的搜索框中键入包名称。

        2. 选中所需包名称。

        3. 选择 Save

  2. 要连接到 Snowpark Connect for Spark 服务器并测试连接,请将以下代码复制并粘贴到您创建的笔记本的 Python 单元格中:

    from snowflake import snowpark_connect
    
    spark = snowpark_connect.server.init_spark_session()
    df = spark.sql("show schemas").limit(10)
    df.show()
    
    Copy
语言: 中文