安装 Snowpark Submit

您可以直接在 Snowflake 的基础设施上安装 Snowpark Submit,以运行面向批处理的 Spark 工作负载。

要安装 Snowpark Submit,请完成以下步骤:

  1. 使用 pip 安装 Snowpark Submit。

    pip install snowpark-submit
    
    Copy
  2. 在 Snowflake 身份验证的 connections.toml 文件中,添加 Snowflake 连接。如果您已有 Snowflake 连接,则可以使用该连接。

    如果您没有 connections.toml 文件,请按照 使用 connections.toml 文件进行连接 中所述创建一个。

    一旦您有了 connections.toml 文件,您就可以向其中添加 Snowflake 连接。例如,要添加名为 snowpark-submit Snowflake 连接,请将以下行添加到配置文件中:

    [snowpark-submit]
    host = "<account>.snowflakecomputing.cn"
    port = 443
    account = "<account>"
    user = "test_user"
    role = "test_role"
    password = "<password for user>"
    protocol = "https"
    warehouse = "test_warehouse"
    database = "test_db"
    schema = "test_schema"
    compute_pool = "test_compute_pool"
    
    Copy
  3. 确认您可以从客户端计算机连接到 Snowflake。

    要验证您的客户端计算机上的连接是否正常,请使用连接到 Snowflake 的代码创建一个 .py 文件。

    1. 创建一个 connection_test.py 文件,然后添加以下代码:

      # connection_test.py code
      
      import sys
      import snowflake.connector
      
      conn_name = sys.argv[1]
      
      print(f"Trying connection named {conn_name}..")
      conn = snowflake.connector.connect(connection_name=conn_name)
      print("Connected.")
      
      cursor = conn.cursor()
      cursor.execute("SELECT 'Connection successful'")
      for col in cursor:
          print(col)
      
      print("\nListing first 5 tables:\n")
      cursor = conn.cursor()
      cursor.execute('show tables limit 5')
      for col in cursor:
          print(col)
      print("\nDone")
      
      Copy
    2. 在活动的 Python 虚拟环境中运行以下命令,指定您添加到 connections.toml 文件中的连接的名称。

      python connection_test.py snowpark-submit
      
      Copy

确认可以从客户端计算机连接到 Snowflake 后,您可以使用 Snowpark Submit 直接在 Snowflake 的基础设施上运行面向批处理的 Spark 工作负载。关于 Snowpark Submit 的命令行参考,请参阅 Snowpark Submit 参考;如需使用 Snowpark Submit 的示例,请参阅 Snowpark Submit 示例