安装 Snowpark Submit¶
您可以直接在 Snowflake 的基础设施上安装 Snowpark Submit,以运行面向批处理的 Spark 工作负载。
要安装 Snowpark Submit,请完成以下步骤:
使用
pip安装 Snowpark Submit。pip install snowpark-submit
在 Snowflake 身份验证的 connections.toml 文件中,添加 Snowflake 连接。如果您已有 Snowflake 连接,则可以使用该连接。
如果您没有 connections.toml 文件,请按照 使用 connections.toml 文件进行连接 中所述创建一个。
一旦您有了 connections.toml 文件,您就可以向其中添加 Snowflake 连接。例如,要添加名为
snowpark-submitSnowflake 连接,请将以下行添加到配置文件中:[snowpark-submit] host = "<account>.snowflakecomputing.cn" port = 443 account = "<account>" user = "test_user" role = "test_role" password = "<password for user>" protocol = "https" warehouse = "test_warehouse" database = "test_db" schema = "test_schema" compute_pool = "test_compute_pool"
确认您可以从客户端计算机连接到 Snowflake。
要验证您的客户端计算机上的连接是否正常,请使用连接到 Snowflake 的代码创建一个
.py文件。创建一个
connection_test.py文件,然后添加以下代码:# connection_test.py code import sys import snowflake.connector conn_name = sys.argv[1] print(f"Trying connection named {conn_name}..") conn = snowflake.connector.connect(connection_name=conn_name) print("Connected.") cursor = conn.cursor() cursor.execute("SELECT 'Connection successful'") for col in cursor: print(col) print("\nListing first 5 tables:\n") cursor = conn.cursor() cursor.execute('show tables limit 5') for col in cursor: print(col) print("\nDone")
在活动的 Python 虚拟环境中运行以下命令,指定您添加到
connections.toml文件中的连接的名称。python connection_test.py snowpark-submit
确认可以从客户端计算机连接到 Snowflake 后,您可以使用 Snowpark Submit 直接在 Snowflake 的基础设施上运行面向批处理的 Spark 工作负载。关于 Snowpark Submit 的命令行参考,请参阅 Snowpark Submit 参考;如需使用 Snowpark Submit 的示例,请参阅 Snowpark Submit 示例。