使用 Snowpark 读取数据

无论您的数据是存储在运营数据库中,还是以文件形式传入,Snowpark 都能为您提供一种简单的、Python 优先的方法来提取数据,将其转换为 DataFrame,并在 Snowflake 表中查看,这样您就可以进行建模、转换和分析,而无需切换上下文。

使用 Snowpark Python DB-API 从外部源读取数据

使用标准 Python DB-API 2.0 驱动程序从外部数据库(SQL Server、Oracle、PostgreSQL、MySQL、Databricks)直接提取数据到 Snowpark DataFrame 中。Snowpark Python DB-API 可以在您的客户端(本地 模式)运行,也可以使用存储过程或笔记本(通过外部访问集成)在 Snowflake 内部运行。结果的行为与其他 DataFrame 一样,您可以使用它来联接、转换和写入 Snowflake 表。有关更多信息,请参阅 Using the Snowpark Python DB-API

使用 Snowpark Python JDBC 从外部源读取数据

使用由您提供的标准 JDBC 驱动程序,将数据从外部数据库直接提取到 Snowpark DataFrame 中。Snowpark Python JDBC 可以在您的客户端运行,也可以使用存储过程或笔记本在 Snowflake 内部运行。系统会创建一个 UDTF 用于引入目标数据。其结果的行为与任何其他 DataFrame 一样,您可以将其用于联接、转换和写入 Snowflake 表。有关更多信息,请参阅 使用 Snowpark Python JDBC

备注

要使用此功能,请将 JDBC 驱动程序上传到暂存区,配置外部访问集成,并确保 Snowflake 能够访问源端点。

使用 Snowpark XML RowTag Reader 从 XML 文件读取数据

使用 Snowpark XML 高效读取大型暂存 XML 文件:读取器根据 rowTag 拆分文件,将每个匹配项加载为一行,并将子元素映射到 VARIANT 列(保留嵌套结构),以便立即使用 Snowpark 或 SQL 进行查询。您还可以通过 PERMISSIVE`(隔离 :code:`_corrupt_record 中的无效行)或 FAILFAST 行为,根据 XSD 验证每一行。输出是标准的 DataFrame,您可以将其转换并保存到表中。有关更多信息,请参阅 Using the Snowpark XML RowTag Reader