Snowflake ML:端到端机器学习

Snowflake ML 是一组集成的功能,可在单个平台中基于您治理的数据进行端到端机器学习。这是一个用于 ML 开发和生产的统一环境,针对大规模分布式特征工程、模型训练和 CPU和 GPU 计算的推理进行了优化,无需任何手动调整或配置。

Snowflake ML 概述图

Snowflake 中扩展端到端 ML 工作流是无缝的。您可以执行以下操作:

  • 准备数据

  • 使用 Snowflake 特征商店创建和使用功能

  • 使用​容器运行时上的 ​​Snowflake 笔记本提供的任何开源包,通过 ​​CPUs​​ 或 ​​GPUs​​ 训练模型。

  • 使用 Snowflake Model Registry 部署您的模型进行大规模推理

  • 通过 ML 可观察性和可解释性监控您的生产模型。

  • 使用 ​​ML ​沿袭追踪 ​​ML 管道中功能、数据集和模型的来源数据。

Snowflake ML 还具有灵活性和模块化特性。您可以将您在 Snowflake 中开发的模型部署到 Snowflake 之外,而外部训练的模型可以轻松地带入 Snowflake 中进行推理。

适合数据科学家和 ML 工程师的功能

容器运行时的 Snowflake 笔记本

ML 的容器运行时 提供了类似 Jupyter 的体验,用于在 Snowflake 中使用 Python。专为大规模 ML 开发打造,无需基础设施管理。使用预装的软件包(如 PyTorch、XGBoost 或 Scikit-learn)开始构建。您也可以从开源集线器(如 HuggingFace 或 PyPi)安装任何包。该运行时环境通过预配置的 ​​CPU​ 和 ​​GPU​​ 计算池,结合优化的数据加载与分布式模型训练技术,实现性能最大化。

Snowflake 特征平台

Snowflake 特征平台 是一个集成的解决方案,用于定义、管理、存储和发现从数据中派生的 ML 特征。Snowflake 特征平台支持从批处理和流式处理数据源进行自动增量刷新,因此只需定义一次特征管道,即可使用新数据不断更新。

Snowflake Model Registry 和模型服务

Snowflake Model Registry 允许记录和管理您所有的 ML 模型,无论他们是在 Snowflake 还是其他平台上训练。您可以使用模型注册表中的模型来大规模运行推理任务。您可以使用模型服务将模型部署到 Snowpark Container Service 中进行推理。

ML 可观察性

ML 可观察性 提供了监视 Snowflake 中模型性能指标的工具。您可以跟踪生产中的模型、监控性能和漂移指标,并为性能阈值设置警报。此外,无论模型在何处训练,均可使用 ​​ML 可解释性函数为 ​Snowflake Model Registry 中的模型计算 ​​Shapley 值​​。

ML 沿袭

ML 沿袭 是一种能够追踪 ML 工件沿袭的功能,涵盖从源数据到特征、数据集及模型的端到端链路。这使得 ML 资产在整个生命周期内都具有可再现性、合规性和调试性。

Snowflake 数据集

Snowflake 数据集 提供了一个不可变、版本化的数据快照,适合机器学习模型引入。

面向业务分析师的功能

对于业务分析师,可使用 ML 函数 缩短常见场景的开发时间,例如使用 SQL 在整个组织内进行预测和异常检测。

其他资源

请参阅以下资源开始使用 Snowflake ML:

  • 快速入门 (https://quickstarts.snowflake.com/guide/intro_to_machine_learning_with_snowpark_ml_for_python)

  • Snowflake ML 网页

如需提前获取当前正在开发的其他功能的文档,请联系您的 Snowflake 代表。

语言: 中文