Snowflake ML:端到端机器学习¶
Snowflake ML 是一组集成的功能,可在单个平台中基于您治理的数据进行端到端机器学习。这是一个用于 ML 开发和生产的统一环境,针对大规模分布式特征工程、模型训练和 CPU和 GPU 计算的推理进行了优化,无需任何手动调整或配置。

Snowflake 中扩展端到端 ML 工作流是无缝的。您可以执行以下操作:
准备数据
使用 Snowflake 特征商店创建和使用功能
使用容器运行时上的 Snowflake 笔记本提供的任何开源包,通过 CPUs 或 GPUs 训练模型。
使用 Snowflake Model Registry 部署您的模型进行大规模推理
通过 ML 可观察性和可解释性监控您的生产模型。
使用 ML 沿袭追踪 ML 管道中功能、数据集和模型的来源数据。
Snowflake ML 还具有灵活性和模块化特性。您可以将您在 Snowflake 中开发的模型部署到 Snowflake 之外,而外部训练的模型可以轻松地带入 Snowflake 中进行推理。
适合数据科学家和 ML 工程师的功能¶
容器运行时的 Snowflake 笔记本¶
ML 的容器运行时 提供了类似 Jupyter 的体验,用于在 Snowflake 中使用 Python。专为大规模 ML 开发打造,无需基础设施管理。使用预装的软件包(如 PyTorch、XGBoost 或 Scikit-learn)开始构建。您也可以从开源集线器(如 HuggingFace 或 PyPi)安装任何包。该运行时环境通过预配置的 CPU 和 GPU 计算池,结合优化的数据加载与分布式模型训练技术,实现性能最大化。
Snowflake 特征平台¶
Snowflake 特征平台 是一个集成的解决方案,用于定义、管理、存储和发现从数据中派生的 ML 特征。Snowflake 特征平台支持从批处理和流式处理数据源进行自动增量刷新,因此只需定义一次特征管道,即可使用新数据不断更新。
Snowflake Model Registry 和模型服务¶
Snowflake Model Registry 允许记录和管理您所有的 ML 模型,无论他们是在 Snowflake 还是其他平台上训练。您可以使用模型注册表中的模型来大规模运行推理任务。您可以使用模型服务将模型部署到 Snowpark Container Service 中进行推理。
ML 可观察性¶
ML 可观察性 提供了监视 Snowflake 中模型性能指标的工具。您可以跟踪生产中的模型、监控性能和漂移指标,并为性能阈值设置警报。此外,无论模型在何处训练,均可使用 ML 可解释性函数为 Snowflake Model Registry 中的模型计算 Shapley 值。
ML 沿袭¶
ML 沿袭 是一种能够追踪 ML 工件沿袭的功能,涵盖从源数据到特征、数据集及模型的端到端链路。这使得 ML 资产在整个生命周期内都具有可再现性、合规性和调试性。
Snowflake 数据集¶
Snowflake 数据集 提供了一个不可变、版本化的数据快照,适合机器学习模型引入。
面向业务分析师的功能¶
对于业务分析师,可使用 ML 函数 缩短常见场景的开发时间,例如使用 SQL 在整个组织内进行预测和异常检测。
其他资源¶
请参阅以下资源开始使用 Snowflake ML:
快速入门 (https://quickstarts.snowflake.com/guide/intro_to_machine_learning_with_snowpark_ml_for_python)
如需提前获取当前正在开发的其他功能的文档,请联系您的 Snowflake 代表。