Apr 24, 2025: Container Runtime for ML on multi-node clusters (Preview)¶

Snowflake 宣布推出多节点集群上 ML 的容器运行时预览版，这是一项新功能，允许您在 Snowflake 笔记本中的多个计算节点上扩展 ML 工作负载。

多节点集群上 ML 的容器运行时使您能够：

扩展 ML 工作负载：动态调整计算池中的节点数量，以满足 ML 任务的资源需求。
运行分布式训练：使用 PyTorch、LightGBM 和 XGBoost 等分布式框架，通过更大的数据集训练 ML 模型。
管理集群资源：轻松扩展以应对资源密集型任务，并在需要的资源减少时缩小规模。
控制扩展操作：配置异步扩展、超时阈值和最低节点要求，以满足您的工作流程需求。

多节点集群上 ML 的容器运行时的主要优势包括：

提高了性能：处理更大的数据集并通过并行化加速复杂模型的训练。
资源效率：根据工作负载要求扩大或缩小资源规模，无需预置新的计算池。
灵活性：支持同步或异步扩展操作，以匹配您的开发工作流程。
简便性：提供简洁直观的 APIs，只需极少配置，即可轻松扩展集群及监控活动节点。

要开始使用多节点集群上 ML 的容器运行时，请参阅 Container Runtime on multi-node clusters。