Apr 24, 2025: Container Runtime for ML on multi-node clusters (Preview)

Snowflake 宣布推出多节点集群上 ML 的容器运行时预览版,这是一项新功能,允许您在 Snowflake 笔记本中的多个计算节点上扩展 ML 工作负载。

多节点集群上 ML 的容器运行时使您能够:

  • 扩展 ML 工作负载:动态调整计算池中的节点数量,以满足 ML 任务的资源需求。

  • 运行分布式训练:使用 PyTorch、LightGBM 和 XGBoost 等分布式框架,通过更大的数据集训练 ML 模型。

  • 管理集群资源:轻松扩展以应对资源密集型任务,并在需要的资源减少时缩小规模。

  • 控制扩展操作:配置异步扩展、超时阈值和最低节点要求,以满足您的工作流程需求。

多节点集群上 ML 的容器运行时的主要优势包括:

  • 提高了性能:处理更大的数据集并通过并行化加速复杂模型的训练。

  • 资源效率:根据工作负载要求扩大或缩小资源规模,无需预置新的计算池。

  • 灵活性:支持同步或异步扩展操作,以匹配您的开发工作流程。

  • 简便性:提供简洁直观的 APIs,只需极少配置,即可轻松扩展集群及监控活动节点。

要开始使用多节点集群上 ML 的容器运行时,请参阅 多节点集群 ML 上的容器运行时

语言: 中文