Apr 24, 2025: Container Runtime for ML on multi-node clusters (Preview)¶
Snowflake 宣布推出多节点集群上 ML 的容器运行时预览版,这是一项新功能,允许您在 Snowflake 笔记本中的多个计算节点上扩展 ML 工作负载。
多节点集群上 ML 的容器运行时使您能够:
扩展 ML 工作负载:动态调整计算池中的节点数量,以满足 ML 任务的资源需求。
运行分布式训练:使用 PyTorch、LightGBM 和 XGBoost 等分布式框架,通过更大的数据集训练 ML 模型。
管理集群资源:轻松扩展以应对资源密集型任务,并在需要的资源减少时缩小规模。
控制扩展操作:配置异步扩展、超时阈值和最低节点要求,以满足您的工作流程需求。
多节点集群上 ML 的容器运行时的主要优势包括:
提高了性能:处理更大的数据集并通过并行化加速复杂模型的训练。
资源效率:根据工作负载要求扩大或缩小资源规模,无需预置新的计算池。
灵活性:支持同步或异步扩展操作,以匹配您的开发工作流程。
简便性:提供简洁直观的 APIs,只需极少配置,即可轻松扩展集群及监控活动节点。
要开始使用多节点集群上 ML 的容器运行时,请参阅 多节点集群 ML 上的容器运行时。