LightGBM¶
Snowflake ML Model Registry 支持使用 LightGBM 创建的模型(模型源自 scikit-learn API 包装器,例如 lightgbm.LGBMClassifier 或原生 API,例如 lightgbm.Booster)。
调用 options 时,可以在 log_model 字典中使用下列附加选项:
选项 |
描述 |
|---|---|
|
可在模型对象上使用的方法的名称列表。从 scikit-learn API(例如 |
|
是否使用 SHAP 启用模型的可解释性功能。默认为 |
|
部署到具有 GPU 的平台时使用的 CUDA 运行时版本;默认值为 11.8。如果手动设置为 |
在登记 LightGBM 模型时,您必须指定 sample_input_data 或 signatures 参数,以确保注册表了解目标方法的签名。
示例¶
这些示例假设 reg 是 snowflake.ml.registry.Registry 的一个实例。
Scikit-Learn API (LGBMClassifier)¶
以下示例演示了使用 scikit-learn API 训练 LightGBM 分类器、将其注册到 Snowflake ML Model Registry 并使用注册模型实现推理和可解释性的关键步骤。工作流程包括:
训练示例数据集上的 LightGBM 分类器。
将模型记录到 Snowflake ML Model Registry。
进行预测并检索预测概率。
获取模型预测的 SHAP 值。
import lightgbm as lgb
from sklearn import datasets, model_selection
# Load dataset
cal_data = datasets.load_breast_cancer(as_frame=True)
cal_X = cal_data.data
cal_y = cal_data.target
# Normalize column names (replace spaces with underscores)
cal_X.columns = [col.replace(' ', '_') for col in cal_X.columns]
cal_X_train, cal_X_test, cal_y_train, cal_y_test = model_selection.train_test_split(
cal_X, cal_y, test_size=0.2
)
# Train LightGBM Classifier
classifier = lgb.LGBMClassifier(
n_estimators=100,
learning_rate=0.05,
num_leaves=31
)
classifier.fit(cal_X_train, cal_y_train)
# Log the model
model_ref = reg.log_model(
model=classifier,
model_name="my_lightgbm_classifier",
version_name="v1",
sample_input_data=cal_X_test,
)
# Make predictions
result_df = model_ref.run(cal_X_test[-10:], function_name="predict")
# Get prediction probabilities
proba_df = model_ref.run(cal_X_test[-10:], function_name="predict_proba")
# Get explanations (SHAP values)
explanations_df = model_ref.run(cal_X_test[-10:], function_name="explain")
原生 API(提升器)¶
以下示例演示了使用原生 Snowflake ML API 训练 LightGBM 模型、将模型记录到 Snowflake ML Model Registry 并使用已注册模型进行推理的关键步骤。工作流程执行以下操作:
训练示例数据集上的 LightGBM 模型。
将模型记录到 Snowflake ML Model Registry。
进行预测。
import lightgbm as lgb
import pandas as pd
from sklearn import datasets, model_selection
# Load dataset
cal_data = datasets.load_breast_cancer()
cal_X = pd.DataFrame(cal_data.data, columns=cal_data.feature_names)
cal_y = cal_data.target
# Normalize column names (replace spaces with underscores)
cal_X.columns = [col.replace(' ', '_') for col in cal_X.columns]
cal_X_train, cal_X_test, cal_y_train, cal_y_test = model_selection.train_test_split(
cal_X, cal_y, test_size=0.2
)
# Prepare LightGBM Data Structure
lgb_train = lgb.Dataset(cal_X_train, cal_y_train)
# Define parameters and train the model
params = {
'objective': 'binary',
'metric': 'binary_logloss',
'boosting_type': 'gbdt',
'num_leaves': 31,
'learning_rate': 0.05,
'feature_fraction': 0.9,
}
num_round = 100
booster = lgb.train(
params,
lgb_train,
num_round
)
# Log the model
model_ref = reg.log_model(
model=booster,
model_name="my_lightgbm_booster",
version_name="v1",
sample_input_data=cal_X_test,
)
# Make predictions
result_df = model_ref.run(cal_X_test[-10:], function_name="predict")