Cortex AI Guardrails

概述

Cortex AI Guardrails 是 Snowflake Horizon Catalog 的一部分,可为 Cortex Code 提供针对提示注入和越狱攻击的运行时保护。

随着企业将 AI 应用从试点转向生产环境,他们面临着来自对抗性提示日益增长的风险,这些提示可能会威胁数据完整性和安全性。Cortex AI Guardrails 通过增加防护栏来检测和缓解对抗性威胁,从而扩展了 Snowflake 针对已知提示注入技术的默认保护。

Cortex AI Guardrails 集中集成在 Snowflake Horizon Catalog 中,利用上下文推理来检测并中和恶意意图,防止对抗性威胁规避已建立的安全边界和强化的权限设置。

主要功能

Cortex AI Guardrails 提供以下保护:

  • 提示注入检测:识别并拦截通过恶意提示尝试替换系统指令的行为,包括嵌入在工具调用中的间接提示注入。

  • 越狱预防:检测绕过模型安全协议和安全边界的尝试。

  • 零日风格保护:利用先进技术实时识别复杂的、此前未知的攻击模式。

配置 Cortex AI Guardrails

您可以使用 AI_SETTINGS 参数,在账户级别配置 Cortex AI Guardrails。这为您的账户中 Cortex Code 的防护栏行为提供了集中化控制。具有 ACCOUNTADMIN 角色的用户可以配置 Cortex AI Guardrails。

启用 Guardrails

若要为您的账户启用 Cortex AI Guardrails,请使用带有 AI_SETTINGS 参数的 ALTER ACCOUNT 命令:

ALTER ACCOUNT SET AI_SETTINGS = $$
  guardrails:
    advanced_prompt_injection:
      - enabled: true
$$;

查看 Guardrail 设置

要查看账户当前的 Guardrail 配置,请执行以下命令:

SHOW PARAMETERS LIKE 'AI_SETTINGS' IN ACCOUNT;

禁用 Guardrails

要禁用 Cortex AI Guardrails,请执行以下命令:

ALTER ACCOUNT UNSET AI_SETTINGS;

监控护栏活动

当 Cortex AI Guardrails 检测到潜在威胁时,该事件会被记录下来,用于审计和监控。对于 Cortex Code,您可以在对话日志中查看检测到的威胁。有关管理对话历史记录的更多信息,请参阅 对话历史记录

使用这些日志可以执行以下操作:

  • 监控针对您的 AI 工作负载的尝试性攻击

  • 识别被阻止或被标记的请求中的模式

  • 审计 Guardrail 的有效性

注意事项

  • 虽然 Cortex AI Guardrails 针对高准确度进行了优化,但某些合法的提示偶尔也可能被标记。定期查看您的 Guardrail 日志,以识别是否存在某种模式。

  • 用于提示注入的 Cortex AI Guardrails 目前随 Cortex Code 一同提供。

成本

根据 Snowflake 服务消费表 的规定,您需要为使用 Cortex AI Guardrails 支付 Credit。使用量基于扫描的词元数量来计算。