2026 年 3 月 13 日:Cortex Agents 评估(正式发布

Snowflake 现在提供 Cortex Agent 评估,允许您监控代理的行为和性能。根据基于标准答案的评估指标和无参考评估指标来评估您的代理。在评估过程中,您的代理活动会被追踪和监控,从而确保流程中的每个步骤都有助于达成最终目标。

Snowflake 提供以下指标来评估您的代理:

  • 答案正确性 – 代理对您准备好的查询的回答与预期答案的匹配程度。当为 Cortex Agent 提供支持的数据集是静态时,此指标最有用。

  • 逻辑一致性 – 衡量代理指令、规划和工具调用之间的一致性。此指标是 无参考的,这意味着您无需在数据集中为评估准备任何参考信息。

  • 自定义指标 – Snowflake 还允许您创建自定义指标。通过定义提示词和评分系统,您可以利用 LLM 评审过程来执行额外的一致性检查,或验证是否符合特定领域的要求。

有关如何创建和运行 Cortex Agent 评估的信息,请参阅 Cortex Agent 评估