类别：: 表函数 (Cortex Agent)

GET_AI_EVALUATION_DATA (SNOWFLAKE.LOCAL)¶

检索针对某个运行的评估数据，该运行可对应一个 Cortex Agent 或一个外部代理应用程序（请参阅外部代理命令）。

调用此函数可查看某个评估运行中所有已记录的跟踪信息。有关 Cortex Agent 评估的更多信息，请参阅 Cortex Agent 评估。针对 AI 可观察性应用程序，请参阅可观察性数据。

另请参阅：: EXECUTE_AI_EVALUATION , GET_AI_RECORD_TRACE (SNOWFLAKE.LOCAL) , GET_AI_OBSERVABILITY_LOGS (SNOWFLAKE.LOCAL) , GET_AI_OBSERVABILITY_EVENTS (SNOWFLAKE.LOCAL)

语法¶

SNOWFLAKE.LOCAL.GET_AI_EVALUATION_DATA( <database> , <schema> , <agent_name> , <agent_type>, <run_name> )

实参¶

database: 包含代理的数据库的名称。
schema: 包含代理的架构的名称。
agent_name: 要检索其记录的代理名称。
agent_type: 代理类型字符串。对于 Cortex Agent，请使用 CORTEX AGENT；对于外部代理对象，请使用 EXTERNAL AGENT。此值不区分大小写。
run_name: 要检索其完整评估数据的运行的名称。

返回¶

包含指定评估信息的表，其中包含以下列：


列	数据类型	描述
RECORD_ID	VARCHAR	Snowflake 为此评估记录分配的唯一标识符。
INPUT_ID	VARCHAR	Snowflake 为此评估输入分配的唯一标识符。
REQUEST_ID	VARCHAR	Snowflake 为此请求分配的唯一标识符。
TIMESTAMP	TIMESTAMP_TZ	请求发起的时间（以 UTC 为单位）。
DURATION_MS	INT	代理返回响应所花费的时间（以毫秒为单位）。
INPUT	VARCHAR	用作此评估记录输入的查询字符串。
OUTPUT	VARCHAR	Cortex Agent 为此评估记录返回的响应。
ERROR	VARCHAR	请求期间发生的任何错误的相关信息。
GROUND_TRUTH	VARCHAR	用于评估此记录 Cortex Agent 输出的真实基准信息。该列包含来自您数据集中标准答案列的 JSON 内容，并以字符串形式序列化。关于自定义指标中的 `{{ground_truth}}` 与此值之间的关系，请参阅评估结果表格式下的备注。
METRIC_NAME	VARCHAR	为此记录评估的指标名称。
EVAL_AGG_SCORE	NUMBER	为此记录分配的评估分数。
METRIC_TYPE	VARCHAR	所评估指标的类型。对于内置指标，值为 `system`。对于自定义指标，值为 `custom`。
METRIC_STATUS	VARIANT	一个映射，包含有关此记录的代理 HTTP 响应的信息，包含以下键： `status`：选择使用时默认使用的角色和仓库。响应的 HTTP 状态码。 `message`：选择使用时默认使用的角色和仓库。状态响应中发送的 HTTP 消息。
METRIC_CALLS	ARRAY	一个 VARIANT 值数组，包含有关计算后指标的信息。数组中的每个条目包含该指标的判定标准、指标分数的说明以及元数据。每个条目的键包括： `criteria`：选择使用时默认使用的角色和仓库。LLM 评估器用于判断响应正确性的判定标准。 `explanation`：选择使用时默认使用的角色和仓库。对分数评定原因的解释。 `full_metadata`：选择使用时默认使用的角色和仓库。一个 VARIANT 值，包含有关此指标被 LLM 评估器处理时的元数据与信息。此映射的键包括： `completion_tokens`：选择使用时默认使用的角色和仓库。在此指标评估调用中，LLM 生成的输出令牌数量。 `normalized_score`：选择使用时默认使用的角色和仓库。原始评估分数规范化至 [0.0, 1.0] 区间，四舍五入保留两位小数。 `original_score`：选择使用时默认使用的角色和仓库。此指标评估为该记录分配的原始分数。 `prompt_tokens`：选择使用时默认使用的角色和仓库。提供给 LLM 评估器的提示词所占用的令牌数量。 `total_tokens`：选择使用时默认使用的角色和仓库。LLM 评估器在此计算过程中使用的令牌总数。
TOTAL_INPUT_TOKENS	INT	用于处理输入查询的令牌总数。
TOTAL_OUTPUT_TOKENS	INT	Cortex Agent 生成的输出令牌总数。
LLM_CALL_COUNT	INT	统计代理或评估器调用任意 LLM 的次数。

访问控制要求¶

用于执行此操作的角色必须至少具有以下权限：


权限	对象	备注
CORTEX_USER	数据库角色
USAGE	Cortex Agent 或外部代理	对 `agent_name` 所标识的对象是必需的。对于 `EXTERNAL AGENT`，拥有该外部代理的 USAGE 权限即可调用此函数（MONITOR 不适用）。
MONITOR	Cortex Agent	当 `agent_type` 为 `CORTEX AGENT` 时，对 `agent_name` 所标识的 Cortex Agent 是必需的。当 `agent_type` 为 `EXTERNAL AGENT` 时，此权限不适用。

对架构中的对象进行操作至少需要父数据库的一项权限和父架构的一项权限。

有关创建具有指定权限集的自定义角色的说明，请参阅创建自定义角色。

有关对安全对象执行 SQL 操作的相应角色和权限授予的一般信息，请参阅访问控制概述。

当 agent_type 为 EXTERNAL AGENT 时，调用此函数仅需对该对象具有 USAGE 权限。而使用 ALTER EXTERNAL AGENT 或 DROP EXTERNAL AGENT 修改或移除外部代理对象，则需要对该外部代理具有 OWNERSHIP 权限。

有关 Cortex Agent 评估所需的完整访问控制权限，请参阅 Cortex Agent 评估 – 访问控制要求。有关外部代理对象，请参阅可观察性数据。

示例¶

以下示例显示了名为 run-1 的运行的完整评估详情，其中代理名为 evaluated_agent，存储在 eval_db.eval_schema 架构中：

SELECT * FROM TABLE(SNOWFLAKE.LOCAL.GET_AI_EVALUATION_DATA(
  'eval_db',
  'eval_schema',
  'evaluated_agent',
  'CORTEX AGENT',
  'run-1')
);