EvaluateRagAnswerCorrectness 2025.5.31.15

捆绑包

com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar

描述

通过计算 F1 分数、余弦相似度和答案正确性等指标,评估检索增强生成 (RAG) 上下文中生成的答案的正确性。该处理器使用 LLM(例如,OpenAI的 GPT)将生成答案与标准答案进行对比分析。

标签

ai、answer correctness、evaluation、llm、nlp、openai、openflow、rag

输入要求

REQUIRED

支持敏感的动态属性

false

属性

属性

描述

余弦相似度权重

计算答案正确性时应用于余弦相似度的权重(介于 0.0 和 1.0 之间)

评估结果记录路径

用于写入评估结果的 RecordPath。

F1 分数权重

计算答案正确性时应用于 F1 分数的权重(介于 0.0 和 1.0 之间)

生成的答案记录路径

记录中答案字段的路径

生成的答案向量记录路径

记录中答案向量字段的路径。

标准答案记录路径

记录中的标准答案字段的 RecordPath。

标准答案向量记录路径

记录中标准答案向量字段的路径。

LLM 提供商服务

用于向 LLM 发送评估提示的提供商服务

问题记录路径

记录中问题字段的 RecordPath。

记录读取器

用于读取 FlowFile 的记录读取器。

记录写入器

用于写入结果的记录写入器。

关系

名称

描述

failure

无法处理的 FlowFiles 将路由到此关系

success

成功处理的 FlowFiles 将路由到此关系

写入属性

名称

描述

average.f1Score

根据所有记录计算的平均 F1 分数。

average.cosineSim

标准答案与生成答案嵌入的平均余弦相似度。

average.answerCorrectness

根据所有记录计算的平均答案正确性分数。

json.parse.failures

遇到的 JSON 解析失败次数。

用例

使用此处理器来评估 LLM 生成的答案的质量,将之与标准答案进行比较,从而提供可用于监控和改善 RAG 系统性能的指标。

语言: 中文