EvaluateRagAnswerCorrectness 2025.5.31.15¶
捆绑包¶
com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar
描述¶
通过计算 F1 分数、余弦相似度和答案正确性等指标,评估检索增强生成 (RAG) 上下文中生成的答案的正确性。该处理器使用 LLM(例如,OpenAI的 GPT)将生成答案与标准答案进行对比分析。
输入要求¶
REQUIRED
支持敏感的动态属性¶
false
属性¶
属性 |
描述 |
---|---|
余弦相似度权重 |
计算答案正确性时应用于余弦相似度的权重(介于 0.0 和 1.0 之间) |
评估结果记录路径 |
用于写入评估结果的 RecordPath。 |
F1 分数权重 |
计算答案正确性时应用于 F1 分数的权重(介于 0.0 和 1.0 之间) |
生成的答案记录路径 |
记录中答案字段的路径 |
生成的答案向量记录路径 |
记录中答案向量字段的路径。 |
标准答案记录路径 |
记录中的标准答案字段的 RecordPath。 |
标准答案向量记录路径 |
记录中标准答案向量字段的路径。 |
LLM 提供商服务 |
用于向 LLM 发送评估提示的提供商服务 |
问题记录路径 |
记录中问题字段的 RecordPath。 |
记录读取器 |
用于读取 FlowFile 的记录读取器。 |
记录写入器 |
用于写入结果的记录写入器。 |
关系¶
名称 |
描述 |
---|---|
failure |
无法处理的 FlowFiles 将路由到此关系 |
success |
成功处理的 FlowFiles 将路由到此关系 |
写入属性¶
名称 |
描述 |
---|---|
average.f1Score |
根据所有记录计算的平均 F1 分数。 |
average.cosineSim |
标准答案与生成答案嵌入的平均余弦相似度。 |
average.answerCorrectness |
根据所有记录计算的平均答案正确性分数。 |
json.parse.failures |
遇到的 JSON 解析失败次数。 |
用例¶
使用此处理器来评估 LLM 生成的答案的质量,将之与标准答案进行比较,从而提供可用于监控和改善 RAG 系统性能的指标。 |