PerformSnowflakeCortexOCR 2025.5.31.15

捆绑包

com.snowflake.openflow.runtime | runtime-snowflake-processors-nar

描述

使用 Snowflake Cortex ML 函数对 PDF 文档执行光学字符识别 (OCR)。文档必须在 Snowflake 内部暂存区中暂存,并启用服务器端加密。处理器从 PDFs 中提取文本内容,并可以将结果作为 FlowFile 内容或属性输出。

标签

ai、cortex、document、ml、ocr、openflow、pdf、snowflake

输入要求

REQUIRED

支持敏感的动态属性

false

属性

属性

描述

数据库

包含暂存区的 Snowflake 数据库

文件名

要执行 OCR 的文件的文件名,必须在执行 OCR 之前将其上传到暂存区。可以通过表达式语言引用 FlowFile 属性。

最大属性大小

可以写入属性的 OCR 结果的最大大小。如果 OCR 结果超过此值,则 FlowFile 将路由到 failure。

OCR 模式

指定应如何提取文档文本和结构。在“OCR”模式下,仅提取原始文本内容,忽略格式和表结构。在“LAYOUT”模式下,输出将表结构保留为 markdown。

输出策略

确定响应输出目标

结果属性

要写入 OCR 响应的属性的名称。

架构

包含暂存区的 Snowflake 架构

Snowflake 连接服务

用于访问 Snowflake 的数据库连接服务

暂存区

暂时存储 PDFs 的 Snowflake 暂存区。该暂存区必须启用服务器端加密。可以通过表达式语言引用 FlowFile 属性

关系

名称

描述

empty

FlowFiles 的 OCR 结果为空

failure

无法处理的 FlowFiles 将路由到此关系

success

成功处理的 FlowFiles(OCR 结果为非空)将路由到此关系

写入属性

名称

描述

mime.type

输出内容的 MIME 类型(输出策略为 FLOW_FILE 时为文本/纯文本)

snowflake.error.information

如果 Snowflake Cortex OCR 操作返回错误,则包含错误信息

另请参阅

语言: 中文