PerformSnowflakeCortexOCR 2025.5.31.15¶
捆绑包¶
com.snowflake.openflow.runtime | runtime-snowflake-processors-nar
描述¶
使用 Snowflake Cortex ML 函数对 PDF 文档执行光学字符识别 (OCR)。文档必须在 Snowflake 内部暂存区中暂存,并启用服务器端加密。处理器从 PDFs 中提取文本内容,并可以将结果作为 FlowFile 内容或属性输出。
输入要求¶
REQUIRED
支持敏感的动态属性¶
false
属性¶
属性 |
描述 |
---|---|
数据库 |
包含暂存区的 Snowflake 数据库 |
文件名 |
要执行 OCR 的文件的文件名,必须在执行 OCR 之前将其上传到暂存区。可以通过表达式语言引用 FlowFile 属性。 |
最大属性大小 |
可以写入属性的 OCR 结果的最大大小。如果 OCR 结果超过此值,则 FlowFile 将路由到 failure。 |
OCR 模式 |
指定应如何提取文档文本和结构。在“OCR”模式下,仅提取原始文本内容,忽略格式和表结构。在“LAYOUT”模式下,输出将表结构保留为 markdown。 |
输出策略 |
确定响应输出目标 |
结果属性 |
要写入 OCR 响应的属性的名称。 |
架构 |
包含暂存区的 Snowflake 架构 |
Snowflake 连接服务 |
用于访问 Snowflake 的数据库连接服务 |
暂存区 |
暂时存储 PDFs 的 Snowflake 暂存区。该暂存区必须启用服务器端加密。可以通过表达式语言引用 FlowFile 属性 |
关系¶
名称 |
描述 |
---|---|
empty |
FlowFiles 的 OCR 结果为空 |
failure |
无法处理的 FlowFiles 将路由到此关系 |
success |
成功处理的 FlowFiles(OCR 结果为非空)将路由到此关系 |
写入属性¶
名称 |
描述 |
---|---|
mime.type |
输出内容的 MIME 类型(输出策略为 FLOW_FILE 时为文本/纯文本) |
snowflake.error.information |
如果 Snowflake Cortex OCR 操作返回错误,则包含错误信息 |