使用 Document AI 提取信息¶
本主题说明如何使用 Document AI 从文档中提取信息。
如果您以前发布或训练过 Document AI 模型构建,现在可以通过运行工作表中的 提取查询 从文档中提取信息。您还可以创建 处理管道,以便在暂存区中连续处理新文档。
备注
Document AI 存在已知限制,包括您可以在单个查询中处理的文档的数量和大小。有关更多信息,请参阅 Document AI 的已知限制。
先决条件¶
要成功提取信息,需要满足以下条件:
用于信息提取的文档存储在内部或外部暂存区。有关更多信息,请参阅 设置 Document AI。
您正在使用为 Document AI 设置的数据库和架构。例如:
USE DATABASE doc_ai_db; USE SCHEMA doc_ai_schema;
您正在使用已授予 SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATOR 数据库角色的账户角色。有关更多信息,请参阅 设置 Document AI。
您以前发布过 Document AI 模型构建或训练过 Document AI 模型。有关更多信息,请参阅 发布 Document AI 模型构建。
使用提取查询¶
提取查询是基于 PREDICT 方法的 SQL 查询。有关更多信息,请参阅 <model_build_name>!PREDICT。
要从文档中提取信息,请在工作表中运行提取查询。发布或训练 Document AI 模型后,您可以看到在 Snowsight 中定义的提取查询。
要在 Snowsight 中查看提取查询,请执行以下操作:
登录 Snowsight。
在导航菜单中,选择 AI & ML » Document AI。
选择仓库。
此时将显示模型构建列表。
从模型构建列表中,选择您想查看查询的模型构建名称。
要查看 Extracting Query,请选择 Build Details 选项卡。
创建文档处理管道¶
使用 Document AI,您可以创建自动处理文档文件以提取信息的管道。要创建处理管道,您需要同时在暂存区创建流,以及在暂存区中连续处理新文档的任务。
有关更多信息,请参阅 教程:使用文档 AI 创建文档处理管道。