使用 Document AI 提取信息

本主题说明如何使用 Document AI 从文档中提取信息。

如果您以前发布或训练过 Document AI 模型构建,现在可以通过运行工作表中的 提取查询 从文档中提取信息。您还可以创建 处理管道,以便在暂存区中连续处理新文档。

备注

Document AI 存在已知限制,包括您可以在单个查询中处理的文档的数量和大小。有关更多信息,请参阅 Document AI 的已知限制

先决条件

要成功提取信息,需要满足以下条件:

  • 用于信息提取的文档存储在内部或外部暂存区。有关更多信息,请参阅 设置 Document AI

  • 您正在使用为 Document AI 设置的数据库和架构。例如:

    USE DATABASE doc_ai_db;
    USE SCHEMA doc_ai_schema;
    
    Copy
  • 您正在使用已授予 SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATOR 数据库角色的账户角色。有关更多信息,请参阅 设置 Document AI

  • 您以前发布过 Document AI 模型构建或训练过 Document AI 模型。有关更多信息,请参阅 发布 Document AI 模型构建

使用提取查询

提取查询是基于 PREDICT 方法的 SQL 查询。有关更多信息,请参阅 <model_build_name>!PREDICT

要从文档中提取信息,请在工作表中运行提取查询。发布或训练 Document AI 模型后,您可以看到在 Snowsight 中定义的提取查询。

要在 Snowsight 中查看提取查询,请执行以下操作:

  1. 登录 Snowsight。

  2. 在导航菜单中,选择 AI & ML » Document AI

  3. 选择仓库。

    此时将显示模型构建列表。

  4. 从模型构建列表中,选择您想查看查询的模型构建名称。

  5. 要查看 Extracting Query,请选择 Build Details 选项卡。

创建文档处理管道

使用 Document AI,您可以创建自动处理文档文件以提取信息的管道。要创建处理管道,您需要同时在暂存区创建流,以及在暂存区中连续处理新文档的任务。

有关更多信息,请参阅 教程:使用文档 AI 创建文档处理管道

语言: 中文