Document AI

什么是 Document AI

Document AI 是一项 Snowflake AI 功能,它使用专有的大语言模型 (LLM) Arctic-TILT,从文档中提取数据。Document AI 处理各种格式的文档,并从包含大量文本的段落和包含文本的图像(如徽标、手写文本 [签名] 或复选标记)中提取信息。使用 Document AI,您可以为连续处理特定类型的新文档(如发票或财务报表文档)准备管道。

Document AI 提供 Zero-Shot 提取和微调功能。Zero-Shot 表示基础模型可以定位和提取特定于文档类型的信息,即使模型以前从未见过文档。正是因为基础模型是基于大量各种文档训练的,所以模型大致了解所处理的文档类型。

此外,您还可以根据特定于用例的文档,对 Snowflake Arctic-TILT 模型进行训练,从而对模型进行微调以改善结果。微调模型(包括使用的训练数据)仅提供给您,不会与其他 Snowflake 客户共享。

何时使用 Document AI

Document AI 最适合用于以下情况:

  • 您想将文档中的非结构化数据转换为表中的结构化数据。

  • 您想创建管道,以连续处理特定类型的新文档。

  • 具有领域知识的业务用户准备模型,使用 SQL 的数据工程师准备管道以自动处理新文档。

Document AI 的工作原理

Document AI 包含以下内容:

  • 用户界面,用于创建模型构建、使用自然语言评估 Document AI 模型,还可以选择微调模型以改善结果。

    您可以将模型构建视为表示单一类型的文档或用例;例如,用于从发票文档中提取信息的模型构建。Document AI 模型构建包括模型、要提取的数据值以及上传的用于测试和训练模型的文档。

  • 一种提取查询,它使用 <model_build_name>!PREDICT 方法从文档中提取信息。然后,您可以使用提取查询创建管道,以使用 Streams 和 Tasks 进行连续处理。

备注

要使用 <model_build_name>!PREDICT 方法处理的文档必须存储在内部或外部暂存区。

语言: 中文