Document AI

什么是 Document AI

Document AI 是一项 Snowflake AI 功能,它使用专有的大语言模型 (LLM) Arctic-TILT,从文档中提取数据。Document AI 处理各种格式的文件,并从包含大量文档的段落和图形形式的内容(如徽标、手写文本 [签名] 或复选标记)中提取信息。使用 Document AI,您可以为连续处理特定类型的新文档(如发票或财务报表)准备管道。

Document AI 提供 Zero-Shot 提取和微调功能。Zero-Shot 表示基础模型可以定位和提取特定于文档类型的信息,即使模型以前从未见过文档。正是因为基础模型是基于大量各种文档训练的,所以模型大致了解所处理的文档类型。

此外,您还可以根据特定于用例的文档,对 Snowflake Arctic-TILT 模型进行训练,从而对模型进行微调以改善结果。微调模型(包括使用的训练数据)仅提供给您,不会与其他 Snowflake 客户共享。

何时使用 Document AI

Document AI 最适合用于以下情况:

  • 您想将文档中的非结构化数据转换为表中的结构化数据。

  • 您想创建管道,以连续处理特定类型的新文档。

  • 具有领域知识的业务用户准备模型,使用 SQL 的数据工程师准备管道以自动处理新文档。

Document AI 的工作原理

使用 Document AI 分为两个阶段:

  • 准备 Document AI 模型构建

    您可以将模型构建视为表示单一类型的文档或用例;例如,用于从发票文档中提取信息的模型构建。Document AI 模型构建包括模型、要提取的数据值以及上传的用于测试和训练模型的文档。

    您可以通过 Snowsight 的 Document AI 用户界面准备模型构建。通过该界面,您可以创建模型构建、上传文档以测试和训练模型、使用自然语言提问以定义数据值(要提取的信息)、评估模型、发布模型构建或微调模型以改进结果。

    有关更多信息,请参阅 准备 Document AI 模型构建

  • 从文档中提取信息

    模型构建完成后,就可以开始通过运行提取查询从文档中提取信息,提取查询使用 <model_build_name>!PREDICT 方法。然后,您可以使用提取查询创建管道,以使用 Streams 和 Tasks 进行连续处理。

    有关更多信息,请参阅 使用 Document AI 提取信息

    备注

    要使用 <model_build_name>!PREDICT 方法处理的文档必须存储在内部或外部暂存区。

文档 AI 概述

要开始使用 Document AI,请参阅 教程:使用文档 AI 创建文档处理管道

Document AI 模型版本历史

要使用最新版本的 Arctic-TILT 模型,请创建新的 Document AI 模型构建。

模型版本发布日期

模型版本改进

2024 年 8 月 6 日

  • 将模型提供的答案长度增加一倍。

  • 缩短训练时间。请参阅 训练时间估计

2024 年 6 月 21 日

  • 提取值列表

  • 复选框标识

  • 查询解析识别功能可提高以句子形式构建的查询的识别率,例如 告诉我协议的日期

语言: 中文